Что такое оценка BLEU?

BLEU (Bilingual Evaluation Understudy) — это измерение различий между автоматическим переводом и эталонными переводами того же предложения, выполненными людьми.

Процесс оценки

Алгоритм BLEU сравнивает последовательные фразы автоматического перевода с последовательными фразами, которые он находит в эталонном переводе, и взвешенно подсчитывает количество совпадений. Эти совпадения не зависят от позиции. Высшая степень совпадения указывает на более высокую степень сходства с эталонным переводом и более высокий балл. Внятность и грамматика не учитываются.

Как работает BLEU

Преимущество алгоритма BLEU в том, что он хорошо коррелирует с оценками пользователей. Он усредняет число ошибок в отдельных предложениях для всего тестового набора, вместо того чтобы пытаться разработать точную оценку пользователя для каждого предложения.

Более подробные сведения об оценках BLEU см. в этой статье.

Результаты BLEU сильно зависят от обширности предметной области, согласованности тестовых данных, данных для обучения и настройки, а также от того, сколько данных у вас есть для обучения. Если модели были обучены в узкой предметной области, а ваши данные для обучения согласованы с тестовыми данными, вы можете ожидать высокую оценку BLEU.

Примечание

Сравнение оценок BLEU оправдано только в том случае, когда результаты BLEU сравниваются с тем же тестовым набором, той же языковой парой и тем же модулем машинного перевода. Оценка BLEU из другого тестового набора должна отличаться.

Дальнейшие действия