Что такое оценка BLEU?

Статья
07/20/2023

BLEU (Bilingual Evaluation Understudy) — это измерение различий между автоматическим переводом и эталонными переводами того же предложения, выполненными людьми.

Процесс оценки

Алгоритм BLEU сравнивает последовательные фразы автоматического перевода с последовательными фразами, которые он находит в эталонном переводе, и взвешенно подсчитывает количество совпадений. Эти совпадения не зависят от позиции. Высшая степень совпадения указывает на более высокую степень сходства с эталонным переводом и более высокий балл. Внятность и грамматика не учитываются.

Как работает BLEU

Преимущество алгоритма BLEU в том, что он хорошо коррелирует с оценками пользователей. Он усредняет число ошибок в отдельных предложениях для всего тестового набора, вместо того чтобы пытаться разработать точную оценку пользователя для каждого предложения.

Более подробные сведения об оценках BLEU см. в этой статье.

Результаты BLEU сильно зависят от обширности предметной области, согласованности тестовых данных, данных для обучения и настройки, а также от того, сколько данных у вас есть для обучения. Если модели были обучены в узкой предметной области, а ваши данные для обучения согласованы с тестовыми данными, вы можете ожидать высокую оценку BLEU.

Примечание

Сравнение оценок BLEU оправдано только в том случае, когда результаты BLEU сравниваются с тем же тестовым набором, той же языковой парой и тем же модулем машинного перевода. Оценка BLEU из другого тестового набора должна отличаться.

Дальнейшие действия

Оценка оценки BLEU

Что такое оценка BLEU?

Процесс оценки

Как работает BLEU

Дальнейшие действия

Дополнительные ресурсы