Co to jest wskaźnik BLEU?

BLEU (dwujęzyczna ocena understudy) to pomiar różnicy między automatycznym tłumaczeniem a tłumaczeniami referencyjnymi utworzonymi przez człowieka w tym samym zdaniu źródłowym.

Proces oceniania

Algorytm BLEU porównuje kolejne frazy automatycznego tłumaczenia z kolejnymi frazami, które znajduje w translacji referencyjnej, i zlicza liczbę dopasowań w sposób ważony. Te dopasowania są niezależne od pozycji. Wyższy stopień dopasowania wskazuje wyższy stopień podobieństwa z tłumaczeniem referencyjnym i wyższy wynik. Zrozumiałość i poprawność gramatyczna nie są uwzględniane.

Jak działa BLEU?

Siła wyniku BLEU jest taka, że dobrze koreluje z ludzkim osądem. BLEU średnio pojedyncze błędy wyroków w korpusie testowym, zamiast próbować opracować dokładny wyrok człowieka dla każdego zdania.

Tutaj znajduje się bardziej obszerna dyskusja na temat wyników BLEU.

Wyniki BLEU zależą zdecydowanie od szerokości domeny; spójność danych testowych, treningowych i dostrajających; oraz ilość dostępnych danych do trenowania. Jeśli modele zostały wytrenowane w wąskiej domenie, a dane treningowe są spójne z danymi testowymi, możesz oczekiwać wysokiej oceny BLEU.

Uwaga

Porównanie wyników BLEU jest możliwe tylko wtedy, gdy wyniki BLEU są porównywane z tym samym zestawem testów, tą samą parą języków i tym samym aparatem MT. Wynik BLEU z innego zestawu testów ma być inny.

Następne kroki