Co to jest wskaźnik BLEU?
BLEU (dwujęzyczna ocena understudy) to pomiar różnicy między automatycznym tłumaczeniem a tłumaczeniami referencyjnymi utworzonymi przez człowieka w tym samym zdaniu źródłowym.
Proces oceniania
Algorytm BLEU porównuje kolejne frazy automatycznego tłumaczenia z kolejnymi frazami, które znajduje w translacji referencyjnej, i zlicza liczbę dopasowań w sposób ważony. Te dopasowania są niezależne od pozycji. Wyższy stopień dopasowania wskazuje wyższy stopień podobieństwa z tłumaczeniem referencyjnym i wyższy wynik. Zrozumiałość i poprawność gramatyczna nie są uwzględniane.
Jak działa BLEU?
Siła wyniku BLEU jest taka, że dobrze koreluje z ludzkim osądem. BLEU średnio pojedyncze błędy wyroków w korpusie testowym, zamiast próbować opracować dokładny wyrok człowieka dla każdego zdania.
Tutaj znajduje się bardziej obszerna dyskusja na temat wyników BLEU.
Wyniki BLEU zależą zdecydowanie od szerokości domeny; spójność danych testowych, treningowych i dostrajających; oraz ilość dostępnych danych do trenowania. Jeśli modele zostały wytrenowane w wąskiej domenie, a dane treningowe są spójne z danymi testowymi, możesz oczekiwać wysokiej oceny BLEU.
Uwaga
Porównanie wyników BLEU jest możliwe tylko wtedy, gdy wyniki BLEU są porównywane z tym samym zestawem testów, tą samą parą języków i tym samym aparatem MT. Wynik BLEU z innego zestawu testów ma być inny.