O que é uma classificação BLEU?
BLEU (Substudy de Avaliação Bilingue) é uma medida da diferença entre uma tradução automática e traduções de referência criadas pelo homem da mesma frase de origem.
Processo de classificação
O algoritmo BLEU compara expressões consecutivas da tradução automática com as expressões consecutivas que encontra na tradução de referência e conta o número de correspondências, de forma ponderada. Estas correspondências são independentes de posição. Um grau de correspondência superior indica um maior grau de semelhança com a tradução de referência e uma classificação superior. A inteligibilidade e a correção gramatical não são tidas em conta.
Como funciona a BLEU?
A força da pontuação BLEU é que se correlaciona bem com o julgamento humano. A BLEU calcula a média de erros de julgamento de sentenças individuais sobre um corpus de teste, em vez de tentar conceber o julgamento humano exato para cada frase.
Está aqui uma discussão mais extensa sobre as pontuações do BLEU.
Os resultados BLEU dependem fortemente da amplitude do seu domínio; consistência dos dados de teste, preparação e otimização; e a quantidade de dados disponíveis para preparação. Se os seus modelos tiverem sido preparados num domínio estreito e os seus dados de preparação forem consistentes com os dados de teste, pode esperar uma classificação BLEU elevada.
Nota
Uma comparação entre as pontuações BLEU só é justificável quando os resultados BLEU são comparados com o mesmo conjunto de Testes, o mesmo par de idiomas e o mesmo motor MT. Uma classificação BLEU de um conjunto de teste diferente é certamente diferente.