Principais termos do Tradutor Personalizado

A tabela a seguir apresenta uma lista dos principais termos que você pode encontrar enquanto trabalha com o Tradutor Personalizado.

Palavra ou frase Definição
Idioma de origem O idioma de origem é o idioma inicial que você deseja converter para outro idioma (o "destino").
Idioma de destino O idioma de destino é o idioma que você deseja que a tradução automática forneça depois de receber o idioma de origem.
Arquivo monolíngue Um arquivo monolíngue tem um só idioma que não está emparelhado com outro arquivo de um idioma diferente.
Arquivos paralelos Um arquivo paralelo é uma combinação de dois arquivos com o texto correspondente. Um arquivo com o idioma de origem. O outro tem o idioma de destino.
Alinhamento de frase O conjunto de dados paralelos deve ter frases alinhadas às sentenças que representam o mesmo texto nos dois idiomas. Por exemplo, em um arquivo paralelo de origem, a primeira sentença deve, em teoria, mapear a primeira sentença no arquivo paralelo de destino.
Texto alinhado Uma das etapas mais importantes da validação de arquivos é alinhar as sentenças nos documentos paralelos. As coisas são expressas de maneira diferente em diferentes idiomas. Também diferentes idiomas têm diferentes ordens de palavra. Essa etapa faz o trabalho de alinhar as sentenças com o mesmo conteúdo para que elas possam ser usadas para treinamento. Um alinhamento de sentenças baixas indica que pode haver algo errado com um ou ambos os arquivos.
Word significativas / Unbreaking Quebra de palavras é a função de marcar os limites entre as palavras. Muitos sistemas de escrita usam um espaço para denotar o limite entre as palavras. Word unbreaking refere-se a remoção de qualquer marcador visível que foi inserida entre as palavras em uma etapa anterior.
Delimitadores Delimitadores são as maneiras pelas quais uma sentença é dividida em segmentos ou delimita a margem entre sentenças. Por exemplo, em espaços ingleses delimitam palavras, dois-pontos e ponto-e-vírgula delimitam cláusulas e períodos que delimitam sentenças.
Arquivos de treinamento Um arquivo de treinamento é usado para ensinar o sistema de tradução automática como mapear de um idioma (a origem) para um idioma de destino (o destino). Quanto mais dados você fornecer, melhor será o desempenho do sistema.
Ajuste de arquivos Esses arquivos geralmente são derivados aleatoriamente do conjunto de treinamento (se você não selecionar um conjunto de ajuste). As frases são selecionadas automaticamente e usadas para ajustar o sistema e garantir que ele esteja funcionando corretamente. Se você deseja criar um modelo de tradução de uso geral e criar os próprios arquivos de ajuste, verifique se eles são um conjunto aleatório de frases em todos os domínios
Testando arquivos Esses arquivos geralmente são arquivos derivados, selecionados aleatoriamente no conjunto de treinamento (se você não selecionar nenhum conjunto de teste). O objetivo dessas frases é avaliar a precisão do modelo de tradução. Para garantir que o sistema traduza corretamente essas frases, é possível criar um conjunto de teste e enviá-lo para a tradução. Isso garantirá que essas frases sejam usadas na avaliação do sistema (a geração de uma pontuação BLEU).
Arquivo de caixa de combinação Um tipo de arquivo no qual as sentenças de origem e traduzida estão contidas no mesmo arquivo. Formatos de arquivo compatíveis (TMX, XLIFF, XLF, ICI e XLSX).
Arquivo morto Um arquivo que contém outros arquivos. Suporte para formatos de arquivo (zip, gz, tgz).
Pontuação BLEU BLEU é o método padrão da indústria para avaliar a precisão do modelo de tradução. Embora existam outros métodos de avaliação, o Microsoft Translator conta com o método BLEU para informar a precisão aos proprietários do projeto.