Emparelhamento de frases e alinhamento em documentos paralelos

Depois que os documentos são carregados, as frases presentes em documentos paralelos são emparelhadas ou alinhadas. O Custom Translator relata o número de sentenças que conseguiu emparelhar como as Sentenças Alinhadas em cada um dos conjuntos de dados.

Processo de emparelhamento e alinhamento

O Custom Translator aprende traduções de sentenças uma sentença de cada vez. Ele lê uma frase do texto de origem e, em seguida, a tradução desta sentença do texto de destino. Em seguida, alinha palavras e frases nessas duas frases entre si. Este processo permite criar um mapa das palavras e frases em uma frase para as palavras e frases equivalentes na tradução desta frase. O alinhamento tenta garantir que o sistema treine em sentenças que são traduções uma da outra.

Documentos pré-alinhados

Se você souber que tem documentos paralelos, poderá substituir o alinhamento de sentenças fornecendo arquivos de texto pré-alinhados. Você pode extrair todas as sentenças de ambos os documentos em um arquivo de texto, organizar uma sentença por linha e fazer o upload com uma extensão .align. A extensão .align sinaliza ao Custom Translator que deve pular o alinhamento das frases.

Para obter melhores resultados, verifique se você tem uma frase por linha em seus arquivos. Não utilize caracteres de nova linha em uma frase, pois isso causará alinhamentos ruins.

Número mínimo sugerido de frases

Para que um treinamento tenha sucesso, a tabela a seguir mostra o número mínimo de frases necessárias para cada tipo de documento. Essa limitação é uma rede de segurança para garantir que frases paralelas contenham um vocabulário exclusivo suficiente para treinar com êxito um modelo de tradução. A diretriz geral é que mais frases paralelas no domínio de qualidade de tradução humana devem produzir modelos de qualidade superior.

Tipo de documento Contagem mínima sugerida de frases Contagem máxima de frases
Treinamento 10.000 Nenhum limite superior
Ajuste 500 2\.500
Testando 500 2\.500
Dicionário 0 250.000

Observação

  • O treinamento não será iniciado e falhará se a contagem mínima de sentenças 10.000 para o treinamento não for atendida.
  • O ajuste e o teste são opcionais. Se não forem fornecidos, o sistema removerá uma porcentagem apropriada do treinamento a ser usado para validação e teste.
  • Você pode treinar um modelo usando apenas dados do dicionário. Consulte O que é o dicionário.
  • Se o dicionário contiver mais de 250 mil frases, nosso recurso de Tradução de Documentos é uma opção melhor. Confira a Tradução de Documentos.
  • O treinamento de assinatura gratuito (F0) tem um limite máximo de 2 milhões de caracteres.

Próximas etapas