O que são documentos paralelos?

Documentos paralelos são pares de documentos em que um é a tradução do outro. Um documento no par contém sentenças no idioma de origem e o outro documento contém essas frases traduzidas no idioma de destino. Independente de qual idioma está marcado como "origem" e qual idioma está marcado como "destino", um documento paralelo pode ser usado para treinar um sistema de tradução nas duas direções.

Requisitos

Você precisará de um mínimo de 10.000 sentenças paralelas exclusivas para treinar um sistema. Essa limitação é uma segurança para garantir que frases paralelas contenham um vocabulário exclusivo suficiente para treinar com sucesso um modelo de tradução. Como melhor prática, adicione continuamente mais conteúdo paralelo e treine novamente para melhorar a qualidade do seu sistema de tradução. Para obter mais informações, confiraAlinhamento de Frase.

A Microsoft exige que os documentos carregados para o conversor personalizado não violem as propriedades de direitos autorais ou intelectual de terceiros. Para mais informações, consulte os Termos de Uso. O upload de um documento usando o portal não altera a propriedade da propriedade intelectual no próprio documento.

Uso de documentos paralelos

Documentos paralelos são usados pelo sistema:

  1. Aprender como palavras, frases e frases são comumente mapeadas entre os dois idiomas.

  2. Aprender a processar o contexto apropriado, dependendo das frases vizinhas. Uma palavra nem sempre pode traduzir para a mesma palavra na outra língua.

Como prática recomendada, verifique se há uma correspondência de sentença 1:1 entre as versões de idioma de origem e de destino dos documentos.

Se o seu projeto é específico de domínio (categoria), seus documentos devem ser consistentes na terminologia dentro dessa categoria. A qualidade do sistema de tradução resultante depende do número de sentenças no conjunto de documentos e da qualidade das sentenças. Quanto mais exemplos seus documentos contiverem usos diversos para uma palavra específica da sua categoria, o melhor trabalho que o sistema pode fazer durante a tradução.

Os documentos enviados são privados para cada workspace e podem ser usados em quantos projetos ou treinamentos você desejar. Frases extraídas de seus documentos são armazenadas separadamente em seu repositório como arquivos de texto Unicode simples e estão disponíveis para exclusão. Não use o Custom Translator como repositório de documentos, você não poderá fazer o download dos documentos que você enviou no formato que você enviou.

Próximas etapas