Detectar idiomas

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Detecta o idioma de cada linha no arquivo de entrada

categoria: Análise de Texto

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão Geral do Módulo

este artigo descreve como usar o módulo detectar idiomas no Machine Learning Studio (clássico) para analisar a entrada de texto e identificar o idioma associado a cada registro na entrada.

O algoritmo de detecção de idioma pode identificar vários idiomas diferentes. Basta especificar a coluna de cadeia de caracteres a ser analisada e o número total de idiomas a serem detectados. O algoritmo analisará cada linha de texto e atribuirá uma pontuação de probabilidade para cada idioma. O idioma na primeira coluna de resultado é o idioma que tem a pontuação mais alta.

Como configurar os idiomas de detecção

  1. adicione o conjunto de um que contém o texto que você deseja analisar para um experimento no Machine Learning Studio (clássico). A coluna com o texto a ser analisado deve ser do tipo de dados de cadeia de caracteres.

    O conjunto não precisa conter uma coluna de rótulo; o algoritmo de detecção de idioma funciona puramente em recursos lingüísticos dos idiomas com suporte.

    Se você estiver importando novos dados, certifique-se de que os dados sejam salvos no formato UTF-8. Não há suporte para outros formatos Unicode.

  2. Adicione o módulo detectar idiomas ao seu experimento e conecte o conjunto de módulos com o texto para detecção de idioma.

  3. Para coluna de texto, escolha a coluna que você deseja analisar.

  4. Para o limite superior no número de idiomas a serem detectados, indique o número máximo de idiomas a serem detectados.

    A definição de um limite superior no número de idiomas pode melhorar o desempenho.

  5. Execute o experimento.

Resultados

O módulo detectar idiomas gera um identificador de idioma e uma pontuação para cada linha.

Por exemplo, a tabela a seguir contém uma amostra de análise sobre dados de teste.

  • As duas primeiras colunas Col1 e rótulo de linguagem são colunas passadas do conjunto de dados de entrada. Neste exemplo, como o conjunto de dados de entrada foi projetado para testar o módulo, o idioma esperado já era conhecido e é fornecido na coluna rótulo.

  • As colunas restantes são geradas pelo módulo detectar idiomas . Se houver correspondências de idioma de equivalência-prováveis, várias linguagens poderão ser listadas, com uma pontuação para cada uma. Nesse caso, o módulo prevê apenas um idioma para cada linha, junto com a pontuação de probabilidade para esse idioma.

    Se o módulo falhar ao detectar qualquer idioma com uma pontuação suficientemente alta, um resultado de (desconhecido) com uma pontuação de 0 será a saída. No entanto, os idiomas com suporte no módulo podem mudar ao longo do tempo à medida que a API é atualizada.

Col1 Rótulo de idioma Idioma da Col1 Linguagem Iso6391 da Col1 Pontuação de idioma da Col1 Iso6391
Foi um hotel maravilhoso com uma equipe amigável e um bom serviço Inglês Inglês en 100
Es War Ein wunderbares Hotel MIT freundlichem Personal und Guter Service Alemão Alemão de 100
C'est magnifique Hôtel avec não pessoal Sympathique et un Service de qualité Francês Francês fr 100
Det var et dejligt Hotéis med et venligt personale Ogon Deus serviço Dinamarquês Dinamarquês nl 100
VA ser magnífic Hotel AMB un Personal Amable Catalão Catalão ca 92,30769348
とても素敵なホテルで, スタッフは親切で, サービスもよかった Japonês Conhecidos 0
t mebpa'mey naQ friendly QaQ chavmoH Je Klingon Francês fr 77,5

Exemplos

Para obter exemplos de como o módulo detectar idiomas é usado em um experimento, consulte o Galeria de ia do Azure:

  • Filtrar títulos de filmes por idioma: detecta o idioma usado em nomes de filmes e, em seguida, usa o identificador de idioma para dividir o conjunto de um em inglês versus filmes que não são do inglês.

Observações técnicas

Para obter uma ideia geral dos idiomas que podem ser detectados, consulte Bing Translator.

muitos outros idiomas podem ser detectados do que Machine Learning atualmente oferece suporte para análise de texto avançada. Recomendamos que você use os resultados de detectar idiomas para filtrar os resultados que você envia para outros módulos que exigem processamento específico ao idioma.

os serviços linguísticos subjacentes também são usados pelo serviço de Análise de Texto nos serviços cognitivas do Azure.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados A entrada

Parâmetros do módulo

Nome Tipo Intervalo Opcional Padrão Descrição
Limite superior no número de idiomas a detectar Inteiro [1;184] Obrigatório 1 Limite superior no número de idiomas a detectar.
Coluna de texto ColumnSelection Obrigatório Nome ou índice baseado em um da coluna de texto.

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados O resultado

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.
Erro 0010 Ocorrerá uma exceção se os conjuntos de dados da entrada tiverem nomes de colunas que deveriam corresponder, mas não correspondem.
Erro 0016 Ocorrerá uma exceção se os conjuntos de dados de entrada passados para o módulo devessem ter tipos de coluna compatíveis, o que não acontece.
Erro 0008 Ocorrerá uma exceção se o parâmetro não estiver no intervalo.

Para ver uma lista de erros específicos dos módulos do Studio (clássico), consulte Machine Learning Códigos de erro.

Para ver uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Confira também

Análise de Texto
Lista de Módulo A-Z