Como utilizar a deteção de linguagem

A função de Deteção de Idiomas pode avaliar o texto e devolver um identificador de idiomas que indique o idioma em que um documento foi escrito.

A deteção de idiomas é útil para lojas de conteúdos que recolhem texto arbitrário, onde a linguagem é desconhecida. Pode analisar os resultados desta análise para determinar o idioma que é utilizado no documento de entrada. A resposta também devolve uma pontuação entre 0 e 1 que reflete a confiança do modelo.

A funcionalidade de Deteção de Idiomas pode detetar uma vasta gama de línguas, variantes, dialetos e algumas línguas regionais ou culturais.

Dica

Se quiser começar a utilizar esta funcionalidade, pode seguir o artigo de arranque rápido para começar. Também pode fazer pedidos de exemplo usando o Language Studio sem precisar de escrever código.

Determinar como processar os dados (opcional)

Especificar o modelo de deteção de idiomas

Por predefinição, a deteção de idiomas utilizará o mais recente modelo de IA disponível no seu texto. Também pode configurar os seus pedidos de API para utilizar uma versão modelo específica.

Línguas de entrada

Quando submeter documentos a serem avaliados, a deteção de linguagem tentará determinar se o texto foi escrito em alguma das línguas apoiadas.

Se tiver conteúdo expresso num idioma menos utilizado, pode experimentar a funcionalidade de Deteção de Idiomas para ver se devolve um código. A resposta para línguas que não podem ser detetadas é unknown.

Envio de dados

Dica

Pode utilizar um recipiente Docker para deteção de linguagem, para que possa utilizar a API no local.

A análise é realizada aquando da receção do pedido. A utilização da funcionalidade de deteção de idiomas é apátrida. Nenhum dado é armazenado na sua conta e os resultados são devolvidos imediatamente na resposta.

Ao utilizar esta funcionalidade de forma assíncronea, os resultados da API estão disponíveis durante 24 horas a partir do momento em que o pedido foi ingerido, e é indicado na resposta. Após este período de tempo, os resultados são purgados e já não estão disponíveis para recuperação.

Obtenção de resultados de deteção de linguagem

Quando obtém resultados da deteção de idiomas, pode transmitir os resultados para uma aplicação ou guardar a saída para um ficheiro no sistema local.

A deteção de idiomas devolverá uma língua predominante para cada documento que submeter, juntamente com o seu nome ISO 639-1 , um nome legível pelo homem e uma pontuação de confiança. Uma pontuação positiva de 1 indica o nível de confiança mais elevado possível da análise.

Conteúdo ambíguo

Em alguns casos, pode ser difícil desambiguar línguas com base na entrada. Pode utilizar o countryHint parâmetro para especificar um código iso 3166-1 alfa-2 país/região. Por predefinição, a API usa "EUA" como o país padrão sugere. Para remover este comportamento, pode redefinir este parâmetro definindo este valor para cadeia countryHint = "" vazia .

Por exemplo, "Impossível" é comum tanto ao inglês como ao francês e, se for dada com um contexto limitado, a resposta basear-se-á na sugestão do país/região dos EUA. Se o texto tiver origem em França, este país poderá ser dado como sugestão.

Entrada

{
    "documents": [
        {
            "id": "1",
            "text": "impossible"
        },
        {
            "id": "2",
            "text": "impossible",
            "countryHint": "fr"
        }
    ]
}

O modelo de deteção de linguagem tem agora um contexto adicional para fazer um melhor julgamento:

Saída

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2020-09-01"
}

Se o analisador não puder analisar a entrada, retorna (Unknown). Um exemplo é se submeter uma cadeia de texto que consiste apenas em números.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Conteúdo em língua mista

O conteúdo em linguagem mista dentro do mesmo documento devolve a língua com a maior representação do conteúdo, mas com uma classificação positiva mais baixa. O rating reflete a força marginal da avaliação. No seguinte exemplo, a entrada é uma mistura de inglês, espanhol e francês. O analisador conta carateres em cada segmento para determinar o idioma predominante.

Entrada

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

Saída

A saída resultante consiste na língua predominante, com uma pontuação inferior a 1.0, o que indica um nível de confiança mais fraco.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.88
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Limites de serviço e dados

Para obter informações sobre o tamanho e número de pedidos que pode enviar por minuto e segundo, consulte o artigo limites de serviço .

Ver também