Como utilizar a deteção de linguagem
A função de Deteção de Idiomas pode avaliar o texto e devolver um identificador de idiomas que indique o idioma em que um documento foi escrito.
A deteção de idiomas é útil para lojas de conteúdos que recolhem texto arbitrário, onde a linguagem é desconhecida. Pode analisar os resultados desta análise para determinar o idioma que é utilizado no documento de entrada. A resposta também devolve uma pontuação entre 0 e 1 que reflete a confiança do modelo.
A funcionalidade de Deteção de Idiomas pode detetar uma vasta gama de línguas, variantes, dialetos e algumas línguas regionais ou culturais.
Dica
Se quiser começar a utilizar esta funcionalidade, pode seguir o artigo de arranque rápido para começar. Também pode fazer pedidos de exemplo usando o Language Studio sem precisar de escrever código.
Determinar como processar os dados (opcional)
Especificar o modelo de deteção de idiomas
Por predefinição, a deteção de idiomas utilizará o mais recente modelo de IA disponível no seu texto. Também pode configurar os seus pedidos de API para utilizar uma versão modelo específica.
Línguas de entrada
Quando submeter documentos a serem avaliados, a deteção de linguagem tentará determinar se o texto foi escrito em alguma das línguas apoiadas.
Se tiver conteúdo expresso num idioma menos utilizado, pode experimentar a funcionalidade de Deteção de Idiomas para ver se devolve um código. A resposta para línguas que não podem ser detetadas é unknown
.
Envio de dados
Dica
Pode utilizar um recipiente Docker para deteção de linguagem, para que possa utilizar a API no local.
A análise é realizada aquando da receção do pedido. A utilização da funcionalidade de deteção de idiomas é apátrida. Nenhum dado é armazenado na sua conta e os resultados são devolvidos imediatamente na resposta.
Ao utilizar esta funcionalidade de forma assíncronea, os resultados da API estão disponíveis durante 24 horas a partir do momento em que o pedido foi ingerido, e é indicado na resposta. Após este período de tempo, os resultados são purgados e já não estão disponíveis para recuperação.
Obtenção de resultados de deteção de linguagem
Quando obtém resultados da deteção de idiomas, pode transmitir os resultados para uma aplicação ou guardar a saída para um ficheiro no sistema local.
A deteção de idiomas devolverá uma língua predominante para cada documento que submeter, juntamente com o seu nome ISO 639-1 , um nome legível pelo homem e uma pontuação de confiança. Uma pontuação positiva de 1 indica o nível de confiança mais elevado possível da análise.
Conteúdo ambíguo
Em alguns casos, pode ser difícil desambiguar línguas com base na entrada. Pode utilizar o countryHint
parâmetro para especificar um código iso 3166-1 alfa-2 país/região. Por predefinição, a API usa "EUA" como o país padrão sugere. Para remover este comportamento, pode redefinir este parâmetro definindo este valor para cadeia countryHint = ""
vazia .
Por exemplo, "Impossível" é comum tanto ao inglês como ao francês e, se for dada com um contexto limitado, a resposta basear-se-á na sugestão do país/região dos EUA. Se o texto tiver origem em França, este país poderá ser dado como sugestão.
Entrada
{
"documents": [
{
"id": "1",
"text": "impossible"
},
{
"id": "2",
"text": "impossible",
"countryHint": "fr"
}
]
}
O modelo de deteção de linguagem tem agora um contexto adicional para fazer um melhor julgamento:
Saída
{
"documents":[
{
"detectedLanguage":{
"confidenceScore":0.62,
"iso6391Name":"en",
"name":"English"
},
"id":"1",
"warnings":[
]
},
{
"detectedLanguage":{
"confidenceScore":1.0,
"iso6391Name":"fr",
"name":"French"
},
"id":"2",
"warnings":[
]
}
],
"errors":[
],
"modelVersion":"2020-09-01"
}
Se o analisador não puder analisar a entrada, retorna (Unknown)
. Um exemplo é se submeter uma cadeia de texto que consiste apenas em números.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Conteúdo em língua mista
O conteúdo em linguagem mista dentro do mesmo documento devolve a língua com a maior representação do conteúdo, mas com uma classificação positiva mais baixa. O rating reflete a força marginal da avaliação. No seguinte exemplo, a entrada é uma mistura de inglês, espanhol e francês. O analisador conta carateres em cada segmento para determinar o idioma predominante.
Entrada
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Saída
A saída resultante consiste na língua predominante, com uma pontuação inferior a 1.0, o que indica um nível de confiança mais fraco.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.88
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Limites de serviço e dados
Para obter informações sobre o tamanho e número de pedidos que pode enviar por minuto e segundo, consulte o artigo limites de serviço .