Compatibilidad de idiomas y regiones para LUIS

Artículo
01/19/2024

Importante

LUIS se retirará el 1 de octubre de 2025. Además, a partir del 1 de abril de 2023, ya no se podrán crear recursos de este servicio. Se recomienda migrar las aplicaciones de LUIS al reconocimiento del lenguaje conversacional para aprovechar el soporte continuo del producto y las capacidades multilingües.

LUIS tiene una gran variedad de características dentro del servicio. No todas las características están en la misma paridad de lenguaje. Asegúrese de que las características que le interesan se admiten en la referencia cultural del idioma de destino. Una aplicación de LUIS es específica de la referencia cultural y no se puede cambiar después de establecerse.

Aplicaciones multilingües de LUIS

Si necesita una aplicación cliente de LUIS multilingüe como un bot de chat, dispone de varias opciones. Si LUIS admite todos los idiomas, desarrolle una aplicación de LUIS para cada uno. Cada aplicación de LUIS tiene un id. de la aplicación único y un registro de punto de conexión. Si tiene que proporcionar Language Understanding para un idioma que LUIS no admite, puede usar el servicio Traductor para traducir la expresión a un idioma compatible, enviarla al punto de conexión de LUIS y recibir las puntuaciones resultantes.

Nota

Hay disponible una versión más reciente de las funcionalidades de Language Understanding como parte del Lenguaje Azure AI. Para más información, consulte Documentación de Lenguaje de Azure AI. Para conocer las funcionalidades de reconocimiento del lenguaje que admiten varios idiomas dentro del servicio de lenguaje, consulte Reconocimiento del lenguaje conversacional.

Idiomas admitidos

LUIS entiende expresiones en los idiomas siguientes:

Idioma	Configuración regional	Dominio creado previamente	Entidad creada previamente	Recomendaciones de la lista de frases	**Análisis de sentimiento y extracción de frases clave
Árabe (versión preliminar: Árabe estándar moderno)	`ar-AR`	-	-	-	-
*Chino	`zh-CN`	✔	✔	✔	-
Neerlandés	`nl-NL`	✔	-	-	✔
Spanish (Traditional Sort) - Spain	`en-US`	✔	✔	✔	✔
English (Reino Unido)	`en-GB`	✔	✔	✔	✔
Francés (Canadá)	`fr-CA`	-	-	-	✔
Francés (Francia)	`fr-FR`	✔	✔	✔	✔
Alemán	`de-DE`	✔	✔	✔	✔
Guyaratí (versión preliminar)	`gu-IN`	-	-	-	-
Hindi (versión preliminar)	`hi-IN`	-	✔	-	-
Italiano	`it-IT`	✔	✔	✔	✔
*Japonés	`ja-JP`	✔	✔	✔	Solo la frase clave
Coreano	`ko-KR`	✔	-	-	Solo la frase clave
Maratí (versión preliminar)	`mr-IN`	-	-	-	-
Portugués (Brasil)	`pt-BR`	✔	✔	✔	No todas las referencias culturales secundarias
Español (México)	`es-MX`	-	✔	✔	✔
Español (España)	`es-ES`	✔	✔	✔	✔
Tamil (versión preliminar)	`ta-IN`	-	-	-	-
Telugu (versión preliminar)	`te-IN`	-	-	-	-
Turco	`tr-TR`	✔	✔	-	Solo opiniones

La compatibilidad con idiomas varía para las entidades creadas previamente y los dominios creados previamente.

*Notas de compatibilidad para chino

En la referencia cultural zh-CN, LUIS espera el juego de caracteres de chino simplificado en lugar del juego de caracteres tradicional.
Los nombres de las intenciones, entidades, características y expresiones regulares pueden estar en caracteres chinos o romanos.
Consulte la referencia de dominios creados previamente para obtener información sobre los dominios creados previamente que se admiten en la referencia cultural zh-CN.

*Notas de compatibilidad para Japonés

Dado que LUIS no proporciona análisis sintáctico y no puede comprender la diferencia entre Keigo y japonés informal, debe incorporar los distintos niveles de formalidad como ejemplos de entrenamiento para las aplicaciones.
- でございます no es lo mismo que です.
- です no es lo mismo que だ.

**Notas de soporte técnico del servicio de lenguaje

El servicio de lenguaje incluye el análisis de sentimiento y la entidad precompilada de keyPhrase. Solo se admite el portugués para las subreferencias culturales: pt-PT y pt-BR. Todas las demás referencias culturales se admiten en el nivel de la referencia cultural principal.

Idiomas admitidos en Speech API

Vea los idiomas admitidos en Voz para obtener los idiomas de modo de dictado de Voz.

Idiomas admitidos de Bing Spell Check

Vea los idiomas admitidos de Bing Spell Check para obtener una lista de los idiomas admitidos y el estado.

Palabras poco frecuentes o extranjeras en una aplicación

En la referencia cultural en-us, LUIS aprende a distinguir la mayoría de las palabras en inglés, incluido el argot. En la referencia cultural zh-cn, LUIS aprende a distinguir la mayoría de los caracteres chinos. Si se usa una palabra poco frecuente en en-us o un carácter en zh-cn, y ve que LUIS parece incapaz de distinguir esa palabra o carácter, puede agregarla a una característica de lista de frases. Por ejemplo, las palabras externas a la referencia cultural de la aplicación, es decir, las palabras en otros idiomas, se deben agregar a una característica de lista de frases.

Idiomas híbridos

Los idiomas híbridos combinan palabras de dos referencias culturales como el inglés y el chino. Estos idiomas no se admiten en LUIS porque una aplicación se basa en una única referencia cultural.

Tokenización

Para realizar el aprendizaje automático, LUIS divide una expresión en tokens en función de la referencia cultural.

Idioma	todos los espacios o caracteres especiales	nivel de carácter	palabras compuestas
Árabe	✔
Chino		✔
Neerlandés	✔		✔
Español (es-es)	✔
Inglés (en-GB)	✔
Francés (fr-FR)	✔
Francés (fr-CA)	✔
Alemán	✔		✔
Gujarati	✔
Hindi	✔
Italiano	✔
Japonés			✔
Coreano		✔
Maratí	✔
Portugués (Brasil)	✔
Español (es-ES)	✔
Español (es-MX)	✔
Tamil	✔
Telugu	✔
Turco	✔

Versiones de tokenizador personalizadas

Las referencias culturales siguientes tienen versiones de tokenizador personalizadas:

Referencia cultural	Versión	Propósito
Alemán `de-de`	1.0.0	Acorta las palabras mediante su división por medio de un tokenizador basado en aprendizaje automático que intenta desglosar las palabras compuestas en sus componentes únicos. Si un usuario escribe `Ich fahre einen krankenwagen` como expresión, se convierte en `Ich fahre einen kranken wagen`. Esto permite el marcado de `kranken` y `wagen` por separado como entidades diferentes.
Alemán `de-de`	1.0.2	Acorta las palabras mediante su división en espacios. Si un usuario escribe `Ich fahre einen krankenwagen` como expresión, sigue siendo un token único. Por lo tanto, `krankenwagen` se marca como una única entidad.
Neerlandés `nl-nl`	1.0.0	Acorta las palabras mediante su división por medio de un tokenizador basado en aprendizaje automático que intenta desglosar las palabras compuestas en sus componentes únicos. Si un usuario escribe `Ik ga naar de kleuterschool` como expresión, se convierte en `Ik ga naar de kleuter school`. Esto permite el marcado de `kleuter` y `school` por separado como entidades diferentes.
Neerlandés `nl-nl`	1.0.1	Acorta las palabras mediante su división en espacios. Si un usuario escribe `Ik ga naar de kleuterschool` como expresión, sigue siendo un token único. Por lo tanto, `kleuterschool` se marca como una única entidad.

Migración entre versiones de tokenizador

La tokenización se produce en el nivel de aplicación. No hay ninguna compatibilidad con la tokenización de nivel de versión.

Importe el archivo como una nueva aplicación, en lugar de una versión. Esta acción significa que la nueva aplicación tiene un identificador de aplicación diferente, pero usa la versión de tokenizador especificada en el archivo.