Supporto di lingua e area geografica per LUIS

Articolo
01/19/2024

Importante

LUIS verrà ritirato il 1° ottobre 2025 e a partire dal 1° aprile 2023 non sarà possibile creare nuove risorse LUIS. È consigliabile eseguire la migrazione delle applicazioni LUIS alla comprensione del linguaggio conversazionale per trarre vantaggio dal supporto continuo del prodotto e dalle funzionalità multilingue.

LUIS ha un'ampia gamma di funzionalità all'interno del servizio. Non tutte le funzionalità hanno la stessa parità di linguaggio. Assicurarsi che le funzionalità a cui si è interessati siano supportate nella lingua di destinazione. Un'applicazione LUIS è specifica per la cultura e non può essere modificata una volta impostata.

App LUIS multilingue

Se è necessaria un'applicazione client LUIS multilingue, ad esempio un chatbot, sono disponibili alcune opzioni. Se LUIS supporta tutte le lingue, viene sviluppata un'app LUIS per ogni lingua. Ogni app LUIS ha un ID univoco dell'app e un registro di endpoint. Se è necessario fornire la comprensione della lingua per una lingua che LUIS non supporta, è possibile usare il servizio Traduttore per tradurre l'espressione in una lingua supportata, inviare l'espressione all'endpoint LUIS e ricevere i punteggi risultanti.

Nota

Una versione più recente delle funzionalità di Language Understanding è ora disponibile come parte del linguaggio di intelligenza artificiale di Azure. Per altre informazioni, vedere Documentazione del linguaggio di intelligenza artificiale di Azure. Per le funzionalità di comprensione del linguaggio che supportano più lingue all'interno del servizio di linguaggio, vedere Conversational Language Understanding.

Lingue supportate

LUIS riconosce espressioni nelle lingue seguenti:

Linguaggio	Impostazioni locali	Dominio predefinito	Entità predefinita	Raccomandazioni di elenchi di frasi	**Analisi del sentiment ed estrazione di frasi chiave
Arabo (anteprima - arabo standard moderno)	`ar-AR`	-	-	-	-
*Cinese	`zh-CN`	✔	✔	✔	-
Olandese	`nl-NL`	✔	-	-	✔
Inglese (Stati Uniti)	`en-US`	✔	✔	✔	✔
Inglese (Regno Unito)	`en-GB`	✔	✔	✔	✔
Francese (Canada)	`fr-CA`	-	-	-	✔
Francese (Francia)	`fr-FR`	✔	✔	✔	✔
Tedesco	`de-DE`	✔	✔	✔	✔
Gujarati (anteprima)	`gu-IN`	-	-	-	-
Hindi (anteprima)	`hi-IN`	-	✔	-	-
Italiano	`it-IT`	✔	✔	✔	✔
*Giapponese	`ja-JP`	✔	✔	✔	Solo la frase chiave
Coreano	`ko-KR`	✔	-	-	Solo la frase chiave
Marathi (anteprima)	`mr-IN`	-	-	-	-
Portoghese (Brasile)	`pt-BR`	✔	✔	✔	non tutte le impostazioni cultura secondarie
Spagnolo (Messico)	`es-MX`	-	✔	✔	✔
Spagnolo (Spagna)	`es-ES`	✔	✔	✔	✔
Tamil (anteprima)	`ta-IN`	-	-	-	-
Telugu (anteprima)	`te-IN`	-	-	-	-
Turco	`tr-TR`	✔	✔	-	Solo sentiment

Le lingue supportate variano per entità predefinite e domini predefiniti.

*Note sul supporto cinese

Nella cultura zh-CN, LUIS prevede il set di caratteri semplificato cinese al posto del set di caratteri tradizionale.
I nomi di finalità, entità, funzioni ed espressioni regolari possono essere in caratteri cinesi o romani.
Vedere il riferimento ai domini predefiniti per informazioni su quali domini predefiniti sono supportati nelle zh-CN impostazioni cultura.

*Note sul supporto giapponese

Poiché LUIS non fornisce analisi sintattiche e non riconosce la differenza tra il Keigo e il giapponese informale, è necessario incorporare i diversi livelli di formalità come esempi di training per le proprie applicazioni.
- でございます non è uguale a です.
- です non è uguale a だ.

**Note sul supporto del servizio linguistico

Il servizio Language include l'entità predefinita keyPhrase e l'analisi del sentiment. Solo il portoghese è supportato per le impostazioni cultura secondarie: pt-PT e pt-BR. Tutte le altre lingue sono supportate a livello di impostazioni di cultura primarie.

Lingue supportate per Speech API

Vedere Lingue supportate dal servizio Voce per le lingue della modalità di dettatura vocale.

Lingue supportate per il Controllo ortografico Bing

Per un elenco delle lingue e dello stato supportati, vedere Lingue supportate per il Controllo ortografico Bing.

Parole rare o in lingua straniera in un'applicazione

Nelle impostazioni cultura en-us, LUIS impara a distinguere la maggior parte delle parole inglesi, compreso lo slang. Nelle impostazioni cultura zh-cn, LUIS impara a distinguere la maggior parte dei caratteri cinesi. Se si utilizza una parola rara in en-us o un carattere in zh-cn, e si nota che LUIS non sembra in grado di distinguere tale parola o carattere, è possibile aggiungere tale parola o carattere a una funzione dell'elenco di frasi. Ad esempio, le parole al di fuori della cultura dell'applicazione, ovvero le parole straniere, dovrebbero essere aggiunte a una funzione dell'elenco di frasi.

Lingue ibride

Le lingue ibride combinano parole di due culture come l'inglese e il cinese. Queste lingue non sono supportate in LUIS perché un'applicazione è basata su un'unica cultura.

Tokenizzazione

Per eseguire l'apprendimento automatico, LUIS suddivide un’espressione in token basati sulla cultura.

Linguaggio	ogni spazio o carattere speciale	livello di caratteri	parole composte
Arabo	✔
Cinese		✔
Olandese	✔		✔
Inglese (en-us)	✔
Inglese (en-GB)	✔
Francese (fr-FR)	✔
Francese (fr-CA)	✔
Tedesco	✔		✔
Gujarati	✔
Hindi	✔
Italiano	✔
Giapponese			✔
Coreano		✔
Marathi	✔
Portoghese (Brasile)	✔
Spagnolo (es-ES)	✔
Spagnolo (es-MX)	✔
Tamil	✔
Telugu	✔
Turco	✔

Versioni del tokenizzatore personalizzato

Le impostazioni cultura seguenti hanno versioni di tokenizer personalizzate:

Impostazioni cultura	Versione	Scopo
Tedesco `de-de`	1.0.0	Tokenzza le parole suddividendole usando un tokenizzatore basato su Machine Learning che tenta di suddividere le parole composte nei singoli componenti. Se un utente entra `Ich fahre einen krankenwagen` come espressione, viene trasformato in `Ich fahre einen kranken wagen`. Consentire il contrassegno di `kranken` e `wagen` indipendentemente come entità diverse.
Tedesco `de-de`	1.0.2	Tokenzza le parole suddividendole in spazi. Se un utente entra `Ich fahre einen krankenwagen` come espressione, rimane un singolo token. Pertanto `krankenwagen` viene contrassegnato come singola entità.
Olandese `nl-nl`	1.0.0	Tokenzza le parole suddividendole usando un tokenizzatore basato su Machine Learning che tenta di suddividere le parole composte nei singoli componenti. Se un utente entra `Ik ga naar de kleuterschool` come espressione, viene trasformato in `Ik ga naar de kleuter school`. Consentire il contrassegno di `kleuter` e `school` indipendentemente come entità diverse.
Olandese `nl-nl`	1.0.1	Tokenzza le parole suddividendole in spazi. Se un utente entra `Ik ga naar de kleuterschool` come espressione, rimane un singolo token. Pertanto `kleuterschool` viene contrassegnato come singola entità.

Migrazione tra versioni del tokenizer

La tokenizzazione avviene a livello di app. Non è disponibile alcun supporto per la tokenizzazione a livello di versione.

Importare il file come nuova app anziché una versione. Questa azione indica che la nuova app ha un ID app diverso, ma usa la versione del tokenizer specificata nel file.