A LUIS nyelv- és régiótámogatása

Cikk
01/19/2024

Fontos

A LUIS 2025. október 1-jén megszűnik, és 2023. április 1-től nem lehet új LUIS-erőforrásokat létrehozni. Javasoljuk , hogy migrálja a LUIS-alkalmazásokat a beszélgetési nyelvfelismerésre , hogy kihasználhassa a terméktámogatás és a többnyelvű képességek előnyeit.

A LUIS számos funkciót biztosít a szolgáltatáson belül. Egyes funkciók azonban nem érhetők el bizonyos nyelveken. Ellenőrizze, hogy az Önt érdeklő funkciók támogatottak-e a használni kívánt nyelvkultúrában. A LUIS-alkalmazások kultúraspecifikusak, és a beállításuk után nem módosíthatók.

Többnyelvű LUIS-alkalmazások

Ha többnyelvű LUIS-ügyfélalkalmazásra, például csevegőrobotra van szüksége, van néhány lehetősége. Ha a LUIS az összes nyelvet támogatja, minden nyelvhez ki kell alakítania egy LUIS-alkalmazást. Minden LUIS-alkalmazás egyedi alkalmazásazonosítóval és végpontnaplóval rendelkezik. Ha nyelvfelismerést kell biztosítania egy olyan nyelvhez, amelyet a LUIS nem támogat, a Translator szolgáltatással lefordíthatja a kimondott szöveget egy támogatott nyelvre, elküldheti a kimondott szöveget a LUIS-végpontnak, és megkaphatja az eredményül kapott pontszámokat.

Megjegyzés

A Language Understanding képességek újabb verziója már elérhető az Azure AI Nyelv részeként. További információ: Az Azure AI nyelvi dokumentációja. A Language Service-ben több nyelvet támogató nyelvfelismerési képességekért lásd: Beszélgetési Language Understanding.

Támogatott nyelvek

A LUIS a következő nyelveken értelmezi a kimondott szövegeket:

Nyelv	Területi beállítás	Előre összeállított tartomány	Előre összeállított entitás	Kifejezéslista-javaslatok	**Hangulatelemzés és kulcskifejezések kinyerése
Arab (előzetes verzió – modern standard arab)	`ar-AR`	-	-	-	-
*Kínai	`zh-CN`	✔	✔	✔	-
Holland	`nl-NL`	✔	-	-	✔
angol (Egyesült Államok)	`en-US`	✔	✔	✔	✔
Angol (Egyesült Királyság)	`en-GB`	✔	✔	✔	✔
Francia (Kanada)	`fr-CA`	-	-	-	✔
Francia (Franciaország)	`fr-FR`	✔	✔	✔	✔
Német	`de-DE`	✔	✔	✔	✔
Gujarati (előzetes verzió)	`gu-IN`	-	-	-	-
Hindi (előzetes verzió)	`hi-IN`	-	✔	-	-
Olasz	`it-IT`	✔	✔	✔	✔
*Japán	`ja-JP`	✔	✔	✔	Csak kulcskifejezés
Koreai	`ko-KR`	✔	-	-	Csak kulcskifejezés
Marathi (előzetes verzió)	`mr-IN`	-	-	-	-
Portugál (Brazília)	`pt-BR`	✔	✔	✔	nem minden alkultúrában
Spanyol (Mexikó)	`es-MX`	-	✔	✔	✔
Spanyol (Spanyolország)	`es-ES`	✔	✔	✔	✔
Tamil (előzetes verzió)	`ta-IN`	-	-	-	-
Telugu (előzetes verzió)	`te-IN`	-	-	-	-
Török	`tr-TR`	✔	✔	-	Csak hangulat

A nyelvi támogatás az előre összeállított entitások és az előre összeállított tartományok esetében eltérő.

*Kínai támogatási megjegyzések

A kultúrában a zh-CN LUIS a hagyományos karakterkészlet helyett az egyszerűsített kínai karakterkészletet várja.
A szándékok, entitások, jellemzők és reguláris kifejezések neve kínai vagy római karakterből állhat.
Az előre összeállított tartományokra vonatkozó referenciaanyagból tájékozódhat arról, hogy mely előre összeállított tartományok támogatottak a zh-CN kultúrában.

*Japán támogatási megjegyzések

Mivel a LUIS nem nyújt szintaktikai elemzést, és nem fogja megérteni a Különbséget a Keigo és az informális japán között, be kell építenie a különböző formalitási szinteket az alkalmazások betanítási példáiként.
- でございます nem ugyanaz, mint です.
- です nem ugyanaz, mint だ.

**Nyelvi szolgáltatás támogatási megjegyzései

A Language szolgáltatás tartalmazza a keyPhrase előre összeállított entitást és hangulatelemzést. A szubkultúrák esetében csak a portugál támogatott: pt-PT és pt-BR. Minden más kultúrát az elsődleges kultúra szintjén támogatunk.

A Speech API által támogatott nyelvek

Lásd: Beszéddiktálási mód nyelveinek támogatott nyelvei .

A Bing Spell Check által támogatott nyelvek

A támogatott nyelvek és állapotok listáját a Bing Spell Check Támogatott nyelvek című témakörben találja.

Ritka vagy idegen szavak egy alkalmazásban

A kultúrában a LUIS megtanulja megkülönböztetni a legtöbb angol szót, beleértve a en-us szlenget is. A kultúrában a zh-cn LUIS megtanulja megkülönböztetni a legtöbb kínai karaktert. Ha egy ritka szót vagy karaktert használ a en-us alkalmazásban zh-cn, és úgy látja, hogy a LUIS nem tudja megkülönböztetni ezt a szót vagy karaktert, hozzáadhatja ezt a szót vagy karaktert egy kifejezéslista-funkcióhoz. Például az alkalmazás kultúráján kívüli szavakat – azaz idegen szavakat – hozzá kell adni egy kifejezéslista-funkcióhoz.

Hibrid nyelvek

A hibrid nyelvek két kultúrából, például az angolból és a kínaiból származó szavakat kombinálják. Ezek a nyelvek nem támogatottak a LUIS-ban, mert az alkalmazások egyetlen kultúrán alapulnak.

Tokenizálás

A gépi tanulás végrehajtásához a LUIS a beszédelemeket jogkivonatokra bontja a kultúra alapján.

Nyelv	minden szóköz vagy speciális karakter	karakterszint	összetett szavak
Arab	✔
Kínai		✔
Holland	✔		✔
Angol (en-us)	✔
Angol (en-GB)	✔
Francia (fr-FR)	✔
Francia (fr-CA)	✔
Német	✔		✔
Gudzsaráti	✔
Hindi	✔
Olasz	✔
Japán			✔
Koreai		✔
Marathi	✔
Portugál (Brazília)	✔
Spanyol (es-ES)	✔
Spanyol (es-MX)	✔
Tamil	✔
Telugu	✔
Török	✔

Egyéni tokenizer-verziók

A következő kultúrák egyéni tokenizer-verziókkal rendelkeznek:

Kultúra	Verzió	Cél
Német `de-de`	1.0.0	Tokenizálja a szavakat úgy, hogy felosztja őket egy gépi tanuláson alapuló tokenizer használatával, amely megpróbálja az összetett szavakat egyetlen összetevőre bontani. Ha egy felhasználó kimondott szövegként adja meg `Ich fahre einen krankenwagen` a szöveget, a rendszer a következőre `Ich fahre einen kranken wagen`vált: . Lehetővé teszi a különböző entitások megjelölését `kranken` és `wagen` egymástól függetlenül történő megjelölését.
Német `de-de`	1.0.2	A szavakat a szóközökre felosztva jogkivonatosítja. Ha egy felhasználó kimondott szövegként lép be `Ich fahre einen krankenwagen` , az egyetlen jogkivonat marad. Így `krankenwagen` egyetlen entitásként van megjelölve.
Holland `nl-nl`	1.0.0	Tokenizálja a szavakat úgy, hogy felosztja őket egy gépi tanuláson alapuló tokenizer használatával, amely megpróbálja az összetett szavakat egyetlen összetevőre bontani. Ha egy felhasználó kimondott szövegként adja meg `Ik ga naar de kleuterschool` a szöveget, a rendszer a következőre `Ik ga naar de kleuter school`vált: . Lehetővé teszi a különböző entitások megjelölését `kleuter` és `school` egymástól függetlenül történő megjelölését.
Holland `nl-nl`	1.0.1	A szavakat a szóközökre felosztva jogkivonatosítja. Ha egy felhasználó kimondott szövegként lép be `Ik ga naar de kleuterschool` , az egyetlen jogkivonat marad. Így `kleuterschool` egyetlen entitásként van megjelölve.

Migrálás tokenizer-verziók között

A tokenizálás az alkalmazás szintjén történik. A verziószintű tokenizálás nem támogatott.

A fájl importálása új alkalmazásként, verzió helyett. Ez a művelet azt jelenti, hogy az új alkalmazás más alkalmazásazonosítóval rendelkezik, de a fájlban megadott tokenizer-verziót használja.