Nyelv felismerése
Az Azure AI Language Detection API kiértékeli a szövegbevitelt, és minden elküldött dokumentum esetében visszaadja az elemzés erősségét jelző pontszámmal rendelkező nyelvi azonosítókat.
Ez a funkció véletlen szöveget gyűjtő tartalom áruházak számára hasznos, amikor a nyelv ismeretlen. Egy másik forgatókönyv egy csevegőrobotot is érinthet. Ha egy felhasználó munkamenetet indít a csevegőrobottal, a nyelvfelismerés segítségével meghatározhatja, hogy melyik nyelvet használja, és lehetővé teszi, hogy a robot válaszait a megfelelő nyelven konfigurálja.
Az analízis eredményei elemezhetők annak meghatározására, hogy milyen nyelvet használ a bemeneti dokumentum. A válasz egy pontszámot is visszaad, amely tükrözi a modell megbízhatóságát (0 és 1 közötti érték).
A nyelvészlelés dokumentumokkal vagy egyetlen kifejezésekkel is használható. Fontos megjegyezni, hogy a dokumentum méretének 5120 karakter alatt kell lennie. A méretkorlát dokumentumonként van megadva, és minden gyűjtemény 1000 elemre (azonosítóra) korlátozódik. Itt látható egy, a szolgáltatásnak a kérelem törzsében elküldhető, megfelelően formázott JSON-hasznos adatok mintája, beleértve a dokumentumok gyűjteményét, amelyek mindegyike egyedi azonosítót és elemezendő szöveget tartalmaz. Igény szerint megadhat egy countryHint-et az előrejelzési teljesítmény javítása érdekében.
{
"kind": "LanguageDetection",
"parameters": {
"modelVersion": "latest"
},
"analysisInput":{
"documents":[
{
"id": "1",
"text": "Hello world",
"countryHint": "US"
},
{
"id": "2",
"text": "Bonjour tout le monde"
}
]
}
}
A szolgáltatás egy JSON-választ ad vissza, amely a kérelem törzsében lévő összes dokumentumhoz tartalmaz eredményt, beleértve az előrejelzett nyelvet és az előrejelzés megbízhatósági szintjét jelző értéket. A megbízhatósági szint egy 0 és 1 közötti érték, az 1-hez közelebbi értékek pedig magasabb megbízhatósági szint. Íme egy példa egy szabványos JSON-válaszra, amely megfelel a fenti JSON-kérésnek.
{ "kind": "LanguageDetectionResults",
"results": {
"documents": [
{
"detectedLanguage": {
"confidenceScore": 1,
"iso6391Name": "en",
"name": "English"
},
"id": "1",
"warnings": []
},
{
"detectedLanguage": {
"confidenceScore": 1,
"iso6391Name": "fr",
"name": "French"
},
"id": "2",
"warnings": []
}
],
"errors": [],
"modelVersion": "2022-10-01"
}
}
A mintánkban az összes nyelv 1 megbízhatóságot mutat, főként azért, mert a szöveg viszonylag egyszerű és könnyen azonosítható.
Ha többnyelvű tartalmat tartalmazó dokumentumot ad át, a szolgáltatás kissé másképp fog viselkedni. Az egy dokumentumon belüli vegyes nyelvi tartalomra a szöveget legnagyobb részt kitevő nyelvet adja vissza, de kisebb pozitív minősítéssel, ami tükrözi az értékelés gyenge erősségét. Az alábbi példában a bemenet az angol, a spanyol és a francia keveréke. Az elemző a szöveg statisztikai elemzésével határozza meg az elsődleges nyelvet.
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Az alábbi minta egy választ mutat be erre a többnyelvű példára.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.9375
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2022-10-01"
}
Az utolsó megfontolandó feltétel az, ha kétértelmű a nyelvi tartalom. A forgatókönyv akkor fordulhat elő, ha olyan szöveges tartalmat küld el, amelyet az elemző nem tud elemezni, például a szöveg sztringváltozóvá alakításakor felmerülő karakterkódolási problémák miatt. Ennek eredményeképpen a nyelv nevének és az ISO-kódnak a válasza (ismeretlen), a pontszám értéke pedig a következő lesz 0
: . Az alábbi példa a válasz megjelenését mutatja be.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2022-10-01"
}