Nyelv felismerése

5 perc

Az Azure AI Language Detection API kiértékeli a szövegbevitelt, és minden elküldött dokumentum esetében visszaadja az elemzés erősségét jelző pontszámmal rendelkező nyelvi azonosítókat.

Ez a funkció véletlen szöveget gyűjtő tartalom áruházak számára hasznos, amikor a nyelv ismeretlen. Egy másik forgatókönyv egy csevegőrobotot is érinthet. Ha egy felhasználó munkamenetet indít a csevegőrobottal, a nyelvfelismerés segítségével meghatározhatja, hogy melyik nyelvet használja, és lehetővé teszi, hogy a robot válaszait a megfelelő nyelven konfigurálja.

Az analízis eredményei elemezhetők annak meghatározására, hogy milyen nyelvet használ a bemeneti dokumentum. A válasz egy pontszámot is visszaad, amely tükrözi a modell megbízhatóságát (0 és 1 közötti érték).

A nyelvészlelés dokumentumokkal vagy egyetlen kifejezésekkel is használható. Fontos megjegyezni, hogy a dokumentum méretének 5120 karakter alatt kell lennie. A méretkorlát dokumentumonként van megadva, és minden gyűjtemény 1000 elemre (azonosítóra) korlátozódik. Itt látható egy, a szolgáltatásnak a kérelem törzsében elküldhető, megfelelően formázott JSON-hasznos adatok mintája, beleértve a dokumentumok gyűjteményét, amelyek mindegyike egyedi azonosítót és elemezendő szöveget tartalmaz. Igény szerint megadhat egy countryHint-et az előrejelzési teljesítmény javítása érdekében.

{
    "kind": "LanguageDetection",
    "parameters": {
        "modelVersion": "latest"
    },
    "analysisInput":{
        "documents":[
              {
                "id": "1",
                "text": "Hello world",
                "countryHint": "US"
              },
              {
                "id": "2",
                "text": "Bonjour tout le monde"
              }
        ]
    }
}

A szolgáltatás egy JSON-választ ad vissza, amely a kérelem törzsében lévő összes dokumentumhoz tartalmaz eredményt, beleértve az előrejelzett nyelvet és az előrejelzés megbízhatósági szintjét jelző értéket. A megbízhatósági szint egy 0 és 1 közötti érték, az 1-hez közelebbi értékek pedig magasabb megbízhatósági szint. Íme egy példa egy szabványos JSON-válaszra, amely megfelel a fenti JSON-kérésnek.

{   "kind": "LanguageDetectionResults",
    "results": {
        "documents": [
          {
            "detectedLanguage": {
              "confidenceScore": 1,
              "iso6391Name": "en",
              "name": "English"
            },
            "id": "1",
            "warnings": []
          },
          {
            "detectedLanguage": {
              "confidenceScore": 1,
              "iso6391Name": "fr",
              "name": "French"
            },
            "id": "2",
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2022-10-01"
    }
}

A mintánkban az összes nyelv 1 megbízhatóságot mutat, főként azért, mert a szöveg viszonylag egyszerű és könnyen azonosítható.

Ha többnyelvű tartalmat tartalmazó dokumentumot ad át, a szolgáltatás kissé másképp fog viselkedni. Az egy dokumentumon belüli vegyes nyelvi tartalomra a szöveget legnagyobb részt kitevő nyelvet adja vissza, de kisebb pozitív minősítéssel, ami tükrözi az értékelés gyenge erősségét. Az alábbi példában a bemenet az angol, a spanyol és a francia keveréke. Az elemző a szöveg statisztikai elemzésével határozza meg az elsődleges nyelvet.

{
  "documents": [
    {
      "id": "1",
      "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
    }
  ]
}

Az alábbi minta egy választ mutat be erre a többnyelvű példára.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.9375
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2022-10-01"
}

Az utolsó megfontolandó feltétel az, ha kétértelmű a nyelvi tartalom. A forgatókönyv akkor fordulhat elő, ha olyan szöveges tartalmat küld el, amelyet az elemző nem tud elemezni, például a szöveg sztringváltozóvá alakításakor felmerülő karakterkódolási problémák miatt. Ennek eredményeképpen a nyelv nevének és az ISO-kódnak a válasza (ismeretlen), a pontszám értéke pedig a következő lesz 0: . Az alábbi példa a válasz megjelenését mutatja be.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2022-10-01"
}

Folytatás

Nyelv felismerése

Visszajelzés