Entitásfelismerési kognitív képesség (v3)

Az Entitásfelismerési képesség (v3) különböző típusú entitásokat nyer ki a szövegből. Ezek az entitások 14 különböző kategóriába tartoznak, a személyektől és szervezetektől kezdve az URL-címekig és a telefonszámokig. Ez a képesség az Azure AI Language által biztosított Named Entity Recognition gépi tanulási modelleket használja.

Megjegyzés:

Ez a képesség az Azure AI-szolgáltatásokhoz van kötve, és számlázható erőforrást igényel olyan tranzakciókhoz, amelyek indexelőnként naponta 20 dokumentumot meghaladóak. A beépített készségek végrehajtásáért a meglévő Azure AI-szolgáltatások használatalapú fizetéses díját számítjuk fel.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Adatkorlátok

A rekord maximális méretének 50 000 karakternek kell lennie a mért érték szerint String.Length. Ha fel kell szakítania az adatokat, mielőtt elküldené azOkat az EntityRecognition képességnek, fontolja meg a Szöveg felosztása készség használatát. Osztott képesség használata esetén állítsa az oldalhosszt 5000-re a legjobb teljesítmény érdekében.

Képességparaméterek

A paraméterek megkülönböztetik a kis- és nagybetűket, és nem kötelezőek.

Paraméter neve Leírás
categories A kinyerni kívánt kategóriák tömbje. Lehetséges kategóriatípusok: "Person", "Location", "Organization", "Quantity", "DateTime", "URL", "Email", "personType""Event", "Product", "Skill", "Address""phoneNumber""ipAddress", . Ha nincs megadva kategória, a rendszer minden típust visszaad.
defaultLanguageCode A bemeneti szöveg nyelvi kódja. Ha az alapértelmezett nyelvi kód nincs megadva, az alapértelmezett nyelvkód az angol (en) lesz.
Tekintse meg a támogatott nyelvek teljes listáját. Nem minden entitáskategória támogatott minden nyelv esetében; lásd az alábbi megjegyzést.
minimumPrecision 0 és 1 közötti érték. Ha a megbízhatósági pontszám (a namedEntities kimenetben) alacsonyabb ennél az értéknél, az entitás nem lesz visszaadva. Az alapértelmezett érték a 0.
modelVersion (Nem kötelező) Az entitásfelismerő API meghívásához használandó modell verzióját adja meg. Ha nincs megadva, alapértelmezés szerint a legújabb elérhető lesz. Javasoljuk, hogy csak akkor adja meg ezt az értéket, ha szükséges.

Készségbemenetek

Bemeneti név Leírás
languageCode A rekordok nyelvét jelző sztring. Ha ez a paraméter nincs megadva, a rendszer az alapértelmezett nyelvi kódot használja a rekordok elemzéséhez.
Tekintse meg a támogatott nyelvek teljes listáját.
text Az elemezni kívánt szöveg.

Képességkimenetek

Megjegyzés:

Nem minden entitáskategória támogatott minden nyelv esetében. A támogatott elnevezett entitásfelismerési (NER-) entitáskategóriákban megtudhatja , hogy mely entitáskategóriák támogatottak a használni kívánt nyelvhez.

Kimeneti név Leírás
persons Sztringek tömbje, ahol minden sztring egy személy nevét jelöli.
locations Sztringek tömbje, ahol minden sztring egy helyet jelöl.
organizations Sztringek tömbje, ahol minden sztring egy szervezetet jelöl.
quantities Sztringek tömbje, ahol minden sztring egy mennyiséget jelöl.
dateTimes Sztringek tömbje, ahol az egyes sztringek dátum/idő értéket jelölnek (ahogy az a szövegben is megjelenik).
urls Sztringek tömbje, ahol minden sztring EGY URL-címet jelöl
emails Sztringek tömbje, ahol minden sztring egy e-mailt jelöl
personTypes Sztringek tömbje, ahol minden sztring személytípust jelöl
events Sztringek tömbje, ahol minden sztring egy eseményt jelöl
products Sztringek tömbje, ahol minden sztring egy terméket jelöl
skills Sztringek tömbje, ahol minden sztring egy készséget jelöl
addresses Sztringek tömbje, ahol minden sztring egy címet jelöl
phoneNumbers Sztringek tömbje, ahol minden sztring egy telefonszámot jelöl
ipAddresses Sztringek tömbje, ahol minden sztring EGY IP-címet jelöl
namedEntities Összetett típusok tömbje, amely a következő mezőket tartalmazza:
  • kategória
  • Alkategória
  • confidenceScore (A magasabb érték azt jelenti, hogy inkább valódi entitásnak kell lennie)
  • hossz (Az entitás hossza (karaktereinek száma)
  • eltolás (Az a hely, ahol a szövegben található)
  • szöveg (A szövegben megjelenő tényleges entitásnév)

Mintadefiníció

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Példabemenet

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Példakimenet

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

A képesség kimenetében szereplő entitások által visszaadott eltolásokat közvetlenül a Language Service API-k adják vissza, ami azt jelenti, hogy ha azokat az eredeti sztringbe indexeli, a .NET StringInfo osztályát kell használnia a megfelelő tartalom kinyeréséhez. További információ: Többnyelvű és hangulatjelek támogatása a Nyelvi szolgáltatás funkcióiban.

Figyelmeztető esetek

Ha a dokumentum nyelvi kódja nem támogatott, a rendszer figyelmeztetést ad vissza, és nem nyer ki entitásokat.

Kapcsolódó információk