Kognitiv färdighet för entitetsigenkänning (v3)

Entitetsigenkänningsfärdigheten (v3) extraherar entiteter av olika typer från text. Dessa entiteter ligger under 14 olika kategorier, allt från personer och organisationer till URL:er och telefonnummer. Den här färdigheten använder maskininlärningsmodellerna för namngiven entitetsigenkänning som tillhandahålls av Azure AI Language.

Kommentar

Den här kompetensen är bunden till Azure AI-tjänster och kräver en fakturerbar resurs för transaktioner som överstiger 20 dokument per indexerare och dag. Körning av inbyggda kunskaper debiteras enligt det befintliga priset för Betala per användning för Azure AI-tjänster.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Databegränsningar

Den maximala storleken på en post ska vara 50 000 tecken mätt med String.Length. Om du behöver dela upp dina data innan du skickar dem till EntityRecognition-färdigheten bör du överväga att använda färdigheten Textdelning. När du använder en delad färdighet anger du sidlängden till 5 000 för bästa prestanda.

Kompetensparametrar

Parametrar är skiftlägeskänsliga och är alla valfria.

Parameternamn beskrivning
categories Matris med kategorier som ska extraheras. Möjliga kategorityper: "Person", "Location", "Organization", "Quantity", "DateTime", "URL", "Email", "personType", , "Event", "Product", "Skill", "Address", "phoneNumber", . "ipAddress" Om ingen kategori anges returneras alla typer.
defaultLanguageCode Språkkod för indatatexten. Om standardspråkkoden inte anges används engelska (en) som standardspråkkod.
Se den fullständiga listan med språk som stöds. Alla entitetskategorier stöds inte för alla språk. se kommentaren nedan.
minimumPrecision Ett värde mellan 0 och 1. Om konfidenspoängen namedEntities (i utdata) är lägre än det här värdet returneras inte entiteten. Standardvärdet är 0.
modelVersion (Valfritt) Anger vilken version av modellen som ska användas när du anropar API:et för entitetsigenkänning. Den är som standard den senaste tillgängliga när den inte har angetts. Vi rekommenderar att du inte anger det här värdet om det inte är nödvändigt.

Kunskapsindata

Indatanamn beskrivning
languageCode En sträng som anger posternas språk. Om den här parametern inte anges används standardspråkkoden för att analysera posterna.
Se den fullständiga listan med språk som stöds.
text Texten som ska analyseras.

Kunskapsutdata

Kommentar

Alla entitetskategorier stöds inte för alla språk. Se Entitetskategorier för namngiven entitetsigenkänning (NER) som stöds för att veta vilka entitetskategorier som stöds för det språk som du ska använda.

Utdatanamn beskrivning
persons En matris med strängar där varje sträng representerar namnet på en person.
locations En matris med strängar där varje sträng representerar en plats.
organizations En matris med strängar där varje sträng representerar en organisation.
quantities En matris med strängar där varje sträng representerar en kvantitet.
dateTimes En matris med strängar där varje sträng representerar ett DateTime-värde (som det visas i texten).
urls En matris med strängar där varje sträng representerar en URL
emails En matris med strängar där varje sträng representerar ett e-postmeddelande
personTypes En matris med strängar där varje sträng representerar en PersonType
events En matris med strängar där varje sträng representerar en händelse
products En matris med strängar där varje sträng representerar en produkt
skills En matris med strängar där varje sträng representerar en färdighet
addresses En matris med strängar där varje sträng representerar en adress
phoneNumbers En matris med strängar där varje sträng representerar ett telefonnummer
ipAddresses En matris med strängar där varje sträng representerar en IP-adress
namedEntities En matris med komplexa typer som innehåller följande fält:
  • category
  • Underkategori
  • confidenceScore (högre värde innebär att det är mer att vara en verklig entitet)
  • längd (längden(antalet tecken) för den här entiteten)
  • offset (Platsen där den hittades i texten)
  • text (Det faktiska entitetsnamnet som det visas i texten)

Exempeldefinition

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Exempelindata

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Exempelutdata

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

De förskjutningar som returneras för entiteter i utdata från den här färdigheten returneras direkt från Api:erna för Språktjänst, vilket innebär att om du använder dem för att indexera till den ursprungliga strängen bör du använda Klassen StringInfo i .NET för att extrahera rätt innehåll. Mer information finns i Stöd för flerspråkiga och emojis i Språktjänstfunktioner.

Varningsfall

Om språkkoden för dokumentet inte stöds returneras en varning och inga entiteter extraheras.

Se även