Die kognitive Qualifikation „Entitätserkennung“Entity Recognition cognitive skill

Mit der Qualifikation Entitätserkennung (EntityRecognitionSkill) können Sie Entitäten aus verschiedenen Arten von Text extrahieren.The Entity Recognition skill extracts entities of different types from text. Bei dieser Qualifikation werden die Machine Learning-Modelle verwendet, die in Cognitive Services über die Textanalyse bereitgestellt werden.This skill uses the machine learning models provided by Text Analytics in Cognitive Services.

Hinweis

Wenn Sie den Umfang erweitern, indem Sie die Verarbeitungsfrequenz erhöhen oder weitere Dokumente oder KI-Algorithmen hinzufügen, müssen Sie eine kostenpflichtige Cognitive Services-Ressource anfügen.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Gebühren fallen beim Aufrufen von APIs in Cognitive Services sowie für die Bildextraktion im Rahmen der Dokumentaufschlüsselungsphase in Azure Search an.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Search. Für die Textextraktion aus Dokumenten fallen keine Gebühren an.There are no charges for text extraction from documents.

Die Ausführung integrierter Qualifikationen wird nach dem bestehenden nutzungsbasierten Preis für Cognitive Services berechnet.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. Die Preise für die Bildextraktion werden auf der Preisseite von Azure Search beschrieben.Image extraction pricing is described on the Azure Search pricing page.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkillMicrosoft.Skills.Text.EntityRecognitionSkill

DatengrenzwerteData limits

Die maximale Größe eines Datensatzes beträgt 50.000 Zeichen (gemessen durch String.Length).The maximum size of a record should be 50,000 characters as measured by String.Length. Wenn Sie Ihre Daten teilen müssen, bevor Sie sie an die Schlüsselbegriffserkennung senden, denken Sie daran, den Skill „Text teilen“ zu verwenden.If you need to break up your data before sending it to the key phrase extractor, consider using the Text Split skill.

SkillparameterSkill parameters

Bei den Parametern, die alle optional sind, wird die Groß-/Kleinschreibung beachtet.Parameters are case-sensitive and are all optional.

ParameternameParameter name BESCHREIBUNGDescription
categoriescategories Array von zu extrahierenden Kategorien.Array of categories that should be extracted. Mögliche Kategorietypen: "Person", "Location", "Organization", "Quantity", "Datetime", "URL" und "Email".Possible category types: "Person", "Location", "Organization", "Quantity", "Datetime", "URL", "Email". Wenn keine Kategorie angegeben ist, werden alle Typen zurückgegeben.If no category is provided, all types are returned.
defaultLanguageCodedefaultLanguageCode Sprachcode des Eingabetexts.Language code of the input text. Die folgenden Sprachen werden unterstützt: de, en, es, fr, itThe following languages are supported: de, en, es, fr, it
minimumPrecisionminimumPrecision Nicht verwendet.Unused. Für die zukünftige Verwendung reserviert.Reserved for future use.
includeTypelessEntitiesincludeTypelessEntities Wenn dieser Parameter auf „true“ festgelegt ist und der Text eine bekannte Entität enthält, die aber keiner unterstützten Kategorie zugeordnet werden kann, wird sie als Teil des komplexen Ausgabefelds "entities" zurückgegeben.When set to true if the text contains a well known entity, but cannot be categorized into one of the supported categories, it will be returned as part of the "entities" complex output field.
Hierbei handelt es sich um Entitäten, die gut bekannt, aber nicht als Teil der aktuellen unterstützten „Kategorien“ klassifiziert sind.These are entities that are well known but not classified as part of the current supported "categories". „Windows 10“ ist z.B. eine gut bekannte Entität (ein Produkt), aber „Produkte“ sind nicht in den heute unterstützten Kategorien.For instance "Windows 10" is a well known entity (a product), but "Products" are not in the categories supported today. Der Standardwert ist false.Default is false

SkilleingabenSkill inputs

EingabenameInput name BESCHREIBUNGDescription
languageCodelanguageCode Optional.Optional. Der Standardwert ist "en".Default is "en".
texttext Der zu analysierende TextThe text to analyze.

SkillausgabenSkill outputs

Hinweis

Nicht alle Entitätskategorien werden für alle Sprachen unterstützt.Not all entity categories are supported for all languages. Die Extraktion der Typen "Quantity", "Datetime", "URL", "Email" wird nur für en und es unterstützt.Only en, es support extraction of "Quantity", "Datetime", "URL", "Email" types.

AusgabenameOutput name BESCHREIBUNGDescription
personspersons Ein Array von Zeichenfolgen, wobei jede Zeichenfolge den Namen einer Person darstellt.An array of strings where each string represents the name of a person.
locationslocations Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Ort darstellt.An array of strings where each string represents a location.
organizationsorganizations Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Organisation darstellt.An array of strings where each string represents an organization.
quantitiesquantities Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Menge darstellt.An array of strings where each string represents a quantity.
dateTimesdateTimes Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen DateTime-Wert darstellt (wie im Text gezeigt).An array of strings where each string represents a DateTime (as it appears in the text) value.
urlsurls Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine URL darstellt.An array of strings where each string represents a URL
emailsemails Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine E-Mail-Adresse darstellt.An array of strings where each string represents an email
namedEntitiesnamedEntities Ein Array mit komplexen Typen und den folgenden Feldern:An array of complex types that contains the following fields:
  • categorycategory
  • value (der tatsächliche Entitätsname)value (The actual entity name)
  • offset (die Fundstelle im Text)offset (The location where it was found in the text)
  • confidence (derzeit nicht verwendet;confidence (Unused for now. wird auf einen Wert von -1 festgelegt)Will be set to a value of -1)
entitiesentities Ein Array mit komplexen Typen, die umfangreiche Informationen zu den aus dem Text extrahierten Entitäten enthalten, und den folgenden Feldern:An array of complex types that contains rich information about the entities extracted from text, with the following fields
  • name (der tatsächliche Entitätsname;name (the actual entity name. stellt eine „normalisierte“ Form dar)This represents a "normalized" form)
  • wikipediaIdwikipediaId
  • wikipediaLanguagewikipediaLanguage
  • wikipediaUrl (Link zur Wikipedia-Seite für die Entität)wikipediaUrl (a link to Wikipedia page for the entity)
  • bingIdbingId
  • type (Kategorie der erkannten Entität)type (the category of the entity recognized)
  • subType (nur für bestimmte Kategorien verfügbar; ermöglicht eine präzisere Ansicht des Entitätstyps)subType (available only for certain categories, this gives a more granular view of the entity type)
  • matches (eine komplexe Sammlung mit:)matches (a complex collection that contains)
    • text (unformatierter Text für die Entität)text (the raw text for the entity)
    • offset (Fundstelle)offset (the location where it was found)
    • length (Länge des unformatierten Texts für die Entität)length (the length of the raw entity text)

BeispieldefinitionSample definition

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

BeispieleingabeSample input

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

BeispielausgabeSample output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": -1
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Auftretende FehlerError cases

Wird der Sprachcode für das Dokument nicht unterstützt, wird ein Fehler zurückgegeben, und es werden keine Entitäten extrahiert.If the language code for the document is unsupported, an error is returned and no entities are extracted.

Weitere InformationenSee also