Jak používat rozpoznávání pojmenovaných entit v Analýza textuHow to use Named Entity Recognition in Text Analytics

Rozhraní API pro analýzu textu umožňuje přebírá nestrukturovaný text a vrací seznam nejednoznačných entit s odkazy na Další informace na webu.The Text Analytics API lets you takes unstructured text and returns a list of disambiguated entities, with links to more information on the web. Rozhraní API podporuje rozpoznávání pojmenovaných entit (NER) i propojení entit.The API supports both named entity recognition (NER) and entity linking.

Entity LinkingEntity Linking

Propojení entit je schopnost identifikovat a odstranit identitu entity nalezenou v textu (například určit, zda výskyt slova "Mars" odkazuje na globálním nebo římské jsou války).Entity linking is the ability to identify and disambiguate the identity of an entity found in text (for example, determining whether an occurrence of the word "Mars" refers to the planet, or to the Roman god of war). Tento proces vyžaduje přítomnost znalostní báze v příslušném jazyce, aby bylo možné propojit rozpoznané entity v textu.This process requires the presence of a knowledge base in an appropriate language, to link recognized entities in text. Při propojování entit se jako tato znalostní báze používá Wikipedii .Entity Linking uses Wikipedia as this knowledge base.

Rozpoznávání pojmenovaných entit (NER)Named Entity Recognition (NER)

Rozpoznávání pojmenovaných entit (NER) je schopnost identifikovat různé entity v textu a kategorizovat je do předem definovaných tříd nebo typů, jako je například osoba, umístění, událost, produkt a organizace.Named Entity Recognition (NER) is the ability to identify different entities in text and categorize them into pre-defined classes or types such as: person, location, event, product and organization.

Verze a funkce pro rozpoznávání pojmenovaných entitNamed Entity Recognition versions and features

Důležité

Rozhraní API pro analýzu textu V3 není k dispozici v následujících oblastech: Čína – sever 2 Čína – východ.Text Analytics API v3 is not available in the following regions: China North 2, China East.

FunkceFeature NER v 3.0NER v3.0 NER verze 3.1 – Preview. 2NER v3.1-preview.2
Metody pro jednotlivé a dávkové požadavkyMethods for single, and batch requests XX XX
Rozšířené rozpoznávání entit napříč několika kategoriemiExpanded entity recognition across several categories XX XX
Samostatné koncové body pro posílání NER entit a žádostí o připojení.Separate endpoints for sending entity linking and NER requests. XX XX
Rozpoznávání osobních entit ( PII ) a PHI informací o stavu ()Recognition of personal (PII) and health (PHI) information entities ×X

Informace najdete v tématu Podpora jazyků .See language support for information.

Typy entitEntity types

Rozpoznávání pojmenovaných entit V3 poskytuje rozšířené zjišťování napříč více typy.Named Entity Recognition v3 provides expanded detection across multiple types. V současné době NER v 3.0 dokáže rozpoznat entity v kategorii obecné entity.Currently, NER v3.0 can recognize entities in the general entity category.

Rozpoznávání pojmenovaných entit v 3.1-Preview. 2 zahrnuje možnosti detekce v 3.0 a možnost detekovat osobní údaje ( PII ) pomocí v3.1-preview.2/entities/recognition/pii koncového bodu.Named Entity Recognition v3.1-preview.2 includes the detection capabilities of v3.0, and the ability to detect personal information (PII) using the v3.1-preview.2/entities/recognition/pii endpoint. domain=phiK detekci důvěrných informací o stavu () můžete použít volitelný parametr PHI .You can use the optional domain=phi parameter to detect confidential health information (PHI). Další informace najdete níže v části věnované předmětům kategorie a koncovým bodům žádosti .See the entity categories article, and request endpoints section below for more information.

Odesílá se žádost o REST API.Sending a REST API request

PřípravaPreparation

Je nutné mít dokumenty JSON v tomto formátu: ID, text, jazyk.You must have JSON documents in this format: ID, text, language.

Každý dokument musí být pod 5 120 znaky a pro každou kolekci můžete mít až 1 000 položek (ID).Each document must be under 5,120 characters, and you can have up to 1,000 items (IDs) per collection. Kolekce se posílá v textu žádosti.The collection is submitted in the body of the request.

Strukturování žádostiStructure the request

Vytvořte žádost POST.Create a POST request. Můžete použít post nebo konzolu testování API v následujících odkazech k rychlému uspořádání a odeslání jednoho.You can use Postman or the API testing console in the following links to quickly structure and send one.

Poznámka

Klíč a koncový bod pro váš Analýza textu prostředek najdete na webu Azure Portal.You can find your key and endpoint for your Text Analytics resource on the azure portal. Budou se nacházet na stránce rychlý Start prostředku v části Správa prostředků.They will be located on the resource's Quick start page, under resource management.

Koncové body požadavkuRequest endpoints

Rozpoznávání pojmenovaných entit v3.1-preview.2 používá samostatné koncové body pro žádosti ner a propojení entit.Named Entity Recognition v3.1-preview.2 uses separate endpoints for NER and entity linking requests. V závislosti na vaší žádosti použijte formát adresy URL:Use a URL format below based on your request:

Propojení entitEntity linking

  • https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v3.1-preview.2/entities/linking

Verze rozpoznávání pojmenovaných entit verze 3,1-Preview pro LinkingNamed Entity Recognition version 3.1-preview reference for Linking

NERNER

  • Obecné entity – https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v3.1-preview.2/entities/recognition/generalGeneral entities - https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v3.1-preview.2/entities/recognition/general

Verze rozpoznávání pojmenovaných entit verze 3,1-Preview pro GeneralNamed Entity Recognition version 3.1-preview reference for General

  • Osobní ( PII ) informace – https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v3.1-preview.2/entities/recognition/piiPersonal (PII) information - https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v3.1-preview.2/entities/recognition/pii

domain=phiK detekci PHI informací o stavu () v textu můžete použít také volitelný parametr.You can also use the optional domain=phi parameter to detect health (PHI) information in text.

https://<your-custom-subdomain>.cognitiveservices.azure.com/text/analytics/v3.1-preview.2/entities/recognition/pii?domain=phi

Všimněte si, že přidání redactedText vlastnosti do odpovědi JSON, která obsahuje upravený vstupní text, kde jsou zjištěné entity PII nahrazeny znakem * pro každý znak entit.Please note the addition of the redactedText property in the response JSON which contains the modified input text where the detected PII entities are replaced by an * for each character of the entities.

Verze rozpoznávání pojmenovaných entit verze 3,1-Preview pro PIINamed Entity Recognition version 3.1-preview reference for PII

Nastavte hlavičku požadavku tak, aby obsahovala klíč rozhraní API pro analýzu textu.Set a request header to include your Text Analytics API key. V textu žádosti zadejte dokumenty JSON, které jste připravili.In the request body, provide the JSON documents you prepared.

Příklad žádosti NERExample NER request

Následuje příklad obsahu, který můžete odeslat do rozhraní API.The following is an example of content you might send to the API. Formát požadavku je pro obě verze rozhraní API stejný.The request format is the same for both versions of the API.

{
  "documents": [
    {
        "id": "1",
        "language": "en",
        "text": "Our tour guide took us up the Space Needle during our trip to Seattle last week."
    }
  ]
}

Publikování žádostiPost the request

Analýza se provede po přijetí žádosti.Analysis is performed upon receipt of the request. Informace o velikosti a počtu požadavků, které můžete odeslat za minutu a sekundy, najdete v části omezení dat v přehledu.See the data limits section in the overview for information on the size and number of requests you can send per minute and second.

Rozhraní API pro analýzu textu je Bezstavová.The Text Analytics API is stateless. Ve vašem účtu se neukládají žádná data a výsledky se vrátí hned v odpovědi.No data is stored in your account, and results are returned immediately in the response.

Zobrazení výsledkůView results

Všechny žádosti POST vrátí odpověď ve formátu JSON s ID a zjištěnými vlastnostmi entity.All POST requests return a JSON formatted response with the IDs and detected entity properties.

Výstup se vrátí okamžitě.Output is returned immediately. Výsledky můžete streamovat do aplikace, která přijímá JSON, nebo můžete výstup uložit do souboru v místním systému a potom ho naimportovat do aplikace, která umožňuje řadit a vyhledávat data a pracovat s nimi.You can stream the results to an application that accepts JSON or save the output to a file on the local system, and then import it into an application that allows you to sort, search, and manipulate the data. Vzhledem k podpoře vícejazyčných a Emoji může odpověď obsahovat posunutí textu.Due to multilingual and emoji support, the response may contain text offsets. Další informace najdete v tématu postup zpracování posunutí textu .See how to process text offsets for more information.

Příklady odpovědíExample responses

Verze 3 poskytuje samostatné koncové body pro obecné NER, PII a propojení entit.Version 3 provides separate endpoints for general NER, PII and entity linking. Odpovědi pro obě operace jsou uvedené níže.The responses for both operations are below.

Příklad odpovědi PII:Example of a PII response:

{
  "documents": [
    {
    "redactedText": "You can even pre-order from their online menu at *************************, call ************ or send email to ***************************!",
    "id": "0",
    "entities": [
        {
        "text": "www.contososteakhouse.com",
        "category": "URL",
        "offset": 49,
        "length": 25,
        "confidenceScore": 0.8
        }, 
        {
        "text": "312-555-0176",
        "category": "Phone Number",
        "offset": 81,
        "length": 12,
        "confidenceScore": 0.8
        }, 
        {
        "text": "order@contososteakhouse.com",
        "category": "Email",
        "offset": 111,
        "length": 27,
        "confidenceScore": 0.8
        }
      ],
    "warnings": []
    }
  ],
  "errors": [],
  "modelVersion": "2020-07-01"
}

Příklad odpovědi na propojení entity:Example of an Entity linking response:

{
  "documents": [
    {
      "id": "1",
      "entities": [
        {
          "bingId": "f8dd5b08-206d-2554-6e4a-893f51f4de7e", 
          "name": "Space Needle",
          "matches": [
            {
              "text": "Space Needle",
              "offset": 30,
              "length": 12,
              "confidenceScore": 0.4
            }
          ],
          "language": "en",
          "id": "Space Needle",
          "url": "https://en.wikipedia.org/wiki/Space_Needle",
          "dataSource": "Wikipedia"
        },
        {
          "bingId": "5fbba6b8-85e1-4d41-9444-d9055436e473",
          "name": "Seattle",
          "matches": [
            {
              "text": "Seattle",
              "offset": 62,
              "length": 7,
              "confidenceScore": 0.25
            }
          ],
          "language": "en",
          "id": "Seattle",
          "url": "https://en.wikipedia.org/wiki/Seattle",
          "dataSource": "Wikipedia"
        }
      ],
      "warnings": []
    }
  ],
  "errors": [],
  "modelVersion": "2020-02-01"
}

SouhrnSummary

V tomto článku jste zjistili koncepty a pracovní postupy pro propojení entit pomocí Analýza textu v Cognitive Services.In this article, you learned concepts and workflow for entity linking using Text Analytics in Cognitive Services. Souhrn:In summary:

  • Dokumenty JSON v textu požadavku zahrnují ID, text a kód jazyka.JSON documents in the request body include an ID, text, and language code.
  • Žádosti POST se odesílají do jednoho nebo více koncových bodů s použitím přizpůsobeného přístupového klíče a koncového bodu , který je platný pro vaše předplatné.POST requests are sent to one or more endpoints, using a personalized access key and an endpoint that is valid for your subscription.
  • Výstup odpovědi, který se skládá z propojených entit (včetně hodnocení spolehlivosti, posunu a webových odkazů, pro každé ID dokumentu), se dá použít v libovolné aplikaci.Response output, which consists of linked entities (including confidence scores, offsets, and web links, for each document ID) can be used in any application

Další krokyNext steps