Competenza cognitiva riconoscimento entità (v2)

Articolo
10/20/2023

La competenza Riconoscimento entità (v2) estrae entità di tipi diversi dal testo. Questa competenza usa i modelli di Machine Learning forniti da Analisi del testo nei servizi di intelligenza artificiale di Azure.

Importante

La competenza Riconoscimento entità (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) ora non è più sostituita da Microsoft.Skills.Text.V3.EntityRecognitionSkill. Seguire le indicazioni riportate in Competenze deprecate per eseguire la migrazione a una competenza supportata.

Nota

Man mano che si espande l'ambito aumentando la frequenza di elaborazione, aggiungendo altri documenti o aggiungendo altri algoritmi di intelligenza artificiale, sarà necessario collegare una risorsa dei servizi di intelligenza artificiale di Azure fatturabile. Gli addebiti si accumulano quando si chiamano le API nei servizi di intelligenza artificiale di Azure e per l'estrazione di immagini come parte della fase di creazione di documenti in Ricerca di intelligenza artificiale di Azure. Non sono previsti addebiti per l'estrazione di testo dai documenti.

L'esecuzione di competenze predefinite viene addebitata al prezzo con pagamento in base al consumo dei servizi di intelligenza artificiale di Azure esistente. I prezzi di estrazione delle immagini sono descritti nella pagina dei prezzi di Ricerca di intelligenza artificiale di Azure.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Limiti dei dati

Le dimensioni massime di un record devono essere di 50.000 caratteri in base alla misurazione di String.Length. Se è necessario suddividere i dati prima di inviarli all'estrattore di frasi chiave, è possibile usare la competenza Divisione del testo. Se si usa una competenza di suddivisione del testo, impostare la lunghezza della pagina su 5000 per ottenere prestazioni ottimali.

Parametri della competenza

I parametri fanno distinzione tra maiuscole e minuscole e sono tutti facoltativi.

Nome parametro	Descrizione
`categories`	Matrice di categorie che devono essere estratte. Possibili tipi di categorie: `"Person"`, `"Location"`, `"Organization"`, `"Quantity"`, `"Datetime"`, `"URL"`, `"Email"`. Se non vengono fornite categorie, vengono restituiti tutti i tipi.
`defaultLanguageCode`	Codice lingua del testo di input. Sono supportate le lingue seguenti: `ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans`. Non tutte le categorie di entità sono supportate per tutte le lingue; vedere la nota seguente.
`minimumPrecision`	Immettere un valore compreso tra 0 e 1. Se il punteggio di attendibilità (nell'output) è inferiore a questo valore, l'entità `namedEntities` non viene restituita. Il valore predefinito è 0.
`includeTypelessEntities`	Impostare su `true` se si desidera riconoscere entità note che non rientrano nelle categorie correnti. Le entità riconosciute vengono restituite nel `entities` campo di output complesso. Ad esempio, "Windows 10" è un'entità nota (un prodotto), ma poiché "Products" non è una categoria supportata, questa entità verrà inclusa nel campo di output delle entità. L'impostazione predefinita è `false`

Input competenze

Nome input	Descrizione
`languageCode`	Facoltativo. Il valore predefinito è `"en"`.
`text`	Testo da analizzare.

Output competenze

Nota

non tutte le categorie di entità sono supportate per tutte le lingue. I "Person"tipi di categoria di entità , "Location"e "Organization" sono supportati per l'elenco completo delle lingue precedenti. Solo de, en, es, fr e zh-hans supportano l'estrazione di "Quantity"tipi , "Datetime""URL", e "Email" . Per altre informazioni, vedere Supporto di lingua e area geografica per l'API Analisi del testo.

Nome output	Descrizione
`persons`	Una matrice di stringhe in cui ogni stringa rappresenta il nome di una persona.
`locations`	Una matrice di stringhe in cui ogni stringa rappresenta il nome una posizione.
`organizations`	Una matrice di stringhe in cui ogni stringa rappresenta un'organizzazione.
`quantities`	Una matrice di stringhe in cui ogni stringa rappresenta una quantità.
`dateTimes`	Una matrice di stringhe in cui ogni stringa rappresenta un valore DateTime (come viene visualizzato nel testo).
`urls`	Una matrice di stringhe in cui ogni stringa rappresenta un URL
`emails`	Una matrice di stringhe in cui ogni stringa rappresenta un indirizzo di posta elettronica
`namedEntities`	Matrice di tipi complessi che contiene i campi seguenti: Categoria value (il nome effettivo dell'entità) offset (percorso in cui è stato trovato nel testo) attendibilità (valore più alto significa che è più un'entità reale)
`entities`	Matrice di tipi complessi che contiene informazioni dettagliate sulle entità estratte dal testo, con i campi seguenti name (nome effettivo dell'entità. Rappresenta un modulo "normalizzato") wikipediaId wikipediaLanguage wikipediaUrl (collegamento alla pagina di Wikipedia dell'entità) bingId type (categoria dell'entità riconosciuta) subType (disponibile solo per determinate categorie, in modo da offrire una visualizzazione più granulare del tipo di entità) matches (raccolta complessa contenente) testo (testo non elaborato per l'entità) offset (posizione in cui è stata trovata) length (lunghezza del testo dell'entità non elaborato)

Definizione di esempio

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Input di esempio

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Output di esempio

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Si noti che gli offset restituiti per le entità nell'output di questa competenza vengono restituiti direttamente dall'API Analisi del testo, ovvero se vengono usati per indicizzare nella stringa originale, è consigliabile usare la classe StringInfo in .NET per estrarre il contenuto corretto. Altri dettagli sono disponibili qui.

Casi di avviso

Se il codice linguistico per il documento non è supportato, viene restituito un avviso e non vengono estratte entità.