Aptitud cognitiva de reconocimiento de entidadesEntity Recognition cognitive skill

La aptitud Reconocimiento de entidades extrae entidades de distintos tipos del texto.The Entity Recognition skill extracts entities of different types from text. Esta aptitud utiliza los modelos de aprendizaje automático proporcionados por Text Analytics en Cognitive Services.This skill uses the machine learning models provided by Text Analytics in Cognitive Services.

Nota

A medida que expanda el ámbito aumentando la frecuencia de procesamiento, agregando más documentos o agregando más algoritmos de IA, tendrá que asociar un recurso facturable de Cognitive Services.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Los cargos se acumulan cuando se llama a las API de Cognitive Services y por la extracción de imágenes como parte de la fase de descifrado de documentos de Azure Cognitive Search.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Cognitive Search. No hay ningún cargo por la extracción de texto de documentos.There are no charges for text extraction from documents.

La ejecución de aptitudes integradas se cobra según los precios de pago por uso de Cognitive Services existentes.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. Los precios de la extracción de imágenes se describen en la página de precios de Búsqueda cognitiva de Azure.Image extraction pricing is described on the Azure Cognitive Search pricing page.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkillMicrosoft.Skills.Text.EntityRecognitionSkill

Límites de datosData limits

El tamaño máximo de un registro debe ser de 50 000 caracteres, medidos por String.Length.The maximum size of a record should be 50,000 characters as measured by String.Length. Si tiene que dividir los datos antes de enviarlos al extractor de frases clave, puede usar la aptitud de división de texto.If you need to break up your data before sending it to the key phrase extractor, consider using the Text Split skill.

Parámetros de la aptitudSkill parameters

Los parámetros distinguen mayúsculas de minúsculas y son opcionales.Parameters are case-sensitive and are all optional.

Nombre de parámetroParameter name DESCRIPCIÓNDescription
categoriescategories Matriz de categorías que se deben extraer.Array of categories that should be extracted. Tipos de categorías posibles: "Person", "Location", "Organization", "Quantity", "Datetime", "URL", "Email".Possible category types: "Person", "Location", "Organization", "Quantity", "Datetime", "URL", "Email". Si no se proporciona ninguna categoría, se devuelven todos los tipos.If no category is provided, all types are returned.
defaultLanguageCodedefaultLanguageCode Código de idioma del texto de entrada.Language code of the input text. Se admiten los siguientes idiomas: de, en, es, fr, itThe following languages are supported: de, en, es, fr, it
minimumPrecisionminimumPrecision Un valor entre 0 y 1.A value between 0 and 1. Si la puntuación de confianza (en el resultado namedEntities) es inferior a este valor, no se devuelve la entidad.If the confidence score (in the namedEntities output) is lower than this value, the entity is not returned. El valor predeterminado es 0.The default is 0.
includeTypelessEntitiesincludeTypelessEntities Establézcalo en true si desea reconocer entidades conocidas que no se ajustan a las categorías actuales.Set to true if you want to recognize well-known entities that don't fit the current categories. Las entidades reconocidas se devuelven en el campo de salida complejo entities.Recognized entities are returned in the entities complex output field. Por ejemplo, "Windows 10" es una entidad conocida (un producto), pero como "Productos" no es una categoría admitida, esta entidad se incluiría en el campo de salida de las entidades.For example, "Windows 10" is a well-known entity (a product), but since "Products" is not a supported category, this entity would be included in the entities output field. El valor predeterminado es falseDefault is false

Entradas de la aptitudSkill inputs

Nombre de entradaInput name DESCRIPCIÓNDescription
languageCodelanguageCode Opcional.Optional. El valor predeterminado es "en".Default is "en".
texttext Texto que se analizará.The text to analyze.

Salidas de la aptitudSkill outputs

Nota

No todas las categorías de entidad son compatibles con todos los idiomas.Not all entity categories are supported for all languages. Solo en, es admiten la extracción de los tipos "Quantity", "Datetime", "URL" y "Email".Only en, es support extraction of "Quantity", "Datetime", "URL", "Email" types.

Nombre de salidaOutput name DESCRIPCIÓNDescription
personspersons Una matriz de cadenas donde cada cadena representa el nombre de una persona.An array of strings where each string represents the name of a person.
locationslocations Una matriz de cadenas donde cada cadena representa una ubicación.An array of strings where each string represents a location.
organizationsorganizations Una matriz de cadenas donde cada cadena representa una organización.An array of strings where each string represents an organization.
quantitiesquantities Una matriz de cadenas donde cada cadena representa una cantidad.An array of strings where each string represents a quantity.
dateTimesdateTimes Una matriz de cadenas donde cada cadena representa un valor de fecha y hora (como aparece en el texto).An array of strings where each string represents a DateTime (as it appears in the text) value.
urlsurls Una matriz de cadenas donde cada cadena representa una dirección URL.An array of strings where each string represents a URL
emailsemails Una matriz de cadenas donde cada cadena representa un correo electrónico.An array of strings where each string represents an email
namedEntitiesnamedEntities Una matriz de tipos complejos, que contiene los siguientes campos:An array of complex types that contains the following fields:
  • categorycategory
  • valor (el nombre de entidad real)value (The actual entity name)
  • desplazamiento (la ubicación donde se encontró en el texto)offset (The location where it was found in the text)
  • confianza (cuanto más alto sea el valor, más real será una entidad)confidence (Higher value means it's more to be a real entity)
entitiesentities Una matriz de tipos complejos que contiene información valiosa acerca de las entidades extraídas del texto, con los siguientes campos:An array of complex types that contains rich information about the entities extracted from text, with the following fields
  • name (el nombre real de la entidad.name (the actual entity name. Esto representa una forma "normalizada")This represents a "normalized" form)
  • wikipediaIdwikipediaId
  • wikipediaLanguagewikipediaLanguage
  • wikipediaUrl (un vínculo a la página de Wikipedia de la entidad)wikipediaUrl (a link to Wikipedia page for the entity)
  • bingIdbingId
  • type (la categoría de la entidad reconocida)type (the category of the entity recognized)
  • subType (solo disponible para determinadas categorías; proporciona una vista más pormenorizada del tipo de entidad)subType (available only for certain categories, this gives a more granular view of the entity type)
  • matches (una colección compleja que contiene)matches (a complex collection that contains)
    • text (el texto sin formato de la entidad)text (the raw text for the entity)
    • offset (la ubicación donde se encontró)offset (the location where it was found)
    • length (la longitud del texto de la entidad sin formato)length (the length of the raw entity text)

Definición de ejemploSample definition

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Entrada de ejemploSample input

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Salida de ejemploSample output

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Casos de errorError cases

Si no se admite el código de idioma del documento, se devuelve un error y no se extrae ninguna entidad.If the language code for the document is unsupported, an error is returned and no entities are extracted.

Otras referenciasSee also