Aptitud cognitiva para la extracción de frases clave

Artículo
11/15/2023

La aptitud Extracción de frases clave evalúa el texto no estructurado y, en cada registro, devuelve una lista de frases clave. Esta aptitud utiliza los modelos de aprendizaje automático de Frase clave que proporciona Azure AI Language.

Esta capacidad es útil si necesita identificar rápidamente los principales puntos de conversación en el registro. Por ejemplo, dado el texto de entrada "La comida estaba deliciosa y el personal era maravilloso", el servicio devuelve "comida" y "personal maravilloso".

Nota:

Esta aptitud está enlazada a los servicios de Azure AI y necesita un recurso facturable para las transacciones que superan los 20 documentos por indexador al día. La ejecución de aptitudes integradas se carga al actual precio de pago por uso de los servicios de Azure AI.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

Límites de datos

El tamaño máximo de un registro debe tener menos de 50 000 caracteres según la medición de String.Length. Si tiene que dividir los datos antes de enviarlos al extractor de frases clave, puede usar la aptitud de división de texto. Si usa una aptitud de división de texto, establezca la longitud de la página en 5000 para obtener el mejor rendimiento.

Parámetros de la aptitud

Los parámetros distinguen mayúsculas de minúsculas.

Entradas	Descripción
`defaultLanguageCode`	(Opcional) Es el código de idioma que se aplicará a los documentos que no especifiquen el lenguaje de forma explícita. Si no se especifica el código de idioma predeterminado, se usa Inglés (en). Vea Full list of supported languages (Lista completa de idiomas admitidos).
`maxKeyPhraseCount`	(Opcional) Es el número máximo de frases clave para producir.
`modelVersion`	(Opcional) Especifica la versión del modelo que se va a usar al llamar a la API de frases clave. Si no se especifica, el valor predeterminado es el más reciente disponible. Se recomienda no especificar este valor, salvo que sea estrictamente necesario.

Entradas de la aptitud

Entrada	Descripción
`text`	Texto que se va a analizar.
`languageCode`	Cadena que indica el idioma de los registros. Si no se especifica este parámetro, para analizar los registros se usa el código de idioma predeterminado. Vea Full list of supported languages (Lista completa de idiomas admitidos).

Salidas de la aptitud

Salida	Descripción
`keyPhrases`	Una lista de frases clave extraídas del texto de entrada. Las frases clave se devuelven por orden de importancia.

Definición de ejemplo

Considere un registro de SQL que tiene los siguientes campos:

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

Así podría ser la definición de la aptitud:

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

Salida de muestra

En el ejemplo anterior, el resultado de la aptitud se escribe en un nuevo nodo en el árbol enriquecido denominado "document/myKeyPhrases", ya que es el targetName que se ha especificado. Si no especifica un targetName, sería "document/keyPhrases".

document/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

El árbol "document/myKeyPhrases" se puede usar como entrada en otras aptitudes o como origen de una asignación de campos de salida.

Advertencias

Si especifica un código de idioma no admitido, se genera una advertencia y no se extraen las frases clave. Si el texto está vacío, se genera una advertencia. Si el texto tiene más de 50 000 caracteres, solo se analizan los primeros 50 000 caracteres y se emite una advertencia.