Compétence cognitive Extraction de phrases clés

Article
11/15/2023

La compétence Extraction de phrases clés évalue un texte non structuré puis, pour chaque enregistrement, retourne une liste de phrases clés. Cette compétence utilise les modèles Machine Learning Phrase clé fournis dans Azure AI Language.

Cette fonctionnalité est utile si vous avez besoin d’identifier rapidement les principaux points de discours dans l’enregistrement. Par exemple, si nous considérons le texte d’entrée « la nourriture était délicieuse et le personnel était merveilleux », le service retourne « nourriture » et « personnel merveilleux ».

Remarque

Cette compétence est liée aux services Azure AI et nécessite une ressource facturable pour les transactions qui dépassent 20 documents par indexeur et par jour. L'exécution des compétences intégrées est facturée au prix actuel du paiement à l'utilisation des services Azure AI.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

Limites de données

La taille maximale d’un enregistrement doit être de 50 000 caractères telle que mesurée par String.Length. Si vous devez subdiviser vos données avant de les envoyer à l’extracteur de phrases clés, envisagez d’utiliser la compétence Fractionnement de texte. Si vous utilisez une compétence de fractionnement de texte, définissez la longueur de la page sur 5 000 pour obtenir les meilleures performances.

Paramètres de la compétence

Les paramètres respectent la casse.

Entrées	Description
`defaultLanguageCode`	(Facultatif) Code de langue à appliquer aux documents qui ne spécifient pas explicitement une langue. Si le code de langue par défaut n’est pas spécifié, l’anglais (en) est utilisé comme code de langue par défaut. Voir la liste complète des langues prises en charge.
`maxKeyPhraseCount`	(Facultatif) Nombre maximal de phrases clés à produire.
`modelVersion`	(Facultatif) Précisez la version du modèle à utiliser pour appeler l’API de la phrase clé. Si rien n’est spécifié, c’est la dernière version disponible qui est utilisée par défaut. Nous vous recommandons de ne pas spécifier cette valeur, sauf nécessité.

Entrées de la compétence

Input	Description
`text`	Texte à analyser.
`languageCode`	Chaîne indiquant la langue des enregistrements. Si ce paramètre n’est pas spécifié, le code de langue par défaut est utilisé pour l’analyse des enregistrements. Voir la liste complète des langues prises en charge.

Sorties de la compétence

Sortie	Description
`keyPhrases`	Liste des expressions clés extraites du texte d’entrée. Les expressions clés sont retournées par ordre d’importance.

Exemple de définition

Prenons l’exemple d’un enregistrement SQL qui contient les champs suivants :

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

Votre définition de compétence peut se présenter comme suit :

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

Exemple de sortie

Dans l’exemple précédent, la sortie de votre compétence est écrite dans un nouveau nœud dans l’arborescence enrichie nommé « document/myKeyPhrases », car il s’agit du targetName que nous avons spécifié. Si vous ne spécifiez pas de targetName, le nom du nœud sera « document/keyPhrases ».

document/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

Vous pouvez utiliser « document/myKeyPhrases » comme entrée dans d’autres compétences, ou comme source d’un mappage de champs de sortie.

Avertissements

Si vous indiquez un code de langue non pris en charge, un avertissement est généré, et les phrases clés ne sont pas extraites. Si votre texte est vide, un avertissement est créé. Si votre texte comprend plus de 50 000 caractères, seuls les 50 000 premiers caractères sont analysés et un avertissement est émis.