Share via


Formats de données acceptés par la compréhension du langage courant

Si vous chargez vos données dans CLU, elles doivent suivre un format spécifique. Utilisez cet article pour en savoir plus sur les formats de données acceptés.

Importer le format des fichiers projet

Si vous importez un projet dans CLU, le fichier chargé doit être au format suivant.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Clé Espace réservé Valeur Exemple
{API-VERSION} Version de l’API que vous appelez. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Il s’agit du score seuil en dessous duquel l’intention est prédite en tant qu’intention none. Les valeurs sont comprises entre 0 et 1 0.7
projectName {PROJECT-NAME} Nom de votre projet. Cette valeur respecte la casse. EmailApp
multilingual true Valeur booléenne qui vous permet d’avoir des énoncés en plusieurs langues dans votre jeu de données. Une fois votre modèle déployé, vous pouvez l’interroger dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. true
sublists [] Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées. []
compositionSetting {COMPOSITION-SETTING} Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont combineComponents ou separateComponents. combineComponents
synonyms [] Tableau contenant tous les synonymes synonyme
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue des énoncés, des synonymes et des expressions régulières utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. en-us
intents [] Tableau contenant l’ensemble des intentions contenues dans le projet. Il s’agit des intentions qui seront classifiées à partir de vos énoncés. []
entities [] Tableau contenant toutes les entités de votre projet. Il s’agit des intentions qui seront extraites de vos énoncés. Chaque entité peut être accompagnée de composants facultatifs supplémentaires : composant de liste, composant prédéfini ou composant regex. []
dataset {DATASET} Jeu de test dans lequel cet énoncé est envoyé lors du fractionnement avant l’apprentissage. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test. Train
category Type d’entité associé à l’étendue de texte spécifiée. Entity1
offset La position du caractère inclusif du début de l'entité. 5
length Longueur du caractère de l’entité. 5
listKey Valeur normalisée pour la liste des synonymes à mapper dans la prédiction. Microsoft
values {VALUES-FOR-LIST} Liste de chaînes séparées par des virgules, qui doivent être mises en correspondance de manière exacte pour l’extraction, et qui sont mappées à la clé de liste. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Valeur normalisée pour l’expression régulière à mapper dans la prédiction. ProductPattern1
regexPattern {REGEX-PATTERN} Expression régulière. ^pre
prebuilts {PREBUILT-COMPONENTS} Composants prédéfinis qui peuvent extraire les types courants. Vous trouverez la liste des composants prédéfinis que vous pouvez ajouter ici. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Paramètre qui spécifie la présence obligatoire d’un composant spécifique pour retourner l’entité. Vous pouvez en savoir plus ici. Les valeurs possibles sont : learned, regex, list ou prebuilts "learned", "prebuilt"

Format de fichier de l’énoncé

CLU offre la possibilité de charger vos énoncés directement dans le projet plutôt que de les taper dans un par un. Vous trouverez cette option sur la page étiquetage des données de votre projet.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Clé Espace réservé Valeur Exemple
text {Utterance-Text} Votre texte d’énoncé Test
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue des énoncés utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. en-us
dataset {DATASET} Jeu de test dans lequel cet énoncé est envoyé lors du fractionnement avant l’apprentissage. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test. Train
intent {intent} Intention affectée intent1
entity {entity} Entité à extraire entity1
category Type d’entité associé à l’étendue de texte spécifiée. Entity1
offset Position de caractère inclusive du début du texte. 0
length Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. 500

Étapes suivantes