Formats de données acceptés par la compréhension du langage courant

Article
12/19/2023

Si vous chargez vos données dans CLU, elles doivent suivre un format spécifique. Utilisez cet article pour en savoir plus sur les formats de données acceptés.

Importer le format des fichiers projet

Si vous importez un projet dans CLU, le fichier chargé doit être au format suivant.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Clé	Espace réservé	Valeur	Exemple
`{API-VERSION}`	Version de l’API que vous appelez.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Il s’agit du score seuil en dessous duquel l’intention est prédite en tant qu’intention none. Les valeurs sont comprises entre `0` et `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`EmailApp`
`multilingual`	`true`	Valeur booléenne qui vous permet d’avoir des énoncés en plusieurs langues dans votre jeu de données. Une fois votre modèle déployé, vous pouvez l’interroger dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge.	`true`
`sublists`	`[]`	Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont `combineComponents` ou `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Tableau contenant tous les synonymes	synonyme
`language`	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des énoncés, des synonymes et des expressions régulières utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés.	`en-us`
`intents`	`[]`	Tableau contenant l’ensemble des intentions contenues dans le projet. Il s’agit des intentions qui seront classifiées à partir de vos énoncés.	`[]`
`entities`	`[]`	Tableau contenant toutes les entités de votre projet. Il s’agit des intentions qui seront extraites de vos énoncés. Chaque entité peut être accompagnée de composants facultatifs supplémentaires : composant de liste, composant prédéfini ou composant regex.	`[]`
`dataset`	`{DATASET}`	Jeu de test dans lequel cet énoncé est envoyé lors du fractionnement avant l’apprentissage. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont `Train` et `Test`.	`Train`
`category`		Type d’entité associé à l’étendue de texte spécifiée.	`Entity1`
`offset`		La position du caractère inclusif du début de l'entité.	`5`
`length`		Longueur du caractère de l’entité.	`5`
`listKey`		Valeur normalisée pour la liste des synonymes à mapper dans la prédiction.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Liste de chaînes séparées par des virgules, qui doivent être mises en correspondance de manière exacte pour l’extraction, et qui sont mappées à la clé de liste.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Valeur normalisée pour l’expression régulière à mapper dans la prédiction.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Expression régulière.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Composants prédéfinis qui peuvent extraire les types courants. Vous trouverez la liste des composants prédéfinis que vous pouvez ajouter ici.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Paramètre qui spécifie la présence obligatoire d’un composant spécifique pour retourner l’entité. Vous pouvez en savoir plus ici. Les valeurs possibles sont : `learned`, `regex`, `list` ou `prebuilts`	`"learned", "prebuilt"`

Format de fichier de l’énoncé

CLU offre la possibilité de charger vos énoncés directement dans le projet plutôt que de les taper dans un par un. Vous trouverez cette option sur la page étiquetage des données de votre projet.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Clé	Espace réservé	Valeur	Exemple
`text`	`{Utterance-Text}`	Votre texte d’énoncé	Test
`language`	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue des énoncés utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge.	`en-us`
`dataset`	`{DATASET}`	Jeu de test dans lequel cet énoncé est envoyé lors du fractionnement avant l’apprentissage. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont `Train` et `Test`.	`Train`
`intent`	`{intent}`	Intention affectée	intent1
`entity`	`{entity}`	Entité à extraire	entity1
`category`		Type d’entité associé à l’étendue de texte spécifiée.	`Entity1`
`offset`		Position de caractère inclusive du début du texte.	`0`
`length`		Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région.	`500`

Étapes suivantes

Vous pouvez importer vos données étiquetées directement dans votre projet. Pour plus d’informations, consultez le projet d’importation.
Pour plus d’informations sur l’étiquetage de vos données, consultez l’article Guide pratique. Une fois que vous avez fini d’étiqueter vos données, vous pouvez effectuer l’apprentissage de votre modèle.

Share via

Formats de données acceptés par la compréhension du langage courant

Importer le format des fichiers projet

Format de fichier de l’énoncé

Étapes suivantes

Ressources supplémentaires