Formats de données acceptés par la compréhension du langage courant
Si vous chargez vos données dans CLU, elles doivent suivre un format spécifique. Utilisez cet article pour en savoir plus sur les formats de données acceptés.
Importer le format des fichiers projet
Si vous importez un projet dans CLU, le fichier chargé doit être au format suivant.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Clé | Espace réservé | Valeur | Exemple |
---|---|---|---|
{API-VERSION} |
Version de l’API que vous appelez. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Il s’agit du score seuil en dessous duquel l’intention est prédite en tant qu’intention none. Les valeurs sont comprises entre 0 et 1 |
0.7 |
projectName |
{PROJECT-NAME} |
Nom de votre projet. Cette valeur respecte la casse. | EmailApp |
multilingual |
true |
Valeur booléenne qui vous permet d’avoir des énoncés en plusieurs langues dans votre jeu de données. Une fois votre modèle déployé, vous pouvez l’interroger dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. | true |
sublists |
[] |
Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont combineComponents ou separateComponents . |
combineComponents |
synonyms |
[] |
Tableau contenant tous les synonymes | synonyme |
language |
{LANGUAGE-CODE} |
Chaîne spécifiant le code de langue des énoncés, des synonymes et des expressions régulières utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. | en-us |
intents |
[] |
Tableau contenant l’ensemble des intentions contenues dans le projet. Il s’agit des intentions qui seront classifiées à partir de vos énoncés. | [] |
entities |
[] |
Tableau contenant toutes les entités de votre projet. Il s’agit des intentions qui seront extraites de vos énoncés. Chaque entité peut être accompagnée de composants facultatifs supplémentaires : composant de liste, composant prédéfini ou composant regex. | [] |
dataset |
{DATASET} |
Jeu de test dans lequel cet énoncé est envoyé lors du fractionnement avant l’apprentissage. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test . |
Train |
category |
|
Type d’entité associé à l’étendue de texte spécifiée. | Entity1 |
offset |
|
La position du caractère inclusif du début de l'entité. | 5 |
length |
|
Longueur du caractère de l’entité. | 5 |
listKey |
|
Valeur normalisée pour la liste des synonymes à mapper dans la prédiction. | Microsoft |
values |
{VALUES-FOR-LIST} |
Liste de chaînes séparées par des virgules, qui doivent être mises en correspondance de manière exacte pour l’extraction, et qui sont mappées à la clé de liste. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Valeur normalisée pour l’expression régulière à mapper dans la prédiction. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Expression régulière. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Composants prédéfinis qui peuvent extraire les types courants. Vous trouverez la liste des composants prédéfinis que vous pouvez ajouter ici. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Paramètre qui spécifie la présence obligatoire d’un composant spécifique pour retourner l’entité. Vous pouvez en savoir plus ici. Les valeurs possibles sont : learned , regex , list ou prebuilts |
"learned", "prebuilt" |
Format de fichier de l’énoncé
CLU offre la possibilité de charger vos énoncés directement dans le projet plutôt que de les taper dans un par un. Vous trouverez cette option sur la page étiquetage des données de votre projet.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Clé | Espace réservé | Valeur | Exemple |
---|---|---|---|
text |
{Utterance-Text} |
Votre texte d’énoncé | Test |
language |
{LANGUAGE-CODE} |
Chaîne spécifiant le code de langue des énoncés utilisés dans votre projet. Si votre projet est multilingue, choisissez le code de langue de la majorité des énoncés. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. | en-us |
dataset |
{DATASET} |
Jeu de test dans lequel cet énoncé est envoyé lors du fractionnement avant l’apprentissage. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test . |
Train |
intent |
{intent} |
Intention affectée | intent1 |
entity |
{entity} |
Entité à extraire | entity1 |
category |
|
Type d’entité associé à l’étendue de texte spécifiée. | Entity1 |
offset |
|
Position de caractère inclusive du début du texte. | 0 |
length |
|
Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. | 500 |
Étapes suivantes
- Vous pouvez importer vos données étiquetées directement dans votre projet. Pour plus d’informations, consultez le projet d’importation.
- Pour plus d’informations sur l’étiquetage de vos données, consultez l’article Guide pratique. Une fois que vous avez fini d’étiqueter vos données, vous pouvez effectuer l’apprentissage de votre modèle.