Dataformat som accepteras av konversationsspråkförståelse

Artikel
12/19/2023

Om du laddar upp dina data till CLU måste de följa ett visst format genom att använda den här artikeln för att lära dig mer om accepterade dataformat.

Importera projektfilformat

Om du importerar ett projekt till CLU måste den uppladdade filen ha följande format.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Nyckel	Platshållare	Värde	Exempel
`{API-VERSION}`	Den version av API:et som du anropar.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Det här är tröskelvärdet under vilket avsikten förutsägs som ingen avsikt. Värden är från `0` till `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Namnet på projektet. Det här värdet är skiftlägeskänsligt.	`EmailApp`
`multilingual`	`true`	Ett booleskt värde som gör att du kan ha yttranden på flera språk i datauppsättningen och när din modell distribueras kan du fråga modellen på alla språk som stöds (inte nödvändigtvis i dina träningsdokument. Mer information om språkkoder som stöds finns i Språkstöd .	`true`
`sublists`	`[]`	Matris som innehåller underlistor. Varje underlista är en nyckel och dess associerade värden.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel som definierar hur du hanterar flera komponenter i entiteten. Alternativen är `combineComponents` eller `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Matris som innehåller alla synonymer	Synonym
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för yttranden, synonymer och reguljära uttryck som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta yttrandena.	`en-us`
`intents`	`[]`	Matris som innehåller alla avsikter som du har i projektet. Det här är avsikterna som kommer att klassificeras från dina yttranden.	`[]`
`entities`	`[]`	Matris som innehåller alla entiteter i projektet. Det här är entiteterna som kommer att extraheras från dina yttranden. Varje entitet kan ha ytterligare valfria komponenter definierade med sig: lista, fördefinierad eller regex.	`[]`
`dataset`	`{DATASET}`	Testuppsättningen som det här yttrandet ska gå till vid delning före träning. Läs mer om datadelning här . Möjliga värden för det här fältet är `Train` och `Test`.	`Train`
`category`		Den typ av entitet som är associerad med det angivna textintervallet.	`Entity1`
`offset`		Inkluderande teckenposition för början av entiteten.	`5`
`length`		Entitetens teckenlängd.	`5`
`listKey`		Ett normaliserat värde för listan över synonymer som ska mappas tillbaka till i förutsägelsen.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	En lista med kommaavgränsade strängar som ska matchas exakt för extrahering och mappning till listnyckeln.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Ett normaliserat värde för det reguljära uttrycket som ska mappas tillbaka till i förutsägelsen.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Ett reguljärt uttryck.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	De fördefinierade komponenterna som kan extrahera vanliga typer. Du hittar listan med fördefinierade funktioner som du kan lägga till här.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	En inställning som anger ett krav på att en specifik komponent ska finnas för att returnera entiteten. Du kan läsa mer här. Möjliga värden är `learned`, `regex`, `list`eller `prebuilts`	`"learned", "prebuilt"`

Format för yttrandefil

CLU erbjuder alternativet att ladda upp ditt yttrande direkt till projektet i stället för att skriva in dem i en i taget. Du hittar det här alternativet på sidan med dataetiketter för projektet.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Nyckel	Platshållare	Värde	Exempel
`text`	`{Utterance-Text}`	Din yttrandetext	Testning
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för de yttranden som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta yttrandena. Mer information om språkkoder som stöds finns i Språkstöd .	`en-us`
`dataset`	`{DATASET}`	Testuppsättningen som det här yttrandet ska gå till vid delning före träning. Läs mer om datadelning här . Möjliga värden för det här fältet är `Train` och `Test`.	`Train`
`intent`	`{intent}`	Den tilldelade avsikten	intent1
`entity`	`{entity}`	Entitet som ska extraheras	entity1
`category`		Den typ av entitet som är associerad med det angivna textintervallet.	`Entity1`
`offset`		Textens inkluderande teckenposition.	`0`
`length`		Längden på avgränsningsrutan i termer av UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen.	`500`

Nästa steg

Du kan importera dina märkta data till projektet direkt. Mer information finns i Importera projekt .
Mer information om hur du etiketterar dina data finns i artikeln instruktioner. När du är klar med att märka dina data kan du träna din modell.

Share via

Dataformat som accepteras av konversationsspråkförståelse

Importera projektfilformat

Format för yttrandefil

Nästa steg

Ytterligare resurser