会話言語理解によって受け入れられるデータ形式

CLU にアップロードするデータは、特定の形式に従う必要があります。この記事を使用して、受け入れ可能なデータ形式の詳細を確認してください。

プロジェクト ファイル形式をインポートする

CLU にプロジェクトをインポートする場合、アップロードされるファイルは次の形式にする必要があります。

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Key プレースホルダー
{API-VERSION} 呼び出す API のバージョン 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} これはしきい値スコアです。これ未満の意図は None 意図として予測されます。 値は 0 から 1 です 0.7
projectName {PROJECT-NAME} プロジェクトの名前。 この値は、大文字と小文字が区別されます。 EmailApp
multilingual true データセットで複数の言語の発話を得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニング ドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。 サポートされている言語コードの詳細については、言語サポートを参照してください。 true
sublists [] サブリストを含む配列。 各サブリストは、キーとそれに関連する値です。 []
compositionSetting {COMPOSITION-SETTING} エンティティ内の複数のコンポーネントを管理する方法を定義するルール。 combineComponents または separateComponents のいずれかを選択できます。 combineComponents
synonyms [] すべてのシノニムを含む配列 シノニム
language {LANGUAGE-CODE} プロジェクトで使用される発話、シノニム、および正規表現の言語コードを指定する文字列。 プロジェクトが多言語プロジェクトの場合は、大多数の発話の言語コードを選択します。 en-us
intents [] プロジェクト内にあるすべての意図を含む配列。 これらは、発話から分類される意図です。 []
entities [] プロジェクト内のすべてのエンティティを含む配列。 これらは、発話から抽出されるエンティティです。 すべてのエンティティには、リスト、事前構築済み、または正規表現という追加のオプション コンポーネントを定義できます。 []
dataset {DATASET} トレーニングの前に分割する場合にこの発話の移動先となるテスト セット。 データの分割の詳細については、こちらを参照してください。 このフィールドで使用できる値は Train および Test です。 Train
category 指定されたテキストのスパンに関連付けられているエンティティ型。 Entity1
offset エンティティの開始文字位置 (その文字を含む)。 5
length エンティティの文字の長さ。 5
listKey 予測でマップし直すシノニムの一覧の正規化された値。 Microsoft
values {VALUES-FOR-LIST} 抽出用に正確に一致し、リスト キーにマップされるコンマ区切り文字列の一覧。 "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} 予測にマップし直すための正規表現の正規化された値。 ProductPattern1
regexPattern {REGEX-PATTERN} 正規表現。 ^pre
prebuilts {PREBUILT-COMPONENTS} 一般的な種類を抽出できる事前構築済みのコンポーネント。 ここで追加できる事前構築の一覧を見つけることができます。 Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} エンティティを返すために特定のコンポーネントが存在するという要件を指定する設定。 詳細については、ここを参照してください。 値には learnedregexlistprebuilts があります。 "learned", "prebuilt"

発話のファイル形式

CLU には、発話を 1 つずつ入力するのではなく、プロジェクトに直接アップロードするオプションが用意されています。 このオプションは、自分のプロジェクトのデータのラベル付けページにあります。

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Key プレースホルダー
text {Utterance-Text} 発話テキスト テスト
language {LANGUAGE-CODE} プロジェクトで使用される発話の言語コードを指定する文字列。 プロジェクトが多言語プロジェクトの場合は、大多数の発話の言語コードを選択します。 サポートされている言語コードの詳細については、言語サポートを参照してください。 en-us
dataset {DATASET} トレーニングの前に分割する場合にこの発話の移動先となるテスト セット。 データの分割の詳細については、こちらを参照してください。 このフィールドで使用できる値は Train および Test です。 Train
intent {intent} 割り当てられる意図 intent1
entity {entity} 抽出されるエンティティ entity1
category 指定されたテキストのスパンに関連付けられているエンティティ型。 Entity1
offset テキストの先頭の包括的な文字位置。 0
length UTF16 文字を基準とした場合の境界ボックスの長さ。 トレーニングではこの領域のデータのみが考慮されます。 500

次の手順