Format data diterima oleh pemahaman bahasa percakapan

Jika Anda mengunggah data ke CLU, data tersebut harus mengikuti format tertentu, gunakan artikel ini untuk mempelajari selengkapnya tentang format data yang diterima.

Mengimpor format file proyek

Jika Anda mengimpor proyek ke CLU, file yang diunggah harus dalam format berikut.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Kunci Tempat penampung Nilai Contoh
{API-VERSION} Versi API yang Anda panggil. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Ini adalah skor ambang di bawah ini yang niatnya akan diprediksi sebagai niat tidak ada. Nilai berasal dari 0 ke 1 0.7
projectName {PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. EmailApp
multilingual true Nilai boolean yang memungkinkan Anda memiliki ucapan dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat mengkueri model dalam bahasa yang didukung (belum tentu disertakan dalam dokumen pelatihan Anda. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung. true
sublists [] Array yang berisi sublist. Setiap sublist adalah kunci dan nilai terkaitnya. []
compositionSetting {COMPOSITION-SETTING} Aturan yang menentukan cara mengelola beberapa komponen di entitas Anda. Opsinya adalah combineComponents atau separateComponents. combineComponents
synonyms [] Array yang berisi semua sinonim sinonim
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk ucapan, sinonim, dan ekspresi reguler yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa dari sebagian besar ungkapan. en-us
intents [] Array yang berisi semua niat yang Anda miliki dalam proyek. Ini adalah niat yang akan diklasifikasikan dari ucapan Anda. []
entities [] Array yang berisi semua entitas dalam proyek Anda. Ini adalah entitas yang akan diekstrak dari ucapan Anda. Setiap entitas dapat memiliki komponen opsional tambahan yang ditentukan dengan mereka: daftar, bawaan, atau regex. []
dataset {DATASET} Set pengujian yang akan dituju ucapan ini saat dipisah sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train
category Jenis entitas yang terkait dengan rentang teks yang ditentukan. Entity1
offset Posisi karakter inklusif dari awal entitas. 5
length Panjang karakter entitas. 5
listKey Nilai yang dinormalisasi untuk daftar sinonim yang akan dipetakan kembali ke dalam prediksi. Microsoft
values {VALUES-FOR-LIST} Daftar string yang dipisahkan koma yang akan dicocokkan persis untuk ekstraksi dan petakan ke kunci daftar. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Nilai yang dinormalisasi untuk ekspresi reguler untuk memetakan kembali ke dalam prediksi. ProductPattern1
regexPattern {REGEX-PATTERN} Ekspresi reguler. ^pre
prebuilts {PREBUILT-COMPONENTS} Komponen bawaan yang dapat mengekstrak jenis umum. Anda dapat menemukan daftar bawaan yang dapat Anda tambahkan di sini. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Pengaturan yang menentukan persyaratan bahwa komponen tertentu ada untuk mengembalikan entitas. Pelajari lebih lanjut di sini: Nilai yang mungkin adalah learned, regex, list, atau prebuilts "learned", "prebuilt"

Format file ucapan

CLU menawarkan opsi untuk mengunggah ucapan Anda langsung ke proyek daripada mengetikkannya satu per satu. Anda dapat menemukan opsi ini di halaman pelabelan data untuk proyek Anda.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Kunci Tempat penampung Nilai Contoh
text {Utterance-Text} Teks ucapan Anda Pengujian
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk ucapan yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multi-bahasa, pilih kode bahasa dari sebagian besar ungkapan. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung. en-us
dataset {DATASET} Set pengujian yang akan dituju ucapan ini saat dipisah sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train
intent {intent} Niat yang ditetapkan intent1
entity {entity} Entitas yang akan diekstrak entity1
category Jenis entitas yang terkait dengan rentang teks yang ditentukan. Entity1
offset Posisi karakter inklusif dari awal teks. 0
length Panjang kotak pembatas dalam hal karakter UTF16. Pelatihan hanya mempertimbangkan data di wilayah ini. 500

Langkah berikutnya

  • Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Lihat mengimpor proyek untuk informasi selengkapnya.
  • Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.