Format data diterima oleh pemahaman bahasa percakapan

Artikel
12/19/2023

Jika Anda mengunggah data ke CLU, data tersebut harus mengikuti format tertentu, gunakan artikel ini untuk mempelajari selengkapnya tentang format data yang diterima.

Mengimpor format file proyek

Jika Anda mengimpor proyek ke CLU, file yang diunggah harus dalam format berikut.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Kunci	Tempat penampung	Nilai	Contoh
`{API-VERSION}`	Versi API yang Anda panggil.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Ini adalah skor ambang di bawah ini yang niatnya akan diprediksi sebagai niat tidak ada. Nilai berasal dari `0` ke `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`EmailApp`
`multilingual`	`true`	Nilai boolean yang memungkinkan Anda memiliki ucapan dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat mengkueri model dalam bahasa yang didukung (belum tentu disertakan dalam dokumen pelatihan Anda. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung.	`true`
`sublists`	`[]`	Array yang berisi sublist. Setiap sublist adalah kunci dan nilai terkaitnya.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Aturan yang menentukan cara mengelola beberapa komponen di entitas Anda. Opsinya adalah `combineComponents` atau `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Array yang berisi semua sinonim	sinonim
`language`	`{LANGUAGE-CODE}`	String yang menentukan kode bahasa untuk ucapan, sinonim, dan ekspresi reguler yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa dari sebagian besar ungkapan.	`en-us`
`intents`	`[]`	Array yang berisi semua niat yang Anda miliki dalam proyek. Ini adalah niat yang akan diklasifikasikan dari ucapan Anda.	`[]`
`entities`	`[]`	Array yang berisi semua entitas dalam proyek Anda. Ini adalah entitas yang akan diekstrak dari ucapan Anda. Setiap entitas dapat memiliki komponen opsional tambahan yang ditentukan dengan mereka: daftar, bawaan, atau regex.	`[]`
`dataset`	`{DATASET}`	Set pengujian yang akan dituju ucapan ini saat dipisah sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah `Train` dan `Test`.	`Train`
`category`		Jenis entitas yang terkait dengan rentang teks yang ditentukan.	`Entity1`
`offset`		Posisi karakter inklusif dari awal entitas.	`5`
`length`		Panjang karakter entitas.	`5`
`listKey`		Nilai yang dinormalisasi untuk daftar sinonim yang akan dipetakan kembali ke dalam prediksi.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Daftar string yang dipisahkan koma yang akan dicocokkan persis untuk ekstraksi dan petakan ke kunci daftar.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Nilai yang dinormalisasi untuk ekspresi reguler untuk memetakan kembali ke dalam prediksi.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Ekspresi reguler.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Komponen bawaan yang dapat mengekstrak jenis umum. Anda dapat menemukan daftar bawaan yang dapat Anda tambahkan di sini.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Pengaturan yang menentukan persyaratan bahwa komponen tertentu ada untuk mengembalikan entitas. Pelajari lebih lanjut di sini: Nilai yang mungkin adalah `learned`, `regex`, `list`, atau `prebuilts`	`"learned", "prebuilt"`

Format file ucapan

CLU menawarkan opsi untuk mengunggah ucapan Anda langsung ke proyek daripada mengetikkannya satu per satu. Anda dapat menemukan opsi ini di halaman pelabelan data untuk proyek Anda.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Kunci	Tempat penampung	Nilai	Contoh
`text`	`{Utterance-Text}`	Teks ucapan Anda	Pengujian
`language`	`{LANGUAGE-CODE}`	String yang menentukan kode bahasa untuk ucapan yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multi-bahasa, pilih kode bahasa dari sebagian besar ungkapan. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung.	`en-us`
`dataset`	`{DATASET}`	Set pengujian yang akan dituju ucapan ini saat dipisah sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah `Train` dan `Test`.	`Train`
`intent`	`{intent}`	Niat yang ditetapkan	intent1
`entity`	`{entity}`	Entitas yang akan diekstrak	entity1
`category`		Jenis entitas yang terkait dengan rentang teks yang ditentukan.	`Entity1`
`offset`		Posisi karakter inklusif dari awal teks.	`0`
`length`		Panjang kotak pembatas dalam hal karakter UTF16. Pelatihan hanya mempertimbangkan data di wilayah ini.	`500`

Langkah berikutnya

Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Lihat mengimpor proyek untuk informasi selengkapnya.
Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.

Share via

Format data diterima oleh pemahaman bahasa percakapan

Mengimpor format file proyek

Format file ucapan

Langkah berikutnya

Sumber Daya Tambahan: