Komponen entitas
Dalam Pemahaman Bahasa Percakapan, entitas adalah bagian informasi yang relevan yang diekstraksi dari ucapan Anda. Entitas dapat diekstraksi dengan metode yang berbeda. Entitas itu dapat dipelajari melalui konteks, dicocokkan dari daftar, atau terdeteksi oleh entitas yang diakui sebelumnya. Setiap entitas dalam proyek Anda terdiri dari satu metode ini atau lebih, yang didefinisikan sebagai komponen entitas Anda. Ketika entitas didefinisikan oleh lebih dari satu komponen, prediksinya dapat tumpang tindih. Anda dapat menentukan perilaku prediksi entitas ketika komponennya tumpang tindih dengan menggunakan set opsi tetap dalam Opsi entitas.
Jenis komponen
Komponen entitas menentukan cara Anda dapat mengekstrak entitas. Entitas dapat berisi satu komponen, yang akan menentukan satu-satunya metode yang akan digunakan untuk mengekstrak entitas, atau beberapa komponen untuk memperluas cara entitas ditentukan dan diekstraksi.
Komponen yang dipelajari
Komponen yang dipelajari menggunakan ETag yang Anda beri label ucapan Anda untuk melatih model yang dipelajari mesin. Model belajar untuk memprediksi di mana entitas berada, berdasarkan konteks dalam ucapan. Label Anda memberikan contoh di mana entitas diharapkan ada dalam ucapan, berdasarkan arti kata-kata di sekitarnya dan sebagai kata-kata yang diberi label. Komponen ini hanya didefinisikan jika Anda menambahkan label dengan memberikan tag pada ucapan berdasarkan entitasnya. Jika Anda tidak memberikan tag pada ucapan apa pun menggunakan entitasnya, itu tidak akan memiliki komponen yang dipelajari.
Komponen daftar
Komponen daftar mewakili kumpulan kata-kata terkait yang tetap dan tertutup beserta sinonimnya. Komponen melakukan pencocokan teks yang tepat terhadap daftar nilai yang Anda berikan sebagai sinonim. Setiap sinonim milik "kunci daftar" yang dapat digunakan sebagai nilai standar yang dinormalisasi untuk sinonim yang akan kembali dalam output jika komponen daftar dicocokkan. Kunci daftar tidak digunakan untuk pencocokan.
Dalam proyek multibahasa, Anda dapat menentukan serangkaian sinonim yang berbeda untuk setiap bahasa. Saat menggunakan API prediksi, Anda dapat menentukan bahasa dalam permintaan input, yang hanya akan cocok dengan sinonim yang terkait dengan bahasa tersebut.
Komponen bawaan
Komponen bawaan memungkinkan Anda untuk memilih dari perpustakaan jenis umum seperti angka, tanggalwaktu, dan nama. Ketika ditambahkan, komponen bawaan secara otomatis terdeteksi. Anda dapat memiliki hingga lima komponen bawaan per entitas. Lihat daftar komponen bawaan yang didukung untuk informasi selengkapnya.
Komponen regex
Komponen regex cocok dengan ekspresi reguler untuk menangkap pola yang konsisten. Saat ditambahkan, teks apa pun yang cocok dengan ekspresi reguler akan diekstrak. Anda dapat memiliki beberapa ekspresi reguler dalam entitas yang sama, masing-masing dengan pengidentifikasi kunci yang berbeda. Ekspresi yang cocok akan mengembalikan kunci sebagai bagian dari respons prediksi.
Dalam proyek multibahasa, Anda dapat menentukan ekspresi yang berbeda untuk setiap bahasa. Saat menggunakan API prediksi, Anda dapat menentukan bahasa dalam permintaan input, yang hanya akan cocok dengan ekspresi reguler yang terkait dengan bahasa tersebut.
Opsi entitas
Ketika beberapa komponen didefinisikan untuk suatu entitas, prediksinya mungkin tumpang tindih. Saat tumpang tindih terjadi, prediksi akhir masing-masing entitas ditentukan oleh salah satu opsi berikut.
Menggabungkan komponen
Gabungkan komponen sebagai satu entitas saat tumpang tindih dengan mengambil gabungan semua komponen.
Gunakan ini untuk menggabungkan semua komponen saat tumpang tindih. Ketika komponen digabungkan, Anda mendapatkan semua informasi tambahan yang terkait dengan daftar atau komponen bawaan saat ada.
Contoh
Misalkan Anda memiliki entitas yang disebut Perangkat Lunak yang memiliki komponen daftar, yang berisi "OS Proseware" sebagai entri. Dalam data ucapan Anda, Anda memiliki "Saya ingin membeli Proseware OS 9" dengan "Proseware OS 9" yang ditandai sebagai Perangkat Lunak:
Dengan menggunakan komponen gabungan, entitas akan kembali dengan konteks lengkap sebagai "Proseware OS 9" bersama dengan kunci dari komponen daftar:
Misalkan Anda memiliki ucapan yang sama tetapi hanya "OS 9" yang diprediksi oleh komponen yang dipelajari:
Dengan menggunakan komponen gabungan, entitas akan kembali dengan konteks lengkap sebagai "Proseware OS 9" bersama dengan kunci dari komponen daftar:
Jangan gabungkan komponen
Setiap komponen yang tumpang tindih akan kembali sebagai instans terpisah dari entitas. Terapkan logika Anda sendiri setelah prediksi dengan opsi ini.
Contoh
Misalkan Anda memiliki entitas yang disebut Perangkat Lunak yang memiliki komponen daftar, yang berisi "OS Proseware" sebagai entri. Dalam data ucapan Anda, Anda memiliki "Saya ingin membeli Proseware Desktop Pro" dengan "Proseware Desktop Pro" yang ditandai sebagai Perangkat Lunak:
Ketika Anda tidak menggabungkan komponen, entitas akan kembali dua kali:
Komponen yang Diperlukan
Entitas terkadang dapat didefinisikan oleh beberapa komponen tetapi memerlukan satu atau beberapa dari mereka untuk hadir. Setiap komponen dapat diatur sesuai kebutuhan, yang berarti entitas tidak akan dikembalikan jika komponen tersebut tidak ada. Misalnya, jika Anda memiliki entitas dengan komponen daftar dan komponen yang dipelajari yang diperlukan, dijamin bahwa entitas yang dikembalikan menyertakan komponen yang dipelajari; jika tidak, entitas tidak akan dikembalikan.
Komponen yang diperlukan paling sering digunakan dengan komponen yang dipelajari, karena dapat membatasi jenis komponen lain ke konteks tertentu, yang umumnya terkait dengan peran. Anda juga dapat mengharuskan semua komponen untuk memastikan bahwa setiap komponen ada untuk entitas.
Di Language Studio, setiap komponen dalam entitas memiliki pengalih di sampingnya yang memungkinkan Anda mengaturnya sesuai kebutuhan.
Contoh
Misalkan Anda memiliki entitas yang disebut Kuantitas Tiket yang mencoba mengekstrak jumlah tiket yang ingin Anda pesan untuk penerbangan, untuk ucapan seperti "Pesan dua tiket besok ke Kairo".
Biasanya, Anda akan menambahkan komponen bawaan untuk Quantity.Number yang sudah mengekstrak semua angka. Namun jika entitas Anda hanya didefinisikan dengan bawaan, entitas tersebut juga akan mengekstrak nomor lain sebagai bagian dari entitas Kuantitas Tiket , seperti "Pesan dua tiket besok ke Kairo pukul 15.00 ".
Untuk mengatasinya, Anda akan memberi label komponen yang dipelajari dalam data pelatihan Anda untuk semua angka yang dimaksudkan sebagai Kuantitas Tiket. Entitas sekarang memiliki 2 komponen, bawaan yang mengetahui semua angka, dan yang dipelajari yang memprediksi di mana Jumlah Tiket berada dalam kalimat. Jika Anda memerlukan komponen yang dipelajari, Anda memastikan bahwa Kuantitas Tiket hanya kembali saat komponen yang dipelajari memprediksinya dalam konteks yang tepat. Jika Anda juga memerlukan komponen bawaan, Anda kemudian dapat menjamin bahwa entitas Kuantitas Tiket yang dikembalikan adalah angka dan di posisi yang benar.
Cara menggunakan komponen dan opsi
Komponen memberi Anda fleksibilitas untuk menentukan entitas Anda dengan lebih dari satu cara. Saat menggabungkan komponen, Anda memastikan bahwa setiap komponen diwakili dan Anda mengurangi jumlah entitas yang dikembalikan dalam prediksi Anda.
Praktik umumnya adalah memperluas komponen bawaan dengan daftar nilai yang mungkin tidak didukung oleh bawaan. Misalnya, jika Anda memiliki entitas Organisasi, yang memiliki komponen bawaan General.Organization yang ditambahkan ke entitas tersebut, entitas mungkin tidak memprediksi semua organisasi yang khusus untuk domain Anda. Anda dapat menggunakan komponen daftar untuk memperluas nilai entitas Organisasi dan dengan demikian memperluas bawaan dengan organisasi Anda sendiri.
Di lain waktu Anda mungkin tertarik untuk mengekstrak entitas melalui konteks seperti Produk dalam proyek ritel. Anda akan memberi label untuk komponen produk yang dipelajari untuk mempelajari di mana produk didasarkan pada posisinya dalam kalimat. Anda mungkin juga memiliki daftar produk yang sudah Anda ketahui sebelumnya yang selalu ingin Anda ekstrak. Menggabungkan kedua komponen dalam satu entitas memungkinkan Anda untuk mendapatkan kedua opsi untuk entitas.
Ketika Anda tidak menggabungkan komponen, Anda mengizinkan setiap komponen untuk bertindak sebagai ekstraktor entitas independen. Salah satu cara menggunakan opsi ini adalah dengan memisahkan entitas yang diekstrak dari daftar ke yang diekstrak melalui komponen yang dipelajari atau dibangun sebelumnya untuk menangani dan memperlakukannya secara berbeda.
Catatan
Sebelumnya selama pratinjau publik layanan, ada 4 opsi yang tersedia: Tumpang tindih terpanjang, Tumpang tindih persis, Union tumpang tindih, dan Kembalikan semua secara terpisah. Tumpang tindih terpanjang dan tumpang tindih yang persis tidak digunakan lagi dan hanya akan didukung untuk proyek yang sebelumnya memiliki opsi tersebut yang dipilih. Tumpang tindih gabungan telah diganti namanya menjadi Komponen gabungan, sementara Kembalikan semua secara terpisah telah diganti namanya menjadi Jangan gabungkan komponen.