Ucapan
Ucapan adalah input dari pengguna yang perlu ditafsirkan oleh aplikasi Anda. Untuk melatih LUIS agar mengekstrak niat dan entitas dari input ini, penting untuk mengambil berbagai contoh ucapan untuk setiap niat. Pembelajaran aktif, atau proses terus melatih ucapan-ucapan baru, sangat penting untuk kecerdasan pembelajaran mesin yang disediakan LUIS.
Kumpulkan ucapan yang menurut Anda akan dimasukkan pengguna. Sertakan ucapan, yang memiliki arti yang sama tetapi tersusun dalam berbagai cara:
- Panjang ucapan - pendek, sedang, dan panjang untuk aplikasi klien Anda
- Panjang kata dan frasa
- Penempatan kata - entitas di awal, tengah, dan akhir ucapan
- Tata bahasa
- Pluralisasi
- Ekstraksi kata dasar
- Pilihan kata benda dan kata kerja
- Tanda baca - menggunakan tata bahasa yang benar maupun yang salah
Memilih variasi ucapan
Saat memulai menambahkan ucapan contoh ke model LUIS Anda, ada beberapa prinsip yang perlu diperhatikan:
Ucapan tidak selalu terbentuk dengan baik
Aplikasi Anda mungkin perlu memproses kalimat, seperti "Pesan tiket ke Paris untuk saya", atau fragmen kalimat, seperti "Pemesanan" atau "Penerbangan ke Paris" Pengguna juga sering membuat kesalahan ejaan. Saat merencanakan aplikasi Anda, pertimbangkan apakah Anda akan menggunakan Pemeriksa Ejaan Bing untuk memperbaiki input pengguna sebelum meneruskannya ke LUIS atau tidak.
Jika tidak memeriksa ejaan ucapan pengguna, Anda harus melatih LUIS dengan ucapan yang mencakup kesalahan ketik dan kesalahan ejaan.
Gunakan bahasa perwakilan dari pengguna
Saat memilih ucapan, ketahuilah bahwa apa yang Anda anggap sebagai istilah atau frasa umum mungkin tidak umum bagi pengguna umum aplikasi klien Anda. Mereka mungkin tidak memiliki pengalaman domain atau menggunakan terminologi yang berbeda. Berhati-hatilah saat menggunakan istilah atau frasa yang hanya akan diucapkan pengguna jika mereka ahli.
Memilih terminologi dan frasa yang bervariasi
Anda akan menemukan bahwa bahkan jika Anda melakukan upaya untuk membuat pola kalimat yang bervariasi, Anda masih akan mengulangi beberapa kosakata. Misalnya, ucapan berikut memiliki arti yang sama, tetapi terminologi dan frasanya berbeda:
- "Bagaimana cara mendapatkan komputer?"
- "Di mana saya bisa mendapatkan komputer?"
- "Saya ingin mendapatkan komputer, bagaimana cara melakukannya?"
- "Kapan saya bisa memiliki komputer?"
Istilah inti di sini, komputer, tidak bervariasi. Gunakan alternatif seperti komputer desktop, laptop, workstation, atau bahkan hanya mesin. LUIS dapat secara cerdas menyimpulkan sinonim dari konteks, tetapi ketika Anda membuat ucapan untuk pelatihan, lebih baik Anda memvariasikannya.
Contoh ucapan dalam setiap niat
Setiap niat perlu memiliki ucapan contoh - setidaknya 15. Jika Anda memiliki niat yang tidak memiliki contoh ucapan, Anda tidak akan dapat melatih LUIS. Jika Anda memiliki niat dengan satu atau beberapa ucapan contoh, LUIS mungkin tidak memprediksi niat secara akurat.
Menambahkan sekelompok kecil ucapan
Setiap kali Anda melakukan iterasi pada model untuk menyempurnakannya, jangan tambahkan sejumlah besar ucapan. Pertimbangkan untuk menambahkan ucapan berjumlah 15. Lalu Latih, terbitkan, dan uji lagi.
LUIS membangun model yang efektif dengan ucapan yang dipilih dengan cermat oleh penulis model LUIS. Menambahkan terlalu banyak ucapan tidak akan berharga karena dapat menyebabkan kebingungan.
Sebaiknya mulai dengan beberapa ucapan, kemudian tinjau ucapan titik akhir untuk prediksi niat yang benar dan ekstraksi entitas.
Normalisasi ucapan
Normalisasi ucapan adalah proses mengabaikan efek dari jenis teks, seperti tanda baca dan diakritik, selama pelatihan dan prediksi.
Pengaturan normalisasi ucapan dinonaktifkan secara default. Pengaturan ini meliputi:
- Bentuk kata
- Diakritik
- Tanda baca
Jika Anda mengaktifkan pengaturan normalisasi, skor di panel Uji, pengujian batch, dan kueri titik akhir akan berubah untuk semua ucapan pada pengaturan normalisasi tersebut.
Saat Anda mengkloning sebuah versi di portal LUIS, pengaturan versi tersebut diterapkan pada versi kloning baru.
Atur pengaturan versi aplikasi menggunakan portal LUIS dengan memilih Kelola dari menu navigasi atas, di halaman Pengaturan Aplikasi. Anda juga dapat menggunakan API Pengaturan Versi Pembaruan. Lihat dokumentasi Referensi untuk informasi selengkapnya.
Bentuk kata
Menormalisasi bentuk kata mengabaikan perbedaan kata-kata yang meluas di luar kata dasar.
Diakritik
Diakritik adalah tanda atau penanda di dalam teks, seperti:
İ ı Ş Ğ ş ğ ö ü
Tanda baca
Menormalisasi tanda baca berarti sebelum model Anda dilatih dan sebelum kueri titik akhir Anda diprediksi, tanda baca akan dihapus dari ucapan.
Tanda baca adalah token yang terpisah di LUIS. Ucapan yang berisi periode di akhir adalah ucapan yang berbeda dari ucapan yang tidak berisi periode di akhir, dan mungkin mendapatkan dua prediksi yang berbeda.
Jika tanda baca tidak dinormalisasi, LUIS tidak mengabaikan tanda baca secara default, karena beberapa aplikasi klien mungkin menempatkan signifikansi pada tanda ini. Pastikan untuk menyertakan ucapan contoh yang menggunakan tanda baca, dan yang tidak, agar kedua gaya mengembalikan skor relatif yang sama.
Pastikan modelnya menangani tanda baca baik dalam ucapan conoth (baik yang memiliki dan yang tidak memiliki tanda baca) atau dalam pola di mana tanda baca lebih mudah untuk diabaikan. Misalnya: Saya melamar posisi {Job}[.]
Jika tanda baca tidak memiliki arti khusus dalam aplikasi klien Anda, pertimbangkan untuk mengabaikan tanda baca dengan menormalisasi tanda baca.
Mengabaikan kata dan tanda baca
Jika Anda ingin mengabaikan kata atau tanda baca tertentu dalam pola, gunakan pola dengan sintaks abaikan berupa kurung siku, [].
Latihan dengan semua ucapan
Pelatihan umumnya bersifat non-deterministik: prediksi ucapan dapat sedikit berbeda di seluruh versi atau aplikasi. Anda dapat menghapus pelatihan non-deterministik dengan memperbarui API pengaturan versi dengan pasangan nama/nilai UseAllTrainingData untuk menggunakan semua data pelatihan.
Menguji ucapan
Pengembang harus mulai menguji aplikasi LUIS mereka menggunakan data asli dengan mengirimkan ucapan ke URL titik akhir prediksi. Ucapan-ucapan ini digunakan untuk meningkatkan performa niat dan entitas dengan Meninjau ucapan. Pengujian yang diajukan melalui panel pengujian di portal LUIS tidak dikirimkan melalui titik akhir, dan tidak berkontribusi pada pembelajaran aktif.
Tinjau ucapan
Setelah model Anda dilatih, diterbitkan, dan menerima kueri titik akhir, tinjau ucapan yang disarankan oleh LUIS. LUIS memilih ucapan titik akhir yang memiliki skor rendah baik untuk niat atau entitas.
Praktik terbaik
Label untuk arti kata
Jika pilihan kata atau susunan katanya sama, tetapi tidak memiliki arti yang sama, jangan beri label dengan entitas.
Dalam ucapan berikut, kata adil adalah homograf, yang berarti pengejaannya sama tetapi memiliki arti yang berbeda:
- "Apa jenis pameran daerah yang terjadi di wilayah Seattle pada musim panas ini?"
- "Apakah peringkat bintang 2 saat ini untuk restoran tersebut adil?
Jika Anda ingin entitas peristiwa menemukan semua data peristiwa, beri label kata adil di ucapan pertama, tetapi tidak di ucapan yang kedua.
Jangan abaikan kemungkinan variasi ucapan
LUIS mengharapkan variasi dalam ungkapan niat. Ungkapan ini dapat bervariasi sekaligus memiliki arti keseluruhan yang sama. Variasi dapat mencakup panjang ungkapan, pilihan kata, dan penempatan kata.
| Jangan gunakan format yang sama | Gunakan format yang bervariasi |
|---|---|
| Beli tiket ke Seattle | Beli 1 tiket ke Seattle |
| Beli tiket ke Paris | Pesan dua kursi pada penerbangan malam ke Paris Senin depan |
| Beli tiket ke Orlando | Saya ingin memesan 3 tiket ke Orlando untuk liburan musim semi |
Kolom kedua menggunakan kata kerja yang berbeda (beli, pesan), jumlah yang berbeda (1, &"dua", 3), dan penyusunan kata yang berbeda tetapi semuanya memiliki niat yang sama untuk membeli tiket pesawat untuk perjalanan.
Jangan menambahkan terlalu banyak ucapan contoh ke niat
Setelah aplikasi diterbitkan, hanya tambahkan ungkapan dari pembelajaran aktif dalam proses siklus hidup pengembangan. Jika ungkapan terlalu mirip, tambahkan pola.