Apa itu pengenalan kata kunci?

Pengenalan kata kunci mendeteksi kata atau frasa pendek dalam aliran audio. Teknik ini juga disebut sebagai spot kata kunci.

Kasus penggunaan paling umum dari pengenalan kata kunci adalah aktivasi suara asisten virtual. Misalnya, "Hai Cortana" adalah kata kunci untuk asisten Cortana. Setelah pengenalan kata kunci, tindakan khusus skenario dilakukan. Untuk skenario asisten virtual, tindakan umum yang dihasilkan adalah pengenalan ucapan audio yang mengikuti kata kunci.

Umumnya, asisten virtual selalu mendengarkan. Pengenalan kata kunci bertindak sebagai batas privasi bagi pengguna. Persyaratan kata kunci bertindak sebagai gerbang yang mencegah audio pengguna yang tidak terkait melintasi perangkat lokal ke cloud.

Untuk menyeimbangkan akurasi, latensi, dan kompleksitas komputasi, pengenalan kata kunci diimplementasikan sebagai sistem multi-tahap. Untuk semua tahap di luar tahap pertama, audio hanya diproses jika tahap sebelum mengenali kata kunci yang menarik.

Sistem saat ini dirancang dengan beberapa tahap yang mencakup edge dan cloud:

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

Akurasi pengenalan kata kunci diukur melalui metrik berikut:

  • Tingkat penerimaan yang benar: Mengukur kemampuan sistem untuk mengenali kata kunci saat diucapkan oleh pengguna. Tingkat penerimaan yang benar juga dikenal sebagai tingkat positif true.
  • Tingkat penerimaan false: Mengukur kemampuan sistem untuk memfilter audio yang bukan kata kunci yang diucapkan oleh pengguna. Tingkat penerimaan false juga dikenal sebagai tingkat positif false.

Tujuannya adalah untuk memaksimalkan tingkat penerimaan yang benar sambil meminimalkan tingkat positif palsu. Sistem saat ini dirancang untuk mendeteksi kata kunci atau frasa yang didahului oleh keheningan singkat. Mendeteksi kata kunci di tengah kalimat atau ungkapan tidak didukung.

Kata kunci kustom untuk model di perangkat

Dengan Portal Kata Kunci Kustom di Studio Ucapan, Anda dapat membuat model pengenalan kata kunci yang dijalankan di edge dengan menentukan kata atau frasa pendek apa pun. Anda dapat lebih mempersonalisasi model kata kunci Anda dengan memilih pengucapan yang tepat.

Harga

Tidak ada biaya untuk menggunakan kata kunci kustom untuk menghasilkan model, termasuk model Dasar dan Tingkat Lanjut. Juga tidak ada biaya untuk menjalankan model di perangkat dengan Speech SDK saat digunakan dengan fitur layanan Ucapan lainnya seperti ucapan ke teks.

Jenis Model

Anda dapat menggunakan kata kunci kustom untuk menghasilkan dua jenis model di perangkat untuk kata kunci apa pun.

Jenis model Deskripsi
Dasar Paling cocok untuk tujuan demo atau membuat purwarupa cepat. Model dibuat dengan model dasar umum dan dapat memerlukan waktu hingga 15 menit untuk siap. Model mungkin tidak memiliki karakteristik akurasi yang optimal.
Lanjutan Paling cocok untuk tujuan integrasi produk. Model dihasilkan dengan adaptasi model dasar umum dengan menggunakan data pelatihan simulasi untuk meningkatkan karakteristik akurasi. Dibutuhkan waktu hingga 48 jam agar model siap.

Catatan

Anda dapat melihat daftar wilayah yang mendukung jenis model Tingkat Lanjut dalam dokumentasi dukungan wilayah pengenalan kata kunci.

Jenis model ini tidak mengharuskan Anda mengunggah data pelatihan. Kata kunci kustom sepenuhnya menangani pembuatan data dan pelatihan model.

Pengucapan

Saat membuat model baru, kata kunci kustom secara otomatis menghasilkan kemungkinan pengucapan kata kunci yang disediakan. Anda dapat mendengarkan setiap pengucapan dan memilih semua variasi yang paling mewakili cara Anda mengharapkan pengguna mengucapkan kata kunci. Semua pengucapan lainnya tidak boleh dipilih.

Penting untuk berhati-hati dalam memilih pengucapan untuk memastikan karakteristik akurasi terbaik. Misalnya, jika Anda memilih lebih banyak pengucapan daripada yang Anda butuhkan, Anda mungkin mendapatkan tingkat penerimaan false yang lebih tinggi. Jika Anda memilih terlalu sedikit pengucapan, di mana tidak semua variasi yang diharapkan tercakup, Anda mungkin mendapatkan tingkat penerimaan benar yang lebih rendah.

Model uji

Setelah kata kunci kustom menghasilkan model di perangkat, model dapat diuji langsung di portal. Anda dapat menggunakan portal untuk berbicara langsung ke browser Anda dan mendapatkan hasil pengenalan kata kunci.

Verifikasi Kata Kunci

Verifikasi kata kunci adalah layanan cloud yang mengurangi efek penerimaan palsu dari model di perangkat dengan model yang kuat yang berjalan di Azure. Penyetelan atau pelatihan tidak diwajibkan agar verifikasi kata kunci berfungsi dengan kata kunci Anda. Pembaruan model inkremental terus disebarkan ke layanan untuk meningkatkan akurasi dan latensi, serta transparan untuk aplikasi klien.

Harga

Verifikasi kata kunci selalu digunakan dalam kombinasi dengan ucapan ke teks. Tidak ada biaya untuk menggunakan verifikasi kata kunci di luar biaya ucapan ke teks.

Verifikasi kata kunci dan ucapan ke teks

Saat verifikasi kata kunci digunakan, verifikasi selalu dalam kombinasi dengan ucapan ke teks. Kedua layanan berjalan secara paralel, yang berarti audio dikirim ke kedua layanan untuk pemrosesan simultan.

Diagram that shows parallel processing of keyword verification and speech to text.

Menjalankan verifikasi kata kunci dan ucapan ke teks secara paralel menghasilkan manfaat berikut:

  • Tidak ada latensi lain pada hasil ucapan ke teks: Eksekusi paralel berarti verifikasi kata kunci tidak menambahkan latensi. Klien menerima hasil ucapan ke teks secepatnya. Jika verifikasi kata kunci menentukan kata kunci tidak ada dalam audio, pemrosesan ucapan ke teks akan dihentikan. Tindakan ini melindungi dari pemrosesan ucapan ke teks yang tidak perlu. Pemrosesan model jaringan dan cloud meningkatkan latensi yang dirasakan pengguna dari aktivasi suara. Untuk informasi selengkapnya, lihat Rekomendasi dan panduan.
  • Awalan kata kunci paksa dalam hasil ucapan ke teks: Pemrosesan ucapan ke teks memastikan bahwa hasil yang dikirim ke klien diawali dengan kata kunci. Perilaku ini memungkinkan peningkatan akurasi dalam hasil ucapan ke teks untuk ucapan yang mengikuti kata kunci.
  • Peningkatan batas waktu ucapan ke teks: Karena kehadiran kata kunci yang diharapkan di awal audio, ucapan ke teks memungkinkan jeda yang lebih lama hingga lima detik setelah kata kunci sebelum menentukan akhir ucapan dan mengakhiri pemrosesan ucapan ke teks. Perilaku ini memastikan bahwa pengalaman pengguna ditangani dengan benar untuk perintah bertahap (<keyword><pause><command>) dan perintah berantai (<keyword><command>).

Respons verifikasi kata kunci dan pertimbangan latensi

Untuk setiap permintaan ke layanan, verifikasi kata kunci mengembalikan salah satu dari dua tanggapan: diterima atau ditolak. Latensi pemrosesan bervariasi tergantung pada panjang kata kunci dan panjang segmen audio yang diharapkan berisi kata kunci. Latensi pemrosesan tidak termasuk biaya jaringan antara klien dan layanan Ucapan.

Respons verifikasi kata kunci Deskripsi
Diterima Menunjukkan layanan yang percaya bahwa kata kunci ada dalam stream audio yang disediakan sebagai bagian dari permintaan.
Ditolak Menunjukkan layanan yang percaya bahwa kata kunci tidak ada dalam stream audio yang disediakan sebagai bagian dari permintaan.

Kasus yang ditolak sering kali menghasilkan latensi yang lebih tinggi karena layanan memproses lebih banyak audio daripada kasus yang diterima. Secara default, verifikasi kata kunci memproses audio maksimal dua detik untuk mencari kata kunci. Jika kata kunci tidak ditemukan dalam dua detik, waktu layanan habis dan memberi sinyal respons yang ditolak kepada klien.

Gunakan verifikasi kata kunci dengan model di perangkat dari kata kunci kustom

Speech SDK memungkinkan penggunaan model perangkat yang mulus yang dihasilkan dengan menggunakan kata kunci kustom dengan verifikasi kata kunci dan ucapan ke teks. Ini secara transparan menangani:

  • Pembatasan audio ke verifikasi kata kunci dan pengenalan ucapan berdasarkan hasil model pada perangkat.
  • Mengomunikasikan kata kunci ke verifikasi kata kunci.
  • Mengomunikasikan metadata tambahan apa pun ke cloud untuk mengatur skenario menyeluruh.

Anda tidak perlu secara eksplisit menentukan parameter konfigurasi apa pun. Semua informasi yang diperlukan akan secara otomatis diekstrak dari model pada perangkat yang dihasilkan oleh kata kunci kustom.

Sampel dan tutorial yang ditautkan di sini menunjukkan cara menggunakan SDK Ucapan:

Integrasi dan skenario Speech SDK

SDK Ucapan memungkinkan penggunaan model pengenalan kata kunci pada perangkat yang dipersonalisasi yang dihasilkan dengan verifikasi kata kunci dan kata kunci kustom. Untuk memastikan kebutuhan produk Anda dapat dipenuhi, SDK mendukung dua skenario berikut:

Skenario Deskripsi Sampel
Pengenalan kata kunci end-to-end dengan ucapan ke teks Paling cocok untuk produk yang menggunakan model kata kunci di perangkat yang disesuaikan dari kata kunci kustom dengan verifikasi kata kunci dan ucapan ke teks. Ini adalah skenario yang paling umum.
Pengenalan kata kunci offline Paling cocok untuk produk tanpa konektivitas jaringan yang menggunakan model kata kunci pada perangkat yang disesuaikan dari kata kunci kustom.

Langkah berikutnya