Pengenalan Speaker

Artikel
07/19/2023

Pengenalan pembicara Azure AI Services - Speech Service menyediakan algoritma yang memverifikasi dan mengidentifikasi pembicara berdasarkan karakteristik suara unik mereka. Pengenalan Pembicara digunakan untuk menjawab pertanyaan "siapa yang berbicara?". Pelajari lebih lanjut.

Voice memiliki karakteristik unik yang dapat dikaitkan dengan individu. Kami menyediakan API Verifikasi Pembicara dan API Identifikasi Pembicara untuk dua aplikasi utama teknologi Pengenalan Pembicara.

Verifikasi Pembicara

Verifikasi pembicara dapat teks-dependen atau teks-independen. Verifikasi teks-dependen berarti pembicara harus memilih frasa sandi yang sama untuk digunakan selama fase pendaftaran dan verifikasi. Verifikasi konten ucapan dan tanda tangan suara memfasilitasi skenario verifikasi multifaktor; Verifikasi teks independen berarti pembicara dapat berbicara dalam bahasa sehari-hari dalam frasa pendaftaran dan verifikasi.

Verifikasi Pembicara Dependen Teks

Dalam fase pendaftaran pembicara, suara pembicara direkam dengan mengucapkan frasa sandi dari serangkaian frasa yang telah ditentukan sebelumnya. Fitur suara diekstrak dari rekaman audio untuk membentuk tanda tangan suara unik saat frasa sandi yang dipilih dikenali. Bersama-sama, tanda tangan suara dan frasa sandi akan digunakan untuk memverifikasi pembicara.

Dalam fase verifikasi, ID yang terkait dengan individu yang akan diverifikasi dikirim ke API verifikasi pembicara. Layanan verifikasi pembicara mengekstrak fitur suara dan frasa sandi dari rekaman ucapan input. Kemudian membandingkan fitur suara dan frasa sandi dengan profil pendaftaran pembicara yang sesuai.

Respons mengembalikan "Terima" atau "Tolak" dengan skor kesamaan mulai dari 0 hingga 1. Respons "Terima" atau "Tolak" adalah hasil yang menggabungkan hasil verifikasi pembicara dan hasil pengenalan ucapan, sementara skor kesamaan hanya mengukur kesamaan suara. Kami mengembalikan "Terima" ketika hasil pengenalan ucapan cocok dengan frasa pendaftaran dan skor kesamaan suara lebih besar atau sama dengan 0,5. Namun, hasilnya harus ditentukan berdasarkan skenario dan faktor verifikasi lain yang sedang digunakan. Kami sarankan Anda bereksperimen pada data Anda sendiri dan menentukan ambang Anda untuk mengambil alih respons "Terima" atau "Tolak" sebagaimana merujuknya.

Dalam versi API verifikasi pembicara yang bergantung pada teks saat ini, kami menyediakan 10 frasa bahasa Inggris untuk dipilih oleh pembicara.

Aku akan memberinya tawaran yang tak bisa dia tolak.
Houston kami memiliki masalah.
Suaraku adalah pasporku yang memverifikasiku.
Jus apel terasa lucu setelah pasta gigi.
Anda bisa masuk tanpa kata sandi Anda.
Anda dapat mengaktifkan sistem keamanan sekarang.
Suaraku lebih kuat dari kata sandi.
Kata sandiku bukan urusanmu.
Namaku tak dikenal olehmu.
Jadilah diri sendiri orang lain sudah diambil"

Anda dapat membuat frasa sandi Anda sendiri dengan mengirim permintaan terpisah ke API verifikasi pembicara independen teks dan API ucapan ke teks. Menggabungkan hasil verifikasi pembicara dan hasil pengenalan ucapan, Anda dapat menentukan identitas pembicara.

API tidak dimaksudkan untuk menentukan apakah audio berasal dari orang langsung atau imitasi atau rekaman pembicara terdaftar. Menghasilkan frasa acak untuk dibaca pembicara dianggap efektif untuk mencegah serangan pemutaran ulang.

Verifikasi Pembicara Independen Teks

Verifikasi Pembicara juga dapat bebas teks, yang berarti bahwa tidak ada batasan pada apa yang dikatakan pembicara dalam audio.

Dalam fase pendaftaran, fitur suara diekstrak dari audio pembicara untuk membentuk tanda tangan suara yang unik.

Dalam fase verifikasi, audio dan ID yang terkait dengan individu yang akan diverifikasi dikirim ke API verifikasi pembicara. Layanan verifikasi pembicara mengekstrak fitur suara dari rekaman ucapan input. Kemudian membandingkan fitur suara dengan tanda tangan suara di profil pendaftaran pembicara yang sesuai.

Respons mengembalikan "Terima" atau "Tolak" dengan skor kesamaan mulai dari 0 hingga 1. Respons "Terima" dikembalikan ketika skor kesamaan lebih besar atau sama dengan 0,5. Namun, hasilnya harus ditentukan berdasarkan skenario dan faktor verifikasi lain yang sedang digunakan. Kami sarankan Anda bereksperimen pada data Anda sendiri dan menentukan ambang Batas Anda untuk mengambil alih respons "Terima" atau "Tolak" yang sesuai.

API tidak dimaksudkan untuk menentukan apakah audio berasal dari orang langsung atau imitasi atau rekaman pembicara terdaftar.

Identifikasi pembicara

Identifikasi pembicara adalah tugas menentukan identitas suara yang tidak diketahui di antara satu set pembicara kandidat. API Identifikasi Pembicara mengembalikan daftar "kecocokan terbaik" berdasarkan skor kesamaan terhadap daftar ID yang disediakan. API Identifikasi Pembicara bersifat independen teks karena tidak membandingkan apa yang dikatakan pada pendaftaran dan pengenalan.

Identifikasi Pembicara Independen Teks

Pendaftaran untuk identifikasi pembicara teks-independen, yang berarti bahwa tidak ada batasan pada apa yang dikatakan pembicara dalam audio. Tidak diperlukan frasa sandi. Dalam fase pendaftaran, suara pembicara direkam, dan fitur suara diekstraksi untuk membentuk tanda tangan suara yang unik.

Dalam fase identifikasi, layanan identifikasi pembicara mengekstrak fitur suara dari rekaman ucapan input. Kemudian membandingkan fitur dengan tanda tangan suara dalam data pendaftaran daftar pembicara tertentu (hingga 50 pembicara kandidat di setiap permintaan). Respons ini mencakup satu ID yang diidentifikasi dan lima ID peringkat teratas dengan skor kesamaan mulai dari 0 hingga 1. ID yang diidentifikasi ditentukan berdasarkan skor kesamaan pembicara yang paling cocok. Jika tidak ada pembicara kandidat yang mengembalikan skor kesamaan yang lebih besar atau sama dengan 0,5, respons mengembalikan string nol untuk mewakili "tidak ada kecocokan yang ditemukan". Namun, hasilnya harus ditentukan berdasarkan skenario Anda dan faktor lain yang sedang digunakan. Kami sarankan Anda bereksperimen dengan data Anda dan menentukan ambang Anda untuk mengambil alih "kecocokan atau tidak ada kecocokan" default yang sesuai.