Apa itu pengenalan pembicara?

Artikel
01/23/2024

Pengenalan pembicara dapat membantu menentukan siapa yang berbicara dalam klip audio. Layanan ini dapat memverifikasi dan mengidentifikasi pembicara berdasarkan karakteristik suara unik mereka menggunakan biometri suara.

Anda menyediakan data pelatihan audio untuk pembicara tunggal, yang membuat profil pendaftaran berdasarkan karakteristik unik suara pembicara. Kemudian Anda dapat memeriksa ulang sampel audio suara dengan profil ini untuk memverifikasi bahwa pembicara adalah orang yang sama (verifikasi pembicara). Anda juga dapat memeriksa ulang sampel audio suara dengan grup profil pembicara yang terdaftar untuk mengetahui apakah cocok dengan profil apa pun di dalam grup (identifikasi pembicara).

Penting

Microsoft membatasi akses ke pengenalan pembicara. Anda dapat mengajukan permohonan akses melalui tinjauan akses terbatas pengenalan pembicara layanan Azure AI. Untuk informasi selengkapnya, lihat Akses terbatas untuk pengenalan pembicara.

Verifikasi pembicara

Verifikasi pembicara menyederhanakan proses verifikasi identitas pembicara yang terdaftar dengan frasa sandi atau input suara bentuk bebas. Misalnya, Anda dapat menggunakannya untuk verifikasi identitas pelanggan di pusat panggilan atau akses fasilitas tanpa kontak.

Bagaimana cara kerja verifikasi pembicara?

Diagram alur berikut menampilkan visual tentang cara kerjanya:

Flowchart that shows how speaker verification works.

Verifikasi pembicara dapat teks-dependen atau teks-independen. Verifikasi teks-dependen berarti pembicara harus memilih frasa sandi yang sama untuk digunakan selama fase pendaftaran dan verifikasi. Verifikasi teks-independen berarti pembicara dapat berbicara menggunakan bahasa sehari-hari dalam frasa pendaftaran dan verifikasi.

Untuk verifikasi teks-dependen, suara pembicara didaftarkan dengan mengucapkan frasa sandi dari serangkaian frasa yang telah ditentukan sebelumnya. Fitur suara diekstrak dari rekaman audio untuk membentuk tanda tangan suara yang unik, dan frasa sandi yang dipilih juga dikenali. Bersama-sama, tanda tangan suara dan frasa sandi digunakan untuk memverifikasi pembicara.

Verifikasi independen teks tidak memiliki batasan pada apa yang dikatakan pembicara selama pendaftaran, selain frasa aktivasi awal saat pendaftaran aktif diaktifkan. Ini tidak memiliki batasan pada sampel audio yang akan diverifikasi, karena hanya mengekstrak fitur suara untuk kesamaan skor.

API tersebut tidak dimaksudkan untuk menentukan apakah audio berasal dari orang yang berbicara langsung atau dari imitasi atau rekaman pembicara yang terdaftar.

Identifikasi pembicara

Identifikasi pembicara membantu Anda menentukan identitas pembicara yang tidak dikenal dalam kelompok pembicara terdaftar. Identifikasi pembicara memungkinkan Anda mengatribusi ucapan ke pembicara individual, dan mendapatkan nilai dari skenario dengan beberapa pembicara, seperti:

Mendukung solusi untuk produktivitas rapat jarak jauh.
Membuat personalisasi perangkat multi-pengguna.

Bagaimana cara kerja identifikasi pembicara?

Pendaftaran untuk identifikasi pembicara bersifat teks-independen. Tidak ada batasan pada apa yang dikatakan pembicara dalam audio, selain frasa aktivasi awal saat pendaftaran aktif diaktifkan. Mirip dengan verifikasi pembicara, suara pembicara direkam pada fase pendaftaran dan fitur suara diekstrak untuk membentuk tanda tangan suara yang unik. Dalam fase identifikasi, sampel suara input dibandingkan dengan daftar suara terdaftar tertentu (hingga 50 dalam setiap permintaan).

Keamanan data dan privasi

Data pendaftaran pembicara disimpan dalam sistem yang aman, termasuk audio ucapan untuk pendaftaran dan fitur tanda tangan suara. Audio ucapan untuk pendaftaran hanya digunakan ketika algoritma ditingkatkan, dan fitur perlu diekstraksi lagi. Layanan ini tidak mempertahankan rekaman ucapan atau fitur suara yang diekstrak yang dikirim ke layanan selama fase pengenalan.

Anda mengontrol berapa lama data harus dipertahankan. Anda dapat membuat, memperbarui, dan menghapus data pendaftaran untuk masing-masing pembicara melalui panggilan API. Saat langganan dihapus, semua data pendaftaran pembicara yang terkait dengan langganan juga dihapus.

Seperti semua sumber daya layanan Azure AI, pengembang yang menggunakan fitur pengenalan pembicara harus mengetahui kebijakan Microsoft pada data pelanggan. Anda harus memastikan bahwa Anda menerima izin yang sesuai dari pengguna. Anda dapat menemukan detail selengkapnya di Data dan privasi untuk pengenalan pembicara. Untuk informasi selengkapnya, lihat halaman layanan Azure AI di Pusat Kepercayaan Microsoft.

Lihat Pertanyaan dan solusi umum

Pertanyaan	Solution
Situasi seperti apa yang memerlukan pengenalan pembicara?	Contoh yang tepat meliputi verifikasi pelanggan pusat panggilan, check-in pasien berbasis suara, transkripsi rapat, dan personalisasi perangkat multi-pengguna.
Apa perbedaan antara identifikasi dan verifikasi?	Identifikasi adalah proses mendeteksi anggota mana dari sekelompok pembicara yang berbicara. Verifikasi adalah tindakan mengonfirmasi bahwa pembicara cocok dengan suara yang dikenal dan terdaftar.
Bahasa apa saja yang didukung?	Lihat Dukungan bahasa pengenalan pembicara.
Wilayah Azure mana yang didukung?	Lihat Dukungan wilayah pengenalan pembicara.
Format audio apa yang didukung?	Mono 16 bit, 16 kHz WAV yang dienkode PCM.
Dapatkah Anda mendaftarkan satu pembicara beberapa kali?	Ya, untuk verifikasi teks-dependen, Anda dapat mendaftarkan pembicara hingga 50 kali. Untuk verifikasi teks-independen atau identifikasi pembicara, Anda dapat mendaftar dengan audio hingga 300 detik.
Data apa yang disimpan di Azure?	Audio pendaftaran disimpan dalam layanan hingga profil suara dihapus. Sampel audio pengenalan tidak dipertahankan atau disimpan.

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Langkah berikutnya

Mulai cepat pengenalan pembicara