Apa itu transkripsi percakapan?

Transkripsi percakapan adalah solusi ucapan ke teks yang menyediakan transkripsi real-time atau asinkron dari percakapan apa pun. Fitur ini, yang saat ini dalam pratinjau, menggabungkan pengenalan ucapan, identifikasi pembicara, dan atribusi kalimat untuk menentukan siapa yang berbicara, dan waktunya, dalam percakapan.

Catatan

Akses percakapan multi-perangkat adalah fitur pratinjau.

Fitur utama

Fitur transkripsi percakapan berikut mungkin bermanfaat:

  • Tanda waktu: Setiap ucapan pembicara memiliki tanda waktu, sehingga Anda dapat dengan mudah menemukan kapan sebuah frasa dikatakan.
  • Transkrip yang dapat dibaca: Transkrip memiliki pemformatan dan tanda baca yang ditambahkan secara otomatis untuk memastikan teks sangat cocok dengan apa yang dikatakan.
  • Profil pengguna: Profil pengguna dibuat dengan mengumpulkan sampel suara pengguna dan mengirimkannya ke pembuatan tanda tangan.
  • Identifikasi pembicara: Pembicara diidentifikasi menggunakan profil pengguna, dan pengidentifikasi pembicara ditetapkan untuk setiap profil pengguna.
  • Diarisasi multipembicara: Menentukan siapa yang berbicara dengan mensintesis aliran audio dengan setiap pengidentifikasi pembicara.
  • Transkripsi real-time: Memberikan transkrip langsung tentang siapa yang berbicara dan waktunya, saat percakapan terjadi.
  • Transkripsi asinkron: Memberikan transkripsi dengan akurasi yang lebih tinggi dengan menggunakan aliran audio multi-saluran.

Catatan

Meskipun transkripsi percakapan tidak membatasi jumlah pembicara di ruangan, ini dioptimalkan untuk 2-10 pembicara per sesi.

Mulai

Lihat mulai cepat transkripsi percakapan real time untuk memulai.

Kasus penggunaan

Agar semua orang terdengar dalam rapat, misalnya peserta yang tuli dan sulit mendengar, penting untuk memiliki transkripsi secara real-time. Transkripsi percakapan dalam mode real-time mengambil audio rapat dan menentukan siapa yang berbicara, memungkinkan semua peserta rapat mengikuti transkripsi dan berpartisipasi dalam rapat, tanpa penundaan.

Peserta rapat dapat fokus pada rapat dan menyerahkan pencatatan pada transkripsi percakapan. Peserta dapat secara aktif terlibat dalam rapat dan dengan cepat menindaklanjuti langkah-langkah berikutnya dengan cepat, menggunakan transkrip alih-alih mencatat dan berpotensi terlewat sesuatu selama rapat.

Cara kerjanya

Diagram berikut menyajikan gambaran umum tingkat tinggi mengenai cara kerja fitur tersebut.

Diagram that shows the relationships among different pieces of the conversation transcription solution.

Input yang diharapkan

Transkripsi percakapan menggunakan dua jenis input:

  • Aliran audio multi-saluran: Untuk detail spesifikasi dan desain, lihat Rekomendasi array mikrofon.
  • Sampel suara pengguna: Transkripsi percakapan memerlukan profil pengguna sebelum percakapan untuk identifikasi pembicara. Kumpulkan rekaman audio dari setiap pengguna, lalu kirimkan rekaman tersebut ke layanan pembuatan tanda tangan untuk memvalidasi audio dan menghasilkan profil pengguna.

Sampel suara pengguna untuk tanda tangan suara diperlukan untuk identifikasi pembicara. Pembicara yang tidak memiliki sampel suara akan dikenali sebagai tidak teridentifikasi. Pembicara tidak teridentifikasi masih dapat dibedakan jika properti DifferentiateGuestSpeakers diaktifkan (lihat contoh di bawah). Output transkripsi kemudian menunjukkan speaker sebagai, misalnya, Guest_0 dan Guest_1, bukan mengenalinya sebagai nama pembicara tertentu yang telah didaftarkan sebelumnya.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Real time vs. asinkron

Bagian berikut memberikan detail lebih lanjut tentang mode transkripsi yang dapat Anda pilih.

Real time

Data audio diproses secara langsung untuk mengembalikan pengidentifikasi pembicara dan transkripsi. Pilih mode ini jika persyaratan solusi transkripsi Anda akan memberikan tampilan transkrip langsung kepada peserta percakapan tentang percakapan mereka yang sedang berlangsung. Misalnya, membangun aplikasi untuk membuat rapat lebih mudah diakses oleh peserta tuna rungu dan sulit mendengar adalah kasus penggunaan yang ideal untuk transkripsi real-time.

Asinkron

Data audio diproses secara batch untuk mengembalikan pengidentifikasi pembicara dan transkripsi. Pilih mode ini jika persyaratan solusi transkripsi Anda untuk memberikan akurasi yang lebih tinggi, tanpa tampilan transkripsi langsung. Misalnya, jika Anda ingin membangun aplikasi untuk memungkinkan peserta rapat dengan mudah mengejar rapat yang terlewat, maka gunakan mode transkripsi asinkron untuk mendapatkan hasil transkripsi akurasi tinggi.

Real time ditambah asinkron

Data audio diproses secara langsung untuk mengembalikan pengidentifikasi pembicara dan transkripsi, dan, di samping itu, meminta transkripsi berakurasi tinggi melalui pemrosesan asinkron. Pilih mode ini jika aplikasi Anda memerlukan transkripsi real-time, dan memerlukan transkripsi dengan akurasi yang lebih tinggi untuk digunakan setelah percakapan atau rapat.

Dukungan bahasa

Saat ini, transkripsi percakapan mendukung semua bahasa ucapan ke teks di wilayah berikut: centralus, eastasia, eastus, westeurope.

Langkah berikutnya