Pemrosesan audio

Microsoft Audio Stack adalah seperangkat perangkat tambahan yang dioptimalkan untuk skenario pemrosesan ucapan. Ini termasuk contoh seperti pengenalan kata kunci dan pengenalan suara. Ini terdiri dari berbagai perangkat tambahan / komponen yang beroperasi pada sinyal audio input:

  • Penekanan kebisingan - Mengurangi tingkat kebisingan latar belakang.
  • Beamforming - Melokalkan asal suara dan mengoptimalkan sinyal audio menggunakan beberapa mikrofon.
  • Dereverberation - Mengurangi pantulan suara dari permukaan di lingkungan.
  • Pembatalan gema akustik - Menekan audio yang dimainkan keluar dari perangkat saat input mikrofon aktif.
  • Kontrol perolehan otomatis - Sesuaikan tingkat suara orang secara dinamis untuk memperhitungkan speaker lunak, jarak jauh, atau mikrofon yang tidak dikalibrasi.

Block diagram of Microsoft Audio Stack's enhancements.

Skenario dan kasus penggunaan yang berbeda dapat memerlukan pengoptimalan berbeda yang memengaruhi perilaku tumpukan pemrosesan audio. Misalnya, dalam skenario telekomunikasi seperti panggilan telepon, dapat diterima untuk memiliki distorsi kecil dalam sinyal audio setelah pemrosesan diterapkan. Hal ini karena manusia dapat terus memahami ucapan dengan akurasi tinggi. Namun, tidak dapat diterima dan mengganggu bagi seseorang untuk mendengar suara mereka sendiri dalam gema. Ini berbeda dengan skenario pemrosesan ucapan, di mana audio yang terdistorsi dapat berdampak buruk pada akurasi model pengenalan ucapan yang dipelajari mesin, tetapi dapat diterima untuk memiliki tingkat kecil residu gema.

Pemrosesan dilakukan sepenuhnya secara lokal di mana SDK Ucapan digunakan. Tidak ada data audio yang dialirkan ke layanan cloud Microsoft untuk diproses oleh Microsoft Audio Stack. Satu-satunya pengecualian untuk hal ini adalah untuk Layanan Transkripsi Percakapan, di mana audio mentah dikirim ke layanan cloud Microsoft untuk diproses.

Microsoft Audio Stack juga mendukung berbagai produk Microsoft:

  • Windows - Microsoft Audio Stack adalah alur pemrosesan ucapan default saat menggunakan kategori audio Ucapan.
  • Perangkat Microsoft Teams Displays dan Ruang Microsoft Teams - Microsoft Teams Displays dan perangkat Ruangan Teams menggunakan Microsoft Audio Stack untuk memungkinkan pengalaman hands-free berbasis suara berkualitas tinggi dengan Cortana.

Integrasi Speech SDK

Speech SDK mengintegrasikan Microsoft Audio Stack (MAS), memungkinkan aplikasi atau produk apa pun menggunakan kemampuan pemrosesan audionya pada audio input. Beberapa fitur utama Microsoft Audio Stack yang tersedia melalui Speech SDK meliputi:

  • Input mikrofon real time & input file - Pemrosesan Microsoft Audio Stack dapat diterapkan ke input mikrofon real time, aliran, dan input berbasis file.
  • Pemilihan penyempurnaan - Untuk memungkinkan kontrol penuh atas skenario Anda, SDK memungkinkan Anda menonaktifkan masing-masing penyempurnaan seperti pengurangan reverberasi, peredam kebisingan, kontrol penguatan otomatis, dan pembatalan gema akustik. Misalnya, jika skenario Anda tidak termasuk penyajian audio output yang perlu ditekan dari audio input, Anda memiliki opsi untuk menonaktifkan pembatalan gema akustik.
  • Geometri mikrofon kustom - SDK memungkinkan Anda memberikan informasi geometri mikrofon kustom Anda sendiri, selain mendukung geometri prasetel seperti susunan dua mikrofon linier, empat mikrofon linier, dan 7 mikrofon melingkar (lihat informasi selengkapnya pada geometri prasetel yang didukung di Rekomendasi susunan mikrofon).
  • Sudut beamforming - Sudut beamforming tertentu dapat disediakan untuk mengoptimalkan input audio yang berasal dari lokasi yang telah ditentukan, relatif terhadap mikrofon.

Persyaratan minimum untuk menggunakan Microsoft Audio Stack

Microsoft Audio Stack dapat digunakan oleh produk atau aplikasi apa pun yang dapat memenuhi persyaratan berikut:

  • Audio mentah - Microsoft Audio Stack memerlukan audio mentah (tidak diolah) sebagai input untuk menghasilkan hasil terbaik. Menyediakan audio yang sudah diproses membatasi kemampuan tumpukan audio untuk melakukan peningkatan dengan kualitas tinggi.
  • Geometri mikrofon - Informasi geometri tentang setiap mikrofon pada perangkat diperlukan untuk melakukan semua perangkat tambahan yang ditawarkan oleh Microsoft Audio Stack dengan benar. Informasi mencakup jumlah mikrofon, pengaturan fisik, dan koordinatnya. Hingga 16 saluran mikrofon input didukung.
  • Loopback atau audio referensi - Saluran audio yang mewakili audio yang diputar keluar dari perangkat diperlukan untuk melakukan pembatalan gema akustik.
  • Format input - Microsoft Audio Stack mendukung downsampling untuk tingkat sampel yang merupakan kelipatan integral 16 kHz. Tingkat sampling minimum 16 kHz diperlukan. Format berikut juga didukung: 32-bit IEEE little endian float, 32-bit little endian signed int, 24-bit little endian signed int, 16-bit little endian signed int, dan 8-bit signed int.

Langkah berikutnya

Menggunakan Speech SDK untuk pemrosesan audio