Apa itu perangkat Ucapan?

Layanan ucapan berfungsi pada berbagai perangkat dan sumber audio. Anda dapat menggunakan pemrosesan audio default yang tersedia di perangkat. Atau, Speech SDK memiliki opsi bagi Anda untuk menggunakan algoritme pemrosesan audio canggih kami yang dirancang untuk bekerja dengan baik dengan layanan Ucapan. Ini membuat pengenalan ucapan medan jauh yang akurat melalui penekanan kebisingan, pengurangan gema, mengarahkan suara, dan penghilangan dengung.

Pemrosesan audio

Pemrosesan audio adalah peningkatan yang diterapkan pada aliran audio dengan tujuan meningkatkan kualitas audio. Contoh perangkat tambahan umum termasuk kontrol keuntungan otomatis (AGC), penekanan kebisingan, dan pembatalan gema akustik (AEC). Speech SDK mengintegrasikan Microsoft Audio Stack (MAS), memungkinkan aplikasi atau produk apa pun menggunakan kemampuan pemrosesan audionya pada audio input.

Rekomendasi array mikrofon

Speech SDK berfungsi optimal dengan array mikrofon yang telah dirancang sesuai dengan pedoman rekomendasi kami. Untuk detailnya, lihat Rekomendasi array mikrofon.

Kit pengembangan perangkat

Speech SDK dirancang untuk bekerja dengan kit pengembangan yang dibuat khusus, dan berbagai konfigurasi array mikrofon. Misalnya, Anda dapat menggunakan salah satu kit pengembangan Azure ini.

  • Azure Percept DK berisi prosesor audio yang telah dikonfigurasi sebelumnya dan array linier empat mikrofon. Anda dapat menggunakan perintah suara, penemuan kata kunci, dan ucapan medan jauh dengan bantuan Azure Cognitive Services.
  • Azure Kinect DK adalah kit pengembang komputasi spasial dengan sensor AI canggih yang menyediakan visi komputer dan model ucapan yang mutakhir. Sebagai perangkat kecil all-in-one dengan beberapa mode, kit tersebut berisi sensor kedalaman, array mikrofon spasial dengan kamera video, dan sensor orientasi.

Langkah berikutnya