Rekomendasi array mikrofon
Dalam artikel ini, Anda akan mempelajari cara mendesain array mikrofon yang disesuaikan untuk penggunaan Speech SDK. Ini sangatlah diperlukan jika Anda memilih, menentukan, atau membangun perangkat keras untuk solusi ucapan.
Speech SDK berfungsi optimal dengan array mikrofon yang telah dirancang sesuai dengan panduan berikut, termasuk geometri mikrofon, pemilihan komponen, dan arsitekturnya.
Geometri mikrofon
Geometri array berikut direkomendasikan untuk digunakan bersama Microsoft Audio Stack. Lokasi sumber suara dan penolakan kebisingan sekitar ditingkatkan dengan jumlah mikrofon yang lebih besar dengan dependensi pada aplikasi tertentu, skenario pengguna, dan faktor bentuk perangkat.
| Larik | Mikrofon | Geometri |
|---|---|---|
| Melingkar - 7 Mikrofon | ![]() |
6 Luar, 1 Tengah, Radius = 42,5 mm, Jarak Merata |
| Melingkar - 4 Mikrofon | ![]() |
3 Luar, 1 Tengah, Radius = 42,5 mm, Jarak Merata |
| Linier - 4 Mikrofon | ![]() |
Panjang = 120 mm, Jarak = 40 mm |
| Linier - 2 Mikrofon | ![]() |
Jarak = 40 mm |
Saluran mikrofon harus diurutkan dalam urutan menaik dari 0, sesuai dengan penomoran yang ditunjukkan di atas masing-masing array. Microsoft Audio Stack akan memerlukan aliran referensi tambahan untuk pemutaran audio guna melakukan pembatalan gema.
Pemilihan komponen
Komponen mikrofon harus dipilih untuk mereproduksi sinyal secara akurat, bebas dari kebisingan dan distorsi.
Properti yang direkomendasikan saat memilih mikrofon adalah:
| Parameter | Disarankan |
|---|---|
| SNR | >= 65 dB (sinyal 1 kHz 94 dBSPL, kebisingan bobot A) |
| Pencocokan Amplitudo | ± 1 dB @ 1 kHz |
| Pencocokan Fase | ± 2° @ 1 kHz |
| Titik Kelebihan Beban Akustik (AOP) | >= 120 dBSPL (THD = 10%) |
| Laju Bit | Minimum 24-bit |
| Laju Pengambilan Sampel | Minimum 16 kHz* |
| Respons Frekuensi | ± 3 dB, 200-8000 Hz Floating Mask* |
| Keandalan | Rentang Suhu Penyimpanan -40°C hingga 70°C Rentang Suhu Pengoperasian -20°C hingga 55°C |
*Laju pengambilan sampel yang lebih tinggi atau rentang frekuensi yang "lebih luas" mungkin diperlukan untuk aplikasi komunikasi (VoIP) berkualitas tinggi
Pemilihan komponen yang baik harus dipasangkan dengan integrasi elektroakustik yang baik untuk menghindari gangguan kinerja pada komponen yang digunakan. Kasus penggunaan unik juga mungkin mengharuskan persyaratan tambahan (misalnya: rentang suhu pengoperasian).
Integrasi array mikrofon
Performa array mikrofon saat diintegrasikan ke dalam perangkat akan berbeda dari spesifikasi komponen. Penting untuk memastikan bahwa mikrofon cocok dengan baik setelah integrasi. Oleh karena itu performa perangkat yang diukur setelah penguatan tetap atau EQ harus memenuhi rekomendasi berikut:
| Parameter | Disarankan |
|---|---|
| SNR | > 63 dB (sinyal 1 kHz 94 dBSPL, kebisingan bobot A) |
| Sensitivitas Output | -26 dBFS/Pa @ 1 kHz (disarankan) |
| Pencocokan Amplitudo | ± 2 dB, 200-8000 Hz |
| THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL, Urutan ke-5 |
| Respons Frekuensi | ± 6 dB, 200-8000 Hz Floating Mask** |
**Speaker distorsi rendah diperlukan untuk mengukur THD (misalnya Neumann KH120)
**Rentang frekuensi yang "lebih luas" mungkin diperlukan untuk aplikasi komunikasi (VoIP) berkualitas tinggi
Rekomendasi integrasi speaker
Karena pembatalan gema diperlukan untuk perangkat pengenalan ucapan yang menyertakan speaker, rekomendasi tambahan disediakan untuk pemilihan dan integrasi speaker.
| Parameter | Disarankan |
|---|---|
| Pertimbangan linieritas | Tidak ada pemrosesan non-linier setelah referensi speaker, jika tidak, aliran referensi loopback berbasis perangkat keras diperlukan |
| Loopback Speaker | Disediakan melalui WASAPI, API privat, plug-in ALSA kustom (Linux), atau disediakan melalui saluran firmware |
| THD% | 3rd Octave Bands minimum Urutan ke-5, 70 dBA Playback @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz |
| Kopling Gema ke Mikrofon | > -10 dB TCLw menggunakan metode ITU-T G.122 Annex B.4, dinormalisasi ke tingkat mikrofon TCLw = TCLwmeasured + (Tingkat Terukur - Sensitivitas Output target) TCLw = TCLwmeasured + (Tingkat Terukur - (-26)) |
Arsitektur desain integrasi
Panduan arsitektur berikut diperlukan saat mengintegrasikan mikrofon ke dalam perangkat:
| Parameter | Rekomendasi |
|---|---|
| Kesamaan Port Mikrofon | Semua port mikrofon memiliki panjang yang sama dalam array |
| Dimensi Port Mikrofon | Ukuran port Ø0,8-1,0 mm. Panjang Port / Diameter Port < 2 |
| Penyegelan Mikrofon | Gasket penyegelan secara seragam diimplementasikan dalam susunan. Rekomendasikan rasio kompresi > 70% untuk gasket busa |
| Keandalan Mikrofon | Jala harus digunakan untuk mencegah debu dan penyerapan (antara PCB untuk mikrofon port bawah dan penyegelan gasket/penutup atas) |
| Isolasi Mikrofon | Gasket karet dan pemisahan getaran melalui struktur, terutama untuk mengisolasi jalur getaran karena speaker terintegrasi |
| Waktu Pengambilan Sampel | Audio perangkat harus bebas dari jitter dan drop-out dengan drift rendah |
| Kemampuan Rekaman | Perangkat harus dapat merekam aliran mentah saluran individual secara bersamaan |
| USB | Semua perangkat input audio USB harus mengatur deskriptor sesuai dengan Spesifikasi USB Audio Devices Rev3 |
| Geometri Mikrofon | Driver harus menerapkan Deskriptor Geometri Array Mikrofon dengan benar |
| Kemampuan Ditemukan | Perangkat tidak boleh memiliki algoritma pemrosesan audio non-linear berbasis perangkat lunak pihak ke-3 yang tidak dapat ditemukan atau tidak terkendali |
| Format Pengambilan | Format pengambilan harus menggunakan laju pengambilan sampel minimum 16 kHz dan kedalaman 24-bit yang disarankan |
Pertimbangan arsitektur kelistrikan
Jika memungkinkan, array dapat terhubung ke host USB (seperti SoC yang menjalankan Microsoft Audio Stack (MAS)) dan terhubung ke antarmuka layanan Ucapan atau aplikasi lainnya.
Komponen perangkat keras seperti konversi PDM-ke-TDM harus memastikan bahwa rentang dinamis dan SNR mikrofon dipertahankan dalam sampel ulang.
USB Audio Class 2.0 berkecepatan tinggi harus didukung dalam MCUs audio apa pun untuk menyediakan bandwidth yang diperlukan hingga tujuh saluran dengan laju sampel dan kedalaman bit yang lebih tinggi.



