Mikrofonmatrisrekommendationer

I den här artikeln får du lära dig hur du utformar en mikrofonmatris som är anpassad för användning med Speech SDK. Detta är mest relevant om du väljer, anger eller skapar maskinvara för tallösningar.

Speech SDK fungerar bäst med en mikrofonmatris som utformats enligt dessa riktlinjer, inklusive mikrofongeometri, komponentval och arkitektur.

Mikrofongeometri

Följande matrisgeometrier rekommenderas för användning med Microsoft Audio Stack. Platsen för ljudkällor och avvisandet av omgivande brus förbättras med ett större antal mikrofoner med beroenden för specifika program, användarscenarier och enhetens formfaktor.

Matris Mikrofoner Geometri
Cirkulär - 7 mikrofoner 7 mic circular array 6 yttre, 1 mitt, radie = 42,5 mm, jämnt fördelat
Cirkulär – 4 mikrofoner 4 mic circular array 3 Yttre, 1 mitt, Radie = 42,5 mm, jämnt fördelat
Linjär – 4 mikrofoner 4 mic linear array Längd = 120 mm, avstånd = 40 mm
Linjär – 2 mikrofoner 2 mic linear array Avstånd = 40 mm

Mikrofonkanaler ska sorteras stigande från 0, enligt numreringen som tidigare beskrivits för varje matris. Microsoft Audio Stack kräver en annan referensström av ljuduppspelning för att utföra ekoreducering.

Komponentval

Mikrofonkomponenter ska väljas för att korrekt återge en signal fri från brus och förvrängning.

De rekommenderade egenskaperna när du väljer mikrofoner är:

Parameter Rekommenderat
SNR >= 65 dB (1 kHz signal 94 dBSPL, A-viktat brus)
Amplitudmatchning ± 1 dB @ 1 kHz
Fasmatchning ± 2° @ 1 kHz
AOP (Acoustic Overload Point) >= 120 dBSPL (THD = 10%)
Bithastighet Minst 24 bitar
Samplingsfrekvens Minst 16 kHz*
Frekvensomfång ± 3 dB, 200-8000 Hz flytande mask*
Tillförlitlighet Lagringstemperaturintervall -40°C till 70°C
Drifttemperaturintervall -20°C till 55°C

*Högre samplingsfrekvenser eller "bredare" frekvensintervall kan vara nödvändiga för voIP-program (högkvalitativ kommunikation)

Bra komponentval måste kombineras med god elektroakustisk integrering för att undvika att försämra prestandan för de komponenter som används. Unika användningsfall kan också kräva fler krav (till exempel drifttemperaturintervall).

Integrering av mikrofonmatris

Prestandan för mikrofonmatrisen när den är integrerad i en enhet skiljer sig från komponentspecifikationen. Det är viktigt att se till att mikrofonerna är väl matchade efter integreringen. Därför bör den enhetsprestanda som mäts efter en fast vinst eller EQ uppfylla följande rekommendationer:

Parameter Rekommenderat
SNR >= 64 dB (1 kHz signal 94 dBSPL, A-viktat brus)
Utdatakänslighet -26 dBFS/Pa @ 1 kHz (rekommenderas)
Amplitudmatchning ± 2 dB, 200-8000 Hz
THD%* ≤ 1%, 200-8000 Hz, 94 dBSPL
Frekvensomfång ± 6 dB, 200-12000 Hz flytande mask**

**En högtalare med låg förvrängning krävs för att mäta THD (till exempel Neumann KH120)

**"Bredare" frekvensintervall kan vara nödvändiga för voIP-program (högkvalitativ kommunikation)

Rekommendationer för talarintegrering

Eftersom ekoreducering krävs för taligenkänningsenheter som innehåller talare ges fler rekommendationer för talarval och integrering.

Parameter Rekommenderat
Överväganden för linjäritet Ingen icke-linjär bearbetning efter talarreferens, annars krävs en maskinvarubaserad loopback-referensström
Loopback för högtalare Tillhandahålls via WASAPI, privata API:er, anpassat ALSA-plugin-program (Linux) eller tillhandahålls via kanalen för inbyggd programvara
THD% Third Octave Bands minimum fifth Order, 70 dBA Playback @ 0.8 m ≤ 6.3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Ekokoppling till mikrofoner > -10 dB TCLw med hjälp av ITU-T G.122 Bilaga B.4-metod, normaliserad till mikrofonnivå
TCLw = TCLwmeasured + (Uppmätt nivå – Målutdatakänslighet)
TCLw = TCLwmeasured + (Uppmätt nivå - (-26))

Arkitektur för integrationsdesign

Följande riktlinjer för arkitektur är nödvändiga när du integrerar mikrofoner i en enhet:

Parameter Rekommendation
Mic-portlikhet Alla mikrofonportar är lika långa i matrisen
Portdimensioner för mikrofon Portstorlek Ø0.8-1.0 mm. Portlängd/portdiameter < 2
Mic Sealing Tätningspackningar som är enhetligt implementerade i stack-up. Rekommendera > 70 % komprimeringsförhållande för skumpackningar
Mikrofontillförlitlighet Nät bör användas för att förhindra damm och ingress (mellan PCB för nedre portade mikrofoner och tätningspackning/topplock)
Mikrofonisolering Gummipackningar och vibrationskoppling genom struktur, särskilt för isolerande vibrationsvägar på grund av integrerade högtalare
Samplingsklocka Enhetens ljud måste vara fritt från jitter och drop-outs med låg drift
Postkapacitet Enheten måste kunna registrera enskilda kanalrådataströmmar samtidigt
USB Alla USB-ljudindataenheter måste ange deskriptorer enligt USB-ljudenheter Rev3 Spec
Mikrofongeometri Drivrutiner måste implementera geometribeskrivningar för mikrofonmatris korrekt
Upptäckbarhet Enheter får inte ha någon oupptäckt eller okontrollerbar maskinvara, inbyggd programvara eller programvarubaserade icke-linjära ljudbearbetningsalgoritmer från tredje part till/från enheten
Avbildningsformat Avbildningsformat måste använda en minsta samplingshastighet på 16 kHz och rekommenderat 24-bitars djup

Överväganden för elektrisk arkitektur

I tillämpliga fall kan matriser anslutas till en USB-värd (till exempel en SoC som kör Microsoft Audio Stack (MAS)) och gränssnitt till Speech-tjänster eller andra program.

Maskinvarukomponenter som PDM-till-TDM-konvertering bör se till att mikrofonernas dynamiska omfång och SNR bevaras i omexempel.

Höghastighets-USB Audio Class 2.0 bör stödjas inom alla ljud-MCU:er för att tillhandahålla den bandbredd som krävs för upp till sju kanaler med högre urvalshastigheter och bitdjup.

Nästa steg