Doporučení pro mikrofonní pole

V tomto článku se dozvíte, jak navrhnout pole mikrofonu přizpůsobené pro použití se sadou Speech SDK. To je nejdůležitější, pokud vybíráte, zadáváte nebo vytváříte hardware pro řešení pro řeč.

Sada Speech SDK funguje nejlépe s mikrofonem navrženým podle těchto pokynů, včetně geometrie mikrofonu, výběru součástí a architektury.

Geometrie mikrofonu

Pro použití se sadou Microsoft Audio Stack se doporučují následující geometrie polí. Umístění zdrojů zvuku a odmítnutí okolního šumu je vylepšeno s větším počtem mikrofonů se závislostmi na konkrétních aplikacích, scénářích uživatelů a faktoru tvaru zařízení.

Pole Mikrofony Geometrie
Kruhové - 7 mikrofonů 7 mic circular array 6 vnější, 1 střed, poloměr = 42,5 mm, rovnoměrně rozložený
Kruhové - 4 mikrofony 4 mic circular array 3 vnější, 1 střed, poloměr = 42,5 mm, rovnoměrně rozložený
Lineární - 4 mikrofony 4 mic linear array Délka = 120 mm, mezera = 40 mm
Lineární - 2 mikrofony 2 mic linear array Mezery = 40 mm

Kanály mikrofonu by měly být seřazeny vzestupně od 0 podle číslování, které bylo popsáno dříve pro každé pole. Microsoft Audio Stack vyžaduje další referenční stream přehrávání zvuku k provedení zrušení ozvěny.

Výběr součásti

Součásti mikrofonu by měly být vybrány tak, aby přesně reprodukovaly signál bez šumu a zkreslení.

Doporučené vlastnosti při výběru mikrofonů:

Parametr Doporučené
SNR >= 65 dB (1 kHz signál 94 dBSPL, šum s hmotností A)
Porovnávání amplitud ± 1 dB @ 1 kHz
Párování fází ± 2° @ 1 kHz
Bod akustického přetížení (AOP) >= 120 dBSPL (THD = 10 %)
Přenosová rychlost Minimálně 24bitová verze
Vzorkovací frekvence Minimálně 16 kHz*
Frekvenční ± 3 dB, 200-8000 Hz plovoucí maska*
Spolehlivost Rozsah teploty úložiště -40°C až 70°C
Rozsah provozní teploty -20°C až 55°C

*Vyšší vzorkovací frekvence nebo "širší" rozsahy četnosti mohou být nezbytné pro aplikace s vysokou kvalitou komunikace (VoIP).

Aby nedošlo k narušení výkonu použitých součástí, musí být kvalitní výběr součástí spárován s dobrou elektroakustickou integrací. Jedinečné případy použití také můžou vyžadovat další požadavky (například rozsahy provozních teplot).

Integrace mikrofonního pole

Výkon pole mikrofonu při integraci do zařízení se liší od specifikace komponenty. Je důležité zajistit, aby se mikrofony po integraci dobře shodovaly. Proto by výkon zařízení měřený po jakémkoli pevném získání nebo EQ měl splňovat následující doporučení:

Parametr Doporučené
SNR >= 64 dB (1 kHz signál 94 dBSPL, šum s hmotností A)
Citlivost výstupu -26 dBFS/Pa @ 1 kHz (doporučeno)
Porovnávání amplitud ± 2 dB, 200-8000 Hz
THD%* ≤ 1 %, 200–8000 Hz, 94 dBSPL
Frekvenční ± 6 dB, 200–12000 Hz plovoucí maska**

**K měření THD (například Neumann KH120) se vyžaduje nízká deformace reproduktoru.

**"Širší" rozsahy frekvencí můžou být nezbytné pro aplikace VoIP (High-Quality Communications)

Doporučení pro integraci mluvčího

Vzhledem k tomu, že zrušení ozvěny je nezbytné pro zařízení pro rozpoznávání řeči, která obsahují reproduktory, jsou k dispozici další doporučení pro výběr a integraci mluvčího.

Parametr Doporučené
Aspekty linearity Žádné nelineární zpracování po referenci mluvčího, jinak se vyžaduje hardwarový odkazový stream zpětné smyčky.
Zpětná smyčka reproduktoru Poskytuje se prostřednictvím WASAPI, privátních rozhraní API, vlastních modulů plug-in ALSA (Linux) nebo prostřednictvím kanálu firmwaru.
THD % Třetí osmičkové pásma minimální páté pořadí, přehrávání 70 dBA @ 0,8 m ≤ 6,3 %, 315–500 Hz ≤ 5 %, 630–5000 Hz
Párování ozvěny s mikrofony > -10 dB TCLw s použitím metody ITU-T G.122 přílohy B.4 normalizované na úroveň mikrofonu
TCLw = TCLwmeasured + (měřená úroveň - citlivost cílového výstupu)
TCLw = TCLwmeasured + (měřená úroveň - (-26))

Architektura návrhu integrace

Při integraci mikrofonů do zařízení jsou nezbytné následující pokyny pro architekturu:

Parametr Doporučení
Podobnost portů mikrofonu Všechny porty mikrofonu mají stejnou délku v poli.
Rozměry portů mikrofonu Velikost portu Ø0,8-1,0 mm. Délka portu / průměr < portu 2
Těsnění mikrofonu Těsnicí těsnění rovnoměrně implementované v zásobníku. Doporučte > 70% poměr komprese pro pěnové těsnění
Spolehlivost mikrofonu Síť by měla být použita k prevenci prachu a příchozího přenosu dat (mezi PCB pro spodní portované mikrofony a těsnicí těsnění/ horní kryt)
Izolace mikrofonu Gumové těsnění a kmitání oddělující strukturu, zejména pro izolování jakýchkoli cest kmitání kvůli integrovaným reproduktorům
Vzorkování hodin Zvuk zařízení musí být bez zpoždění a odkládacích zařízení s nízkým posunem.
Funkce záznamu Zařízení musí být schopné současně zaznamenávat nezpracované datové proudy jednotlivých kanálů.
USB Všechna vstupní zařízení USB zvuku musí nastavit deskriptory podle specifikace USB Audio Devices Rev3
Geometrie mikrofonu Ovladače musí správně implementovat popisovače geometrie pole mikrofonu.
Zjistitelnost Zařízení nesmí obsahovat žádné nekontrolovatelné nebo nekontrolovatelné hardwarové, firmware nebo softwarové algoritmy pro nelineární zpracování zvuku třetích stran do/ze zařízení.
Formát zachycení Formáty zachytávání musí používat minimální vzorkovací frekvenci 16 kHz a doporučenou 24bitovou hloubku.

Aspekty elektrické architektury

Pokud je to možné, můžou být pole připojená k hostiteli USB (například SoC, na kterém běží Microsoft Audio Stack (MAS)) a rozhraní pro služby Speech nebo jiné aplikace.

Hardwarové komponenty, jako je převod PDM-to-TDM, by měly zajistit zachování dynamického rozsahu a SNR mikrofonů v rámci re-samplerů.

Vysokorychlostní USB Audio Třída 2.0 by měla být podporována v rámci všech zvukových MCU, aby byla zajištěna potřebná šířka pásma až pro sedm kanálů s vyššími vzorkovacími rychlostmi a hloubkami bitů.

Další kroky