Empfehlungen zum Mikrofonarray

Artikel
01/28/2024

In diesem Artikel erfahren Sie, wie Sie ein Mikrofonarray für das Speech SDK entwerfen. Dies ist besonders relevant, wenn Sie Hardware für Sprachlösungen auswählen, spezifizieren oder bauen.

Das Speech SDK funktioniert am besten mit einem Mikrofonarray, das gemäß diesen Richtlinien entworfen wurde, einschließlich der Mikrofongeometrie, der Komponentenauswahl und der Architektur.

Mikrofongeometrie

Die folgenden Arraygeometrien werden für Microsoft Audio Stack empfohlen. Die Lokalisierung von Soundquellen und die Unterdrückung von Umgebungsgeräuschen wird durch eine größere Anzahl von Mikrofonen verbessert. Dies hängt jedoch von den jeweiligen Anwendungen, Benutzerszenarien und dem Formfaktor des Geräts ab.

Array	Mikrofone	Geometrie
Kreisförmig: Sieben Mikrofone		6 außen, 1 Mitte, Radius = 42,5 mm, gleichmäßige Abstände
Kreisförmig: Vier Mikrofone		3 außen, 1 Mitte, Radius = 42,5 mm, gleichmäßige Abstände
Linear: Vier Mikrofone		Länge = 120 mm, Abstand = 40 mm
Linear: Zwei Mikrofone		Abstand = 40 mm

Mikrofonkanäle sollten entsprechend der Nummerierung, die zuvor für die einzelnen Arrays beschrieben wurde, in aufsteigender Reihenfolge (ab 0) sortiert werden. Der Microsoft Audio Stack benötigt einen weiteren Referenzstream der Audiowiedergabe, um die Echounterdrückung durchzuführen.

Komponentenauswahl

Mikrofonkomponenten müssen so ausgewählt werden, dass ein Signal rausch- und verzerrungsfrei wiedergegeben wird.

Bei der Auswahl von Mikrofonen werden folgende Eigenschaften empfohlen:

Parameter	Empfohlen
SNR	> 65 dB (1 kHz-Signal, 94 dBSPL, bewerteter Schalldruckpegel)
Amplitudenanpassung	± 1 dB bei 1 kHz
Phasenanpassung	± 2° bei 1 kHz
Akustischer Überlastpunkt (AOP)	> = 120 dBSPL (THD = 10 %)
Bitrate	Mindestens 24 Bit
Samplingrate	Mindestens 16 kHz*
Frequenzgang	± 3 dB, 200–8.000 Hz Floating Mask*
Zuverlässigkeit	Lagertemperaturbereich -40 °C bis 70 °C Betriebstemperaturbereich -20 °C bis 55 °C

*Für hochwertige Kommunikationsanwendungen (VoIP) können höhere Samplingraten oder „breitere“ Frequenzbereiche erforderlich sein.

Eine gute Komponentenauswahl muss mit einer guten elektroakustischen Integration einhergehen, damit die Leistungsfähigkeit der verwendeten Komponenten nicht beeinträchtigt wird. Besondere Anwendungsfälle können auch weitere Anforderungen (z. B. Betriebstemperaturbereiche) notwendig machen.

Integration von Mikrofonarrays

Die Leistung des im Gerät integrierten Mikrofonarrays variiert je nach Komponentenspezifikation. Es ist wichtig, dass Sie sicherstellen, dass die Mikrofone nach der Integration gut aufeinander abgestimmt sind. Daher sollte die gemessene Geräteleistung nach fester Verstärkung oder Entzerrung den folgenden Empfehlungen entsprechen:

Parameter	Empfohlen
SNR	>= 64 dB (1 kHz-Signal, 94 dBSPL, bewerteter Schalldruckpegel)
Ausgangsempfindlichkeit	-26 dBFS/Pa bei 1 kHz (empfohlen)
Amplitudenanpassung	± 2 dB, 200 – 8000 Hz
THD%*	≤ 1 %, 200–8.000 Hz, 94 dBSPL
Frequenzgang	± 6 dB, 200–12.000 Hz, Floating Mask**

**Ein Lautsprecher mit niedriger Verzerrung ist zum Messen des THD-Werts (Total Harmonic Distortion, harmonische Verzerrung) erforderlich (z. B. Neumann KH120).

**Für hochwertige Kommunikationsanwendungen (VoIP) können „breitere“ Frequenzbereiche erforderlich sein.

Empfehlungen zur Lautsprecherintegration

Da für Spracherkennungsgeräte mit Lautsprechern eine Echounterdrückung erforderlich ist, werden weitere Empfehlungen für die Lautsprecherauswahl und deren Integration bereitgestellt.

Parameter	Empfohlen
Aspekte der Linearität	Keine nichtlineare Verarbeitung nach Lautsprecherreferenz, da andernfalls ein hardwarebasierter Loopback-Referenzstream erforderlich ist
Lautsprecher-Loopback	Über WASAPI, private APIs, benutzerdefiniertes ALSA-Plug-In (Linux) oder Firmwarekanal bereitgestellt
THD %	Drittel-Oktavbänder mindestens 5. Ordnung, Wiedergabe mit 70 dBA bei 0,8 m ≤ 6,3 %, 315 – 500 Hz ≤ 5 %, 630 – 5.000 Hz
Echokopplung an Mikrofone	> -10 dB TCLw anhand der Methode von ITU-T G.122 Annex B.4, normalisiert auf Mikrofonpegel TCLw = gemessener TCLw + (gemessener Pegel - Soll-Ausgangsempfindlichkeit) TCLw = gemessener TCLw + (gemessener Pegel - (-26))

Integrationsarchitektur

Die folgenden Architekturrichtlinien sind notwendig, wenn Sie Mikrofone in ein Gerät integrieren:

Parameter	Empfehlung
Gemeinsamkeit der Mikrofonanschlüsse	Alle Mikrofonanschlüsse im Array haben dieselbe Länge
Abmessungen der Mikrofonanschlüsse	Anschlussgröße Ø 0,8 – 1,0 mm, Anschlusslänge/Anschlussdurchmesser < 2
Mikrofonversiegelung	Dichtungen einheitlich in Stapelbauweise ausgeführt; Empfehlung: > 70 % Verdichtungsverhältnis für Schaumstoffdichtungen
Zuverlässigkeit von Mikrofonen	Um ein Eindringen von Staub zu vermeiden, sollte ein Netzgitter verwendet werden (zwischen Leiterplatte für Mikrofone mit Anschluss unten und Dichtung/oberer Abdeckung)
Mikrofonisolierung	Gummidichtungen und Schwingungsentkopplung über die Struktur, insbesondere zur Isolierung von Schwingungswegen aufgrund integrierter Lautsprecher
Samplingtakt	Die Audioaufnahme des Geräts darf keinen Jitter, keine Ausfälle und nur geringe Abweichung aufweisen
Aufzeichnungsfähigkeit	Das Gerät muss Rohdatenströme einzelner Kanäle gleichzeitig aufzeichnen können
USB	Alle USB-Audioeingabegeräte müssen Deskriptoren gemäß den Spezifikationen für USB-Audiogeräte Rev3 festlegen
Mikrofongeometrie	Treiber müssen Deskriptoren für die Geometrie des Mikrofonarrays ordnungsgemäß implementieren
Erkennbarkeit	Geräte dürfen keine nicht erkennbaren oder nicht steuerbaren auf Hardware, Firmware oder Software von Drittanbietern basierte nichtlineare Audioverarbeitungsalgorithmen zum/vom Gerät aufweisen
Aufnahmeformat	Aufnahmeformate müssen eine minimale Samplingrate von 16 kHz und eine empfohlene Tiefe von 24 Bit aufweisen

Überlegungen zur elektrischen Architektur

Gegebenenfalls können Arrays mit einem USB-Host (z. B. einem SoC, auf dem Microsoft Audio Stack (MAS) ausgeführt wird) und Schnittstellen zu Sprachdiensten oder anderen Anwendungen verbunden werden.

Hardwarekomponenten wie die PDM-zu-TDM-Konvertierung sollten sicherstellen, dass der dynamische Bereich und das SNR der Mikrofone bei erneutem Sampling erhalten bleiben.

Alle Audio-MCUs sollten High-Speed USB Audio 2.0 unterstützen, um die notwendige Bandbreite für bis zu sieben Kanäle bei höheren Samplingraten und Bittiefen bereitzustellen.

Nächste Schritte

Weitere Informationen zur Audioverarbeitung