Recommandations sur le réseau de microphones

Article
01/22/2024

Dans cet article, vous allez découvrir comment concevoir un réseau de microphones personnalisé à utiliser avec le kit de développement logiciel (SDK) Speech. Ce procédé est particulièrement pertinent si vous sélectionnez, spécifiez ou créez du matériel pour les solutions de reconnaissance vocale.

Le kit SDK Speech offre les meilleures performances avec un réseau de microphones conçu conformément aux instructions suivantes, concernant notamment la géométrie des microphones, la sélection des composants et l'architecture.

Géométrie du microphone

Les géométries de réseau suivantes sont recommandées pour une utilisation avec la pile audio Microsoft. La localisation des sources sonores et le rejet du bruit ambiant sont améliorés avec un plus grand nombre de microphones, selon les applications spécifiques, les scénarios utilisateur et le facteur de forme de l’appareil.

Array	Microphones	Géométrie
Circulaire - 7 microphones		6 à l'extérieur, 1 au centre, rayon = 42,5 mm, espacement régulier
Circulaire - 4 microphones		3 à l'extérieur, 1 au centre, rayon = 42,5 mm, espacement régulier
Linéaire - 4 microphones		Longueur = 120 mm, espacement = 40 mm
Linéaire - 2 microphones		Espacement = 40 mm

Les canaux du microphone doivent être classés par ordre croissant en partant de 0, conformément à la numérotation décrite précédemment pour chaque réseau. La pile audio Microsoft nécessite un autre flux de référence de lecture audio pour effectuer l'annulation d'écho.

Sélection des composants

Les composants du microphone doivent être sélectionnés pour reproduire avec précision un signal exempt de bruit et de distorsion.

Les propriétés recommandées lors de la sélection des microphones sont les suivantes :

Paramètre	Recommandé
SNR	> = 65 dB (signal 1 kHz 94 dBSPL, bruit avec pondération A)
Mise en correspondance de l’amplitude	± 1 dB @ 1 kHz
Mise en correspondance de la phase	± 2° @ 1 kHz
Acoustic Overload Point (AOP)	> = 120 dBSPL (THD = 10%)
Vitesse de transmission	24 bits minimum
Taux d’échantillonnage	16 kHz minimum*
Réponse en fréquence	± 3 dB, 200-8000 Hz avec masque flottant*
Fiabilité	Plage de température de stockage de -40°C à 70°C Plage de température de fonctionnement de -20°C à 55°C

*Des taux d'échantillonnage plus élevés ou des gammes de fréquences « plus larges » peuvent être nécessaires pour des applications de communications de haute qualité (VoIP).

Une bonne sélection des composants doit s'accompagner d'une bonne intégration électroacoustique afin de ne pas nuire aux performances des composants utilisés. Les cas d'usage uniques peuvent également nécessiter davantage d'exigences (comme les plages de températures de fonctionnement).

Intégration du réseau de microphones

Les performances du réseau de microphones lorsqu'il est intégré dans un dispositif diffèrent des spécifications du composant. Il est important de s'assurer que les microphones sont bien mis en correspondance après l'intégration. Par conséquent, les performances de l’appareil mesurées après un gain fixe ou un égaliseur doivent répondre aux recommandations suivantes :

Paramètre	Recommandé
SNR	> = 64 dB (signal 1 kHz 94 dBSPL, bruit avec pondération A)
Sensibilité en sortie	-26 dBFS/Pa @ 1 kHz (recommandé)
Mise en correspondance de l’amplitude	± 2 dB, 200-8000 Hz
% THD*	≤ 1%, 200-8000 Hz, 94 dBSPL
Réponse en fréquence	± 6 dB, 200-12000 Hz avec masque flottant**

**Un haut-parleur à faible distorsion est nécessaire pour mesurer le THD (par exemple, Neumann KH120)

**Des gammes de fréquences « plus larges » peuvent être nécessaires pour des applications de communications de haute qualité (VoIP).

Recommandations d’intégration du haut-parleur

Compte tenu du fait que l'annulation de l'écho est nécessaire pour les appareils de reconnaissance vocale qui contiennent des haut-parleurs, des recommandations supplémentaires sont fournies pour la sélection et l'intégration des haut-parleurs.

Paramètre	Recommandé
Considérations relatives à la linéarité	Aucun traitement non linéaire après la référence du haut-parleur. Sinon, un flux de référence de bouclage basé sur le matériel est nécessaire.
Bouclage du haut-parleur	Fourni via WASAPI, des API privées, un plug-in ALSA personnalisé (Linux), ou via un canal de microprogramme
% THD	Troisième bande d'octave minimum cinquième ordre, lecture 70 dBA @ 0,8 m ≤ 6,3 %, 315-500 Hz ≤ 5 %, 630-5000 Hz
Couplage de l’écho aux microphones	> -10 dB TCLw avec la méthode ITU-T G.122 Annex B.4, normalisée au niveau du microphone TCLw = TCLwmeasured + (Niveau mesuré - sensibilité de sortie cible) TCLw = TCLwmeasured + (Niveau mesuré - (-26))

Intégration de l’architecture de conception

Les directives suivantes concernant l'architecture sont nécessaires lors de l'intégration de microphones à un appareil :

Paramètre	Recommandation
Similarité du port microphone	Tous les ports microphone ont la même longueur dans le tableau
Dimensions du port microphone	Taille du port : Ø0,8-1.0 mm. Longueur/diamètre du port : < 2
Scellement du microphone	Joints d'étanchéité uniformément insérés dans l’appareil. Taux de compression recommandé > 70 % pour les joints en mousse
Fiabilité du microphone	Une grille doit être installée pour empêcher les infiltrations de poussière (entre le circuit imprimé pour les microphones à port inférieur et le joint d'étanchéité/couvercle supérieur)
Isolation du microphone	Joints en caoutchouc et découplage des vibrations à travers la structure, en particulier pour isoler les trajets de vibrations dus à des haut-parleurs intégrés
Horloge d’échantillonnage	L'audio de l'appareil doit être exempt de gigue et de parasites, avec une faible dérive
Fonctionnalité d’enregistrement	L'appareil doit être capable d'enregistrer simultanément des flux Raw de canaux individuels
USB	Tous les périphériques d'entrée audio USB doivent définir des descripteurs conformément à la spécification USB Audio Devices Rev3 Spec
Géométrie du microphone	Les pilotes doivent implémenter correctement les descripteurs de géométrie du réseau de microphones
Détectabilité	Les appareils ne doivent avoir ni matériel ou microprogramme non détectable ou non contrôlable, ni algorithmes de traitement audio non linéaires basés sur un logiciel tiers de/vers l'appareil.
Format de capture	Les formats de capture doivent utiliser une fréquence d’échantillonnage minimale de 16 kHz et une profondeur recommandée de 24 bits

Considérations relatives à l’architecture électrique

Le cas échéant, les réseaux peuvent être connectés à un hôte USB (par exemple un SoC qui exécute la pile audio Microsoft (MAS)), ainsi qu'à des interfaces vers des services Speech ou d'autres applications.

Les composants matériels tels que la conversion PDM à TDM doivent garantir que la plage dynamique et le rapport signal/bruit des microphones sont préservés dans les rééchantillonneurs.

La norme High-speed USB Audio Class 2.0 devrait être prise en charge dans tous les MCU audio afin de fournir la bande passante nécessaire pour un maximum de sept canaux à des fréquences d'échantillonnage et des profondeurs de bits supérieures.

Étapes suivantes

En savoir plus sur le traitement audio