Recommandations sur le réseau de microphones

Dans cet article, vous allez découvrir comment concevoir un réseau de microphones personnalisé à utiliser avec le kit de développement logiciel (SDK) Speech. Ce procédé est particulièrement pertinent si vous sélectionnez, spécifiez ou créez du matériel pour les solutions de reconnaissance vocale.

Le kit SDK Speech offre les meilleures performances avec un réseau de microphones conçu conformément aux instructions suivantes, concernant notamment la géométrie des microphones, la sélection des composants et l'architecture.

Géométrie du microphone

Les géométries de réseau suivantes sont recommandées pour une utilisation avec la pile audio Microsoft. La localisation des sources sonores et le rejet du bruit ambiant sont améliorés avec un plus grand nombre de microphones, selon les applications spécifiques, les scénarios utilisateur et le facteur de forme de l’appareil.

Array Microphones Géométrie
Circulaire - 7 microphones 7 mic circular array 6 à l'extérieur, 1 au centre, rayon = 42,5 mm, espacement régulier
Circulaire - 4 microphones 4 mic circular array 3 à l'extérieur, 1 au centre, rayon = 42,5 mm, espacement régulier
Linéaire - 4 microphones 4 mic linear array Longueur = 120 mm, espacement = 40 mm
Linéaire - 2 microphones 2 mic linear array Espacement = 40 mm

Les canaux du microphone doivent être classés par ordre croissant en partant de 0, conformément à la numérotation décrite précédemment pour chaque réseau. La pile audio Microsoft nécessite un autre flux de référence de lecture audio pour effectuer l'annulation d'écho.

Sélection des composants

Les composants du microphone doivent être sélectionnés pour reproduire avec précision un signal exempt de bruit et de distorsion.

Les propriétés recommandées lors de la sélection des microphones sont les suivantes :

Paramètre Recommandé
SNR > = 65 dB (signal 1 kHz 94 dBSPL, bruit avec pondération A)
Mise en correspondance de l’amplitude ± 1 dB @ 1 kHz
Mise en correspondance de la phase ± 2° @ 1 kHz
Acoustic Overload Point (AOP) > = 120 dBSPL (THD = 10%)
Vitesse de transmission 24 bits minimum
Taux d’échantillonnage 16 kHz minimum*
Réponse en fréquence ± 3 dB, 200-8000 Hz avec masque flottant*
Fiabilité Plage de température de stockage de -40°C à 70°C
Plage de température de fonctionnement de -20°C à 55°C

*Des taux d'échantillonnage plus élevés ou des gammes de fréquences « plus larges » peuvent être nécessaires pour des applications de communications de haute qualité (VoIP).

Une bonne sélection des composants doit s'accompagner d'une bonne intégration électroacoustique afin de ne pas nuire aux performances des composants utilisés. Les cas d'usage uniques peuvent également nécessiter davantage d'exigences (comme les plages de températures de fonctionnement).

Intégration du réseau de microphones

Les performances du réseau de microphones lorsqu'il est intégré dans un dispositif diffèrent des spécifications du composant. Il est important de s'assurer que les microphones sont bien mis en correspondance après l'intégration. Par conséquent, les performances de l’appareil mesurées après un gain fixe ou un égaliseur doivent répondre aux recommandations suivantes :

Paramètre Recommandé
SNR > = 64 dB (signal 1 kHz 94 dBSPL, bruit avec pondération A)
Sensibilité en sortie -26 dBFS/Pa @ 1 kHz (recommandé)
Mise en correspondance de l’amplitude ± 2 dB, 200-8000 Hz
% THD* ≤ 1%, 200-8000 Hz, 94 dBSPL
Réponse en fréquence ± 6 dB, 200-12000 Hz avec masque flottant**

**Un haut-parleur à faible distorsion est nécessaire pour mesurer le THD (par exemple, Neumann KH120)

**Des gammes de fréquences « plus larges » peuvent être nécessaires pour des applications de communications de haute qualité (VoIP).

Recommandations d’intégration du haut-parleur

Compte tenu du fait que l'annulation de l'écho est nécessaire pour les appareils de reconnaissance vocale qui contiennent des haut-parleurs, des recommandations supplémentaires sont fournies pour la sélection et l'intégration des haut-parleurs.

Paramètre Recommandé
Considérations relatives à la linéarité Aucun traitement non linéaire après la référence du haut-parleur. Sinon, un flux de référence de bouclage basé sur le matériel est nécessaire.
Bouclage du haut-parleur Fourni via WASAPI, des API privées, un plug-in ALSA personnalisé (Linux), ou via un canal de microprogramme
% THD Troisième bande d'octave minimum cinquième ordre, lecture 70 dBA @ 0,8 m ≤ 6,3 %, 315-500 Hz ≤ 5 %, 630-5000 Hz
Couplage de l’écho aux microphones > -10 dB TCLw avec la méthode ITU-T G.122 Annex B.4, normalisée au niveau du microphone
TCLw = TCLwmeasured + (Niveau mesuré - sensibilité de sortie cible)
TCLw = TCLwmeasured + (Niveau mesuré - (-26))

Intégration de l’architecture de conception

Les directives suivantes concernant l'architecture sont nécessaires lors de l'intégration de microphones à un appareil :

Paramètre Recommandation
Similarité du port microphone Tous les ports microphone ont la même longueur dans le tableau
Dimensions du port microphone Taille du port : Ø0,8-1.0 mm. Longueur/diamètre du port : < 2
Scellement du microphone Joints d'étanchéité uniformément insérés dans l’appareil. Taux de compression recommandé > 70 % pour les joints en mousse
Fiabilité du microphone Une grille doit être installée pour empêcher les infiltrations de poussière (entre le circuit imprimé pour les microphones à port inférieur et le joint d'étanchéité/couvercle supérieur)
Isolation du microphone Joints en caoutchouc et découplage des vibrations à travers la structure, en particulier pour isoler les trajets de vibrations dus à des haut-parleurs intégrés
Horloge d’échantillonnage L'audio de l'appareil doit être exempt de gigue et de parasites, avec une faible dérive
Fonctionnalité d’enregistrement L'appareil doit être capable d'enregistrer simultanément des flux Raw de canaux individuels
USB Tous les périphériques d'entrée audio USB doivent définir des descripteurs conformément à la spécification USB Audio Devices Rev3 Spec
Géométrie du microphone Les pilotes doivent implémenter correctement les descripteurs de géométrie du réseau de microphones
Détectabilité Les appareils ne doivent avoir ni matériel ou microprogramme non détectable ou non contrôlable, ni algorithmes de traitement audio non linéaires basés sur un logiciel tiers de/vers l'appareil.
Format de capture Les formats de capture doivent utiliser une fréquence d’échantillonnage minimale de 16 kHz et une profondeur recommandée de 24 bits

Considérations relatives à l’architecture électrique

Le cas échéant, les réseaux peuvent être connectés à un hôte USB (par exemple un SoC qui exécute la pile audio Microsoft (MAS)), ainsi qu'à des interfaces vers des services Speech ou d'autres applications.

Les composants matériels tels que la conversion PDM à TDM doivent garantir que la plage dynamique et le rapport signal/bruit des microphones sont préservés dans les rééchantillonneurs.

La norme High-speed USB Audio Class 2.0 devrait être prise en charge dans tous les MCU audio afin de fournir la bande passante nécessaire pour un maximum de sept canaux à des fréquences d'échantillonnage et des profondeurs de bits supérieures.

Étapes suivantes