Recomendações de matriz de microfone

Artigo
02/01/2024

Neste artigo, você aprenderá a criar uma matriz de microfone personalizada para uso com o SDK de Fala. Isso é muito pertinente se você estiver selecionando, especificando ou criando um hardware para soluções de fala.

O SDK de Fala funciona melhor com uma matriz de microfones projetada de acordo com essas diretrizes, incluindo a geometria do microfone, a seleção de componentes e a arquitetura.

Geometria do microfone

As geometrias de matriz a seguir são recomendadas para uso com a Pilha de Áudio da Microsoft. A localização de fontes de som e o bloqueio do ruído de ambiente são aprimorados com um número maior de microfones com dependências em aplicativos específicos, cenários de usuário e com o fator forma de dispositivo.

Array	Microfones	Geometry
Circular - 7 microfones		6 externas, 1 central, raio = 42,5 mm, com espaçamento uniforme
Circular - 4 microfones		3 externas, 1 central, raio = 42,5 mm, com espaçamento uniforme
Linear - 4 microfones		Comprimento = 120 mm, Espaçamento = 40 mm
Linear - 2 microfones		Espaçamento = 40 mm

Os canais de microfone devem ser ordenados de forma crescente a partir de 0, de acordo com a numeração descrita anteriormente para cada matriz. O Microsoft Audio Stack requer outro fluxo de referência de reprodução de áudio para realizar o cancelamento de eco.

Seleção de componentes

Os componentes do microfone devem ser selecionados para reproduzir com precisão um sinal sem ruído e distorção.

As propriedades recomendadas ao selecionar microfones são:

Parâmetro	Recomendadas
SNR	>= 65 dB (sinal de 1 kHz, 94 dBSPL, ruído de peso A)
Correspondência de amplitude	± 1 dB em 1 kHz
Correspondência de fase	± 2° em 1 kHz
AOP (Ponto de Sobrecarga Acústica)	>= 120 dBSPL (THD = 10%)
Taxa de bits	Mínimo de 24 bits
Taxa de amostragem	Mínimo de 16 kHz*
Frequência da resposta	Máscara flutuante de ± 3 dB e 200 a 8000 Hz*
Confiabilidade	Intervalo de temperatura de armazenamento: -40 °C a 70 °C Intervalo de temperatura operacional: -20 °C a 55 °C

*Taxas de amostragem mais altas ou faixas de frequência "mais amplas" podem ser necessárias para aplicativos de comunicação de alta qualidade (VoIP)

Uma boa seleção de componente precisa ser emparelhada com boa integração eletroacústica para evitar prejudicar o desempenho dos componentes usados. Casos de uso exclusivos também podem exigir mais requisitos (como intervalos de temperatura operacional).

Integração de matriz de microfone

O desempenho da matriz de microfones quando integrado a um dispositivo difere da especificação do componente. É importante garantir que os microfones estejam bem combinados após a integração. Portanto, o desempenho do dispositivo medido após qualquer EQ ou lucro fixo deve atender às seguintes recomendações:

Parâmetro	Recomendadas
SNR	>= 64 dB (1 kHz signal 94 dBSPL, A-weighted noise)
Sensibilidade de saída	-26 dBFS/Pa em 1 kHz (recomendado)
Correspondência de amplitude	± 2 dB, 200 a 8000 Hz
THD%*	≤ 1%, 200-8000 Hz, 94 dBSPL
Frequência da resposta	± 6 dB, 200-12000 Hz Floating Mask**

**É necessário um alto-falante de baixa distorção para medir o THD (por exemplo, Neumann KH120)

**Intervalos de frequência "mais amplos" podem ser necessários para aplicativos de comunicação de alta qualidade (VoIP)

Recomendações de integração do alto-falante

Como o cancelamento de eco é necessário para dispositivos de reconhecimento de fala que contêm alto-falantes, são fornecidas mais recomendações para a seleção e integração de alto-falantes.

Parâmetro	Recomendadas
Considerações sobre linearidade	Nenhum processamento não linear após a referência do alto-falante, caso contrário, é necessário um fluxo de referência de loopback baseado em hardware
Loopback do alto-falante	Fornecido via WASAPI, APIs privadas, plug-in de ALSA personalizado (Linux) ou fornecido por meio do canal de firmware
% de THD	Bandas de Terceira Oitava com ordem mínima de quinta, Reprodução de 70 dBA a 0,8 m ≤ 6,3%, 315 a 500 Hz ≤ 5%, 630 a 5.000 Hz
Acoplamento de eco a microfones	> -10 dB TCLw usando o método ITU-T G.122 Anexo B.4, normalizado para o nível do microfone TCLw = TCLw medido + (nível medido – sensibilidade de saída de destino) TCLw = TCLw medido + (nível medido – (-26))

Arquitetura de design de integração

As seguintes diretrizes para arquitetura são necessárias ao integrar microfones a um dispositivo:

Parâmetro	Recomendação
Similaridade de porta do microfone	Todas as portas do microfone devem ter o mesmo comprimento na matriz
Dimensões da porta do microfone	Tamanho da porta Ø 0,8 a 1,0 mm. Comprimento da porta/diâmetro da porta < 2
Vedação do microfone	Gaxetas de vedação uniformemente implementadas na pilha. Taxa de compactação > 70% recomendada para gaxetas de espuma
Confiabilidade do microfone	A malha deve ser usada para impedir a poeira e o ingress (entre o PCB para microfones com portas inferiores e a gaxeta de vedação/tampa superior)
Isolamento do microfone	Gaxetas de borracha e desacoplamento de vibração por meio da estrutura, particularmente para isolar todos os caminhos de vibração devido aos alto-falantes integrados
Relógio de amostragem	O áudio do dispositivo precisa estar livre de tremulação e ter saídas com baixo descompasso
Capacidade de registro	O dispositivo precisa ser capaz de registrar fluxos brutos individuais de canal simultaneamente
USB	Todos os dispositivos de entrada de áudio USB precisam definir descritores de acordo com a Especificação Rev3 de dispositivos de áudio USB
Geometria do microfone	Os drivers precisam implementar os Descritores de geometria da matriz de microfone corretamente
Detectabilidade	Os dispositivos não devem possuir algoritmos de processamento de áudio não linear, baseados em hardware, firmware ou software de terceiros, indetectáveis ou incontroláveis no dispositivo
Formato de captura	Os formatos de captura precisam usar uma taxa de amostragem mínima de 16 kHz e uma profundidade recomendada de 24 bits

Considerações sobre a arquitetura elétrica

Quando aplicável, as matrizes podem ser conectadas a um host USB (como um SoC que executa o Microsoft Audio Stack (MAS)) e interfaces para serviços de fala ou outros aplicativos.

Componentes de hardware, como a conversão de PDM a TDM, devem garantir que o intervalo dinâmico e o SNR dos microfones sejam preservados em novas amostras.

A Classe de Áudio USB 2.0 de alta velocidade deve ter suporte em qualquer MCU de áudio para fornecer a largura de banda necessária para até sete canais com taxas de exemplo e profundidades de bits mais altas.

Próximas etapas

Saiba mais sobre o processamento de áudio