O que são dispositivos de fala?

O serviço de Voz funciona com uma grande variedade de dispositivos e fontes de áudio. Você pode usar o processamento de áudio padrão disponível em um dispositivo. Caso contrário, o SDK de Fala tem uma opção para você usar nossos algoritmos avançados de processamento de áudio que são projetados para funcionar bem com o serviço de Fala. Ele fornece reconhecimento de fala de campo distante preciso por meio de supressão de ruído, cancelamento de eco, formação de feixe e desreverberação.

Processamento de áudio

O processamento de áudio é uma melhoria aplicada a um fluxo de áudio para melhorar a qualidade do áudio. Exemplos de melhorias comuns incluem controle automático de ganho (AGC), supressão de ruído e cancelamento de eco acústico (AEC). O Speech SDK integra o Microsoft Audio Stack (MAS), permitindo que qualquer aplicativo ou produto use seus recursos de processamento de áudio na entrada de áudio.

Recomendações da matriz de microfones

O SDK de fala funciona melhor com uma matriz de microfones projetada de acordo com nossas diretrizes recomendadas. Para obter detalhes, consulte Recomendações de matriz de microfone.

Kits de desenvolvimento de dispositivos

O SDK de fala foi projetado para funcionar com kits de desenvolvimento criados especificamente e configurações variadas de matriz de microfone. Por exemplo, você pode usar um desses kits de desenvolvimento do Azure.

  • O Azure Percept DK contém um processador de áudio pré-configurado e uma matriz linear de quatro microfones. Você pode usar comandos de voz, deteção de palavras-chave e fala em campo distante com a ajuda dos serviços de IA do Azure.
  • O Azure Kinect DK é um kit de desenvolvedor de computação espacial com sensores avançados de IA que fornecem modelos sofisticados de visão e fala do Azure AI. Como um pequeno dispositivo tudo-em-um com vários modos, ele contém um sensor de profundidade, conjunto de microfones espaciais com uma câmera de vídeo e sensor de orientação.

Próximos passos