¿Qué son los dispositivos de Voz?

Artículo
01/29/2024

El servicio de voz funciona con una amplia variedad de dispositivos y orígenes de audio. Puede usar el procesamiento de audio predeterminado disponible en un dispositivo. De lo contrario, el SDK de Voz tiene la opción de usar nuestros algoritmos avanzados de procesamiento de audio diseñados para funcionar bien con el servicio Voz. Ofrece un reconocimiento de voz de campo lejano preciso mediante la supresión de ruido, la cancelación del eco, la formación de haces y la eliminación de la reverberación.

Procesamiento de audio

El procesamiento de audio consiste en mejoras que se aplican a una secuencia de audio para mejorar la calidad del audio. Entre los ejemplos de mejoras comunes se incluyen el control automático de ganancia (AGC), la supresión del ruido y la cancelación del eco acústico (AEC). El SDK de Voz integra Microsoft Audio Stack (MAS), lo que permite que cualquier aplicación o producto use sus funcionalidades de procesamiento de audio en el audio de entrada.

Recomendaciones de la matriz de micrófonos

El SDK de voz funciona mejor con una matriz de micrófonos diseñada según nuestras directrices recomendadas. Para más información, consulte Recomendaciones de matriz de Micrófonos del SDK de Voz.

Kits de desarrollo de dispositivos

El SDK de Voz está diseñado para funcionar con kits de desarrollo específicos integrados y diversas configuraciones de matrices de micrófonos. Por ejemplo, puede usar uno de estos kits de desarrollo de Azure.

Azure Percept DK contiene un procesador de audio preconfigurado y una matriz lineal de cuatro micrófonos y procesamiento de audio. Puede usar comandos de voz, de reconocimiento de palabras clave y voz de campo lejano con la ayuda de los servicios de Azure AI.
Azure Kinect DK es un kit de desarrollo de computación espacial con sensores de inteligencia artificial avanzados que proporcionan sofisticados modelos de voz y de Visión de Azure AI. Como dispositivo todo en uno con varios modos, contiene un sensor de profundidad, una matriz de micrófonos espaciales con una cámara de vídeo y un sensor de orientación.

Pasos siguientes

Conceptos de procesamiento de audio

¿Qué son los dispositivos de Voz?

Procesamiento de audio

Recomendaciones de la matriz de micrófonos

Kits de desarrollo de dispositivos

Pasos siguientes

Recursos adicionales