Que sont les appareils Speech ?

Le service Speech fonctionne avec une large gamme d’appareils et de sources audio. Vous pouvez utiliser le traitement audio par défaut disponible sur un appareil. Sinon, le Kit de développement logiciel (SDK) Speech vous offre la possibilité d’utiliser nos algorithmes de traitement audio avancé, conçus pour fonctionner avec le service Speech. Il fournit une reconnaissance vocale à champ lointain précise par le biais de la suppression du bruit, l’annulation de l’écho, la formation de faisceaux et la déréverbération.

Traitement audio

Le traitement audio est une amélioration appliquée à un flux audio pour en améliorer la qualité. Parmi les exemples d’améliorations courantes, citons le contrôle de gain automatique (AGC), la suppression du bruit et l’annulation de l’écho acoustique (AEC). Le Kit de développement logiciel (SDK) Speech intègre Pile audio Microsoft (MAS), ce qui permet à toute application ou tout produit d’utiliser ses capacités de traitement audio sur une entrée audio.

Recommandations sur le réseau de microphones

Le kit de développement logiciel (SDK) Speech fonctionne de manière optimale avec un réseau de micros conçu conformément à nos recommandations. Pour plus d’informations, consultez Recommandations relatives au réseau de micros.

Kits de développement d’appareil

Le Kit de développement logiciel (SDK) Speech est une bibliothèque préconfigurée conçue pour fonctionner avec des kits de développement spécialisés et différentes configurations de réseau de microphones. Par exemple, vous pouvez utiliser l’un de ces kits de développement Azure.

  • Azure Percept DK contient un processeur audio préconfiguré et un tableau linéaire à quatre micros. Vous pouvez utiliser des commandes vocales, l’identification de mot clé et la reconnaissance vocale en champ éloigné à l’aide d’Azure AI services.
  • Azure Kinect DK est un kit de développement dédié à l’informatique spatiale doté de capteurs d’intelligence artificielle avancés qui fournissent des modèles Azure AI Vision et vocaux sophistiqués. En tant que petit appareil tout-en-un offrant plusieurs modes, il contient un capteur de profondeur, un réseau de microphones spatiaux avec une caméra vidéo et un capteur d’orientation.

Étapes suivantes