Qu’est-ce que la reconnaissance vocale ?

Dans cette vue d’ensemble, vous allez découvrir les avantages et les capacités de la fonctionnalité de reconnaissance vocale du service Speech, qui fait partie d’Azure Cognitive services. La reconnaissance vocale peut être utilisée en temps réel ou pour la transcription par lots de flux audio en texte.

Notes

Pour comparer la tarification du temps réel à la transcription par lots, consultez Tarification du service Speech.

Pour obtenir la liste complète des langues de reconnaissance vocale disponibles, consultez l’article Prise en charge des langues et de la voix.

Reconnaissance vocale en temps réel

Avec la reconnaissance vocale en temps réel, l’audio est transcrit comme étant reconnu à partir d’un microphone ou d’un fichier. Utilisez la reconnaissance vocale en temps réel pour les applications qui doivent transcrire de l’audio en temps réel, par exemple :

La reconnaissance vocale en temps réel est disponible via le Kit de développement logiciel (SDK) Speech et l’interface CLI Speech.

Transcription Batch

La transcription par lots est utilisée pour la transcription d’importants volumes de données audio stockées. Vous pouvez pointer vers des fichiers audio à l’aide d’un URI de signature d’accès partagé (SAP) et recevoir les résultats de la transcription de manière asynchrone. Utilisez la transcription par lots pour les applications qui doivent transcrire de l’audio en grande quantité, par exemple :

  • Transcriptions, légendes ou sous-titres pour l’audio préenregistré
  • Analyse post-appel du centre de contacts
  • Diarisation

La transcription par lots est disponible via :

Reconnaissance vocale personnalisée

Avec vocal personnalisé, vous pouvez évaluer et améliorer l’exactitude de la reconnaissance vocale pour vos applications et produits. Un modèle vocal personnalisé peut être utilisé pour la reconnaissance vocale en temps réel, la traduction vocale et la transcription par lots.

Conseil

Un point de terminaison de déploiement hébergé n’est pas nécessaire pour utiliser Custom Speech avec l’API de transcription par lots. Vous pouvez conserver des ressources si le modèle vocal personnalisé est utilisé uniquement pour la transcription par lots. Pour plus d’informations, consultez les tarifs du service Speech.

Prête à l’emploi, la reconnaissance vocale utilise un modèle de langage universel comme modèle de base qui est entraîné avec des données appartenant à Microsoft et reflète la langue couramment parlée. Le modèle de base est préentraîné avec les dialectes et la phonétique représentant divers domaines communs. Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne bien dans la plupart des scénarios de reconnaissance vocale.

Il est possible d’utiliser un modèle personnalisé pour augmenter le modèle de base dans le but d’améliorer la reconnaissance du vocabulaire propre à un domaine spécifique à l’application. Pour cela, vous entraînez le modèle en lui fournissant des données de texte. Vous pouvez aussi vous en servir pour améliorer la reconnaissance en fonction des conditions audio spécifiques de l’application en fournissant des données audio avec des transcriptions de référence. Pour plus d’informations, consultez les articles Vocal personnalisé et API REST de reconnaissance vocale.

Les options de personnalisation varient selon la langue ou les paramètres régionaux. Pour vérifier la prise en charge, consultez Prise en charge des langues et de la voix pour le service Speech.

Intelligence artificielle responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Étapes suivantes