Qu’est-ce que le service de reconnaissance vocale ?

Le service Speech fournit des capacités de reconnaissance vocale, de synthèse vocale et de traduction vocale avec une ressource Azure Speech. Vous pouvez transcrire la parole en texte avec une grande précision, produire des voix de synthèse vocale à la tonalité naturelle, traduire du contenu audio parlé et utiliser la reconnaissance de l’orateur pendant les conversations.

Image des vignettes qui mettent en évidence certaines caractéristiques du service Speech.

Créez des voix personnalisées, ajoutez des mots spécifiques à votre vocabulaire de base ou créez vos propres modèles. Exécutez Speech n’importe où, dans le cloud ou en périphérie dans des conteneurs. Vous pouvez aisément activer vos applications, outils et appareils pour les services Speech avec l’interface CLI Speech, le SDK Speech, Speech Studio ou les API REST.

Speech est disponible dans diverses langues, régions et gammes de prix.

Scénarios de reconnaissance vocale

Voici quelques scénarios courants de reconnaissance vocale :

  • Sous-titrage : découvrez comment synchroniser les sous-titres avec le contenu audio en entrée, appliquer des filtres de vulgarité, obtenir des résultats partiels, appliquer des personnalisations et identifier les langues parlées pour les scénarios multilingues.
  • Création de contenu audio : vous pouvez utiliser des voix neuronales pour rendre les interactions avec les chatbots et les assistants vocaux plus naturelles et plus agréables, pour convertir des textes numériques comme les livres électroniques en livres audio et pour améliorer les systèmes de navigation embarqués.
  • Transcription de centre d’appels : transcrivez les appels en temps réel ou traitez les appels par lots, supprimez les informations d’identification personnelle et extrayez des insights comme le sentiment pour faciliter votre cas d’usage de centre d’appels.
  • Assistants vocaux : créez des interfaces conversationnelles naturelles pour leurs applications et leurs expériences. La fonctionnalité d’assistant vocal permet une interaction rapide et fiable entre un appareil et une implémentation d’assistant.

Microsoft utilise Speech dans de nombreux scénarios, notamment le sous-titrage dans Teams, la dictée dans Office 365 et la lecture à voix haute dans le navigateur Edge.

Image montrant les logos des produits Microsoft où le service Speech est utilisé.

Fonctionnalités vocales

Les résumés de la fonctionnalité Speech sont fournis ci-dessous avec des liens pour plus d’informations.

Reconnaissance vocale

Utilisez la reconnaissance vocale pour transcrire du contenu audio en texte, en temps réel ou de manière asynchrone.

Convertissez du contenu audio en texte à partir de diverses sources, notamment les microphones, les fichiers audio et le stockage d’objets blob. Utilisez la diarisation de l’orateur pour déterminer qui a dit quoi et quand. Obtenez des transcriptions lisibles avec mise en forme et ponctuation automatiques.

Toutefois, il peut être insuffisant si l’audio contient du bruit ambiant ou beaucoup de jargon spécifique à une industrie ou à un domaine. Dans ce cas, vous pouvez créer et entraîner des modèles vocaux personnalisés avec des données acoustiques, linguistiques et de prononciation. Les modèles vocaux personnalisés sont privés et peuvent offrir un avantage concurrentiel.

Vous pouvez essayer la reconnaissance vocale avec cette application web de démonstration ou dans Speech Studio.

Synthèse vocale

Avec la synthèse vocale, vous pouvez convertir du texte en entrée en parole synthétisée très naturelle à l’oreille. Utilisez des voix neuronales, qui sont des voix semblables à la voix humaine alimentées par des réseaux neuronaux profonds. Utilisez le langage SSML (Speech Synthesis Markup Language) pour ajuster la tonalité, la prononciation, le débit de parole, le volume et bien plus encore.

  • Voix neuronale prédéfinie : voix prêtes à l’emploi très naturelles. Passez en revue les exemples de voix neuronales prédéfinies ici et choisissez celle qui répond le mieux à vos besoins métier.
  • Voix neuronale personnalisée : à côté des voix neuronales prédéfinies qui sont fournies clé en main, vous pouvez aussi créer une voix neuronale personnalisée reconnaissable et unique à votre marque ou produit. Les voix neuronales personnalisées sont privées et peuvent offrir un avantage concurrentiel. Passez en revue les exemples de voix neuronales personnalisées ici.

Traduction vocale

La traduction vocale permet à vos applications, outils et appareils d’effectuer de la traduction multilingue en temps réel de la parole. Utilisez cette fonctionnalité pour la traduction de voix en voix et de voix en texte.

Identification de la langue

L’identification de la langue sert à identifier les langues parlées dans du contenu audio par comparaison à la liste des langues prises en charge. Utilisez l’identification de langue seule, ou avec la reconnaissance vocale ou la traduction vocale.

Reconnaissance de l’orateur

La reconnaissance de l’orateur fournit des algorithmes qui vérifient et identifient les orateurs d’après leurs caractéristiques vocales uniques. Le service Reconnaissance de l’orateur est utilisé pour répondre à la question « qui parle ? ».

Évaluation de la prononciation

L’évaluation de la prononciation évalue la prononciation de la parole et fournit des indications aux orateurs sur la précision et la maîtrise du discours. Grâce à l’évaluation de la prononciation, les élèves qui apprennent des langues peuvent pratiquer, obtenir des commentaires instantanés et améliorer leur prononciation pour pouvoir parler et se présenter en toute confiance.

Reconnaissance de l’intention

Reconnaissance de l’intention : utilisez la reconnaissance vocale avec la compréhension du langage (LUIS) pour déduire les intentions de l’utilisateur à partir des transcriptions et agir sur des commandes vocales.

Livraison et présence

Vous pouvez déployer les fonctionnalités Speech d’Azure Cognitive Services dans le cloud ou localement.

Avec des conteneurs, vous pouvez rapprocher le service de vos données pour favoriser la conformité, la sécurité ou pour d’autres raisons opérationnelles.

Le déploiement du service Speech dans les clouds souverains est possible pour certains organismes publics et leurs partenaires. Par exemple, le cloud Azure Government est disponible pour les organismes publics américains et leurs partenaires. Le cloud Azure Chine est accessible aux organisations ayant une présence commerciale en Chine. Pour plus d’informations, consultez Clouds souverains.

Diagramme montrant où le service Speech peut être déployé et accessible.

Utiliser Speech dans votre application

Speech Studio est un ensemble d’outils basés sur une interface utilisateur qui permettent de créer et d’intégrer des fonctionnalités du service Speech d’Azure Cognitive Services dans vos applications. Vous créez des projets dans Speech Studio à l’aide d’une approche sans code, puis vous référencez les ressources que vous créez dans vos applications à l’aide du SDK Speech, de l’interface CLI Speech ou d’API REST.

L’interface CLI Speech est un outil en ligne de commande qui vous permet d’utiliser le service Speech sans avoir à écrire du code. La plupart des fonctionnalités fournies dans le SDK Speech sont disponibles dans l’interface CLI Speech, et certaines fonctionnalités avancées et personnalisations sont simplifiées dans l’interface CLI Speech.

Le kit SDK Speech expose les nombreuses capacités du service Speech dont vous pouvez vous servir pour développer des applications intégrant la reconnaissance vocale. Le kit de développement logiciel (SDK) Speech est disponible dans de nombreux langages de programmation et sur toutes les plateformes.

Dans certains cas, vous ne pouvez pas ou ne devez pas utiliser le kit SDK Speech. Dans ce cas, vous pouvez utiliser des API REST pour accéder au service Speech. Par exemple, vous pouvez utiliser des API REST pour la transcription par lots et des API REST pour la reconnaissance de l’orateur.

Prendre en main

Nous proposons des guides de démarrage rapide pour de nombreux langages de programmation très répandus. Chaque guide de démarrage rapide est conçu pour vous montrer des modèles de conception de base et vous permettre d’exécuter du code en moins de 10 minutes. Consultez la liste suivante pour connaître le guide de démarrage rapide de chaque fonctionnalité :

Exemples de code

Un exemple de code pour le service Speech est disponible sur GitHub. Ces exemples couvrent des scénarios courants tels que la lecture du signal audio d’un fichier ou d’un flux, la reconnaissance continue et ponctuelle, et l’utilisation de modèles personnalisés. Pour voir les exemples SDK et REST, suivez ces liens :

Étapes suivantes