Types de services d’API Speech

Vous pouvez utiliser le service Speech d’Azure Cognitive Services pour effectuer des transformations de la langue parlée, notamment la reconnaissance vocale, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur.

Notes

Utilisez Azure Cognitive Service for Language si vous souhaitez collecter des informations sur les termes ou les expressions ou obtenir une analyse contextuelle détaillée de la langue parlée ou écrite.

Services

Comment choisir un service de reconnaissance vocale

Cet organigramme peut vous aider à choisir le service de reconnaissance vocale qui répond à vos besoins :

Diagramme illustrant comment choisir un service de reconnaissance vocale.

Le côté gauche du diagramme illustre les processus d’audio en audio ou d’audio en texte.

  • La conversion de parole en texte est utilisée pour convertir la parole d’une source audio au format texte.
  • La voix en voix est utilisée pour traduire la parole dans une langue vers une parole dans une autre langue.

Le côté droit du diagramme illustre les processus de texte en audio.

  • La conversion de texte par synthèse vocale est utilisée pour générer du contenu parlé à partir d’une source texte.

Cas d’utilisation courants

Le tableau suivant recommande des services pour certains cas d’utilisation courants.

Cas d’utilisation Service à utiliser
Fournir des sous-titres pour des vidéos enregistrées ou en direct Reconnaissance vocale
Créer une transcription d’appel téléphonique ou de réunion Reconnaissance vocale
Implémenter la dictée de notes automatisée Reconnaissance vocale
Déterminer les entrées utilisateur prévues pour un traitement plus poussé Reconnaissance vocale
Générer des réponses vocales à une entrée utilisateur Synthèse vocale
Créer des menus vocaux pour des systèmes téléphoniques Synthèse vocale
Lire des e-mails ou des SMS à haute voix dans des scénarios mains libres Synthèse vocale
Diffuser des annonces dans des lieux publics, comme les gares ou les aéroports Synthèse vocale
Produire un sous-titrage en temps réel d’un discours ou la traduction bidirectionnelle simultanée d’une conversation orale Reconnaissance vocale

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Autres contributeurs :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes