Types de services d’API Speech
Vous pouvez utiliser le service Speech d’Azure Cognitive Services pour effectuer des transformations de la langue parlée, notamment la reconnaissance vocale, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur.
Notes
Utilisez Azure Cognitive Service for Language si vous souhaitez collecter des informations sur les termes ou les expressions ou obtenir une analyse contextuelle détaillée de la langue parlée ou écrite.
Services
- La Conversion de parole en texte peut convertir des flux audio en texte en temps réel ou par lots.
- La Conversion de texte par synthèse vocale permet aux applications de convertir du texte en parole quasi humaine.
- La Traduction vocale fournit une reconnaissance vocale multilingue et une traduction de parole en texte de flux audio.
Comment choisir un service de reconnaissance vocale
Cet organigramme peut vous aider à choisir le service de reconnaissance vocale qui répond à vos besoins :
Le côté gauche du diagramme illustre les processus d’audio en audio ou d’audio en texte.
- La conversion de parole en texte est utilisée pour convertir la parole d’une source audio au format texte.
- La voix en voix est utilisée pour traduire la parole dans une langue vers une parole dans une autre langue.
Le côté droit du diagramme illustre les processus de texte en audio.
- La conversion de texte par synthèse vocale est utilisée pour générer du contenu parlé à partir d’une source texte.
Cas d’utilisation courants
Le tableau suivant recommande des services pour certains cas d’utilisation courants.
Cas d’utilisation | Service à utiliser |
---|---|
Fournir des sous-titres pour des vidéos enregistrées ou en direct | Reconnaissance vocale |
Créer une transcription d’appel téléphonique ou de réunion | Reconnaissance vocale |
Implémenter la dictée de notes automatisée | Reconnaissance vocale |
Déterminer les entrées utilisateur prévues pour un traitement plus poussé | Reconnaissance vocale |
Générer des réponses vocales à une entrée utilisateur | Synthèse vocale |
Créer des menus vocaux pour des systèmes téléphoniques | Synthèse vocale |
Lire des e-mails ou des SMS à haute voix dans des scénarios mains libres | Synthèse vocale |
Diffuser des annonces dans des lieux publics, comme les gares ou les aéroports | Synthèse vocale |
Produire un sous-titrage en temps réel d’un discours ou la traduction bidirectionnelle simultanée d’une conversation orale | Reconnaissance vocale |
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteurs principaux :
- Kruti Mehta | Ingénieur Fast-Track Azure senior
- Oscar Shimabukuro | Architecte de solution cloud senior
Autres contributeurs :
- Mick Alberts | Rédacteur technique
- Ashish Chahuan | Architecte de solution cloud senior
- Brandon Cowen | Architecte de solution cloud senior
- Manjit Singh | Ingénieur logiciel
- Christina Skarpathiotaki | Architecte solutions cloud senior
- Nathan Widdup | Ingénieur Fast-Track Azure senior
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
- Qu’est-ce que le service de reconnaissance vocale ?
- Billet de blog sur les API Speech
- Parcours d’apprentissage : Provisionner et gérer Azure Cognitive Services
- Parcours d’apprentissage : traiter et traduire du contenu vocal avec Azure Cognitive Speech Services
Ressources associées
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour