API REST de reconnaissance vocale

Article
04/13/2024

L’API REST de reconnaissance vocale est utilisée pour la transcription par lots et la reconnaissance vocale personnalisée.

Important

L’API REST de reconnaissance vocale v3.2 est en préversion. L’API REST de reconnaissance vocale v3.1 est en disponibilité générale. L’API REST de reconnaissance vocale v3.0 sera mise hors service le 1er avril 2026. Pour plus d’informations, consultez les guides de migration de l’API REST reconnaissance vocale v3.0 vers v3.1 et v3.1 vers v3.2.

Consultez l’API REST Speech to text v3.2 (préversion)

Consulter la documentation de référence de l’API de reconnaissance vocale v3.1

Consulter la documentation de référence de l’API de reconnaissance vocale v3.0

Utilisez l’API REST de reconnaissance vocale pour ce qui suit :

Reconnaissance vocale personnalisée : avec la reconnaissance vocale personnalisée, vous pouvez charger vos propres données, tester et entraîner un modèle personnalisé, comparer la précision entre les modèles et déployer un modèle sur un point de terminaison personnalisé. Copier des modèles vers d’autres abonnements si vous voulez que les collègues aient accès à un modèle que vous avez créé, ou si vous voulez déployer un modèle dans plusieurs régions.
Transcription par lots : transcrivez des fichiers audio par lots à partir de plusieurs URL ou d’un conteneur Azure.

L’API REST de reconnaissance vocale inclut notamment les fonctionnalités suivantes :

Obtenez les journaux pour chaque point de terminaison si les journaux d’activité sont demandés pour ce point de terminaison.
Demander le manifeste des modèles que vous créez pour configurer des conteneurs locaux.
Charger des données à partir de comptes de stockage Azure à l’aide d’un URI de signature d’accès partagé (SAS).
Apportez votre propre stockage. Utilisez vos propres comptes de stockage pour les journaux, les fichiers de transcription et d’autres données.
Certaines opérations prennent en charge les notifications webhook. Vous pouvez inscrire vos webhooks là où les notifications sont envoyées.

Transcription Batch

Les groupes d’opérations suivants s’appliquent à la transcription par lots.

Groupe d’opérations	Description
Modèles	Utilisez des modèles de base ou des modèles personnalisés pour transcrire des fichiers audio. Vous pouvez utiliser des modèles avec la reconnaissance vocale personnalisée et la transcription par lots. Par exemple, vous pouvez utiliser un modèle entraîné à l’aide d’un jeu de données spécifique pour transcrire des fichiers audio. Consultez Effectuer l’apprentissage d’un modèle et d’un cycle de vie de modèle speech personnalisé pour obtenir des exemples d’apprentissage et de gestion de modèles vocaux personnalisés.
Transcriptions	Utilisez des transcriptions pour transcrire une grande quantité d’audio dans le stockage. Lorsque vous utilisez la transcription par lot, vous envoyez plusieurs fichiers par requête ou pointez vers un conteneur Stockage Blob Azure avec les fichiers audio à transcrire. Pour voir des exemples de création de transcriptions à partir de plusieurs fichiers audio, consultez Créer une transcription.
Webhooks	Utilisez des hooks web pour recevoir des notifications sur les événements de création, de traitement, d’achèvement et de suppression. Vous pouvez utiliser des hooks web avec la reconnaissance vocale personnalisée et la transcription par lots. Les hooks web s’appliquent aux jeux de données, points de terminaison, évaluations, modèles et transcriptions.

Reconnaissance vocale personnalisée

Les groupes d’opérations suivants s’appliquent à la reconnaissance vocale personnalisée.

Groupe d’opérations	Description
Jeux de données	Utilisez des jeux de données pour entraîner et tester des modèles vocaux personnalisés. Par exemple, vous pouvez comparer les performances d’une reconnaissance vocale personnalisée entraînée avec un jeu de données spécifique aux performances d’un modèle de base ou d’un modèle de reconnaissance vocale personnalisée entraînée avec un autre jeu de données. Pour voir des exemples de chargement de jeux de données, consultez Charger des jeux de données d’entraînement et de test.
Points de terminaison	Déployez des modèles speech personnalisés sur des points de terminaison. Vous devez déployer un point de terminaison personnalisé pour utiliser un modèle de reconnaissance vocale personnalisée. Pour voir des exemples de gestion des points de terminaison de déploiement, consultez Déployer un modèle.
Évaluations	Utilisez des évaluations pour comparer les performances des différents modèles. Par exemple, vous pouvez comparer les performances d’un modèle speech personnalisé entraîné avec un jeu de données spécifique aux performances d’un modèle de base ou d’un modèle personnalisé entraîné avec un autre jeu de données. Consultez la qualité de la reconnaissance des tests et la précision des tests pour obtenir des exemples de test et d’évaluation des modèles vocaux personnalisés.
Modèles	Utilisez des modèles de base ou des modèles personnalisés pour transcrire des fichiers audio. Vous pouvez utiliser des modèles avec la reconnaissance vocale personnalisée et la transcription par lots. Par exemple, vous pouvez utiliser un modèle entraîné à l’aide d’un jeu de données spécifique pour transcrire des fichiers audio. Consultez Effectuer l’apprentissage d’un modèle et d’un cycle de vie de modèle speech personnalisé pour obtenir des exemples d’apprentissage et de gestion de modèles vocaux personnalisés.
Projets	Utilisez des projets pour gérer des modèles speech personnalisés, entraîner et tester des jeux de données et des points de terminaison de déploiement. Les projets speech personnalisés contiennent des modèles, des jeux de données d’entraînement et de test et des points de terminaison de déploiement. Chaque projet est spécifique à un paramètre régional. Par exemple, vous pourriez créer un projet utilisant l’anglais aux États-Unis. Pour voir des exemples de création de projets, consultez Créer un projet.
Webhooks	Utilisez des hooks web pour recevoir des notifications sur les événements de création, de traitement, d’achèvement et de suppression. Vous pouvez utiliser des hooks web avec la reconnaissance vocale personnalisée et la transcription par lots. Les hooks web s’appliquent aux jeux de données, points de terminaison, évaluations, modèles et transcriptions.

État d’intégrité du service

État des services fournit des informations sur l’intégrité globale du service et des sous-composants. Pour plus d’informations, consultez Service Health .

API REST de reconnaissance vocale

Transcription Batch

Reconnaissance vocale personnalisée

État d’intégrité du service

Étapes suivantes

Ressources supplémentaires