Quotas et limites du service Speech

Article
01/22/2024

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites du service Speech dans Azure AI services. Les informations s’appliquent à tous les niveaux tarifaires du service. Il présente également les meilleures pratiques pour éviter la limitation des demandes.

Pour le niveau tarifaire gratuit (F0), consultez également les allocations mensuelles sur la page des tarifs.

Informations de référence sur les quotas et les limites

Les sections suivantes fournissent un guide rapide sur les quotas et les limites qui s’appliquent au service Speech.

Pour plus d’informations sur les quotas ajustables pour les ressources Speech Standard (S0), consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement. Les quotas et les limites des ressources vocales gratuites (F0) ne sont pas réglables.

Important

Si vous faites passer une ressource Speech du niveau tarifaire Free (F0) au niveau tarifaire Standard (S0), la modification des quotas correspondants peut prendre jusqu’à plusieurs heures.

Quotas et limites de reconnaissance vocale par ressource

Cette section décrit les quotas et les limites de la reconnaissance vocale par ressource Speech. Sauf indication contraire, les limites ne sont pas réglables.

Reconnaissance vocale en temps réel et traduction vocale

Vous pouvez utiliser la reconnaissance vocale en temps réel avec le kit de développement logiciel (SDK) Speech ou l’API REST de reconnaissance vocale pour l’audio court.

Important

Ces limites s’appliquent aux requêtes en temps réel simultanées de reconnaissance vocale et aux requêtes de traduction vocale combinées. Par exemple, si vous avez 60 requêtes simultanées de reconnaissance vocale et 40 requêtes simultanées de traduction vocale, vous atteindrez la limite de 100 requêtes simultanées.

Quota	Gratuit (F0)	Standard (S0)
Limite de requêtes simultanées - Point de terminaison du modèle de base	1 Cette limite n’est pas ajustable.	100 (valeur par défaut) Le débit est ajustable pour les ressources Standard (S0). Consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement.
Limite de requêtes simultanées - Point de terminaison personnalisé	1 Cette limite n’est pas ajustable.	100 (valeur par défaut) Le débit est ajustable pour les ressources Standard (S0). Consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement.
Longueur maximale de l’audio pour la diarisation en temps réel.	S/O	240 minutes par fichier

Transcription Batch

Quota	Gratuit (F0)	Standard (S0)
Limite de l’API REST de reconnaissance vocale	Non disponible pour F0	100 requêtes toutes les 10 secondes (600 requêtes par minute)
Taille maximale de fichier d’entrée audio	N/A	1 Go
Nombre maximal de blobs par conteneur	N/A	10000
Requête Nombre maximal de fichiers par transcription (quand vous utilisez plusieurs URL de contenu en entrée).	N/A	1 000
Longueur maximale de l’audio pour les transcriptions avec la diarisation activée.	S/O	240 minutes par fichier

Personnalisation des modèles

Les limites de ce tableau s’appliquent par ressource de reconnaissance vocale lorsque vous créez un modèle vocal personnalisé.

Quota	Gratuit (F0)	Standard (S0)
Limite d’API REST	100 requêtes toutes les 10 secondes (600 requêtes par minute)	100 requêtes toutes les 10 secondes (600 requêtes par minute)
Nombre maximal de jeux de données vocaux	2	500
Taille maximale de fichier de jeu de données acoustiques pour l’importation de données	2 Go	2 Go
Taille maximale de fichier de jeu de données linguistiques pour l’importation de données	200 Mo	1,5 Go
Taille maximale de fichier de jeu de données de prononciation pour l’importation de données	1 Ko	1 Mo
Taille maximale de texte quand vous utilisez le paramètre `text` dans la demande d’API Models_Create	200 Ko	500 Ko

Quotas et limites de la synthèse vocale par ressource

Cette section décrit les quotas et les limites de la synthèse vocale par ressource Speech.

Synthèse vocale en temps réel

Vous pouvez utiliser la synthèse vocale en temps réel avec le Kit de développement logiciel (SDK) Speech ou l’ API REST de synthèse vocale. Sauf indication contraire, les limites ne sont pas réglables.

Quota	Gratuit (F0)	Standard (S0)
Nombre maximal de transactions par période pour les voix neuronales prédéfinies et les voix neuronales personnalisées.	20 transactions par période de 60 secondes Cette limite n’est pas ajustable.	200 transactions par seconde (TPS) (valeur par défaut) Le débit est ajustable jusqu’à 1 000 TPS pour les ressources Standard (S0). Consultez plus d’explications, les meilleures pratiques et les instructions d’ajustement.
Longueur maximale de l’audio produit par demande	10 min	10 min
Nombre maximal de balises `<voice>` et `<audio>` distinctes en langage SSML	50	50
Taille maximale des messages SSML par tour pour WebSocket	64 Ko	64 Ko

Synthèse par lots

Ces limites ne sont pas réglables. Pour plus d’informations sur la latence de la synthèse par lots, consultez Latence de synthèse par lots et meilleures pratiques.

Quota	Gratuit (F0)	Standard (S0)
Limite d’API REST	Non disponible pour F0	50 requêtes toutes les 5 secondes
Taille maximale de la charge utile JSON pour créer un travail de synthèse	S/O	500 kilo-octets
Travaux de synthèse actifs simultanés	S/O	200
Nombre maximal d’entrées de texte par travail de synthèse	S/O	1 000
Durée de vie maximale d’un travail de synthèse à partir du moment où il est dans l’état final	S/O	Jusqu’à 31 jours (spécifié à l’aide des propriétés)

Voix neuronale personnalisée (professionnelle)

Les limites de ce tableau s’appliquent par ressource Speech lorsque vous créez un modèle de voix neuronale personnalisée professionnelle.

Quota	Gratuit (F0)	Standard (S0)
Nombre maximal de transactions par seconde (TPS)	Non disponible pour F0	200 transactions par seconde (TPS) (valeur par défaut)
Nombre maximal de jeux de données	N/A	500
Nombre maximal de chargements de jeux de données simultanés	N/A	5
Taille maximale de fichier de données pour l’importation de données par jeu de données	N/A	2 Go
Chargement de fichiers audio longs ou de fichiers audio sans script	S/O	Oui
Nombre maximal d’apprentissages de modèle simultanés	S/O	4
Nombre maximal de points de terminaison personnalisés	N/A	50

Voix neuronale personnalisée (personnelle)

Les limites de ce tableau s’appliquent par ressource Speech lorsque vous créez une voix personnelle.

Quota	Gratuit (F0)	Standard (S0)
Limite de l’API REST (sans inclure la synthèse vocale)	Non disponible pour F0	50 requêtes toutes les 10 secondes
Nombre maximal de transactions par seconde (TPS) pour la synthèse vocale	Non disponible pour F0	200 transactions par seconde (TPS) (valeur par défaut)

Avatar de synthèse vocale en temps réel

Quota	Gratuit (F0)	Standard (S0)
Nouvelles connexions par minute	Non disponible pour F0	Deux nouvelles connexions par minute

Outil Création de contenu audio

Quota	Gratuit (F0)	Standard (S0)
Taille du fichier (texte brut dans SSML)¹	3 000 caractères par fichier	20 000 caractères par fichier
Taille du fichier (fichier lexique)²	30 Ko par fichier	100 Ko par fichier
Caractères facturables dans SSML	15 000 caractères par fichier	100 000 caractères par fichier
Exporter vers la bibliothèque audio	1 tâche simultanée	N/A

¹ La limite s’applique uniquement au texte brut dans SSML et n’inclut pas aucune balise.

² Les caractères du fichier de lexique ne sont pas facturés. Seuls les éléments de lexique dans SSML sont comptés comme caractères facturables. Pour en savoir plus, reportez-vous aux caractères facturables.

Quotas et limites de reconnaissance de l’orateur par ressource

La reconnaissance de l’orateur est limitée à 20 transactions par seconde (TPS).

Description détaillée, ajustement de quota et bonnes pratiques

Certains quotas du service Speech sont ajustables. Cette section fournit davantage d’explications, de meilleures pratiques et des instructions d’ajustement.

Les quotas suivants sont ajustables pour les ressources Standard (S0). Les limites des requêtes gratuites (F0) ne sont pas ajustables.

Limite de requêtes simultanées de reconnaissance vocale pour le point de terminaison du modèle de base et le point de terminaison personnalisé
Nombre maximal de transactions par période de la synthèse vocale pour les voix neuronales prédéfinies et les voix neuronales personnalisées
Limite de demandes simultanées de traduction vocale

Avant de demander une augmentation de quota (le cas échéant), assurez-vous qu’elle est nécessaire. Le service Speech utilise des technologies de mise à l’échelle automatique pour mettre les ressources de calcul requises en mode « à la demande ». Parallèlement, le service Speech tente de réduire vos coûts en ne conservant pas une quantité excessive de capacité matérielle.

Prenons un exemple. Supposons que votre application reçoive le code de réponse 429, qui indique que le nombre de requêtes est trop élevé. Votre application reçoit cette réponse même si votre charge de travail s’inscrit dans les limites définies par les informations de référence sur les quotas et les limites. L’explication la plus probable est que le service Speech est en train d’appliquer un scale-up à votre demande et n’a pas encore atteint l’échelle requise. Ainsi, le service ne dispose pas immédiatement de suffisamment de ressources pour répondre à la demande. Dans la plupart des cas, cet état limité est transitoire.

Meilleures pratiques générales pour atténuer la limitation lors de la mise à l’échelle automatique

Pour réduire les problèmes liés à la limitation, il est judicieux d’utiliser les techniques suivantes :

Implémentez une logique de nouvelle tentative dans votre application.
Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail. Par exemple, supposons que votre application utilise la synthèse vocale et que votre charge de travail actuelle est de 5 TPS. À la seconde suivante, vous augmentez la charge à 20 TPS (soit quatre fois plus). Le service Speech commence immédiatement le scale-up pour répondre à la nouvelle charge, mais ne peut pas effectuer la mise à l’échelle nécessaire en une seconde. Certaines des requêtes obtiennent le code de réponse 429 (trop de requêtes).
Testez différents modèles d’augmentation de la charge. Pour plus d’informations, consultez Exemple de modèle de charge de travail.
Créez davantage de ressources de service Speech dans des régions différentes, puis distribuez la charge de travail entre elles. (La création de plusieurs ressources du service Speech dans la même région n’affecte pas le niveau de performance, car toutes les ressources seront prises en charge par le même cluster de back-end).

Les sections suivantes décrivent des cas spécifiques d’ajustement des quotas.

Reconnaissance vocale : augmenter la limite de requêtes simultanées de reconnaissance vocale en temps réel

Par défaut, le nombre de requêtes de reconnaissance vocale en temps réel et de requêtes traduction vocale combinées est limité à 100 par ressource dans le modèle de base et à 100 par point de terminaison personnalisé dans le modèle personnalisé. Pour le niveau tarifaire standard, vous pouvez augmenter cette valeur. Avant de soumettre la demande, assurez-vous que vous êtes familiarisé avec les éléments abordés plus haut dans cet article, comme les bonnes pratiques pour atténuer la limitation.

Notes

Les limites de demandes simultanées pour les modèles de base et personnalisés doivent être ajustées séparément. Vous pouvez avoir une ressource de service Speech associée à de nombreux points de terminaison personnalisés hébergeant de nombreux déploiements de modèles personnalisés. Si nécessaire, les ajustements de limite par point de terminaison personnalisé doivent être demandés séparément.

L’augmentation de la limite de demandes simultanées n’affecte pas directement vos coûts. Le service Speech utilise un modèle de paiement qui exige que vous payiez uniquement pour ce que vous utilisez. La limite définit la hauteur à laquelle le service peut mettre à l’échelle avant de commencer à limiter vos demandes.

Vous ne pouvez pas voir la valeur existante du paramètre de limite de demandes simultanées dans le portail Azure, les outils en ligne de commande ou les demandes d’API. Pour vérifier la valeur existante, créez une demande de support Azure.

Notes

Les conteneurs Speech n’exigent pas d’augmentation de la limite de demandes simultanées, car ils ne sont limités que par les processeurs du matériel sur lequel ils sont hébergés. Toutefois, les conteneurs Speech ont leurs propres limitations de capacité qui doivent être prises en compte. Pour plus d’informations, consultez le Forum aux questions sur les conteneurs Speech.

Munissez-vous des informations requises

Pour le modèle de base :
- ID de ressource vocale
- Région
Pour le modèle personnalisé :
- Région
- ID de point de terminaison personnalisé

Obtention d’informations pour le modèle de base :

Accédez au portail Azure.
Sélectionnez la ressource du service Speech dont vous souhaitez augmenter la limite de demandes simultanées.
Dans le groupe Gestion des ressources, sélectionnez Propriétés.
Copiez et enregistrez les valeurs des champs suivants :
- ID de ressource
- Emplacement (région de votre point de terminaison)

Obtention d’informations pour le modèle personnalisé :

Accéder au portail Speech Studio.
Connectez-vous si nécessaire, puis accédez à Reconnaissance vocale personnalisée.
Sélectionnez votre projet et accédez à Déploiement.
Sélectionnez le point de terminaison requis.
Copiez et enregistrez les valeurs des champs suivants :
- Région de service (région de votre point de terminaison)
- ID du point de terminaison

Créer et soumettre une demande de support

Démarrez l’augmentation de la limite de demandes simultanées pour votre ressource ou, si nécessaire, vérifiez la limite actuelle en soumettant une demande de support. Voici comment procéder :

Vérifiez que vous disposez des informations nécessaires listées dans la section précédente.
Accédez au portail Azure.
Sélectionnez la ressource du service Speech dont vous souhaitez augmenter (ou vérifier) la limite de demandes simultanées.
Dans le groupe Support et dépannage, sélectionnez Nouvelle demande de support. Une nouvelle fenêtre s’affiche, avec des informations renseignées automatiquement concernant votre abonnement Azure et la ressource Azure.
Dans Résumé, décrivez ce que vous souhaitez (par exemple, « augmenter la limite des requêtes simultanées de reconnaissance vocale »).
Dans Type de problème, sélectionnez Problèmes de quota ou d’abonnement.
Dans Sous-type de problème, sélectionnez l’une des deux options suivantes :
- Augmentation du quota ou des demandes simultanées pour une demande d’augmentation.
- Validation du quota ou de l’utilisation pour vérifier la limite existante.
Sélectionnez Suivant : Solutions. Poursuivez la création de la demande.
Sous l’onglet Détails, dans le champ Description, entrez les éléments suivants :
- Une note indiquant que la requête concerne un quota de reconnaissance vocale.
- Choisissez le modèle de base ou personnalisé.
- Les informations sur la ressource Azure que vous avez collectées.
- Toutes les autres informations requises.
Sous l’onglet Review + create (Vérifier + créer) , sélectionnez Créer.
notez le numéro de demande de support dans les notifications du portail Azure. Vous êtes contacté dans de brefs délais au sujet de votre requête.

Exemple de meilleure pratique pour un modèle de charge de travail

Voici un exemple général d’une bonne approche à suivre. Il s’agit simplement d’un modèle que vous pouvez ajuster si nécessaire pour votre usage personnel.

Supposons que la limite de demandes simultanées d’une ressource du service Speech est définie sur 300. Démarrez la charge de travail à partir de 20 connexions simultanées et augmentez la charge de 20 connexions simultanées toutes les 90 à 120 secondes. Contrôlez les réponses du service et implémentez la logique qui revient en arrière (réduit la charge) si vous recevez un trop grand nombre de codes de demandes (code de réponse 429). Ensuite, réessayez d’augmenter la charge par incrément d’une minute puis, si cela ne fonctionne toujours pas, par incrément de deux minutes. Utilisez un modèle de 1-2-4-4 minutes pour les intervalles.

En règle générale, il est judicieux de tester la charge de travail et les modèles de charge de travail avant de passer en production.

Synthèse vocale : augmenter la limite de requêtes simultanées

Pour le niveau tarifaire standard, vous pouvez augmenter cette valeur. Avant de soumettre la demande, assurez-vous que vous êtes familiarisé avec les éléments abordés plus haut dans cet article, comme les bonnes pratiques pour atténuer la limitation.

Notes

Les conteneurs Speech n’exigent pas d’augmentation de la limite de demandes simultanées, car ils ne sont limités que par les processeurs du matériel sur lequel ils sont hébergés.

Préparer les informations requises

Pour créer une demande d'augmentation, vous devez fournir vos informations.

Pour la voix prédéfinie :
- ID de ressource vocale
- Région
Pour la voix personnalisée :
- Région du déploiement
- ID de point de terminaison personnalisé

Comment obtenir des informations pour la voix prédéfinie :

Accédez au portail Azure.
Sélectionnez la ressource du service Speech dont vous souhaitez augmenter la limite de demandes simultanées.
Dans le groupe Gestion des ressources, sélectionnez Propriétés.
Copiez et enregistrez les valeurs des champs suivants :
- ID de ressource
- Emplacement (région de votre point de terminaison)

Obtention d’informations pour la voix personnalisée :

Accéder au portail Speech Studio.
Connectez-vous si nécessaire, puis accédez à Voix personnalisée.
Sélectionnez votre projet et accédez à Déploiement.
Sélectionnez le point de terminaison requis.
Copiez et enregistrez les valeurs des champs suivants :
- Région de service (région de votre point de terminaison)
- ID du point de terminaison

Créer et soumettre une demande de support

Démarrez l’augmentation de la limite de demandes simultanées pour votre ressource ou, si nécessaire, vérifiez la limite actuelle en soumettant une demande de support. Voici comment procéder :

Vérifiez que vous disposez des informations nécessaires listées dans la section précédente.
Accédez au portail Azure.
Sélectionnez la ressource du service Speech dont vous souhaitez augmenter (ou vérifier) la limite de demandes simultanées.
Dans le groupe Support et dépannage, sélectionnez Nouvelle demande de support. Une nouvelle fenêtre s’affiche, avec des informations renseignées automatiquement concernant votre abonnement Azure et la ressource Azure.
Dans Résumé, décrivez ce que vous souhaitez (par exemple, « augmenter la limite des requêtes simultanées de synthèse vocale »).
Dans Type de problème, sélectionnez Problèmes de quota ou d’abonnement.
Dans Sous-type de problème, sélectionnez l’une des deux options suivantes :
- Augmentation du quota ou des demandes simultanées pour une demande d’augmentation.
- Validation du quota ou de l’utilisation pour vérifier la limite existante.
Sous l’onglet Solution recommandée, sélectionnez Suivant.
Sous l’onglet Détails supplémentaires, renseignez tous les éléments requis. Puis dans le champ Détails, entrez les informations suivantes :
- Une note indiquant que la requête concerne un quota de synthèse vocale.
- Choisissez la voix prédéfinie ou la voix personnalisée.
- Les informations sur la ressource Azure que vous avez collectées.
- Toutes les autres informations requises.
Sous l’onglet Review + create (Vérifier + créer) , sélectionnez Créer.
notez le numéro de demande de support dans les notifications du portail Azure. Vous êtes contacté dans de brefs délais au sujet de votre requête.

Quotas et limites du service Speech

Informations de référence sur les quotas et les limites

Quotas et limites de reconnaissance vocale par ressource

Reconnaissance vocale en temps réel et traduction vocale

Transcription Batch

Personnalisation des modèles

Quotas et limites de la synthèse vocale par ressource

Synthèse vocale en temps réel

Synthèse par lots

Voix neuronale personnalisée (professionnelle)

Voix neuronale personnalisée (personnelle)

Avatar de synthèse vocale en temps réel

Outil Création de contenu audio

Quotas et limites de reconnaissance de l’orateur par ressource

Description détaillée, ajustement de quota et bonnes pratiques

Meilleures pratiques générales pour atténuer la limitation lors de la mise à l’échelle automatique

Reconnaissance vocale : augmenter la limite de requêtes simultanées de reconnaissance vocale en temps réel

Munissez-vous des informations requises

Créer et soumettre une demande de support

Exemple de meilleure pratique pour un modèle de charge de travail

Synthèse vocale : augmenter la limite de requêtes simultanées

Préparer les informations requises

Créer et soumettre une demande de support

Ressources supplémentaires