Quote e limiti del servizio VoceSpeech service Quotas and Limits

Questo articolo contiene un riferimento rapido e la descrizione dettagliata delle quote e dei limiti del servizio Voce cognitiva di Azure per tutti i piani tariffari.This article contains a quick reference and the detailed description of Azure Cognitive Speech service Quotas and Limits for all pricing tiers. Contiene anche alcune procedure consigliate per evitare la limitazione delle richieste.It also contains some best practices to avoid request throttling.

Informazioni di riferimento rapido su quote e limitiQuotas and Limits quick reference

Passare a Quote e limiti di sintesi vocaleJump to Text-to-Speech Quotas and limits

Quote e limiti della conversione della voce in testo scritto per ogni risorsa vocaleSpeech-to-Text Quotas and Limits per Speech resource

Nelle tabelle seguenti i parametri senza la riga "Regolabile" non sono regolabili per tutti i livelli di prezzo.In the tables below Parameters without "Adjustable" row are not adjustable for all price tiers.

Trascrizione onlineOnline Transcription

Per l'utilizzo con Speech SDK e/o l'API REST speech-to-text per l'audio breve.For the usage with Speech SDK and/or Speech-to-text REST API for short audio.

QuotaQuota Gratuito (F0)1Free (F0)1 Standard (S0)Standard (S0)
Limite richieste simultanee - Endpoint del modello di baseConcurrent Request limit - Base model endpoint 11 100 (valore predefinito)100 (default value)
RegolabileAdjustable No2No2 2Yes2
Limite di richieste simultanee - Endpoint personalizzatoConcurrent Request limit - Custom endpoint 11 100 (valore predefinito)100 (default value)
RegolabileAdjustable No2No2 2Yes2

Trascrizione batchBatch Transcription

QuotaQuota Gratuito (F0)1Free (F0)1 Standard (S0)Standard (S0)
Limite dell'API REST speech-to-text V2.0 e v3.0Speech-to-text REST API V2.0 and v3.0 limit La trascrizione batch non è disponibile per F0Batch transcription is not available for F0 300 richieste al minuto300 requests per minute
Dimensioni massime del file di input audioMax audio input file size N/DN/A 1 GB1 GB
Dimensioni massime del BLOB di input (può contenere più di un file, ad esempio, in un archivio ZIP; assicurarsi di annotare il limite di dimensioni del file sopra indicato)Max input blob size (may contain more than one file, for example, in a zip archive; ensure to note the file size limit above) N/DN/A 2,5 GB2.5 GB
Dimensioni massime del contenitore BLOBMax blob container size N/DN/A 5 GB5 GB
Numero massimo di BLOB per contenitoreMax number of blobs per container N/DN/A 1000010000
Numero massimo di file per ogni richiesta di trascrizione (quando si usano più URL di contenuto come input)Max number of files per Transcription request (when using multiple content URLs as input) N/DN/A 10001000
Numero massimo di processi in esecuzione simultaneaMax number of simultaneously running jobs N/DN/A 20002000

Personalizzazione del modelloModel Customization

QuotaQuota Gratuito (F0)1Free (F0)1 Standard (S0)Standard (S0)
Limite API RESTREST API limit 300 richieste al minuto300 requests per minute 300 richieste al minuto300 requests per minute
Numero massimo di set di dati vocaliMax number of speech datasets 22 500500
Dimensioni massime del file del set di dati acustico per l'importazione dei datiMax acoustic dataset file size for Data Import 2 GB2 GB 2 GB2 GB
Dimensioni massime del file del set di dati della lingua per l'importazione dei datiMax language dataset file size for Data Import 200 MB200 MB 1,5 GB1.5 GB
Dimensioni massime del file del set di dati di pronuncia per l'importazione dei datiMax pronunciation dataset file size for Data Import 1 KB1 KB 1 MB1 MB
Dimensioni massime del testo quando si text usa il parametro nella richiesta dell'API Di creazione modelloMax text size when using text parameter in Create Model API request 200 kB200 KB 500 KB500 KB

1 Per il piano tariffario gratuito (F0), vedere anche le quote mensili nella pagina dei prezzi.1 For Free (F0) pricing tier see also monthly allowances at the pricing page.
2 Vedere altre spiegazioni, procedure consigliate eistruzioni di regolazione.2 See additional explanations, best practices, and adjustment instructions.

Quote e limiti per la sintesi vocale per ogni risorsa voceText-to-Speech Quotas and limits per Speech resource

Nella tabella seguente i parametri senza la riga "Regolabile" non sono regolabili per tutti i livelli di prezzo.In the table below Parameters without "Adjustable" row are not adjustable for all price tiers.

QuotaQuota Gratuito (F0)3Free (F0)3 Standard (S0)Standard (S0)
Numero massimo di transazioni al secondo per le voci standard e neuraliMax number of Transactions per Second (TPS) for Standard and Neural voices 20042004 20042004
Limite di richieste simultanee per la voce personalizzataConcurrent Request limit for Custom voice
Valore predefinitoDefault value 1010 1010
RegolabileAdjustable N.5No5 5Yes5
Quote specifiche di HTTPHTTP-specific quotas
Lunghezza massima audio prodotta per ogni richiestaMax Audio length produced per request 10 min10 min 10 min10 min
Numero massimo di tag <voice> distinti in SSMLMax number of distinct <voice> tags in SSML 5050 5050
Quote specifiche di WebsocketWebsocket specific quotas
Lunghezza massima audio prodotta per turnoMax Audio length produced per turn 10 min10 min 10 min10 min
Dimensioni massime messaggi SSML per turnoMax SSML Message size per turn 64 kB64 KB 64 kB64 KB
Limite api RESTREST API limit 20 richieste al minuto20 requests per minute 300 richieste al minuto300 requests per minute

3 Il piano tariffario gratuito (F0) visualizza anche le quote mensili nella pagina dei prezzi.3 For Free (F0) pricing tier see also monthly allowances at the pricing page.
4 Vedere altre spiegazioni e procedure consigliate.4 See additional explanations and best practices.
5 Vedere spiegazioni aggiuntive, procedure consigliatee istruzioni di regolazione.5 See additional explanations, best practices, and adjustment instructions.

Descrizione dettagliata, rettifica della quota e procedure consigliateDetailed description, Quota adjustment, and best practices

Prima di richiedere un aumento della quota (se applicabile) assicurarsi che sia necessario.Before requesting a quota increase (where applicable) ensure that it is necessary. Il servizio Voce usa tecnologie di scalabilità automatica per portare le risorse di calcolo necessarie in modalità "su richiesta" e allo stesso tempo per mantenere bassi i costi dei clienti, non mantenendo una quantità eccessiva di capacità hardware.Speech service is using autoscaling technologies to bring the required computational resources in "on-demand" mode and at the same time to keep the customer costs low by not maintaining an excessive amount of hardware capacity. Ogni volta che l'applicazione riceve un codice di risposta 429 ("Troppe richieste") mentre il carico di lavoro rientra nei limiti definiti (vedere Riferimento rapido quote e limiti ),la spiegazione più probabile è che il servizio sta scalando fino alla richiesta e non ha ancora raggiunto la scalabilità richiesta, quindi non ha immediatamente risorse sufficienti per soddisfare la richiesta.Every time your application receives a Response Code 429 ("Too many requests") while your workload is within the defined limits (see Quotas and Limits quick reference) the most likely explanation is that the Service is scaling up to your demand and did not reach the required scale yet, thus does not immediately have enough resources to serve the request. Questo stato è in genere temporaneo e non deve durare a lungo.This state is usually transient and should not last long.

Procedure consigliate generali per ridurre la limitazione durante la scalabilità automaticaGeneral best practices to mitigate throttling during autoscaling

Per ridurre al minimo i problemi relativi alla limitazione (codice di risposta 429), è consigliabile usare le tecniche seguenti:To minimize issues related to throttling (Response Code 429), we recommend using the following techniques:

  • Implementare la logica di ripetizione tentativi nell'applicazioneImplement retry logic in your application
  • Evitare modifiche nette nel carico di lavoro.Avoid sharp changes in the workload. Aumentare gradualmente il carico di lavoroIncrease the workload gradually
    Esempio.Example. L'applicazione usa la sintesi vocale e il carico di lavoro corrente è di 5 TPS (transazioni al secondo).Your application is using Text-to-Speech and your current workload is 5 TPS (transactions per second). Il secondo successivo aumenta il carico a 20 TPS (ovvero quattro volte di più).The next second you increase the load to 20 TPS (that is four times more). Il servizio avvia immediatamente la scalabilità verticale per soddisfare il nuovo carico, ma probabilmente non sarà in grado di farlo entro un secondo, quindi alcune richieste riceveranno il codice di risposta 429.The Service immediately starts scaling up to fulfill the new load, but likely it will not be able to do it within a second, so some of the requests will get Response Code 429.
  • Testare modelli di aumento del carico diversiTest different load increase patterns
  • Creare risorse voce aggiuntive nella stessa o in aree diverse e distribuire il carico di lavoro tra di esse usando la tecnica "Round robin".Create additional Speech resources in the same or different Regions and distribute the workload among them using "Round Robin" technique. Ciò è particolarmente importante per il parametro TPS di sintesi vocale (transazioni al secondo), che è impostato su 200 per ogni risorsa voce e non può essere modificatoThis is especially important for Text-to-Speech TPS (transactions per second) parameter, which is set as 200 per Speech Resource and can not be adjusted

Le sezioni successive descrivono casi specifici di modifica delle quote.The next sections describe specific cases of adjusting quotas.
Passare alla sintesi vocale. Aumento del limite di richieste simultanee di trascrizione per la voce personalizzataJump to Text-to-Speech. Increasing Transcription Concurrent Request limit for Custom voice

Riconoscimento vocale: aumento del limite di richieste simultanee di trascrizione onlineSpeech-to-text: increasing online transcription concurrent request limit

Per impostazione predefinita, il numero di richieste simultanee è limitato a 100 per ogni risorsa voce (modello di base) e a 100 per endpoint personalizzato (modello personalizzato).By default the number of concurrent requests is limited to 100 per Speech resource (Base model) and to 100 per Custom endpoint (Custom model). Per il piano tariffario Standard questo importo può essere aumentato.For Standard pricing tier this amount can be increased. Prima di inviare la richiesta, assicurarsi di avere familiarità con il materiale in questa sezione e di conoscere queste procedure consigliate.Before submitting the request, ensure you are familiar with the material in this section and aware of these best practices.

Nota

Se si usano modelli personalizzati, tenere presente che una risorsa Voce può essere associata a molti endpoint personalizzati che ospitano molte distribuzioni di modelli personalizzati.If you use custom models, please be aware, that one Speech resource may be associated with many custom endpoints hosting many custom model deployments. Ogni endpoint personalizzato ha il numero predefinito di limite di richieste simultanee (100) impostato dalla creazione.Each Custom endpoint has the default number of concurrent request limit (100) set by creation. Se è necessario regolarlo, è necessario apportare la regolazione di ogni endpoint personalizzato separatamente.If you need to adjust it, you need to make the adjustment of each custom endpoint separately. Si noti anche che il valore del limite di richieste simultanee per il modello di base di una risorsa Voce non ha alcun effetto per gli endpoint personalizzati associati a questa risorsa.Please also note, that the value of the number of concurrent request limit for the base model of a Speech resource has no effect to the custom endpoints associated with this resource.

L'aumento del limite di richieste simultanee non influisce direttamente sui costi.Increasing the Concurrent Request limit does not directly affect your costs. Il servizio Voce usa il modello "Paga solo per ciò che si usa".Speech service uses "Pay only for what you use" model. Il limite definisce il livello di scalabilità del servizio prima che inizi a limitare le richieste.The limit defines how high the Service may scale before it starts throttle your requests.

I limiti delle richieste simultanee per i modelli di base e personalizzati devono essere modificati separatamente.Concurrent Request limits for Base and Custom models need to be adjusted separately.

Il valore esistente del parametro Concurrent Request limit non è visibile portale di Azure, Command-Line strumenti o richieste API.Existing value of Concurrent Request limit parameter is not visible via Azure portal, Command-Line tools, or API requests. Per verificare il valore esistente, creare una supporto di Azure richiesta.To verify the existing value, create an Azure Support Request.

Nota

I contenitori voce non richiedono aumenti del limite di richieste simultanee, perché i contenitori sono vincolati solo dalle CPU dell'hardware in cui sono ospitati.Speech containers do not require increases of Concurrent Request limit, as containers are constrained only by the CPUs of the hardware they are hosted on. Tuttavia, i contenitori voce hanno limitazioni di capacità che devono essere prese in considerazione.However Speech containers have their own capacity limitations that should be taken into account. Vedere la domanda "Potrebbe essere utile per la pianificazione della capacità e la stima dei costi dei contenitori di riconoscimento vocale in memoria?"See the question "Could you help with capacity planning and cost estimation of on-prem Speech-to-text containers?" dalle domande frequenti sui contenitori voce.from the Speech containers FAQ.

Avere le informazioni necessarie pronte:Have the required information ready:

  • Per Modello di base:For Base model:

    • ID risorsa voceSpeech Resource ID
    • RegionRegion
  • Per il modello personalizzato:For Custom model:

    • RegionRegion
    • ID endpoint personalizzatoCustom Endpoint ID
  • Come ottenere informazioni (modello di base):How to get information (Base model):

    • Passare a portale di AzureGo to Azure portal
    • Selezionare la risorsa voce per cui si vuole aumentare il limite di richieste di concorrenzaSelect the Speech Resource for which you would like to increase the Concurrency Request limit
    • Selezionare Proprietà (gruppo Gestione risorse)Select Properties (Resource Management group)
    • Copiare e salvare i valori dei campi seguenti:Copy and save the values of the following fields:
      • ID risorsaResource ID
      • Località (area dell'endpoint)Location (your endpoint Region)
  • Come ottenere informazioni (modello personalizzato):How to get information (Custom Model):

    • Passare al Speech Studio portaleGo to Speech Studio portal
    • Accedere se necessarioSign in if necessary
    • Passare a Riconoscimento vocale personalizzatoGo to Custom Speech
    • Selezionare il progettoSelect your project
    • Passare a DistribuzioneGo to Deployment
    • Selezionare l'endpoint richiestoSelect the required Endpoint
    • Copiare e salvare i valori dei campi seguenti:Copy and save the values of the following fields:
      • Area del servizio (area dell'endpoint)Service Region (your endpoint Region)
      • Endpoint IDEndpoint ID

Creare e inviare una richiesta di supportoCreate and submit support request

Avviare l'aumento del limite di richieste simultanee per la risorsa o, se necessario, controllare il limite attuale inviando la richiesta di supporto:Initiate the increase of Concurrent Request limit for your resource or if necessary check the today's limit by submitting the Support Request:

  • Assicurarsi di avere le informazioni necessarieEnsure you have the required information
  • Passare a portale di AzureGo to Azure portal
  • Selezionare la risorsa voce per cui si vuole aumentare (o controllare) il limite di richieste di concorrenzaSelect the Speech Resource for which you would like to increase (or to check) the Concurrency Request limit
  • Selezionare Nuova richiesta di supporto (gruppo Supporto e risoluzione dei problemi)Select New support request (Support + troubleshooting group)
  • Verrà visualizzata una nuova finestra con informazioni popolate automaticamente sulla sottoscrizione di Azure e sulla risorsa di AzureA new window will appear with auto-populated information about your Azure Subscription and Azure Resource
  • Immettere Summary (ad esempio "Increase STT Concurrency Request limit") (Aumenta limite richieste di concorrenza STT)Enter Summary (like "Increase STT Concurrency Request limit")
  • In Tipo di problema selezionare "Problemi di quota o sottoscrizione"In Problem type select "Quota or Subscription issues"
  • In appeared Problem subtype select (Sottotipo problema) selezionare:In appeared Problem subtype select:
    • "Quota o richieste simultanee aumentano": per una richiesta di aumento"Quota or concurrent requests increase" - for an increase request
    • "Convalida della quota o dell'utilizzo" per controllare il limite esistente"Quota or usage validation" to check existing limit
  • Fare clic su Avanti: SoluzioniClick Next: Solutions
  • Procedere ulteriormente con la creazione della richiestaProceed further with the request creation
  • Quando nella scheda Dettagli immettere nel campo Descrizione:When in Details tab enter in the Description field:
    • si noti che la richiesta riguarda la quota di riconoscimento vocalea note, that the request is about Speech-to-Text quota
    • Modello di base o personalizzatoBase or Custom model
    • Informazioni sulle risorse di Azure raccolte in precedenzaAzure resource information you collected before
    • Completare l'immissione delle informazioni necessarie e fare clic sul pulsante Crea nella scheda Rivedi e creaComplete entering the required information and click Create button in Review + create tab
    • Prendere nota del numero di richiesta di supporto portale di Azure notifiche.Note the support request number in Azure portal notifications. L'utente verrà contattato a breve per un'ulteriore elaborazioneYou will be contacted shortly for further processing

Riconoscimento vocale: esempio di procedura consigliata per un modello di carico di lavoroSpeech-to-text: example of a workload pattern best practice

Questo esempio presenta l'approccio consigliato per attenuare la possibile limitazione delle richieste a causa della scalabilità automatica in corso.This example presents the approach we recommend following to mitigate possible request throttling due to Autoscaling being in progress. Non si tratta di una "ricetta esatta", ma semplicemente di un modello che si invita a seguire e modificare in base alle esigenze.It is not an "exact recipe", but merely a template we invite to follow and adjust as necessary.

Si supponga che per una risorsa Voce il limite di richieste simultanee sia impostato su 300.Let us suppose that a Speech resource has the Concurrent Request limit set to 300. Avviare il carico di lavoro da 20 connessioni simultanee e aumentare il carico di 20 connessioni simultanee ogni 1,5-2 minuti.Start the workload from 20 concurrent connections and increase the load by 20 concurrent connections every 1.5-2 minutes. Controllare le risposte del servizio e implementare la logica che riduce il carico se si ottengono troppi codici di risposta 429.Control the Service responses and implement the logic that falls back (reduces the load) if you get too many Response Codes 429. Riprovare quindi in base al modello di 1-2-4-4 minuti.Then retry in 1-2-4-4 minute pattern. Si tratta di ripetere l'aumento del carico in 1 min, se ancora non funziona, quindi in 2 minuti e così via.(That is retry the load increase in 1 min, if still does not work, then in 2 min, and so on)

In genere, è consigliabile testare il carico di lavoro e i modelli di carico di lavoro prima di procedere all'ambiente di produzione.Generally, it is highly recommended to test the workload and the workload patterns before going to production.

Sintesi vocale: aumento del limite di richieste simultanee di trascrizione per voce personalizzataText-to-speech: increasing transcription concurrent request limit for Custom Voice

Per impostazione predefinita, il numero di richieste simultanee per un endpoint voce personalizzata è limitato a 10.By default the number of concurrent requests for a Custom Voice endpoint is limited to 10. Per il piano tariffario Standard questo importo può essere aumentato.For Standard pricing tier this amount can be increased. Prima di inviare la richiesta, assicurarsi di avere familiarità con il materiale in questa sezione e di conoscere queste procedure consigliate.Before submitting the request, ensure you are familiar with the material in this section and aware of these best practices.

L'aumento del limite di richieste simultanee non influisce direttamente sui costi.Increasing the Concurrent Request limit does not directly affect your costs. Il servizio Voce usa il modello "Pagamento solo per le informazioni usate".Speech service uses "Pay only for what you use" model. Il limite definisce il livello di scalabilità del servizio prima che inizi a limitare le richieste.The limit defines how high the Service may scale before it starts throttle your requests.

Il valore esistente del parametro concurrent request limit non è visibile tramite portale di Azure, Command-Line o richieste API.Existing value of Concurrent Request limit parameter is not visible via Azure portal, Command-Line tools, or API requests. Per verificare il valore esistente, creare un supporto di Azure richiesta.To verify the existing value, create an Azure Support Request.

Nota

I contenitori voce non richiedono un aumento del limite di richieste simultanee, perché i contenitori sono vincolati solo dalle CPU dell'hardware in cui sono ospitati.Speech containers do not require increases of Concurrent Request limit, as containers are constrained only by the CPUs of the hardware they are hosted on.

Preparare le informazioni necessarie:Prepare the required information:

Per creare una richiesta di aumento, è necessario specificare l'area di distribuzione e l'ID endpoint personalizzato.To create an increase request, you will need to provide your Deployment Region and the Custom Endpoint ID. Per ottenerlo, eseguire le azioni seguenti:To get it, perform the following actions:

  • Passare al portale Speech Studio datiGo to Speech Studio portal
  • Accedere, se necessarioSign in if necessary
  • Passare a voce personalizzataGo to Custom Voice
  • Selezionare il progettoSelect your project
  • Passare alla distribuzioneGo to Deployment
  • Selezionare l'endpoint richiestoSelect the required Endpoint
  • Copiare e salvare i valori dei campi seguenti:Copy and save the values of the following fields:
    • Area del servizio (area dell'endpoint)Service Region (your endpoint Region)
    • Endpoint IDEndpoint ID

Creare e inviare una richiesta di supportoCreate and submit support request

Avviare l'aumento del limite di richieste simultanee per la risorsa o, se necessario, controllare il limite attuale inviando la richiesta di supporto:Initiate the increase of Concurrent Request limit for your resource or if necessary check the today's limit by submitting the Support Request:

  • Assicurarsi di avere le informazioni necessarieEnsure you have the required information
  • Passare a portale di AzureGo to Azure portal
  • Selezionare la risorsa voce per cui si vuole aumentare (o controllare) il limite di richieste di concorrenzaSelect the Speech Resource for which you would like to increase (or to check) the Concurrency Request limit
  • Selezionare Nuova richiesta di supporto (gruppo Supporto e risoluzione dei problemi)Select New support request (Support + troubleshooting group)
  • Verrà visualizzata una nuova finestra con informazioni popolate automaticamente sulla sottoscrizione di Azure e sulla risorsa di AzureA new window will appear with auto-populated information about your Azure Subscription and Azure Resource
  • Immettere Summary (ad esempio "Increase TTS Custom Endpoint Concurrency Request Limit")Enter Summary (like "Increase TTS Custom Endpoint Concurrency Request limit")
  • In Tipo di problema selezionare "Problemi di quota o sottoscrizione"In Problem type select "Quota or Subscription issues"
  • In appeared Problem subtype select (Sottotipo problema) selezionare:In appeared Problem subtype select:
    • "Aumento della quota o delle richieste simultanee": per una richiesta di aumento"Quota or concurrent requests increase" - for an increase request
    • "Convalida della quota o dell'utilizzo" per controllare il limite esistente"Quota or usage validation" to check existing limit
  • Fare clic su Avanti: SoluzioniClick Next: Solutions
  • Procedere ulteriormente con la creazione della richiestaProceed further with the request creation
  • Nella scheda Dettagli immettere nel campo Descrizione:When in Details tab enter in the Description field:
    • si noti che la richiesta riguarda la quota di sintesi vocalea note, that the request is about Text-to-Speech quota
    • Informazioni sulle risorse di Azure raccolte in precedenzaAzure resource information you collected before
    • Completare l'immissione delle informazioni necessarie e fare clic sul pulsante Crea nella scheda Rivedi e creaComplete entering the required information and click Create button in Review + create tab
    • Prendere nota del numero di richiesta di supporto portale di Azure notifiche.Note the support request number in Azure portal notifications. L'utente verrà contattato a breve per un'ulteriore elaborazioneYou will be contacted shortly for further processing