Quote e limiti del servizio OpenAI di Azure
Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per Azure OpenAI nei servizi di intelligenza artificiale di Azure.
Informazioni di riferimento su quote e limiti
Le seguenti sezioni forniscono una guida rapida alle quote e ai limiti applicabili a OpenAI di Azure:
Nome limite | Valore limite |
---|---|
Risorse OpenAI per area per sottoscrizione di Azure | 30 |
Limiti di quota DALL-E 2 predefiniti | 2 richieste simultanee |
Limiti di quota DALL-E 3 predefiniti | 2 unità di capacità (6 richieste al minuto) |
Numero massimo di token di richiesta per richiesta | Varia per modello. Per altre informazioni, vedere Modelli Servizio OpenAI di Azure |
Numero massimo di distribuzioni modello ottimizzate | 5 |
Numero totale di processi di training per risorsa | 100 |
Numero massimo di processi di training simultanei per risorsa | 1 |
Numero massimo di processi di training in coda | 20 |
Numero massimo di file per risorsa (ottimizzazione) | 50 |
Dimensioni totali di tutti i file per risorsa (ottimizzazione) | 1 GB |
Tempo massimo del processo di training (il processo avrà esito negativo se superato) | 720 ore |
Dimensioni massime del processo di training (token nel file di training) x (n. di periodi) | 2 miliardi |
Dimensioni massime di tutti i file per caricamento (OpenAI di Azure nei dati) | 16 MB |
Numero massimo o input nella matrice con /embeddings |
2048 |
Numero massimo di /chat/completions messaggi |
2048 |
Numero massimo di /chat/completions funzioni |
128 |
Numero massimo di /chat completions strumenti |
128 |
Numero massimo di unità elaborate con provisioning per distribuzione | 100,000 |
Numero massimo di file per assistente/thread | 20 |
Max file size for Assistants & fine-tuning | 512 MB |
Limite di token degli assistenti | Limite di 2.000.000 token |
Limiti di quota a livello di area
La quota predefinita per i modelli varia in base al modello e all'area. I limiti di quota predefiniti sono soggetti a modifiche.
La quota per le distribuzioni standard è descritta in termini di token al minuto (TPM).
Paese | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20.000 | 60 K | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
Stati Uniti centro-meridionali | - | - | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
Svezia centrale | 40 K | 80 K | 150 K | 30 K | 300 K | 240 K | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
Svizzera settentrionale | 40 K | 80 K | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 1000 token al minuto (TPM). La relazione tra TPM e Richieste al minuto (RPM) è attualmente definita come 6 RPM per 1000 TPM.
Procedure consigliate generali per rimanere entro i limiti di velocità
Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:
- Implementare la logica di ripetizione dei tentativi nell'applicazione.
- Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
- Testare modelli di aumento del carico diversi.
- Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.
Come richiedere aumenti delle quote e dei limiti predefiniti
Le richieste di aumento della quota possono essere inviate dalla pagina Quote di Azure OpenAI Studio. Si noti che, a causa di una domanda eccessiva, le richieste di aumento della quota vengono accettate e verranno compilate nell'ordine in cui vengono ricevute. La priorità verrà assegnata ai clienti che generano traffico che utilizza l'allocazione della quota esistente e la richiesta potrebbe essere negata se questa condizione non viene soddisfatta.
Per altri limiti di frequenza, inviare una richiesta di servizio.
Passaggi successivi
Informazioni su come gestire la quota per le distribuzioni OpenAI di Azure. Altre informazioni sui modelli sottostanti che alimentano OpenAI di Azure.