Quote e limiti del servizio OpenAI di Azure

Articolo
05/22/2024

Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per Azure OpenAI nei servizi di intelligenza artificiale di Azure.

Informazioni di riferimento su quote e limiti

Le seguenti sezioni forniscono una guida rapida alle quote e ai limiti applicabili a OpenAI di Azure:

Nome limite	Valore limite
Risorse OpenAI per area per sottoscrizione di Azure	30
Limiti di quota DALL-E 2 predefiniti	2 richieste simultanee
Limiti di quota DALL-E 3 predefiniti	2 unità di capacità (6 richieste al minuto)
Numero massimo di token di richiesta per richiesta	Varia per modello. Per altre informazioni, vedere Modelli Servizio OpenAI di Azure
Numero massimo di distribuzioni modello ottimizzate	5
Numero totale di processi di training per risorsa	100
Numero massimo di processi di training simultanei per risorsa	1
Numero massimo di processi di training in coda	20
Numero massimo di file per risorsa (ottimizzazione)	50
Dimensioni totali di tutti i file per risorsa (ottimizzazione)	1 GB
Tempo massimo del processo di training (il processo avrà esito negativo se superato)	720 ore
Dimensioni massime del processo di training (token nel file di training) x (n. di periodi)	2 miliardi
Dimensioni massime di tutti i file per caricamento (OpenAI di Azure nei dati)	16 MB
Numero massimo o input nella matrice con `/embeddings`	2048
Numero massimo di `/chat/completions` messaggi	2048
Numero massimo di `/chat/completions` funzioni	128
Numero massimo di `/chat completions` strumenti	128
Numero massimo di unità elaborate con provisioning per distribuzione	100,000
Numero massimo di file per assistente/thread	20
Max file size for Assistants & fine-tuning	512 MB
Limite di token degli assistenti	Limite di 2.000.000 token

Limiti di quota a livello di area

La quota predefinita per i modelli varia in base al modello e all'area. I limiti di quota predefiniti sono soggetti a modifiche.

La quota per le distribuzioni standard è descritta in termini di token al minuto (TPM).

Paese	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o - GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune	GPT-4 - finetune
australiaeast	40.000	80.000	80.000	30.000	-	-	300.000	-	350.000	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-
canadaeast	40.000	80.000	80.000	-	-	-	300.000	-	350.000	350.000	350.000	-	-	-	-	-	-	-	-
eastus	-	-	80.000	-	150.000	450 K	240.00	240.00	240.00	350.000	350.000	-	-	-	-	-	-	-	-
eastus2	-	-	80.000	-	150.000	450 K	300.000	-	350.000	350.000	350.000	-	-	-	-	250.000	250.000	250.000	-
francecentral	20.000	60.000	80.000	-	-	-	240.00	-	240.00	-	350.000	-	-	-	-	-	-	-	-
japaneast	-	-	-	30.000	-	-	300.000	-	350.000	-	350.000	-	-	-	-	-	-	-	-
northcentralus	-	-	80.000	-	150.000	450 K	300.000	-	350.000	-	-	240.00	250.000	240.00	250.000	250.000	250.000	250.000	100 K
norwayeast	-	-	150.000	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350.000	-	-	-	-	-	-	-	-	-	-
Stati Uniti centro-meridionali	-	-	80.000	-	150.000	450 K	240.00	-	240.00	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150.000	-	-	-	300.000	-	350.000	-	350.000	-	-	-	-	-	-	-	-
Svezia centrale	40.000	80.000	150.000	30.000	-	-	300.000	240.00	350.000	-	350.000	240.00	250.000	240.00	250.000	250.000	250.000	250.000	100 K
Svizzera settentrionale	40.000	80.000	-	30.000	-	-	300.000	-	350.000	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250.000	-	250.000	250.000	250.000	250.000	-
uksouth	-	-	80.000	-	-	-	240.00	-	350.000	-	350.000	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240.00	-	240.00	-	-	-	-	-	-	-	-	-	-
westus	-	-	80.000	30.000	150.000	450 K	300.000	-	350.000	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80.000	-	150.000	450 K	-	-	350.000	-	350.000	-	-	-	-	-	-	-	-

1.000 = 1000 Tokens-Per-Minute (TPM). La relazione tra TPM e Richieste al minuto (RPM) è attualmente definita come 6 RPM per 1000 TPM.

I valori per GPT-4o nella tabella precedente rappresentano i valori di quota predefiniti disponibili per tutti i clienti. I clienti aziendali hanno allocazioni di quote molto più grandi.

Limiti di velocità gpt-4o

gpt-4o introduce livelli limite di velocità con limiti più elevati per determinati tipi di clienti.

standard globale gpt-4o

Nota

Il tipo di distribuzione del modello standard globale è attualmente disponibile in anteprima pubblica.

Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
Contratto Enterprise	10 M	60.000
Default	450 K	2,7 K

M = milioni | K = migliaia

gpt-4o standard

Livello	Limite di quota nei token al minuto (TPM)	Richieste al minuto
Contratto Enterprise	1 M	6K
Default	150.000	900

M = milioni | K = migliaia

Procedure consigliate generali per rimanere entro i limiti di velocità

Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:

Implementare la logica di ripetizione dei tentativi nell'applicazione.
Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
Testare modelli di aumento del carico diversi.
Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.

Come richiedere aumenti delle quote e dei limiti predefiniti

Le richieste di aumento della quota possono essere inviate dalla pagina Quote di Azure OpenAI Studio. Si noti che, a causa di una domanda eccessiva, le richieste di aumento della quota vengono accettate e verranno compilate nell'ordine in cui vengono ricevute. La priorità verrà assegnata ai clienti che generano traffico che utilizza l'allocazione della quota esistente e la richiesta potrebbe essere negata se questa condizione non viene soddisfatta.

Per altri limiti di frequenza, inviare una richiesta di servizio.

Passaggi successivi

Informazioni su come gestire la quota per le distribuzioni OpenAI di Azure. Altre informazioni sui modelli sottostanti che alimentano OpenAI di Azure.

Share via