Condividi tramite


Quota dinamica di Azure OpenAI (anteprima)

La quota dinamica è una funzionalità OpenAI di Azure che consente una distribuzione standard (con pagamento in base al consumo) per sfruttare in modo opportunistico un maggior numero di quote quando è disponibile capacità aggiuntiva. Quando la quota dinamica è disattivata, la distribuzione sarà in grado di elaborare una velocità effettiva massima stabilita dall'impostazione Token al minuto (TPM). Quando si supera il TPM predefinito, le richieste restituiranno risposte HTTP 429. Quando la quota dinamica è abilitata, la distribuzione ha la possibilità di accedere a una velocità effettiva più elevata prima di restituire 429 risposte, consentendo di eseguire più chiamate in precedenza. Le richieste aggiuntive vengono comunque fatturate a tariffe regolari.

La quota dinamica può aumentare temporaneamente solo la quota disponibile: non ridurrà mai al di sotto del valore configurato.

Quando usare la quota dinamica

La quota dinamica è utile nella maggior parte degli scenari, in particolare quando l'applicazione può usare capacità aggiuntiva in modo opportunistico o l'applicazione stessa sta guidando la velocità con cui viene chiamata l'API OpenAI di Azure.

In genere, la situazione in cui è preferibile evitare la quota dinamica è quando l'applicazione offre un'esperienza negativa se la quota è volatile o aumentata.

Per la quota dinamica, considerare scenari come:

  • Elaborazione bulk,
  • Creazione di riepiloghi o incorporamenti per la generazione aumentata di recupero (RAG),
  • Analisi offline dei log per la generazione di metriche e valutazioni,
  • Ricerca con priorità bassa,
  • App con una piccola quantità di quota allocata.

Quando entra in vigore la quota dinamica?

Il back-end OpenAI di Azure decide se, quando e quanto quota dinamica aggiuntiva viene aggiunta o rimossa da distribuzioni diverse. Non è previsto o annunciato in anticipo e non è prevedibile. Azure OpenAI consente all'applicazione di sapere che è disponibile una quota maggiore rispondendo con un HTTP 429 e senza consentire altre chiamate API. Per sfruttare la quota dinamica, il codice dell'applicazione deve essere in grado di inviare più richieste perché le risposte HTTP 429 diventano poco frequenti.

In che modo cambiano i costi delle quote dinamiche?

  • Le chiamate eseguite al di sopra della quota di base hanno gli stessi costi delle chiamate regolari.

  • Non è previsto alcun costo aggiuntivo per attivare la quota dinamica in una distribuzione, anche se la maggiore velocità effettiva potrebbe comportare un aumento dei costi a seconda della quantità di traffico ricevuta dalla distribuzione.

Nota

Con la quota dinamica, non esiste alcuna imposizione delle chiamate di una quota o di una velocità effettiva "limite". Azure OpenAI elaborerà il numero di richieste che può essere superiore alla quota di base. Se è necessario controllare il tasso di spesa anche quando la quota è meno vincolata, il codice dell'applicazione deve contenere le richieste di conseguenza.

Come usare la quota dinamica

Per usare la quota dinamica, è necessario:

  • Attivare la proprietà quota dinamica nella distribuzione di Azure OpenAI.
  • Assicurarsi che l'applicazione possa sfruttare la quota dinamica.

Abilitare la quota dinamica

Per attivare la quota dinamica per la distribuzione, è possibile passare alle proprietà avanzate nella configurazione delle risorse e attivarla:

Screenshot of advanced configuration UI for deployments.

In alternativa, è possibile abilitarlo a livello di codice con l'interfaccia della riga di comando di az restAzure:

{subscriptionId}Sostituire , {resourceGroupName}, {accountName}e {deploymentName} con i valori pertinenti per la risorsa. In questo caso, accountName è uguale al nome della risorsa OpenAI di Azure.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Ricerca per categorie sapere quanto quota dinamica della velocità effettiva sta aggiungendo all'app?

Per monitorare il funzionamento, è possibile tenere traccia della velocità effettiva dell'applicazione in Monitoraggio di Azure. Durante l'anteprima della quota dinamica, non esiste alcuna metrica o log specifico per indicare se la quota è stata aumentata o diminuita dinamicamente. è meno probabile che la quota dinamica venga utilizzata per la distribuzione se viene eseguita in aree fortemente utilizzate e durante le ore di punta dell'uso per tali aree.

Passaggi successivi

  • Altre informazioni sul funzionamento della quota.
  • Altre informazioni sul monitoraggio di Azure OpenAI.