Azure OpenAI 動態配額 (預覽)
動態配額是 Azure OpenAI 功能,可在有額外的容量可用時,啟用標準(隨用隨付)部署,以機會利用更多配額。 當動態配額設定為關閉時,您的部署將能夠處理您的令牌每分鐘 (TPM) 設定所建立的最大輸送量。 當您超過預設 TPM 時,要求會傳回 HTTP 429 回應。 啟用動態配額時,部署能夠在傳回 429 個回應之前存取更高的輸送量,讓您能夠稍早執行更多呼叫。 額外的要求仍會以 定期定價費率計費。
動態配額只能暫時 增加 可用的配額:它永遠不會減少低於您設定的值。
使用動態配額的時機
動態配額在大部分案例中都很有用,特別是當您的應用程式能以機會方式使用額外的容量,或應用程式本身正在驅動 Azure OpenAI API 呼叫的速率時。
一般而言,您可能偏好避免動態配額的情況是,如果您的應用程式會在配額變動或增加時提供不良體驗。
針對動態配額,請考慮下列案例:
- 大量處理,
- 建立擷取增強式產生的摘要或內嵌 (RAG),
- 針對產生計量和評估的記錄進行離線分析,
- 低優先順序的研究,
- 配置少量配額的應用程式。
動態配額何時生效?
Azure OpenAI 後端會決定從不同部署新增或移除多少額外的動態配額。 它不會事先預測或宣佈,而且無法預測。 Azure OpenAI 可讓應用程式知道透過 HTTP 429 回應,而不會讓更多 API 呼叫通過,來知道更多可用的配額。 若要利用動態配額,您的應用程式程式碼必須能夠發出更多要求,因為 HTTP 429 回應變得不常。
動態配額如何變更成本?
在基本配額上方完成的呼叫成本與一般通話相同。
在部署上開啟動態配額不需要額外的成本,不過增加的輸送量最終可能會因為部署收到的流量而增加成本。
注意
使用動態配額時,不會強制執行「上限」配額或輸送量。 Azure OpenAI 會處理超過基準配額的要求數目。 如果您需要控制即使配額較少限制的花費率,您的應用程式程序代碼也需要據以保留要求。
如何使用動態配額
若要使用動態配額,您必須:
- 在您的 Azure OpenAI 部署中開啟動態配額屬性。
- 請確定您的應用程式可以利用動態配額。
啟用動態配額
若要啟用部署的動態配額,您可以移至資源組態中的進階屬性,然後開啟:
或者,您可以使用 Azure CLI 的 az rest
,以程式設計方式啟用它:
將{subscriptionId}
、 {resourceGroupName}
{accountName}
、 與 {deploymentName}
取代為您資源的相關值。 在此情況下, accountName
等於 Azure OpenAI 資源名稱。
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
如何? 知道將多少輸送量動態配額新增至我的應用程式?
若要監視其運作方式,您可以在 Azure 監視器中追蹤應用程式的輸送量。 在動態配額預覽期間,沒有特定的計量或記錄,指出配額是否已動態增加或減少。 如果動態配額是在大量使用區域中執行,且在這些區域的尖峰時段內執行,則較不太可能參與您的部署。
下一步
- 深入瞭解配額的運作方式。
- 深入瞭解如何 監視 Azure OpenAI。