Share via


Azure OpenAI 動態配額 (預覽)

動態配額是 Azure OpenAI 功能,可在有額外的容量可用時,啟用標準(隨用隨付)部署,以機會利用更多配額。 當動態配額設定為關閉時,您的部署將能夠處理您的令牌每分鐘 (TPM) 設定所建立的最大輸送量。 當您超過預設 TPM 時,要求會傳回 HTTP 429 回應。 啟用動態配額時,部署能夠在傳回 429 個回應之前存取更高的輸送量,讓您能夠稍早執行更多呼叫。 額外的要求仍會以 定期定價費率計費。

動態配額只能暫時 增加 可用的配額:它永遠不會減少低於您設定的值。

使用動態配額的時機

動態配額在大部分案例中都很有用,特別是當您的應用程式能以機會方式使用額外的容量,或應用程式本身正在驅動 Azure OpenAI API 呼叫的速率時。

一般而言,您可能偏好避免動態配額的情況是,如果您的應用程式會在配額變動或增加時提供不良體驗。

針對動態配額,請考慮下列案例:

  • 大量處理,
  • 建立擷取增強式產生的摘要或內嵌 (RAG),
  • 針對產生計量和評估的記錄進行離線分析,
  • 低優先順序的研究,
  • 配置少量配額的應用程式。

動態配額何時生效?

Azure OpenAI 後端會決定從不同部署新增或移除多少額外的動態配額。 它不會事先預測或宣佈,而且無法預測。 Azure OpenAI 可讓應用程式知道透過 HTTP 429 回應,而不會讓更多 API 呼叫通過,來知道更多可用的配額。 若要利用動態配額,您的應用程式程式碼必須能夠發出更多要求,因為 HTTP 429 回應變得不常。

動態配額如何變更成本?

  • 在基本配額上方完成的呼叫成本與一般通話相同。

  • 在部署上開啟動態配額不需要額外的成本,不過增加的輸送量最終可能會因為部署收到的流量而增加成本。

注意

使用動態配額時,不會強制執行「上限」配額或輸送量。 Azure OpenAI 會處理超過基準配額的要求數目。 如果您需要控制即使配額較少限制的花費率,您的應用程式程序代碼也需要據以保留要求。

如何使用動態配額

若要使用動態配額,您必須:

  • 在您的 Azure OpenAI 部署中開啟動態配額屬性。
  • 請確定您的應用程式可以利用動態配額。

啟用動態配額

若要啟用部署的動態配額,您可以移至資源組態中的進階屬性,然後開啟:

Screenshot of advanced configuration UI for deployments.

或者,您可以使用 Azure CLI 的 az rest,以程式設計方式啟用它:

{subscriptionId}{resourceGroupName}{accountName}、 與 {deploymentName} 取代為您資源的相關值。 在此情況下, accountName 等於 Azure OpenAI 資源名稱。

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

如何? 知道將多少輸送量動態配額新增至我的應用程式?

若要監視其運作方式,您可以在 Azure 監視器中追蹤應用程式的輸送量。 在動態配額預覽期間,沒有特定的計量或記錄,指出配額是否已動態增加或減少。 如果動態配額是在大量使用區域中執行,且在這些區域的尖峰時段內執行,則較不太可能參與您的部署。

下一步