Azure OpenAI 服務配額和限制
本文包含快速參考,以及 Azure AI 服務中 Azure OpenAI 配額和限制的詳細描述。
配額和限制參考
下列各節提供適用於 Azure OpenAI 之預設配額與限制的快速指南:
限制名稱 | 限制值 |
---|---|
每個 Azure 訂用帳戶每個區域的 OpenAI 資源 | 30 |
預設 DALL-E 2 配額限制 | 2 個並行要求 |
預設 DALL-E 3 配額限制 | 2 個容量單位(每分鐘 6 個要求) |
每個要求的提示權杖上限 | 依模型而有所不同。 如需詳細資訊,請參閱 Azure OpenAI 服務模型 (部分機器翻譯) |
最大微調模型部署 | 5 |
每個資源的訓練作業總數 | 100 |
每個資源同時執行定型作業數目上限 | 1 |
已排入佇列的定型作業上限 | 20 |
每個資源的最大檔案數 (微調) | 50 |
每個資源所有檔案的大小總計 (微調) | 1 GB |
定型作業時間上限 (若超過則作業將失敗) | 720 小時 |
定型作業大小上限 (定型檔案中的權杖) x (Epoch 數目) | 20 億 |
每個上傳的所有檔案大小上限 (資料上的 Azure OpenAI) | 16 MB |
數位中的最大數位或輸入 /embeddings |
2048 |
訊息數目 /chat/completions 上限 |
2048 |
函式數目 /chat/completions 上限 |
128 |
工具數目 /chat completions 上限 |
128 |
每個部署的布建輸送量單位數目上限 | 100,000 |
每個小幫手/線程的檔案上限 | 20 |
小幫手和微調檔案大小上限 | 512 MB |
小幫手令牌限制 | 2,000,000 個令牌限制 |
區域配額限制
模型的預設配額會因模型和區域而異。 預設的配額限制可能會變更。
標準部署的配額會以每分鐘權杖數 (TPM) 的形式描述。
區域 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-35-Turbo-0125 - finetune | GPT-4 - 微調 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K | 450 K | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K | 450 K | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K | - |
francecentral | 20 K | 60 K | 80 K | - | - | - | 240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | - | 300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K | 450 K | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K | 100 K |
norwayeast | - | - | 150 K | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 150 K | 450 K | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | - | 300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | - | - | 300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K | 100 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K | - |
uksouth | - | - | 80 K | - | - | - | 240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K | 450 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K | 450 K | - | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
1 K = 每分鐘 1000 個權杖 (TPM)。 TPM 和每分鐘要求數 (RPM) 之間的關聯性目前定義為每 1000 TPM 6 RPM。
上表中 GPT-4o 的值代表可供所有客戶使用的預設配額值。 企業客戶有更大的 配額配置。
gpt-4o 速率限制
gpt-4o
針對特定客戶類型引進具有較高限制的速率限制層。
gpt-4o 全域標準
注意
全域 標準模型部署類型 目前為公開預覽狀態。
層 | 每分鐘令牌的配額限制 (TPM) | 每分鐘要求 |
---|---|---|
Enterprise 合約 | 10 M | 60 K |
預設 | 450 K | 2.7 K |
M = 百萬 |K = 千
gpt-4o 標準
層 | 每分鐘令牌的配額限制 (TPM) | 每分鐘要求 |
---|---|---|
Enterprise 合約 | 1 M | 6K |
預設 | 150 K | 900 |
M = 百萬 |K = 千
使用層
全域標準部署會使用 Azure 的全域基礎結構,以動態方式將客戶流量路由傳送至數據中心,並針對客戶的推斷要求提供最佳可用性。 這可為低到中層級流量的客戶啟用更一致的延遲。 具有高持續使用量層級的客戶可能會在回應延遲中看到更多變化。
使用限制會決定高於客戶在回應延遲中可能會看到較大變化的使用量層級。 每個模型都會定義客戶的使用量,而且是指定租使用者所有區域中所有訂用帳戶中所有部署中耗用的總令牌。
GPT-4o 全球標準與標準
模型 | 每月使用量層 |
---|---|
GPT-4o |
15 億個令牌 |
保持在速率限制內的一般最佳做法
若要盡量減少與速率限制相關的問題,最好使用下列技術:
- 在您的應用程式中實作重試邏輯。
- 避免工作負載急遽變化。 逐漸增加工作負載。
- 測試不同的負載增加模式。
- 增加指派給部署的配額。 視需要從另一個部署中移動配額。
如何要求增加預設配額與限制
您可以從 Azure OpenAI 工作室的 [配額] 頁面提交增加配額要求。 請注意,由於需求龐大,系統會接受配額增加要求,並會按照收到的順序填入。 優先順序會提供給產生耗用現有配額配置流量的客戶,如果不符合此條件,您的要求可能會遭到拒絕。
如需其他速率限制,請提交服務要求。
下一步
探索如何針對您的 Azure OpenAI 部署管理配額。 深入了解驅動 Azure OpenAI 的基礎模型。