布建的輸送量單位上線
本文將逐步引導您完成上線至 布建輸送量單位 (PTU) 的程式。 完成初始上線之後,建議您參考 PTU 快速入門指南。
注意
布建的輸送量單位 (PTU) 與 Azure OpenAI 中的標準配額不同,且預設無法使用。 若要深入瞭解此供應專案,請連絡您的 Microsoft 帳戶小組。
何時使用布建的輸送量單位 (PTU)
當您有妥善定義且可預測的輸送量需求時,您應該考慮從隨用隨付切換至布建的輸送量。 一般而言,當應用程式準備好用於生產環境或已部署在生產環境中,且了解預期的流量時,就會發生這種情況。 這可讓使用者準確地預測所需的容量,並避免非預期的計費。
典型的 PTU 案例
- 準備好用於生產環境或生產環境的應用程式。
- 應用程式具有可預測的容量/使用量預期。
- 應用程式具有即時/延遲敏感性需求。
注意
在函式呼叫和代理程式使用案例中,令牌使用方式可以是變數。 在將工作負載移轉至 PTU 之前,您應該先詳細瞭解預期的每分鐘令牌 (TPM) 使用量。
重設大小和估計:僅布建受控
判斷工作負載所需的布建輸送量或 PTU 數量,是優化效能和成本的重要步驟。 本節說明如何使用 Azure OpenAI 容量規劃工具。 此工具會提供必要 PTU 的估計值,以符合工作負載的需求。
估計布建的輸送量和成本
若要快速預估工作負載,請在 Azure OpenAI Studio 中開啟容量規劃工具。 容量規劃工具位於 [已布建的管理>配額>] 之下。
[ 已布建 ] 選項和容量規劃工具僅適用於 [配額] 窗格內的特定區域,如果您看不到此選項將配額區域設定為 瑞典中部 ,則會提供此選項。 根據您的工作負載輸入下列參數。
輸入 | 描述 |
---|---|
模型 | 您打算使用的 OpenAI 模型。 例如:GPT-4 |
版本 | 您計劃使用的模型版本,例如 0614 |
提示令牌 | 每個呼叫提示中的令牌數目 |
產生令牌 | 模型在每個呼叫上產生的令牌數目 |
每分鐘尖峰呼叫數 | 尖峰並行負載至以每分鐘呼叫為單位的端點 |
填寫必要詳細數據之後,請選取 [計算 ] 以檢視案例的建議 PTU。
注意
容量規劃工具是根據簡單輸入準則的估計值。 判斷容量的最準確方式,是使用使用案例的表示式工作負載來基準檢驗部署。
瞭解布建的輸送量購買模型
不同於根據使用量向您收取費用的 Azure 服務,Azure OpenAI 布建輸送量功能會購買為可更新的每月承諾用量。 建立時和每月續約時,此承諾會向您訂用帳戶收費。 當您上線至布建的輸送量時,您必須在每個您想要建立布建部署的 Azure OpenAI 資源上建立承諾用量。 您在這些資源上建立部署時,可以使用以這種方式購買的 PTU。
您可以透過承諾購買的 PTU 總數僅限於指派給訂用帳戶的布建輸送量配額數量。 下表比較布建輸送量配額 (PTU) 和布建輸送量承諾的其他特性。
主題 | 配額 | 承諾 |
---|---|---|
目的 | 授與建立布建部署的許可權,並提供可用容量的上限 | 已布建輸送量容量的購買車輛 |
存留期 | 如果未在授與五天內透過承諾用量購買配額,可能會從您的訂用帳戶中移除配額 | 最低期限為一個月,具有客戶可選取的自動重新更新行為。 承諾無法取消,且無法在作用中時移至新資源 |
範圍 | 配額專屬於訂用帳戶和區域,且會跨所有 Azure OpenAI 資源分享 | 承諾是 Azure OpenAI 資源的屬性,且範圍限定於該資源內的部署。 訂用帳戶可能包含與資源一樣多的作用中承諾。 |
資料粒度 | 配額會授與模型系列的特定配額(例如 GPT-4),但可在系列內的模型版本之間共用 | 承諾不是模型或版本特定的。 例如,資源的 1000 PTU 承諾可以涵蓋 GPT-4 和 GPT-35-Turbo 的部署 |
容量保證 | 擁有配額並不保證當您建立部署時可以使用容量 | 只要承諾為作用中,保證涵蓋已認可的 PTU 的容量可用性。 |
增加/減少 | 新的配額可以隨時要求和核准,與承諾續約日期無關 | 承諾涵蓋的 PTU 數目可以隨時增加,但無法減少,但更新時除外。 |
配額和承諾一起運作,以控管訂用帳戶內的部署建立。 若要建立布建的部署,必須符合兩個準則:
- 配額必須適用於所需區域和訂用帳戶內所需的模型。 這表示您無法超過模型的訂用帳戶/全區域限制。
- 在建立部署的資源上必須提供認可的 PTU。 (您指派給部署的容量是付費的)。
承諾用量屬性和收費模型
承諾專案包含數個屬性。
屬性 | 說明 | 設定時 |
---|---|---|
Azure OpenAI 資源 | 裝載承諾用量的資源 | 建立承諾 |
已認可的 PTU | 承諾涵蓋的 PTU 數目。 | 一開始在承諾建立時設定,而且可以隨時增加,但不會減少。 |
術語 | 承諾期限。 承諾會在建立日期起一個月到期。 更新原則會定義接下來會發生什麼事。 | 建立承諾 |
到期日期 | 承諾的到期日。 到期時間是UTC午夜。 | 一開始,從建立起 30 天。 不過,如果承諾續約,到期日就會變更。 |
續約原則 | 到期時要執行的動作有三個選項: - 自動重新更新:新的承諾期限會從目前 PTU 數目開始再 30 天 - 使用不同設定自動重新更新:此設定與 Autorenew 相同,不同之處在於更新時認可的 PTU 數目可以減少 - 不要自動重新更新:到期時,承諾會結束且不會更新。 |
一開始在承諾建立時設定,隨時可以變更。 |
承諾用量費用
布建的輸送量承諾用量會在下列時間對您的 Azure 訂用帳戶產生費用:
承諾建立時。 費用是根據目前的每月 PTU 費率和認可的 PTU 數目來計算。 您會收到發票上的單一預付費用。
承諾續約。 如果續約原則設定為自動重新更新,則會根據新字詞中認可的 PTU 產生新的每月費用。 此費用會顯示為發票上的單一預付費用。
將新的 PTU 新增至現有的承諾時。 費用是根據新增至承諾用量的 PTU 數目計算,按比例計算到現有承諾期限的結尾。 例如,如果 300 個 PTU 已新增至 900 個 PTU 的現有承諾期剛好一半,則新增相當於 150 個 PTU(300 個 PTU 按比例計算為承諾到期日的 300 個 PTU)時,會收取費用。 如果承諾續約,則下個月的費用將會是新 PTU 總計 1,200 個 PTU。
只要資源中已部署的 PTU 數目是由資源的承諾用量所涵蓋,您就只會看到承諾費用。 不過,如果資源中已部署的 PTU 數目會大於資源的已認可 PTU,則會以每小時超額費率向您收取超額費用。 一般而言,此超額發生的唯一方式是當承諾在資源包含部署時到期或更新時減少。 例如,如果允許在已部署 300 個 PTU 的資源上到期 300 個 PTU 承諾用量,則任何承諾將不再涵蓋已部署的 PTU。 達到到期日後,訂用帳戶會根據 300 個超額 PTU 收取每小時超額費用。
每小時費率高於每月承諾率,且費用在幾天內超過每月費率。 有兩種方式可以結束每小時超額費用:
- 刪除或相應減少部署,使其不會使用比認可更多的 PTU。
- 在資源上建立新的承諾,以涵蓋已部署的 PTU。
購買和管理承諾
規劃您的承諾
收到已布建輸送量單位 (PTU) 配額指派給訂用帳戶的確認后,您必須在目標資源上建立承諾用量(或延長現有承諾用量),才能將配額用於部署。
在建立承諾之前,請規劃如何使用布建的部署,以及哪些 Azure OpenAI 資源會裝載這些部署。 承諾用量的最小期限為一 個月,在期限結束之前,無法縮小大小。 一旦建立之後,它們也無法移至新的資源。 最後,已認可的 PTU 總和不能大於您的配額 – 在承諾到期之前,資源上認可的 PTU 已無法再認可至不同的資源。 清楚規劃哪些資源將用於布建的部署,以及您想要套用至這些部署的容量(至少一個月)將有助於確保布建輸送量設定的最佳體驗。
例如:
請勿針對驗證目的, 在暫存 資源上建立承諾和部署。 您至少會鎖定使用該資源一個月。 相反地,如果計劃最終在生產資源上使用 PTU,請從一開始就在該資源上建立承諾並測試部署。
根據您想要建立的部署數目、模型和大小,計算要針對資源認可的 PTU 數目,請記住每個模型需要建立部署的最低 PTU 數目。
範例 1:GPT-4-32K 至少需要 200 個 PTU 才能部署。 如果您在資源上只建立 100 個 PTU 的承諾,則沒有足夠的認可 PTU 來部署 GPT-4-32K
範例 2:如果您需要在資源上建立多個部署,請為每個部署加總所需的 PTU。 裝載 300 個 GPT-4 和 500 個 GPT-4-32K PTU 的生產資源,將需要至少 800 個 PTU 的承諾,才能涵蓋這兩個部署。
視需要散發或合併 PTU。 例如,1000 個 PTU 的總配額可以視需要分散到資源,以支援您的部署。 只要認可的 PTU 總數小於或等於 1000 個配額,就可以在單一資源上認可,以支援最多 1000 個 PTU 的部署,或分散到多個資源(例如開發與生產資源)。
請考慮方案中的作業需求。 例如:
- 組織所需的資源命名慣例
- 需要每個區域多個模型部署的商務持續性原則,或許在不同的 Azure OpenAI 資源上
管理布建的輸送量承諾
布建的輸送量承諾會從 Azure OpenAI Studio 中的 [管理承諾用量 ] 檢視建立和管理。 您可以從 [配額] 窗格中選取 [管理承諾] 來流覽至此檢視:
從 [管理承諾用量] 檢視中,您可以執行數件事:
- 購買新的承諾或編輯現有的承諾用量。
- 監視訂用帳戶中的所有承諾。
- 識別並針對可能造成非預期計費的承諾採取動作。
下列各節將帶您完成這些工作。
購買布建的輸送量承諾用量
準備好您的承諾方案后,下一個步驟是建立承諾。 承諾會透過 Azure OpenAI Studio 手動建立,並要求使用者建立承諾,才能在訂用帳戶層級擁有 參與者或認知服務參與者角色 。
針對您需要建立的每個新承諾,請遵循下列步驟:
- 選取 [已布建的管理>承諾配額>],以啟動 [布建的輸送量購買] 對話框。
選取 [ 購買承諾用量]。
選取 Azure OpenAI 資源並購買承諾用量。 您會看到資源分成具有現有承諾用量的資源,您可以編輯資源,以及目前沒有承諾的資源。
設定 | 備註 |
---|---|
選取資源 | 選擇您要在其中建立布建部署的資源。 購買承諾用量之後,您將無法在另一個資源上使用 PTU,直到目前的承諾用量到期為止。 |
選取承諾用量類型 | 選取 [已布建]。 (已布建相當於已布建的受控) |
目前未認可的布建配額 | 目前可供您認可至此資源的 PTU 數目。 |
認可金額 (PTU) | 選擇您要認可的 PTU 數目。 此數目可以在承諾用量期間增加,但無法減少。 針對 [已布建] 類型,以 50 為增量輸入值。 |
目前期間的承諾用量層 | 承諾期限設定為一個月。 |
更新設定 | 目前 PTU 的自動更新 在較低的 PTU 自動續約 不要自動更新 |
- 選取 [購買] 。 將會顯示確認對話方塊。 確認之後,將會認可您的 PTU,而且您可以使用它們來建立布建的部署。 |
重要
整個任期內,新的承諾會提前計費。 如果續約設定設定為自動續約,則會根據更新設定,在每個續約日期再次向您收取費用。
編輯現有的布建輸送量承諾
從 [管理承諾用量] 檢視中,您也可以編輯現有的承諾用量。 您可以對現有的承諾進行兩種類型的變更:
- 您可以將 PTU 新增至承諾專案。
- 您可以變更更新設定。
若要編輯承諾用量,請選取要編輯的目前專案,然後選取 [編輯承諾用量]。
將布建的輸送量單位新增至現有的承諾用量
將 PTU 新增至現有的承諾,可讓您在資源內建立更大的或更多部署。 您可以在承諾期間隨時執行此動作。
重要
當您將 PTU 新增至承諾用量時,將會立即以按比例計算的金額,從目前日期到現有承諾期限結束。 新增 PTU 不會重設承諾用量字詞。
變更更新設定
承諾續約設定可以在承諾到期日之前隨時變更。 您可能想要變更更新設定的原因包括藉由將承諾設定為不自動更新來結束布建輸送量的使用,或藉由降低下一個期間將認可的 PTU 數目來減少布建輸送量的使用。
重要
如果您允許承諾到期或縮小大小,讓資源下的部署需要比資源承諾用量更多的 PTU,您將會收到任何超額 PTU 的每小時超額費用。 例如,具有總共 500 個 PTU 部署的資源,以及 300 個 PTU 的承諾用量,會產生 200 個 PTU 的每小時超額費用。
監視承諾用量並防止非預期的計費
[管理承諾] 窗格提供訂用帳戶的完整訂用帳戶概觀,其中包含指定 Azure 訂用帳戶內的承諾用量和 PTU 使用量。 特別重要的興趣是:
- PTU 已認可、已部署和使用 – 這些數位會提供您的承諾大小,以及部署所使用的數量。 使用所有認可的 PTU 來最大化您的投資。
- 到期原則和日期 - 到期日和原則會告訴您承諾何時到期,以及何時會發生的情況。 自動續約的承諾將會在續約日期產生計費事件。 對於即將到期的承諾,請務必在到期日之前刪除這些資源的部署,以防止每小時超額計費承諾的目前續約設定。
- 通知 - 關於重要條件的警示,例如未使用的承諾用量,以及可能導致計費超額的設定。 計費超額可能是因為承諾已過期且部署仍然存在,但已轉移至每小時計費等情況。
常見的承諾管理案例
停止使用布建的輸送量
若要結束布建輸送量的使用,並防止承諾期到期后的每小時超額費用,請在目前的承諾期到期后停止任何費用,必須採取兩個步驟:
- 將所有承諾的續約原則設定為 [不要自動重新更新]。
- 使用配額刪除布建的部署。
將承諾/部署移至相同訂用帳戶/區域中的新資源
Azure OpenAI Studio 中無法直接 移動 部署或對新資源的承諾。 相反地,必須在目標資源上建立新的部署,並將流量移至該部署。 必須在新資源上購買的承諾,才能完成這項作業。 由於承諾會在 30 天期間前收取費用,因此必須在重疊期間將與新承諾重疊和「雙計費」重疊的到期時間,讓此移動時間與原始承諾到期的時間降至最低。
有兩種方法可用來實作此轉換。
選項 1:無重迭切換
此選項需要一些停機時間,但不需要額外的配額,而且不會產生額外費用。
步驟 | 備註 |
---|---|
設定現有承諾期到期的續約原則 | 這可防止承諾續約併產生進一步的費用 |
在現有承諾用量到期之前,請刪除其部署 | 停機時間會從此時開始,並持續到建立新的部署並移動流量為止。 您將藉由將刪除的時間設定為盡可能接近到期日/時間,將持續時間降至最低。 |
在現有承諾期滿之後,在新的資源上建立承諾用量 | 藉由儘快執行此作業和下一個步驟,將停機時間降到最低。 |
在新的資源上建立部署,並將流量移至該資源 |
選項 2:重迭切換
此選項不會同時讓現有和新部署同時上線,因此不會停機。 這需要有配額才能建立新的部署,而且會在重疊的部署期間產生額外的成本。
步驟 | 備註 |
---|---|
設定現有承諾期到期的續約原則 | 這樣做可防止承諾續約併產生進一步的費用。 |
在現有承諾用量到期之前: 1.建立新資源的承諾。 2.建立新的部署。 3. 切換流量 4.刪除現有的部署 |
請確定您在現有承諾到期之前保留足夠的時間,否則會產生超額費用(請參閱下一節)以取得選項。 |
如果最後一個步驟花費的時間超過預期,且將在現有承諾到期之後完成,有三個選項可將超額費用降到最低。
- 停機:刪除原始部署,然後完成移動。
- 支付超額費用:保留原始部署並按小時付費,直到您已將流量移出並刪除部署為止。
- 重設原始承諾 以再次更新一次。 這可讓您有時間以已知的成本完成移動。
支付超額和重設原始承諾都會產生超過原始到期日的費用。 如果您只需要一兩天的時間才能完成移動,支付超額費用可能比新的一個月承諾要便宜。 比較這兩個選項的成本,以找出最低成本的方法。
將部署移至新的區域和或訂用帳戶
相同的方法適用於移動區域內的承諾和部署,但在所有情況下都需要在新位置中擁有可用的配額。
檢視和編輯現有的資源
在 Azure OpenAI Studio 中,選取 [ 配額>布建的管理>承諾 ],然後選取具有現有承諾用量的資源來檢視/變更。