Azure OpenAI Service のクォータを管理する

[アーティクル]
08/23/2023

クォータを使用すると、サブスクリプション内のデプロイ全体で、レート制限の割り当てを柔軟に管理できます。この記事では、Azure OpenAI のクォータを管理するプロセスについて説明します。

前提条件

重要

クォータの表示とモデルのデプロイには、Cognitive Services 使用状況閲覧者ロールが必要です。このロールは、Azure サブスクリプション全体のクォータの使用状況を表示するために必要な最小限のアクセス権を提供します。このロールと、Azure OpenAI にアクセスするために必要な他のロールの詳細については、Azure ロールベースのアクセス (Azure RBAC) ガイドを参照してください。

このロールは、Azure portal の [サブスクリプション]>[アクセス制御 (IAM)]>[ロール割り当ての追加]> で Cognitive Services 使用状況閲覧者を検索して見つけることができます。このロールは、サブスクリプションレベルで適用する必要があります。リソースレベルでは存在しません。

このロールを使用しない場合は、サブスクリプション閲覧者ロールによって同等のアクセスが提供されますが、クォータとモデルのデプロイの表示に必要な範囲を超えた読み取りアクセスも付与されます。

クォータの概要

Azure OpenAI のクォータ機能を使用して、"クォータ" と呼ばれるグローバル制限まで、デプロイにレート制限を割り当てることができます。クォータは、リージョンごと、モデルごとに、TPM (Tokens-per-Minute) 単位でサブスクリプションに割り当てられます。 Azure OpenAI にサブスクリプションをオンボードすると、最も使用可能なモデルの既定のクォータを受け取ります。次に、デプロイの作成時に各デプロイに TPM を割り当てます。そのモデルに対して使用可能なクォータは、その量により削減されます。クォータ制限に達するまで、デプロイを作成して TPM を割り当て続けることができます。これが発生する場合、そのモデルの新しいデプロイを作成するには、同じモデルの他のデプロイに割り当てられている TPM を減らす (これにより、TPM を解放して使用できるようにする) か、目的のリージョンでモデルクォータの増加を要求して承認される必要があります。

注意

米国東部の GPT-35-Turbo の割り当てが 240,000 TPM の場合、顧客は、240,000 TPM の 1 つのデプロイ、それぞれ 120,000 TPM のデプロイ 2 つ、1 つまたは複数の Azure OpenAI リソースに任意の数のデプロイを作成でき、TPM は、そのリージョンで合計 240K 未満になります。

デプロイが作成されると、割り当てられた TPM は、推論要求で適用される TPM (Tokens-per-Minute) のレート制限に直接マップされます。 1 分あたりの要求 (RPM) レート制限も適用され、その値は次の比率を使用して TPM 割り当てに比例して設定されます。

1000 TPM あたり 6 RPM。

サブスクリプションとリージョン内で TPM をグローバルに分散する柔軟性により、Azure OpenAI Service は次の他の制限を緩和できます。

リージョンあたりの最大リソース数は 30 まで増加します。
リソース内に同じモデルのデプロイを 1 つ以上作成できないという制限が削除されました。

クォータを割り当てる

モデルデプロイを作成するときに、そのデプロイに TPM (Tokens-per-Minute) を割り当てるオプションがあります。 TPM は 1,000 単位で変更でき、上で説明したように、デプロイに適用される TPM および RPM レート制限にマップされます。

Azure AI Studio 内の [管理] から新しいデプロイを作成するには、[デプロイ]>[新しいデプロイの作成] を選択します。

TPM を設定するオプションは、次の [詳細オプション] のドロップダウンにあります。

デプロイ後は、Azure AI Studio の [管理>デプロイ] で [デプロイの編集] を選択して、TPM の割り当てを調整できます。この選択は、新しいクォータ管理エクスペリエンスの [管理>クォータ] で変更することもできます。

重要

クォータと制限は変更される可能性があります。最新情報については、クォータと制限に関する記事を参照してください。

モデル固有の設定

モデルクラスとも呼ばれるさまざまなモデルデプロイには、制御できるようになった一意の最大 TPM 値があります。 これは、特定のリージョン内のモデルデプロイのその種類に割り当てることができる TPM の最大値を表しています。 各モデルの種類は独自の一意のモデルクラスを表していますが、TPM の最大値は現在、特定のモデルクラスでのみ異なります。

GPT-4
GPT-4-32K
Text-Davinci-003

他のすべてのモデルクラスには、共通の最大 TPM 値があります。

Note

クォータ TPM (Tokens-per-Minute) 割り当ては、モデルの最大入力トークン制限とは関係ありません。モデル入力トークンの制限はモデルテーブルで定義され、TPM に加えられた変更の影響を受けません。

クォータの表示と要求

特定のリージョン内のデプロイ間のクォータ割り当てをすべて表示するには、Azure AI Studio の [管理>クォータ] を選択します。

クォータ名: モデルの種類ごとにリージョンごとに 1 つのクォータ値があります。クォータは、そのモデルのすべてのバージョンをカバーします。クォータ名を UI で展開すると、クォータを使用しているデプロイを表示できます。
デプロイ: モデルデプロイをモデルクラスで除算します。
使用量/制限: クォータ名には、デプロイによって使用されるクォータの量と、このサブスクリプションとリージョンに対して承認されたクォータの合計が表示されます。この使用量のクォータは、棒グラフでも表示されます。
要求クォータ: このフィールドのアイコンは、クォータを増やす要求を送信できるフォームに移動します。

既存のデプロイを統合する

新しいクォータシステムと TPM ベースの割り当てへの移行の一環として、既存のすべての Azure OpenAI モデルデプロイがクォータを使用するように自動的に移行されています。以前のカスタムレート制限の増加により、既存の TPM/RPM 割り当てが既定値を超えた場合は、影響を受けるデプロイに同等の TPM が割り当てられます。

レート制限について理解する

デプロイに TPM を割り当てると、前述のように、デプロイの TPM (Tokens-per-Minute) と RPM (Requests-Per-Minute) レート制限が設定されます。 TPM レート制限は、要求の受信時に要求によって処理されると推定されるトークンの最大数に基づいています。これは、すべての処理が完了した後に計算される請求に使用されるトークン数と同じではありません。

各要求が受信されると、Azure OpenAI は以下を含む推定最大処理トークン数を計算します。

プロンプトテキストとカウント
max_tokens パラメーターの設定
best_of パラメーターの設定

要求がデプロイエンドポイントに入ると、推定最大処理トークン数は、1 分ごとにリセットされるすべての要求の実行中のトークン数に追加されます。この 1 分間のいずれかの時点で TPM レート制限値に達すると、カウンターがリセットされるまで、それ以降の要求は 429 応答コードを受け取ります。

RPM レート制限は、時間の経過と同時に受信した要求の数に基づいています。レート制限では、1 分間に要求が均等に分散されることを想定しています。この平均フローが維持されない場合、1 分間測定しても制限が満たされない場合でも、要求は 429 応答を受け取る可能性があります。この動作を実装するために、Azure OpenAI Service は、短い時間 (通常は 1 秒または 10 秒) にわたる受信要求の速度を評価します。その間に受信した要求の数が設定された RPM 制限で予想される数を超えた場合、新しい要求は次の評価期間まで 429 応答コードを受け取ります。たとえば、Azure OpenAI が 1 秒間隔で要求レートを監視している場合、1 秒ごとに 10 件を超える要求を受信すると、600 RPM デプロイでレート制限が発生します (1 分あたり 600 件の要求 = 1 秒あたり 10 件の要求)。

レート制限のベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

max_tokens と best_of を、シナリオのニーズに対応する最小値に設定します。たとえば、応答が小さいと予想される場合は、max-tokens 値を大きく設定しないようにします。
クォータ管理を使用して、トラフィックの多いデプロイで TPM を増やし、必要が限られたデプロイでの TPM を減らします。
アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。

デプロイの自動化

このセクションには、クォータを使用して TPM レート制限を設定するデプロイの作成をプログラムで開始するのに役立つ簡単なテンプレートの例が含まれています。クォータの導入により、リソース管理関連のアクティビティには API バージョン 2023-05-01 を使用する必要があります。この API バージョンはリソースの管理のみを目的としており、補完、チャット補完、埋め込み、画像生成などの推論呼び出しに使用される API バージョンには影響しません。

展開

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

パスパラメーター

パラメーター	Type	必須	説明
`accountName`	string	必須	Azure OpenAI リソースの名前。
`deploymentName`	string	必須	既存のモデルをデプロイしたときに選択したデプロイ名、または新しいモデルデプロイに使用する名前。
`resourceGroupName`	string	必須	このモデルデプロイに関連付けられているリソースグループの名前。
`subscriptionId`	string	必須	関連付けられているサブスクリプションの ID。
`api-version`	string	必須	この操作に使用する API バージョン。これは、YYYY-MM-DD 形式に従います。

サポートされているバージョン

2023-05-01Swagger の仕様

要求本文

これは、使用可能な要求本文パラメーターのサブセットにすぎません。すべてのパラメーターの一覧については、REST API リファレンスドキュメントをご覧ください。

パラメーター	型	説明
sku	SKU	SKU を表すリソースモデル定義。
capacity	整数 (integer)	このデプロイに割り当てるクォータの量を表します。値 1 は、1 分あたり 1,000 トークン (TPM) に相当します。値 10 は、1 分あたり 10,000 トークン (TPM) に相当します。

要求の例

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

注意

認証トークンを生成するには、複数の方法があります。初期テストの最も簡単な方法は、Azure portal から Cloud Shell を起動することです。次に、az account get-access-token を実行します。このトークンは、API テストの一時的な認証トークンとして使用できます。

詳細については、使用法とデプロイに関する REST API リファレンスドキュメントを参照してください。

使用方法

特定のリージョンでの特定のサブスクリプションのクォータ使用量に対してクエリを実行するには

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

パスパラメーター

パラメーター	Type	必須	説明
`subscriptionId`	string	必須	関連付けられているサブスクリプションの ID。
`location`	string	必須	使用状況を表示する場所 (例: `eastus`)
`api-version`	string	必須	この操作に使用する API バージョン。これは、YYYY-MM-DD 形式に従います。

サポートされているバージョン

2023-05-01Swagger の仕様

要求の例

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Azure CLI をインストールします。クォータには Azure CLI version 2.51.0 が必要です。既に Azure CLI がローカルにインストールされている場合は、az upgrade を実行して最新バージョンに更新します。

実行している Azure CLI のバージョンを確認するには、az version を使用します。 Azure Cloud Shell は現在まだ 2.50.0 を実行しているため、最新の Azure OpenAI 機能を利用するには、暫定的に Azure CLI をローカルにインストールする必要があります。

展開

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

CLI のローカルインストールにサインインするには、az login コマンドを実行します。

az login

以下のコマンドで sku-capacity を 10 に設定すると、このデプロイには 10K TPM 制限が設定されます。

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-35-turbo --model-version "0613" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

使用方法

特定のリージョンでの特定のサブスクリプションのクォータ使用量に対してクエリを実行するには

az cognitiveservices usage list --location

例

az cognitiveservices usage list -l eastus

このコマンドは、Azure CLI の現在アクティブなサブスクリプションのコンテキストで実行されます。 az-account-set --subscription を使用してアクティブなサブスクリプションを変更します。

az cognitiveservices account と az cognitivesservices usage の詳細については、Azure CLI リファレンスドキュメントを参照してください

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-35-turbo",
            "version": "0613"        // Version 0613 of gpt-35-turbo will be used
        }
    }
}

詳細については、完全な Azure Resource Manager リファレンスドキュメントを参照してください。

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-35-turbo'
      version: '0613'           // gpt-35-turbo version 0613 will be used
    }
  }
}

詳細については、完全な Bicep リファレンスドキュメントを参照してください。

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-35-turbo",
            version = "0613"           # Deploy gpt-35-turbo version 0613
        }
    }
  })
}

詳細については、完全な Terraform リファレンスドキュメントを参照してください。

リソースの削除

Azure portal から Azure OpenAI リソースを削除しようとすると、デプロイがまだ存在する場合、関連するデプロイが削除されるまで削除はブロックされます。最初にデプロイを削除すると、クォータ割り当てが適切に解放され、新しいデプロイで使用できるようになります。

ただし、REST API またはその他のプログラムによる方法を使用してリソースを削除すると、最初にデプロイを削除する必要がなくなります。これが発生すると、リソースがパージされるまで 48 時間、関連するクォータ割り当てを新しいデプロイに割り当てることができなくなります。削除されたリソースの即時パージをトリガーしてクォータを解放するには、「削除されたリソースのパージ手順」に従ってください。

次のステップ

Azure OpenAI のクォータの既定値を確認するには、クォータと制限に関する記事を参照してください

Azure OpenAI Service のクォータを管理する

前提条件

クォータの概要

クォータを割り当てる

モデル固有の設定

クォータの表示と要求

既存のデプロイを統合する

レート制限について理解する

レート制限のベスト プラクティス

デプロイの自動化

展開

要求の例

使用方法

要求の例

リソースの削除

次のステップ

その他のリソース

レート制限のベストプラクティス