Управление квотой службы OpenAI Azure

Статья
08/02/2023

Квота обеспечивает гибкость для активного управления распределением ограничений скорости между развертываниями в вашей подписке. В этой статье описывается процесс управления квотой Azure OpenAI.

Необходимые компоненты

Внимание

Для просмотра квот и развертывания моделей требуется роль читателя использования Cognitive Services. Эта роль обеспечивает минимальный доступ, необходимый для просмотра использования квот в подписке Azure. Дополнительные сведения об этой роли и других ролях, необходимых для доступа к Azure OpenAI, см. в руководстве по доступу на основе ролей Azure (Azure RBAC).

Эту роль можно найти в портал Azure в разделе "Управление доступом к подпискам>( IAM)>Добавление поиска назначения> ролей для средства чтения с использованием Cognitive Services. Эта роль должна применяться на уровне подписки, она не существует на уровне ресурса.

Если вы не хотите использовать эту роль, роль читателя подписки предоставит эквивалентный доступ, но также предоставит доступ на чтение за пределами область того, что необходимо для просмотра квоты и развертывания модели.

Общие сведения о квоте

Функция квоты Azure OpenAI позволяет назначать ограничения скорости для развертываний, вплоть до глобального ограничения, называемого вашей квотой. Квота назначается вашей подписке по регионам на основе модели в единицах токенов в минуту (TPM). При подключении подписки к Azure OpenAI вы получите квоту по умолчанию для большинства доступных моделей. Затем вы назначите TPM каждому развертыванию по мере его создания, а доступная квота для этой модели будет сокращена на эту сумму. Вы можете продолжать создавать развертывания и назначать их TPM, пока не достигнете предела квоты. После этого можно создавать только новые развертывания этой модели, уменьшая доверенный платформенный модуль, назначенный другим развертываниям той же модели (таким образом освобождая TPM для использования), или запрашивая и утверждая увеличение квоты модели в нужном регионе.

Примечание.

С квотой 240 000 TPM для GPT-35-Turbo в Восточной части США клиент может создать одно развертывание 240K TPM, 2 развертывания 120K TPM каждый или любое количество развертываний в одном или нескольких ресурсах Azure OpenAI, если их TPM добавляет менее 240K в этом регионе.

При создании развертывания назначенный TPM напрямую сопоставляется с ограничением скорости маркеров в минуту, примененным к запросам вывода. Ограничение скорости запросов на минуту (RPM) также будет применяться, значение которого пропорционально присваивается назначению доверенного платформенного модуля, используя следующее соотношение:

6 RPM на 1000 TPM.

Гибкость глобального распространения доверенного платформенного модуля в рамках подписки и региона позволила Службе Azure OpenAI освободить другие ограничения:

Максимальное количество ресурсов в каждом регионе увеличивается до 30.
Ограничение на создание не более одного развертывания одной модели в ресурсе было удалено.

Назначение квоты

При создании развертывания модели вы можете назначить маркеры за минуту (TPM) для этого развертывания. TPM можно изменить на шаге от 1000 до 1000, и будет сопоставляться с ограничениями скорости TPM и RPM, применяемыми в развертывании, как описано выше.

Чтобы создать новое развертывание в Azure AI Studio в разделе "Управление ", выберите "Развертывания>" Создать новое развертывание.

Параметр для настройки доверенного платформенного модуля находится в раскрывающемся списке "Дополнительные параметры ":

После развертывания можно настроить выделение доверенного платформенного модуля, выбрав "Изменить развертывание" в разделе "Развертывания управления>" в Azure AI Studio. Этот выбор также можно изменить в новом интерфейсе управления квотами в разделе "Квоты управления>".

Внимание

Квоты и ограничения могут быть изменены, для наиболее актуальной информации обратитесь к нашей статье о квотах и ограничениях.

Конкретные параметры модели

Различные развертывания моделей, также называемые классами моделей, имеют уникальные значения TPM, которые теперь можно управлять. Это представляет максимальный объем доверенного платформенного модуля, который может быть выделен для этого типа развертывания модели в определенном регионе. Хотя каждый тип модели представляет собственный уникальный класс модели, максимальное значение TPM в настоящее время отличается только для определенных классов моделей:

GPT-4
GPT-4-32K
Text-Davinci-003

Все остальные классы моделей имеют общее максимальное значение доверенного платформенного модуля.

Примечание.

Выделение маркеров квоты в минуту (TPM) не связано с максимальным ограничением входного маркера модели. Ограничения входных маркеров модели определяются в таблице моделей и не влияют на изменения, внесенные в TPM.

Просмотр и квота запроса

Чтобы просмотреть все распределения квот в разных развертываниях в определенном регионе, выберите "Квота управления>" в Azure AI Studio:

Имя квоты: для каждого типа модели имеется одно значение квоты. Квота охватывает все версии этой модели. Имя квоты можно развернуть в пользовательском интерфейсе, чтобы отобразить развертывания, использующие квоту.
Развертывание: развертывания модели, разделенные на класс модели.
Использование и ограничение. Для имени квоты будет показано, сколько квот используется развертываниями и общая квота, утвержденная для этой подписки и региона. Этот объем квоты также представлен в графе линейчатой диаграммы.
Квота запроса: значок в этом поле переходит в форму, в которой можно отправить запросы на увеличение квоты.

Перенос существующих развертываний

В рамках перехода на новую систему квот и распределение на основе TPM все существующие развертывания модели Azure OpenAI были автоматически перенесены для использования квоты. В случаях, когда существующее распределение TPM/RPM превышает значения по умолчанию из-за предыдущих увеличений ограничения скорости, эквивалентный TPM был назначен затронутым развертываниям.

Общие сведения об ограничениях скорости

Назначение доверенного платформенного модуля развертыванию задает ограничения скорости token-per-Minute (TPM) и Requests-Per-Minute (RPM) для развертывания, как описано выше. Ограничения скорости доверенного платформенного модуля основаны на максимальном количестве маркеров, которые, по оценкам, обрабатываются запросом во время получения запроса. Это не то же самое, что и счетчик маркеров, используемый для выставления счетов, который вычисляется после завершения всей обработки.

По мере получения каждого запроса Azure OpenAI вычисляет предполагаемое максимально обработанное число маркеров, включающее следующее:

Запрос текста и подсчета
Параметр max_tokens
Параметр best_of

По мере того как запросы приходят в конечную точку развертывания, предполагаемое максимально обработанное число маркеров добавляется в число запущенных маркеров всех запросов, которые сбрасываются каждую минуту. Если в любое время в течение этой минуты достигнуто ограничение скорости доверенного платформенного модуля, дальнейшие запросы получат код ответа 429 до сброса счетчика.

Ограничения скорости RPM основаны на количестве запросов, полученных с течением времени. Ограничение скорости ожидает равномерное распределение запросов в течение одной минуты. Если этот средний поток не поддерживается, запросы могут получить ответ 429, даже если ограничение не выполняется при измерении в течение минуты. Для реализации этого поведения служба Azure OpenAI оценивает частоту входящих запросов в течение небольшого периода времени, обычно 1 или 10 секунд. Если число полученных запросов в течение этого времени превышает ожидаемое значение в заданном пределе RPM, новые запросы получат код ответа 429 до следующего периода оценки. Например, если Azure OpenAI отслеживает частоту запросов по 1-секундным интервалам, ограничение скорости будет происходить для развертывания 600-RPM, если в течение каждого 10-секундного периода получаются более 10 запросов (600 запросов в минуту = 10 запросов в секунду).

Автоматизация развертывания

В этом разделе содержатся краткие примеры шаблонов, которые помогут приступить к программному созданию развертываний, использующих квоту для установки ограничений скорости доверенного платформенного модуля. При вводе квоты необходимо использовать версию 2023-05-01 API для связанных действий по управлению ресурсами. Эта версия API предназначена только для управления ресурсами и не влияет на версию API, используемую для вызовов вывода, таких как завершения, завершение чата, внедрение, создание образов и т. д.

Развертывание

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Параметры пути

Параметр	Тип	Обязательное?	Description
`accountName`	строка	Обязательное поле	Имя ресурса Azure OpenAI.
`deploymentName`	строка	Обязательное поле	Имя развертывания, выбранное при развертывании существующей модели или имя, которое будет иметь новое развертывание модели.
`resourceGroupName`	строка	Обязательное поле	Имя связанной группы ресурсов для развертывания этой модели.
`subscriptionId`	строка	Обязательное поле	Идентификатор подписки для связанной подписки.
`api-version`	строка	Обязательное поле	Версия API, используемая для данной операции. Имеет формат ГГГГ-ММ-ДД.

Поддерживаемые версии

2023-05-01Спецификация Swagger

Текст запроса

Это только подмножество доступных параметров текста запроса. Полный список параметров см. в справочной документации по REST API.

Параметр	Тип	Описание
sku	Sku	Определение модели ресурсов, представляющее номер SKU.
Емкость	integer	Это означает объем квоты, которую вы назначаете этому развертыванию. Значение 1 равно 1000 маркеров в минуту (TPM). Значение 10 равно 10 тысячам маркеров в минуту (TPM).

Пример запроса

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

Примечание.

Существует несколько способов создания маркера авторизации. Самый простой способ начального тестирования — запустить Cloud Shell из портал Azure. Затем выполните az account get-access-token. Этот маркер можно использовать в качестве временного маркера авторизации для тестирования API.

Дополнительные сведения см. в справочной документации по REST API по использованию и развертыванию.

Использование

Запрос использования квоты в определенном регионе для конкретной подписки

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Параметры пути

Параметр	Тип	Обязательное?	Description
`subscriptionId`	строка	Обязательное поле	Идентификатор подписки для связанной подписки.
`location`	строка	Обязательное поле	Расположение для просмотра использования для ex: `eastus`
`api-version`	строка	Обязательное поле	Версия API, используемая для данной операции. Имеет формат ГГГГ-ММ-ДД.

Поддерживаемые версии

2023-05-01Спецификация Swagger

Пример запроса

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Установите интерфейс командной строки Azure. Для квоты требуется Azure CLI version 2.51.0. Если вы уже установили Azure CLI локально, az upgrade чтобы обновить последнюю версию.

Чтобы проверка какую версию Azure CLI вы используетеaz version. Azure Cloud Shell в настоящее время работает под управлением 2.50.0, поэтому для использования последних функций Azure OpenAI требуется промежуточная локальная установка Azure CLI.

Развертывание

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

Чтобы войти в локальную установку CLI, выполните команду az login:

az login

При задании SKU-емкости 10 в команде ниже этого развертывания будет задано ограничение на 10K TPM.

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-35-turbo --model-version "0613" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

Использование

Запрос использования квоты в определенном регионе для конкретной подписки

az cognitiveservices usage list --location

Пример

az cognitiveservices usage list -l eastus

Эта команда выполняется в контексте текущей активной подписки для Azure CLI. Используется az-account-set --subscription для изменения активной подписки.

Дополнительные сведения и az cognitivesservices usage справочные сведения о az cognitiveservices account azure CLI

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-35-turbo",
            "version": "0613"        // Version 0613 of gpt-35-turbo will be used
        }
    }
}

Дополнительные сведения см. в полной справочной документации по Azure Resource Manager.

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-35-turbo'
      version: '0613'           // gpt-35-turbo version 0613 will be used
    }
  }
}

Дополнительные сведения см. в полной справочной документации по Bicep.

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-35-turbo",
            version = "0613"           # Deploy gpt-35-turbo version 0613
        }
    }
  })
}

Дополнительные сведения см. в полной справочной документации Terraform.

Удаление ресурсов

При попытке удалить ресурс Azure OpenAI из портал Azure если все развертывания по-прежнему присутствуют, будут заблокированы до тех пор, пока связанные развертывания не будут удалены. Удаление развертываний сначала позволяет правильно освободить выделение квот, чтобы их можно было использовать в новых развертываниях.

Однако при удалении ресурса с помощью REST API или другого программного метода необходимо сначала удалить развертывания. При этом связанное выделение квот будет оставаться недоступным для назначения новому развертыванию в течение 48 часов до очистки ресурса. Чтобы активировать немедленную очистку удаленного ресурса, чтобы освободить квоту, следуйте инструкциям по очистке удаленного ресурса.

Следующие шаги

Чтобы просмотреть квоты по умолчанию для Azure OpenAI, ознакомьтесь со статьей о квотах и ограничениях

Share via

Управление квотой службы OpenAI Azure

Необходимые компоненты

Общие сведения о квоте

Назначение квоты

Конкретные параметры модели

Просмотр и квота запроса

Перенос существующих развертываний

Общие сведения об ограничениях скорости

Рекомендации по ограничению скорости

Автоматизация развертывания

Развертывание

Пример запроса

Использование

Пример запроса

Развертывание

Использование

Пример

Удаление ресурсов

Следующие шаги

Дополнительные ресурсы