Azure OpenAI Hizmeti kotası yönetme

Kota, aboneliğinizdeki dağıtımlar genelinde hız sınırlarının ayrılmasını etkin bir şekilde yönetme esnekliği sağlar. Bu makalede Azure OpenAI kotanızı yönetme işlemi adım adım açıklanmaktadır.

Önkoşullar

Önemli

Kotayı görüntülemek ve modelleri dağıtmak için Bilişsel Hizmetler Kullanımları Okuyucusu rolü gerekir. Bu rol, Azure aboneliği genelinde kota kullanımını görüntülemek için gereken en düşük erişimi sağlar. Bu rol ve Azure OpenAI'ye erişmeniz gereken diğer roller hakkında daha fazla bilgi edinmek için Azure rol tabanlı erişim (Azure RBAC) kılavuzumuza başvurun.

Bu rol, Azure portalında Abonelikler>Erişim denetimi (IAM)>Bilişsel Hizmetler Kullanımları Okuyucusu için rol ataması> araması ekleme bölümünde bulunabilir. Bu rol abonelik düzeyinde uygulanmalıdır, kaynak düzeyinde mevcut değildir.

Bu rolü kullanmak istemiyorsanız abonelik Okuyucusu rolü eşdeğer erişim sağlar, ancak kota ve model dağıtımını görüntülemek için gerekenlerin kapsamının ötesinde okuma erişimi de verir.

Kotaya giriş

Azure OpenAI'nin kota özelliği, "kotanız" adlı genel sınıra kadar dağıtımlarınıza hız sınırları atamanızı sağlar. Kota, aboneliğinize bölge başına, model başına dakika başına belirteç (TPM) birimlerinde atanır. Azure OpenAI'ye bir abonelik eklediğinizde, kullanılabilir modellerin çoğu için varsayılan kotayı alırsınız. Ardından, oluşturulduktan sonra her dağıtıma TPM atayacaksınız ve bu model için kullanılabilir kota bu miktarda azaltılacaktır. Kota sınırınıza ulaşana kadar dağıtım oluşturmaya ve tpm atamaya devam edebilirsiniz. Bu durumda, yalnızca aynı modelin diğer dağıtımlarına atanan TPM'yi azaltarak (dolayısıyla TPM'yi kullanım için serbest kaldırarak) veya istenen bölgede model kotası artışı isteyerek ve onaylayarak bu modelin yeni dağıtımlarını oluşturabilirsiniz.

Not

Doğu ABD'de GPT-35-Turbo için 240.000 TPM kotasıyla, müşteri 240.000 TPM'den oluşan tek bir dağıtım, her biri 120.000 TPM'nin 2 dağıtımı veya TPM'sinin bu bölgede toplam 240 BIN'in altına kadar eklediği sürece bir veya birden çok Azure OpenAI kaynağında herhangi bir sayıda dağıtım oluşturabilir.

Bir dağıtım oluşturulduğunda, atanan TPM, çıkarım isteklerinde zorunlu kılınan dakika başına belirteç hız sınırına doğrudan eşlenir. Aşağıdaki oran kullanılarak değeri TPM atamasına orantılı olarak ayarlanmış olan Dakika Başına İstek (RPM) hız sınırı da uygulanır:

1000 TPM başına 6 RPM.

TPM'yi bir abonelik ve bölge içinde genel olarak dağıtma esnekliği, Azure OpenAI Hizmeti'nin diğer kısıtlamaları gevşetmesine olanak sağlamıştır:

  • Bölge başına en fazla kaynak sayısı 30'a çıkarılır.
  • Bir kaynakta aynı modelin birden fazla dağıtımını oluşturma sınırı kaldırıldı.

Kota atama

Model dağıtımı oluşturduğunuzda, bu dağıtıma Dakika Başına Belirteçler (TPM) atama seçeneğiniz vardır. TPM 1.000'lik artışlarla değiştirilebilir ve yukarıda açıklandığı gibi dağıtımınızda zorunlu kılınan TPM ve RPM hız sınırlarıyla eşlenir.

Azure AI Studio'dan Yönetim altında yeni bir dağıtım oluşturmak için Dağıtımlar>Yeni dağıtım oluştur'u seçin.

TPM'yi ayarlama seçeneği Gelişmiş seçenekler açılan listesinin altındadır:

Screenshot of the deployment UI of Azure AI Studio

Dağıtım sonrası, Azure AI Studio'da Yönetim>Dağıtımları'nın altında Dağıtımı düzenle'yi seçerek TPM ayırmanızı ayarlayabilirsiniz. Bu seçimi, Yönetim>Kotaları altındaki yeni kota yönetimi deneyiminde de değiştirebilirsiniz.

Önemli

Kotalar ve sınırlar değiştirilebilir, en güncel bilgiler için kotalar ve sınırlar makalemize bakın.

Modele özgü ayarlar

Model sınıfları olarak da adlandırılan farklı model dağıtımları, artık denetleyebilmeniz için benzersiz maksimum TPM değerlerine sahiptir. Bu, belirli bir bölgedeki bu tür bir model dağıtımına ayrılabilecek en fazla TPM miktarını temsil eder. Her model türü kendi benzersiz model sınıfını temsil ederken, en yüksek TPM değeri şu anda yalnızca belirli model sınıfları için farklıdır:

  • GPT-4
  • GPT-4-32K
  • Metin-Davinci-003

Diğer tüm model sınıflarının ortak en yüksek TPM değeri vardır.

Not

Kota Belirteçleri-Dakika Başına (TPM) ayırma, bir modelin en yüksek giriş belirteci sınırıyla ilişkili değildir. Model giriş belirteci sınırları modeller tablosunda tanımlanır ve TPM'de yapılan değişikliklerden etkilenmez.

Kotayı görüntüleme ve isteme

Belirli bir bölgedeki dağıtımlar arasında kota ayırmalarınızın tüm görünümü için Azure AI Studio'da Yönetim>Kotası'ni seçin:

Screenshot of the quota UI of Azure AI Studio

  • Kota Adı: Her model türü için bölge başına bir kota değeri vardır. Kota, bu modelin tüm sürümlerini kapsar. Kota adı, kotayı kullanan dağıtımları göstermek için kullanıcı arabiriminde genişletilebilir.
  • Dağıtım: Model dağıtımları model sınıfına bölünür.
  • Kullanım/Sınır: Kota adı için, dağıtımlar tarafından ne kadar kota kullanıldığını ve bu abonelik ve bölge için onaylanan toplam kotayı gösterir. Kullanılan bu kota miktarı çubuk grafikte de gösterilir.
  • İstek Kotası: Bu alandaki simge, kotayı artırma isteklerinin gönderilebileceği bir forma gider.

Mevcut dağıtımları geçirme

Yeni kota sistemine ve TPM tabanlı ayırmaya geçişin bir parçası olarak, mevcut tüm Azure OpenAI modeli dağıtımları kota kullanmak üzere otomatik olarak geçirilmiştir. Önceki özel hız sınırı artışları nedeniyle mevcut TPM/RPM ayırmasının varsayılan değerleri aştığı durumlarda, etkilenen dağıtımlara eşdeğer TPM atanmıştır.

Hız sınırlarını anlama

Bir dağıtıma TPM atamak, yukarıda açıklandığı gibi dağıtım için Dakika Başına Belirteçler (TPM) ve Dakika Başına İstek (RPM) hız sınırlarını ayarlar. TPM hız sınırları, istek alındığında bir istek tarafından işlendiği tahmin edilen en fazla belirteç sayısına bağlıdır. Tüm işlemler tamamlandıktan sonra hesaplanan faturalama için kullanılan belirteç sayısıyla aynı değildir.

Her istek alındığında Azure OpenAI, aşağıdakileri içeren tahmini maksimum işlenmiş belirteç sayısını hesaplar:

  • Metin ve sayı istemi
  • max_tokens parametresi ayarı
  • best_of parametresi ayarı

İstekler dağıtım uç noktasına geldikçe, her dakika sıfırlanan tüm isteklerin çalışan belirteç sayısına tahmini max-processed-token sayısı eklenir. Bu dakika boyunca herhangi bir zamanda TPM hız sınırı değerine ulaşılırsa, sayaç sıfırlanıncaya kadar diğer istekler 429 yanıt kodu alır.

RPM hız sınırları, zaman içinde alınan istek sayısına bağlıdır. Hız sınırı, isteklerin bir dakikalık bir süre boyunca eşit bir şekilde dağıtılmalarını bekler. Bu ortalama akış korunmuyorsa, bir dakika boyunca ölçüldüğünde sınır karşılanmasa bile istekler 429 yanıtı alabilir. Azure OpenAI Hizmeti, bu davranışı uygulamak için genellikle 1 veya 10 saniye olmak üzere küçük bir süre boyunca gelen isteklerin hızını değerlendirir. Bu süre içinde alınan istek sayısı belirlenen RPM sınırında bekleneni aşarsa, yeni istekler bir sonraki değerlendirme dönemine kadar 429 yanıt kodu alır. Örneğin, Azure OpenAI istek hızını 1 saniyelik aralıklarla izliyorsa, her 1 saniyelik süre boyunca 10'dan fazla istek alınırsa (dakikada 600 istek = saniyede 10 istek) 600 RPM dağıtımı için hız sınırlaması gerçekleşir.

Hız sınırı en iyi yöntemleri

Hız sınırlarıyla ilgili sorunları en aza indirmek için aşağıdaki teknikleri kullanmak iyi bir fikirdir:

  • max_tokens ve best_of senaryonuzun gereksinimlerine uygun en düşük değerlere ayarlayın. Örneğin, yanıtlarınızın küçük olmasını bekliyorsanız büyük bir max-tokens değeri ayarlamayın.
  • Yüksek trafiğe sahip dağıtımlarda TPM'yi artırmak ve sınırlı ihtiyaçları olan dağıtımlarda TPM'yi azaltmak için kota yönetimini kullanın.
  • Uygulamanıza yeniden deneme mantığı ekleyin.
  • İş yükünde ani değişikliklerden kaçının. İş yükünü kademeli olarak artırın.
  • Farklı yük artışı desenlerini test edin.

Dağıtımı otomatikleştirme

Bu bölüm, TPM hız sınırlarını ayarlamak için kota kullanan dağıtımları program aracılığıyla oluşturmaya başlamanıza yardımcı olacak kısa örnek şablonlar içerir. Kotanın kullanıma sunulmasıyla birlikte, kaynak yönetimiyle ilgili etkinlikler için API sürümünü 2023-05-01 kullanmanız gerekir. Bu API sürümü yalnızca kaynaklarınızı yönetmeye yöneliktir ve tamamlamalar, sohbet tamamlamaları, ekleme, görüntü oluşturma gibi çağrıları çıkarım için kullanılan API sürümünü etkilemez.

Dağıtım

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Yol parametreleri

Parametre Türü Gerekli mi? Açıklama
accountName Dize Zorunlu Azure OpenAI Kaynağınızın adı.
deploymentName Dize Zorunlu Mevcut bir modeli dağıtırken seçtiğiniz dağıtım adı veya yeni model dağıtımının olmasını istediğiniz ad.
resourceGroupName Dize Zorunlu Bu model dağıtımı için ilişkili kaynak grubunun adı.
subscriptionId Dize Zorunlu İlişkili aboneliğin abonelik kimliği.
api-version Dize Zorunlu Bu işlem için kullanılacak API sürümü. Bu, YYYY-AA-GG biçimini izler.

Desteklenen sürümler

İstek gövdesi

Bu, kullanılabilir istek gövdesi parametrelerinin yalnızca bir alt kümesidir. Parametrelerin tam listesi için REST API başvuru belgelerine başvurabilirsiniz.

Parametre Tür Açıklama
sku Sku SKU'yu temsil eden kaynak modeli tanımı.
capacity integer Bu, bu dağıtıma atadığınız kota miktarını temsil eder. 1 değeri Dakikada 1.000 Belirteç (TPM) değerine eşittir. 10 değeri Dakikada 10k Belirteç (TPM) değerine eşittir.

Örnek istek

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

Not

Yetkilendirme belirteci oluşturmanın birden çok yolu vardır. İlk test için en kolay yöntem, Cloud Shell'i Azure portalından başlatmaktır. Ardından az account get-access-token komutunu çalıştırın. Bu belirteci API testi için geçici yetkilendirme belirteciniz olarak kullanabilirsiniz.

Daha fazla bilgi için kullanımlar ve dağıtım için REST API başvuru belgelerine bakın.

Kullanım

Belirli bir bölgede, belirli bir abonelikte kota kullanımınızı sorgulamak için

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Yol parametreleri

Parametre Türü Gerekli mi? Açıklama
subscriptionId Dize Zorunlu İlişkili aboneliğin abonelik kimliği.
location Dize Zorunlu Örneğin, kullanımı görüntülemek için konum: eastus
api-version Dize Zorunlu Bu işlem için kullanılacak API sürümü. Bu, YYYY-AA-GG biçimini izler.

Desteklenen sürümler

Örnek istek

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' 

Kaynak silme

Azure portalından bir Azure OpenAI kaynağını silme girişiminde bulunulduğunda, herhangi bir dağıtım mevcutsa ilişkili dağıtımlar silinene kadar silme engellenir. İlk olarak dağıtımların silinmesi, kota ayırmalarının yeni dağıtımlarda kullanılabilmesi için düzgün bir şekilde boşaltılmasına olanak tanır.

Ancak REST API'yi veya başka bir program yöntemini kullanarak bir kaynağı silerseniz, bu işlem önce dağıtımları silme gereksinimini atlar. Bu durumda, kaynak temizlenene kadar 48 saat boyunca yeni bir dağıtıma atanmayan ilişkili kota ayırması kullanılamaz durumda kalır. Kotayı boşaltmak üzere silinmiş bir kaynağın hemen temizlenmesini tetikleme için silinen kaynağı temizleme yönergelerini izleyin.

Sonraki adımlar

  • Azure OpenAI kota varsayılanlarını gözden geçirmek için kotalar ve sınırlar makalesine bakın