Sağlanan aktarım hızı nedir?

Makale
02/07/2024

Sağlanan aktarım hızı özelliği, bir dağıtımda ihtiyacınız olan aktarım hızı miktarını belirtmenize olanak tanır. Hizmet daha sonra gerekli model işleme kapasitesini ayırır ve sizin için hazır olmasını sağlar. Aktarım hızı, dağıtımınız için aktarım hızının normalleştirilmiş bir yolu olan sağlanan aktarım hızı birimleri (PTU) açısından tanımlanır. Her model-sürüm çifti, PTU başına farklı miktarda aktarım hızı dağıtmak ve sağlamak için farklı miktarlarda PTU gerektirir.

Sağlanan dağıtım türü ne sağlar?

Tahmin edilebilir performans: tekdüzen iş yükleri için kararlı maksimum gecikme süresi ve aktarım hızı.
Ayrılmış işleme kapasitesi: Dağıtım, aktarım hızı miktarını yapılandırır. Dağıtıldıktan sonra, kullanılsa da kullanılmasa da aktarım hızı kullanılabilir.
Maliyet tasarrufu: Yüksek aktarım hızı iş yükleri, belirteç tabanlı tüketime karşı maliyet tasarrufu sağlayabilir.

Azure OpenAI Dağıtımı, belirli bir OpenAI Modeli için yönetim birimidir. Dağıtım, çıkarım için bir modele müşteri erişimi sağlar ve İçerik Moderasyonu gibi daha fazla özelliği tümleştirir (Bkz. con çadır modu ration belgeleri).

Not

Sağlanan aktarım hızı birimi (PTU) kotası, Azure OpenAI'deki standart kotadan farklıdır ve varsayılan olarak kullanılamaz. Bu teklif hakkında daha fazla bilgi edinmek için Microsoft Hesabı Ekibinize başvurun.

Ne elde edersiniz?

Konu	Sağlanan
Nedir?	Sağlanan mevcut tekliften daha küçük artışlarla garantili aktarım hızı sağlar. Dağıtımlar, belirli bir model sürümü için tutarlı bir maksimum gecikme süresine sahiptir.
Kimin için?	Minimum gecikme süresi varyansı ile garantili aktarım hızı isteyen müşteriler.
Kota	Belirli bir model için sağlanan yönetilen aktarım hızı Birimleri.
Gecikme süresi	Modelden kısıtlanan maksimum gecikme süresi. Genel gecikme süresi çağrı şeklinin bir faktörüdür.
Kullanım	Azure İzleyici'de sağlanan sağlanan yönetilen Kullanım ölçüsü.
Boyutu tahmin etme	Stüdyo ve karşılaştırma betiğinde hesap makinesi sağlandı.

Sağlanan'a erişim Nasıl yaparım??

Sağlanan aktarım hızını elde etmek için Microsoft satış/hesap ekibinizle görüşmeniz gerekir. Satış/hesap ekibiniz yoksa, ne yazık ki şu anda sağlanan aktarım hızını satın alamazsınız.

Temel kavramlar

Sağlanan aktarım hızı birimleri

Sağlanan aktarım hızı birimleri (PTU), istemleri işlemek ve tamamlamalar oluşturmak için ayırabileceğiniz ve dağıtabileceğiniz model işleme kapasitesi birimleridir. Her birimle ilişkili en düşük PTU dağıtımı, artışları ve işleme kapasitesi model türüne ve sürümüne göre değişir.

Dağıtım türleri

Azure OpenAI'de bir model dağıtırken, öğesini Sağlandı-Yönetilen olarak ayarlamanız sku-name gerekir. , sku-capacity dağıtıma atanan PTU sayısını belirtir.

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4 \
--model-version 0613  \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name ProvisionedManaged

Kota

Sağlanan aktarım hızı kotası, dağıtabileceğiniz belirli bir toplam aktarım hızını temsil eder. Azure OpenAI Hizmeti'ndeki kota abonelik düzeyinde yönetilir. Abonelik içindeki tüm Azure OpenAI kaynakları bu kotayı paylaşır.

Kota, Sağlanan aktarım hızı birimlerinde belirtilir ve bir (dağıtım türü, model, bölge) üçlüsine özgüdür. Kota birbirinin yerine kullanılamaz. Yani GPT-35-turbo dağıtmak için GPT-4 kotasını kullanamazsınız. Kotayı dağıtım türleri, modeller veya bölgeler arasında taşımak için bir destek isteği oluşturabilirsiniz, ancak değiştirme işlemi garanti edilmez.

Kotanın dağıtılabilir olduğundan emin olmak için her girişimimiz olsa da, kota temel alınan kapasitenin kullanılabilir olduğunu garanti etmez. Hizmet, dağıtım işlemi sırasında kapasite atar ve kapasite kullanılamıyorsa dağıtım kapasite yetersiz hatasıyla başarısız olur.

İş yükü için gereken PTU sayısını belirleme

PTU'lar bir model işleme kapasitesi miktarını gösterir. Bilgisayarınıza veya veritabanlarınıza benzer şekilde, modele yönelik farklı iş yükleri veya istekler de farklı miktarlarda temel alınan işleme kapasitesi kullanır. Çağrı şekli özelliklerinden (istem boyutu, oluşturma boyutu ve çağrı hızı) PTU'lara dönüştürme karmaşıktır ve doğrusal değildir. Bu işlemi basitleştirmek için Azure OpenAI Kapasite hesaplayıcısını kullanarak belirli iş yükü şekillerini boyutlandırabilirsiniz.

Üst düzey dikkat edilmesi gereken birkaç nokta:

Nesiller istemlerden daha fazla kapasite gerektirir
Daha büyük çağrılar işlem için giderek daha pahalıdır. Örneğin, 1000 belirteç istemi boyutuna sahip 100 çağrısı, istemde 100.000 belirteç içeren 1 çağrıdan daha az kapasite gerektirir. Bu, bu çağrı şekillerinin dağılımının genel aktarım hızı açısından önemli olduğu anlamına da gelir. Çok büyük çağrılar içeren geniş bir dağıtıma sahip trafik desenleri, aynı ortalama istem ve tamamlama belirteci boyutlarına sahip daha dar bir dağıtıma göre PTU başına daha düşük aktarım hızıyla karşılaşabilir.

Kullanım zorlaması nasıl çalışır?

Sağlanan dağıtımlar, belirli bir modeli çalıştırmak için size ayrılmış miktarda model işleme kapasitesi sağlar. Provisioned-Managed Utilization Azure İzleyici'deki ölçüm, belirli bir dağıtım kullanımını 1 dakikalık artışlarla ölçer. Sağlanan Yönetilen dağıtımlar, kabul edilen çağrıların bir consis çadır modu l işlem süresiyle işlendiğinden emin olmak için iyileştirilmiştir (gerçek uçtan uca gecikme süresi bir çağrının özelliklerine bağlıdır). İş yükü ayrılan PTU kapasitesini aştığında, kullanım %100'in altına düşene kadar hizmet 429 HTTP durum kodu döndürür.

429 yanıtı alırsam ne yapmalıyım?

429 yanıtı bir hata değildir, ancak kullanıcılara belirli bir dağıtımın belirli bir noktada tam olarak kullanıldığını söyleme tasarımının bir parçasıdır. Hızlı bir başarısız yanıt sağlayarak, bu durumların uygulama gereksinimlerinize en uygun şekilde nasıl işleneceğini denetleyebilirsiniz.

Yanıttaki retry-after-ms ve retry-after üst bilgileri, bir sonraki çağrı kabul edilmeden önce beklenecek süreyi bildirir. Bu yanıtı işlemeyi nasıl seçeceğiniz, uygulama gereksinimlerinize bağlıdır. Dikkat edilmesi gereken bazı noktalar şunlardır:

Trafiği diğer modellere, dağıtımlara veya deneyimlere yeniden yönlendirmeyi düşünebilirsiniz. 429 sinyalini alır almaz eylem gerçekleştirilebileceğinden bu seçenek en düşük gecikme süresi çözümüdür.
Daha uzun çağrı başına gecikme süreleriyle karşı karşıyaysanız istemci tarafı yeniden deneme mantığını uygulayın. Bu seçenek, PTU başına en yüksek aktarım hızı miktarını sağlar. Azure OpenAI istemci kitaplıkları, yeniden denemeleri işlemeye yönelik yerleşik özellikler içerir.

Hizmet 429'un ne zaman göndereceğine nasıl karar verir?

Trafikte ani artışa izin verirken kullanımı %100'ün altında tutmak için sızdıran demet algoritmasının bir varyasyonunu kullanırız. Üst düzey mantık aşağıdaki gibidir:

Her müşterinin bir dağıtımda kullanabileceği belirli bir kapasite miktarı vardır
İstekte bulunulduğunda:

a. Geçerli kullanım %100'in üzerinde olduğunda hizmet, kullanım %100'in altına inene kadar üst bilgi ayarlı bir 429 kodu retry-after-ms döndürür

b. Aksi takdirde hizmet, istem belirteçlerini ve çağrıda belirtilenleri max_tokens birleştirerek isteğe hizmet vermek için gereken artımlı kullanım değişikliğini tahmin eder. max_tokens Parametre belirtilmezse, hizmet bir değer tahmin eder. Bu tahmin, oluşturulan gerçek belirteçlerin sayısı az olduğunda beklenenden daha düşük eşzamanlılığa yol açabilir. En yüksek eşzamanlılık için değerin gerçek nesil boyutuna max_tokens mümkün olduğunca yakın olduğundan emin olun.
bir istek tamamlandığında, artık çağrının gerçek işlem maliyetini biliyoruz. Doğru bir muhasebe sağlamak için aşağıdaki mantığı kullanarak kullanımı düzeltiyoruz:

a. Gerçek > tahmini ise, fark dağıtımın kullanımına eklenir b. Gerçek < tahmini ise, fark çıkarılır.
Genel kullanım, dağıtılan PTU sayısına bağlı olarak sürekli bir oranda azaltılır.

Not

Kullanım %100'e ulaşana kadar çağrılar kabul edilir. Kısa sürelerde %100'ün üzerinde artışa izin verilse de zaman içinde trafiğiniz %100 kullanımla sınırlanır.

Dağıtımımda kaç eşzamanlı çağrı olabilir?

Gerçekleştirebileceğiniz eş zamanlı çağrı sayısı, her çağrının şekline (istem boyutu, max_token parametresi vb.) bağlıdır. Hizmet, kullanım %100'e ulaşana kadar aramaları kabul etmeye devam edecektir. Yaklaşık eş zamanlı çağrı sayısını belirlemek için kapasite hesaplayıcısındaki belirli bir çağrı şekli için dakika başına en fazla istek sayısını modelleyebilirsiniz. Sistem, max_token gibi örnekleme belirteçlerinin sayısından daha az oluşturursa, daha fazla istek kabul eder.