ما هو معدل النقل المقدم؟

تسمح لك إمكانية معدل النقل المتوفرة بتحديد مقدار معدل النقل الذي تحتاج إليه في عملية التوزيع. ثم تخصص الخدمة سعة معالجة النموذج الضرورية وتضمن أنها جاهزة لك. يتم تعريف معدل النقل من حيث وحدات معدل النقل المقدمة (PTU) وهي طريقة تمت تسويتها لتمثيل معدل النقل للنشر الخاص بك. يتطلب كل زوج من إصدارات النموذج كميات مختلفة من PTU لنشر وتوفير كميات مختلفة من معدل النقل لكل وحدة طلب/ وحدة.

ما الذي يوفره نوع النشر المقدم؟

  • أداء يمكن التنبؤ به: الحد الأقصى الثابت لزمن الانتقال ومعدل النقل لأحمال العمل الموحدة.
  • سعة المعالجة المحجوزة: يقوم التوزيع بتكوين مقدار معدل النقل. بمجرد النشر، يتوفر معدل النقل سواء كان مستخدما أم لا.
  • توفير التكاليف: قد توفر أحمال العمل عالية الإنتاجية وفورات في التكاليف مقابل الاستهلاك المستند إلى الرمز المميز.

توزيع Azure OpenAI هو وحدة إدارة لنموذج OpenAI محدد. يوفر التوزيع وصول العميل إلى نموذج للاستدلال ويدمج المزيد من الميزات مثل الإشراف على المحتوى (راجع وثائق con وضع الخيمة ration).

إشعار

تختلف الحصة النسبية لوحدة معدل النقل (PTU) المتوفرة عن الحصة النسبية القياسية في Azure OpenAI ولا تتوفر بشكل افتراضي. لمعرفة المزيد حول هذا العرض، اتصل بفريق حساب Microsoft.

ما الذي تحصل عليه؟

الموضوع توفير
ما طبيعتها؟ يوفر معدل نقل مضمون بزيادات أصغر من العرض المقدم الحالي. عمليات التوزيع لها أقصى زمن انتقال متناسق لإصدار نموذج معين.
روبوت Who هو من أجل؟ العملاء الذين يريدون معدل نقل مضمون بأقل تباين لزمن الانتقال.
حصة أرباح البائع وحدات معدل النقل المدارة المقدمة لنموذج معين.
زمن الانتقال الحد الأقصى لزمن الانتقال المقيد من النموذج. زمن الانتقال الإجمالي هو عامل من عوامل شكل الاستدعاء.
الاستخدام مقياس الاستخدام المدار المتوفر في Azure Monitor.
تقدير الحجم تم توفير الحاسبة في البرنامج النصي للاستديو وقياس الأداء.

كيف أعمل الحصول على حق الوصول إلى المقدمة؟

تحتاج إلى التحدث مع فريق مبيعات/حساب Microsoft للحصول على معدل النقل المقدم. إذا لم يكن لديك فريق مبيعات/حساب، للأسف في هذا الوقت، لا يمكنك شراء معدل النقل المقدم.

ما هي النماذج والمناطق المتوفرة لمعدل النقل المقدم؟

المنطقة gpt-4، 0613 gpt-4، 1106-Preview gpt-4، 0125-Preview gpt-4، turbo-2024-04-09 gpt-4-32k، 0613 gpt-35-turbo، 1106 gpt-35-turbo، 0125
australiaeast -
brazilsouth - - -
canadacentral - - - -
canadaeast - - - -
eastus -
eastus2 -
francecentral - -
germanywestcentral - -
japaneast - - - -
koreacentral - - - -
northcentralus -
norwayeast - - - -
بولندا المركزية -
southafricanorth - - -
southcentralus -
southindia -
وسط السويد
شمال سويسرا -
switzerlandwest - - - - - -
uksouth -
westus -
westus3

إشعار

الإصدار المقدم من gpt-4الإصدار:turbo-2024-04-09 يقتصر حاليا على النص فقط.

المفاهيم الرئيسية

وحدات معدل النقل المتوفرة

وحدات معدل النقل المتوفرة (PTU) هي وحدات من سعة معالجة النموذج التي يمكنك حجزها ونشرها لمعالجة المطالبات وإنشاء الإكمال. يختلف الحد الأدنى لتوزيع PTU والزيادات وسعة المعالجة المرتبطة بكل وحدة حسب نوع النموذج وإصداره.

أنواع التوزيع

عند نشر نموذج في Azure OpenAI، تحتاج إلى تعيين sku-name ليكون مدارا. sku-capacity يحدد عدد وحدات PTUs المعينة للتوزيع.

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4 \
--model-version 0613  \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name ProvisionedManaged 

حصة أرباح البائع

تمثل الحصة النسبية لمعدل النقل المتوفرة مقدارا محددا من إجمالي معدل النقل الذي يمكنك نشره. تتم إدارة الحصة النسبية في خدمة Azure OpenAI على مستوى الاشتراك. تشترك جميع موارد Azure OpenAI ضمن الاشتراك في هذه الحصة النسبية.

يتم تحديد الحصة النسبية في وحدات معدل النقل المتوفرة وهي خاصة بثلاثة أضعاف (نوع التوزيع والنموذج والمنطقة). الحصة النسبية غير قابلة للتبديل. ما يعني أنه لا يمكنك استخدام الحصة النسبية ل GPT-4 لنشر GPT-3.5-Turbo.

في حين أننا نبذل كل محاولة لضمان أن الحصة النسبية قابلة للنشر، فإن الحصة النسبية لا تمثل ضمانا بأن السعة الأساسية متاحة. تقوم الخدمة بتعيين السعة أثناء عملية النشر وإذا لم تكن السعة متوفرة، يفشل النشر مع حدوث خطأ نفاد السعة.

تحديد عدد وحدات PTUs المطلوبة لحمل العمل

تمثل وحدات PTUs مقدارا من سعة معالجة النموذج. على غرار الكمبيوتر أو قواعد البيانات، ستستهلك أحمال العمل أو الطلبات المختلفة للنموذج كميات مختلفة من سعة المعالجة الأساسية. التحويل من خصائص شكل الاستدعاء (حجم المطالبة وحجم الجيل ومعدل الاتصال) إلى وحدات PTUs معقدة وغير خطية. لتبسيط هذه العملية، يمكنك استخدام حاسبة سعة Azure OpenAI لحجم أشكال حمل العمل المحددة.

بعض الاعتبارات عالية المستوى:

  • تتطلب الأجيال سعة أكبر من المطالبات
  • المكالمات الأكبر أكثر تكلفة تدريجيا لحسابها. على سبيل المثال، تتطلب 100 استدعاء مع حجم مطالبة الرمز المميز 1000 سعة أقل من مكالمة 1 مع 100000 رمز مميز في المطالبة. وهذا يعني أيضا أن توزيع أشكال الاستدعاء هذه مهم في الإنتاجية الإجمالية. قد تواجه أنماط نسبة استخدام الشبكة ذات التوزيع الواسع الذي يتضمن بعض الاستدعاءات الكبيرة جدا معدل نقل أقل لكل PTU من توزيع أضيق بنفس متوسط أحجام الرمز المميز للمطالبة والإكمال.

كيفية عمل أداء الاستخدام

توفر لك عمليات النشر المتوفرة مقدارا مخصصا من سعة معالجة النموذج لتشغيل نموذج معين.

في عمليات النشر المدارة المتوفرة، عند تجاوز السعة، سترجع واجهة برمجة التطبيقات على الفور خطأ حالة HTTP 429. وهذا يمكن المستخدم من اتخاذ قرارات حول كيفية إدارة نسبة استخدام الشبكة الخاصة به. يمكن للمستخدمين إعادة توجيه الطلبات إلى توزيع منفصل، أو إلى مثيل قياسي للدفع أولا بأول، أو الاستفادة من استراتيجية إعادة المحاولة لإدارة طلب معين. ستستمر الخدمة في إرجاع رمز حالة HTTP 429 حتى ينخفض الاستخدام إلى أقل من 100٪.

كيف يمكنني مراقبة السعة؟

يقيس مقياس V2 للاستخدام المدار المتوفر في Azure Monitor استخدام عمليات نشر معينة على زيادات مدتها دقيقة واحدة. تم تحسين عمليات النشر المدارة المقدمة لضمان معالجة المكالمات المقبولة باستخدام consis وضع الخيمة l وقت المعالجة (يعتمد زمن الانتقال الفعلي من طرف إلى طرف على خصائص المكالمة).

ماذا يجب أن أفعل عندما أتلقى استجابة 429؟

استجابة 429 ليست خطأ، ولكن بدلا من ذلك جزء من التصميم لإخبار المستخدمين بأن توزيعا معينا يتم استخدامه بالكامل في نقطة زمنية. من خلال توفير استجابة سريعة الفشل، يمكنك التحكم في كيفية التعامل مع هذه الحالات بطريقة تناسب متطلبات التطبيق الخاص بك على أفضل نحو.

retry-after-ms تخبرك العناوين و retry-after في الاستجابة بوقت الانتظار قبل قبول المكالمة التالية. تعتمد كيفية اختيار التعامل مع هذه الاستجابة على متطلبات التطبيق الخاص بك. موضح فيما يلي بعض الاعتبارات:

  • يمكنك إعادة توجيه حركة المرور إلى نماذج أو عمليات نشر أو تجارب أخرى. هذا الخيار هو الحل الأقل زمن انتقال لأنه يمكن اتخاذ الإجراء بمجرد تلقي إشارة 429. للحصول على أفكار حول كيفية تنفيذ هذا النمط بفعالية، راجع منشور المجتمع هذا.
  • إذا كنت على ما يرام مع زمن انتقال أطول لكل استدعاء، فنفذ منطق إعادة المحاولة من جانب العميل. يمنحك هذا الخيار أعلى قدر من معدل النقل لكل وحدة من وحدات PTU. تتضمن مكتبات عميل Azure OpenAI قدرات مضمنة لمعالجة عمليات إعادة المحاولة.

كيف تقرر الخدمة متى ترسل 429؟

في العرض المدار المقدم، يتم تقييم كل طلب على حدة وفقا لحجم المطالبة وحجم الجيل المتوقع والنموذج لتحديد استخدامه المتوقع. هذا على النقيض من عمليات نشر الدفع أولا بأول التي لها سلوك مخصص يحد من معدل استنادا إلى حمل نسبة استخدام الشبكة المقدر. بالنسبة إلى عمليات نشر الدفع أولا بأول، يمكن أن يؤدي ذلك إلى إنشاء HTTP 429s قبل تجاوز قيم الحصة النسبية المحددة إذا لم يتم توزيع نسبة استخدام الشبكة بالتساوي.

بالنسبة إلى Provisioned-Managed، نستخدم تباينا من خوارزمية المستودع المسرب للحفاظ على الاستخدام أقل من 100٪ مع السماح ببعض الاندفاع في حركة المرور. المنطق عالي المستوى كما يلي:

  1. كل عميل لديه كمية محددة من السعة التي يمكنه استخدامها في التوزيع

  2. عند تقديم طلب:

    أ. عندما يكون الاستخدام الحالي أعلى من 100٪، تقوم الخدمة بإرجاع رمز 429 مع retry-after-ms تعيين العنوان إلى الوقت حتى يكون الاستخدام أقل من 100٪

    ب. وإلا، تقدر الخدمة التغيير المتزايد إلى الاستخدام المطلوب لخدمة الطلب عن طريق الجمع بين الرموز المميزة للمطالبة والمحدد max_tokens في الاستدعاء. إذا لم يتم تحديد المعلمة max_tokens ، ستقوم الخدمة بتقدير قيمة. يمكن أن يؤدي هذا التقدير إلى تزامن أقل من المتوقع عندما يكون عدد الرموز المميزة الفعلية التي تم إنشاؤها صغيرا. للحصول على أعلى تزامن، تأكد من max_tokens أن القيمة أقرب ما يمكن إلى حجم الجيل الحقيقي.

  3. عند انتهاء الطلب، نعرف الآن تكلفة الحوسبة الفعلية للمكالمة. لضمان محاسبة دقيقة، نقوم بتصحيح الاستخدام باستخدام المنطق التالي:

    أ. إذا تم التقدير الفعلي > ، تتم إضافة الفرق إلى استخدام التوزيع b. إذا تم التقدير الفعلي < ، فسيتم طرح الفرق.

  4. يتناقص الاستخدام الكلي بمعدل مستمر استنادا إلى عدد وحدات PTUs المنشورة.

إشعار

يتم قبول المكالمات حتى يصل الاستخدام إلى 100٪. ربما يسمح باندفاعات تزيد قليلا عن 100٪ في فترات قصيرة، ولكن بمرور الوقت، يتم الحد الأقصى لنسبة استخدامك بنسبة 100٪.

رسم تخطيطي يوضح كيفية إضافة المكالمات اللاحقة إلى الاستخدام.

كم عدد المكالمات المتزامنة التي يمكنني الحصول عليها عند النشر؟

يعتمد عدد المكالمات المتزامنة التي يمكنك تحقيقها على شكل كل مكالمة (حجم المطالبة، max_token المعلمة، وما إلى ذلك). ستستمر الخدمة في قبول المكالمات حتى يصل الاستخدام إلى 100٪. لتحديد العدد التقريبي للمكالمات المتزامنة، يمكنك نمذجة الحد الأقصى للطلبات في الدقيقة لشكل استدعاء معين في حاسبة السعة. إذا كان النظام يولد أقل من عدد الرموز المميزة لأخذ العينات مثل max_token، فإنه سيقبل المزيد من الطلبات.

الخطوات التالية