إدارة الحصة النسبية لخدمة Azure OpenAI

توفر الحصة النسبية المرونة لإدارة تخصيص حدود المعدلات بشكل نشط عبر عمليات التوزيع داخل اشتراكك. تتناول هذه المقالة عملية إدارة الحصة النسبية ل Azure OpenAI.

المتطلبات الأساسية

هام

يتطلب عرض الحصص النسبية وتوزيع النماذج دور قارئ استخدامات الخدمات المعرفية. يوفر هذا الدور الحد الأدنى من الوصول اللازم لعرض استخدام الحصة النسبية عبر اشتراك Azure. لمعرفة المزيد حول هذا الدور والأدوار الأخرى التي ستحتاجها للوصول إلى Azure OpenAI، راجع دليل الوصول المستند إلى دور Azure (Azure RBAC).

يمكن العثور على هذا الدور في مدخل Microsoft Azure ضمن Subscriptions>Access control (IAM)>Add role assignment> search for Cognitive Services Usages Reader. يجب تطبيق هذا الدور على مستوى الاشتراك، وهو غير موجود على مستوى المورد.

إذا كنت لا ترغب في استخدام هذا الدور، فسيوفر دور قارئ الاشتراك وصولا مكافئا، ولكنه سيمنح أيضا حق الوصول للقراءة خارج نطاق ما هو مطلوب لعرض الحصة النسبية وتوزيع النموذج.

مقدمة حول الحصة النسبية

تتيح ميزة الحصة النسبية ل Azure OpenAI تعيين حدود المعدل إلى عمليات التوزيع الخاصة بك، ما يصل إلى حد عمومي يسمى "الحصة النسبية". يتم تعيين الحصة النسبية لاشتراكك على أساس كل منطقة، لكل نموذج في وحدات الرموز المميزة لكل دقيقة (TPM). عند إلحاق اشتراك في Azure OpenAI، ستتلقى الحصة النسبية الافتراضية لمعظم النماذج المتوفرة. بعد ذلك، ستقوم بتعيين TPM لكل عملية نشر عند إنشائها، وسيتم تقليل الحصة النسبية المتوفرة لهذا النموذج بهذا المبلغ. يمكنك الاستمرار في إنشاء عمليات النشر وتعيين TPM لها حتى تصل إلى حد الحصة النسبية. بمجرد حدوث ذلك، يمكنك فقط إنشاء عمليات نشر جديدة لهذا النموذج عن طريق تقليل TPM المعينة إلى عمليات توزيع أخرى لنفس النموذج (وبالتالي تحرير TPM للاستخدام)، أو عن طريق طلب زيادة الحصة النسبية للنموذج والموافقة عليها في المنطقة المطلوبة.

إشعار

بحصة نسبية قدرها 240,000 TPM ل GPT-35-Turbo في شرق الولايات المتحدة، يمكن للعميل إنشاء نشر واحد من 240 ألف وحدة TPM، أو توزيع 2 من 120 ألف وحدة TPM لكل منها، أو أي عدد من عمليات النشر في واحد أو عدة موارد Azure OpenAI طالما أن TPM يضيف ما يصل إلى أقل من 240 ألف إجمالي في تلك المنطقة.

عند إنشاء نشر، سيتم تعيين TPM المعين مباشرة إلى حد معدل الرموز المميزة لكل دقيقة المفروض على طلبات الاستدلال الخاصة به. سيتم أيضا فرض حد معدل الطلبات لكل دقيقة (RPM) الذي يتم تعيين قيمته بشكل متناسب مع تعيين TPM باستخدام النسبة التالية:

6 دورة في الدقيقة لكل 1000 وحدة TPM.

سمحت المرونة لتوزيع TPM عالميا داخل اشتراك ومنطقة لخدمة Azure OpenAI بفك القيود الأخرى:

  • تتم زيادة الحد الأقصى للموارد لكل منطقة إلى 30.
  • تمت إزالة الحد الأقصى لإنشاء أكثر من عملية نشر واحدة لنفس النموذج في مورد.

تعيين الحصة النسبية

عند إنشاء توزيع نموذج، يكون لديك خيار تعيين الرموز المميزة لكل دقيقة (TPM) لهذا النشر. يمكن تعديل TPM بزيادات قدرها 1000، وسيتم تعيينها إلى حدود معدل TPM وRPM المفروضة على التوزيع الخاص بك، كما تمت مناقشته أعلاه.

لإنشاء نشر جديد من داخل Azure الذكاء الاصطناعي Studio ضمن Management، حدد Deployments>Create new deployment.

يقع خيار تعيين TPM ضمن القائمة المنسدلة خيارات متقدمة:

Screenshot of the deployment UI of Azure AI Studio

بعد النشر، يمكنك ضبط تخصيص TPM الخاص بك عن طريق تحديد Edit deployment ضمن Management>Deployments in Azure الذكاء الاصطناعي Studio. يمكنك أيضا تعديل هذا التحديد ضمن تجربة إدارة الحصة النسبية الجديدة ضمن حصص الإدارة>النسبية.

هام

تخضع الحصص والحدود للتغيير، للحصول على أحدث المعلومات، راجع مقالة الحصص والحدود الخاصة بنا.

إعدادات خاصة بالنموذج

عمليات توزيع النماذج المختلفة، والتي تسمى أيضا فئات النموذج لها قيم TPM فريدة من نوعها يمكنك التحكم فيها الآن. يمثل هذا الحد الأقصى لمقدار TPM الذي يمكن تخصيصه لهذا النوع من نشر النموذج في منطقة معينة. بينما يمثل كل نوع نموذج فئة النموذج الفريدة الخاصة به، تختلف قيمة TPM القصوى حاليا فقط لفئات نموذج معينة:

  • GPT-4
  • GPT-4-32K
  • Text-Davinci-003

تحتوي جميع فئات النموذج الأخرى على قيمة TPM الحد الأقصى الشائعة.

إشعار

لا يرتبط تخصيص الرموز المميزة للحصة لكل دقيقة (TPM) بحد أقصى رمز الإدخال المميز للنموذج. يتم تعريف حدود الرمز المميز لإدخال النموذج في جدول النماذج ولا تتأثر بالتغييرات التي تم إجراؤها على TPM.

عرض الحصة النسبية وطلبها

للحصول على عرض كامل لتخصيصات الحصة النسبية عبر عمليات التوزيع في منطقة معينة، حدد الحصة النسبية للإدارة>في Azure الذكاء الاصطناعي Studio:

Screenshot of the quota UI of Azure AI Studio

  • اسم الحصة النسبية: هناك قيمة حصة نسبية واحدة لكل منطقة لكل نوع نموذج. تغطي الحصة جميع إصدارات هذا النموذج. يمكن توسيع اسم الحصة النسبية في واجهة المستخدم لإظهار عمليات التوزيع التي تستخدم الحصة النسبية.
  • التوزيع: عمليات توزيع النموذج مقسومة على فئة النموذج.
  • الاستخدام/الحد: بالنسبة إلى اسم الحصة النسبية، يوضح هذا مقدار الحصة النسبية المستخدمة من قبل عمليات التوزيع والحصة الإجمالية المعتمدة لهذا الاشتراك والمنطقة. يتم تمثيل هذا المبلغ من الحصة النسبية المستخدمة أيضا في الرسم البياني الشريطي.
  • الحصة النسبية للطلب: تنتقل الأيقونة الموجودة في هذا الحقل إلى نموذج حيث يمكن إرسال طلبات زيادة الحصة النسبية.

ترحيل عمليات النشر الحالية

كجزء من الانتقال إلى نظام الحصص الجديد والتخصيص المستند إلى TPM، تم ترحيل جميع عمليات نشر نموذج Azure OpenAI الحالية تلقائيا لاستخدام الحصة النسبية. في الحالات التي يتجاوز فيها تخصيص TPM/RPM الحالي القيم الافتراضية بسبب الزيادات السابقة في حد المعدل المخصص، تم تعيين TPM مكافئة إلى عمليات النشر المتأثرة.

فهم حدود المعدل

تعيين TPM إلى توزيع يعين حدود معدل الرموز المميزة لكل دقيقة (TPM) والطلبات لكل دقيقة (RPM) للتوزيع، كما هو موضح أعلاه. تستند حدود معدل TPM إلى الحد الأقصى لعدد الرموز المميزة التي يقدر أن تتم معالجتها بواسطة طلب في وقت تلقي الطلب. وهو ليس نفس عدد الرموز المميزة المستخدمة للفوترة، والتي يتم حسابها بعد اكتمال جميع المعالجة.

عند تلقي كل طلب، يحسب Azure OpenAI الحد الأقصى المقدر لعدد الرموز المميزة المعالجة التي تتضمن ما يلي:

  • المطالبة بالنص والعد
  • إعداد المعلمة max_tokens
  • إعداد المعلمة best_of

عندما تصل الطلبات إلى نقطة نهاية النشر، تتم إضافة العدد المقدر للرمز المميز الذي تمت معالجته إلى عدد الرموز المميزة قيد التشغيل لجميع الطلبات التي يتم إعادة تعيينها كل دقيقة. إذا تم الوصول إلى قيمة حد معدل TPM في أي وقت خلال تلك اللحظة، فستتلقى الطلبات الإضافية رمز استجابة 429 حتى تتم إعادة تعيين العداد.

تستند حدود معدل RPM إلى عدد الطلبات المستلمة بمرور الوقت. يتوقع حد المعدل توزيع الطلبات بالتساوي على مدى دقيقة واحدة. إذا لم يتم الاحتفاظ بهذا التدفق المتوسط، فقد تتلقى الطلبات استجابة 429 على الرغم من عدم استيفاء الحد عند قياسه على مدار دقيقة واحدة. لتنفيذ هذا السلوك، تقيم خدمة Azure OpenAI معدل الطلبات الواردة على مدى فترة زمنية صغيرة، عادة 1 أو 10 ثوان. إذا تجاوز عدد الطلبات المستلمة خلال ذلك الوقت ما كان متوقعا في حد RPM المحدد، فستتلقى الطلبات الجديدة رمز استجابة 429 حتى فترة التقييم التالية. على سبيل المثال، إذا كان Azure OpenAI يراقب معدل الطلب على فواصل زمنية مدتها ثانية واحدة، فسيتم تحديد المعدل لتوزيع 600-RPM إذا تم تلقي أكثر من 10 طلبات خلال كل فترة ثانية واحدة (600 طلب في الدقيقة = 10 طلبات في الثانية).

أفضل الممارسات للحد من المعدل

لتقليل المشكلات المتعلقة بحدود المعدلات، من المستحسن استخدام التقنيات التالية:

  • قم بتعيين max_tokens best_of إلى الحد الأدنى من القيم التي تخدم احتياجات السيناريو الخاص بك. على سبيل المثال، لا تقم بتعيين قيمة كبيرة بحد أقصى للرمز المميز إذا كنت تتوقع أن تكون استجاباتك صغيرة.
  • استخدم إدارة الحصة النسبية لزيادة TPM على عمليات التوزيع ذات نسبة استخدام الشبكة العالية، ولتقليل TPM على عمليات التوزيع ذات الاحتياجات المحدودة.
  • تنفيذ منطق إعادة المحاولة في التطبيق الخاص بك.
  • تجنب التغييرات الحادة في حمل العمل. زيادة حمل العمل تدريجيًا.
  • اختبار أنماط زيادة التحميل المختلفة.

أتمتة النشر

يحتوي هذا القسم على قوالب أمثلة موجزة لمساعدتك على البدء في إنشاء عمليات التوزيع التي تستخدم الحصة النسبية لتعيين حدود معدل TPM برمجيا. مع إدخال الحصة النسبية يجب استخدام إصدار 2023-05-01 API للأنشطة المتعلقة بإدارة الموارد. إصدار واجهة برمجة التطبيقات هذا مخصص فقط لإدارة مواردك، ولا يؤثر على إصدار واجهة برمجة التطبيقات المستخدم للاستدلال على المكالمات مثل الإكمال وإكمال الدردشة والتضمين وإنشاء الصور وما إلى ذلك.

التوزيع

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

معلمات المسار

المعلمة النوع مطلوب؟ ‏‏الوصف
accountName سلسلة المطلوب اسم مورد Azure OpenAI الخاص بك.
deploymentName سلسلة المطلوب اسم النشر الذي اخترته عند نشر نموذج موجود أو الاسم الذي ترغب في أن يكون لنشر نموذج جديد.
resourceGroupName سلسلة المطلوب اسم مجموعة الموارد المقترنة لنشر هذا النموذج.
subscriptionId سلسلة المطلوب معرف الاشتراك للاشتراك المقترن.
api-version سلسلة المطلوب إصدار واجهة برمجة التطبيقات لاستخدامه لهذه العملية. يتبع هذا التنسيق YYYY-MM-DD.

الإصدارات المدعومة

نص الطلب

هذه ليست سوى مجموعة فرعية من معلمات نص الطلب المتوفرة. للحصول على القائمة الكاملة للمعلمات، يمكنك الرجوع إلى الوثائق المرجعية لواجهة برمجة تطبيقات REST.

المعلمة النوع ‏‏الوصف
sku Sku تعريف نموذج المورد الذي يمثل SKU.
السعة integer يمثل هذا مقدار الحصة النسبية التي تقوم بتعيينها لهذا النشر. القيمة 1 تساوي 1000 رمز مميز في الدقيقة (TPM). القيمة 10 تساوي 10k Tokens في الدقيقة (TPM).

عينة طلب

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

إشعار

هناك طرق متعددة لإنشاء رمز مميز للتخويل. أسهل طريقة للاختبار الأولي هي تشغيل Cloud Shell من مدخل Microsoft Azure. ثم شغّل az account get-access-token. يمكنك استخدام هذا الرمز المميز كرمز تخويل مؤقت لاختبار واجهة برمجة التطبيقات.

لمزيد من المعلومات، راجع الوثائق المرجعية لواجهة برمجة تطبيقات REST للاستخدام والنشر.

الاستخدام

للاستعلام عن استخدام الحصة النسبية في منطقة معينة، لاشتراك معين

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

معلمات المسار

المعلمة النوع مطلوب؟ ‏‏الوصف
subscriptionId سلسلة المطلوب معرف الاشتراك للاشتراك المقترن.
location سلسلة المطلوب موقع لعرض الاستخدام ل على سبيل المثال: eastus
api-version سلسلة المطلوب إصدار واجهة برمجة التطبيقات لاستخدامه لهذه العملية. يتبع هذا التنسيق YYYY-MM-DD.

الإصدارات المدعومة

عينة طلب

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' 

حذف الموارد

عند محاولة حذف مورد Azure OpenAI من مدخل Microsoft Azure إذا كانت أي عمليات نشر لا تزال موجودة، يتم حظر الحذف حتى يتم حذف عمليات النشر المقترنة. يتيح حذف عمليات التوزيع أولا تحرير تخصيصات الحصص النسبية بشكل صحيح حتى يمكن استخدامها في عمليات النشر الجديدة.

ومع ذلك، إذا قمت بحذف مورد باستخدام واجهة برمجة تطبيقات REST أو طريقة برمجية أخرى، فإن هذا يتجاوز الحاجة إلى حذف عمليات النشر أولا. عند حدوث ذلك، سيظل تخصيص الحصة النسبية المقترنة غير متوفر للتعيين إلى نشر جديد لمدة 48 ساعة حتى يتم إزالة المورد. لتشغيل عملية إزالة فورية لمورد محذوف لتحرير الحصة النسبية ، اتبع إرشادات إزالة مورد محذوف.

الخطوات التالية