Azure OpenAI على بياناتك

مقالة
04/08/2024

استخدم هذه المقالة للتعرف على Azure OpenAI On Your Data، مما يسهل على المطورين الاتصال واستيعاب بيانات المؤسسة الخاصة بهم واستيعابها وتأريضها لإنشاء أقباط مخصصة (معاينة) بسرعة. فهو يعزز فهم المستخدم، ويعجل بإكمال المهام، ويحسن الكفاءة التشغيلية، ويساعد على اتخاذ القرار.

ما هو Azure OpenAI على بياناتك

يتيح لك Azure OpenAI On Your Data تشغيل نماذج الذكاء الاصطناعي متقدمة مثل GPT-35-Turbo وGPT-4 على بيانات المؤسسة الخاصة بك دون الحاجة إلى تدريب النماذج أو ضبطها. يمكنك الدردشة فوق بياناتك وتحليلها بدقة أكبر. يمكنك تحديد مصادر لدعم الاستجابات استنادا إلى أحدث المعلومات المتوفرة في مصادر البيانات المعينة. يمكنك الوصول إلى Azure OpenAI على بياناتك باستخدام واجهة برمجة تطبيقات REST، عبر SDK أو الواجهة المستندة إلى الويب في Azure OpenAI Studio. يمكنك أيضا إنشاء تطبيق ويب يتصل ببياناتك لتمكين حل دردشة محسن أو نشره مباشرة كشرط في Copilot Studio (معاينة).

الشروع في العمل

للبدء، قم بتوصيل مصدر البيانات باستخدام Azure OpenAI Studio وابدأ في طرح الأسئلة والدردشة على بياناتك.

إشعار

للبدء، تحتاج إلى الموافقة بالفعل على الوصول إلى Azure OpenAI ونشر مورد خدمة Azure OpenAI في منطقة مدعومة إما مع نماذج gpt-35-turbo أو gpt-4.

عناصر التحكم في الوصول المستندة إلى دور Azure (Azure RBAC) لإضافة مصادر البيانات

لاستخدام Azure OpenAI على بياناتك بالكامل، تحتاج إلى تعيين دور واحد أو أكثر من أدوار Azure RBAC. راجع استخدام Azure OpenAI على بياناتك بشكل آمن لمزيد من المعلومات.

تنسيقات البيانات وأنواع الملفات

يدعم Azure OpenAI على بياناتك أنواع الملفات التالية:

.txt
.md
.html
.docx
.pptx
.pdf

هناك حد للتحميل، وهناك بعض التحذيرات حول بنية المستند وكيف قد يؤثر على جودة الاستجابات من النموذج:

إذا كنت تقوم بتحويل البيانات من تنسيق غير معتمد إلى تنسيق مدعوم، فحسن جودة استجابة النموذج من خلال ضمان التحويل:
- لا يؤدي إلى فقدان كبير للبيانات.
- لا يضيف ضوضاء غير متوقعة إلى بياناتك.
إذا كانت ملفاتك ذات تنسيق خاص، مثل الجداول والأعمدة، أو نقاط التعداد النقطي، فقم بإعداد بياناتك باستخدام البرنامج النصي لإعداد البيانات المتوفر على GitHub.
بالنسبة للمستندات ومجموعات البيانات ذات النص الطويل، يجب استخدام البرنامج النصي لإعداد البيانات المتوفر. يقوم البرنامج النصي بتقسيم البيانات بحيث تكون استجابات النموذج أكثر دقة. يدعم هذا البرنامج النصي أيضا ملفات PDF والصور الممسوحة ضوئيا.

مصادر البيانات المدعومة

تحتاج إلى الاتصال بمصدر بيانات لتحميل بياناتك. عندما تريد استخدام بياناتك للدردشة مع نموذج Azure OpenAI، يتم تقسيم بياناتك في فهرس بحث بحيث يمكن العثور على البيانات ذات الصلة استنادا إلى استعلامات المستخدم.

تدعم قاعدة بيانات المتجهات المتكاملة في قاعدة بيانات Azure Cosmos DB المستندة إلى vCore ل MongoDB التكامل مع Azure OpenAI على بياناتك.

بالنسبة لبعض مصادر البيانات مثل تحميل الملفات من جهازك المحلي (معاينة) أو البيانات المضمنة في حساب تخزين كائن ثنائي كبير الحجم (معاينة)، يتم استخدام Azure الذكاء الاصطناعي Search. عند اختيار مصادر البيانات التالية، يتم استيعاب بياناتك في فهرس Azure الذكاء الاصطناعي Search.

البيانات التي تم استيعابها من خلال Azure الذكاء الاصطناعي Search	‏‏الوصف
Azure الذكاء الاصطناعي Search	استخدم فهرس Azure الذكاء الاصطناعي Search موجود مع Azure OpenAI على بياناتك.
تحميل الملفات (معاينة)	قم بتحميل الملفات من جهازك المحلي ليتم تخزينها في قاعدة بيانات Azure Blob Storage، واستيعابها في Azure الذكاء الاصطناعي Search.
عنوان URL/عنوان ويب (معاينة)	يتم تخزين محتوى الويب من عناوين URL في Azure Blob Storage.
Azure Blob Storage (معاينة)	تحميل الملفات من Azure Blob Storage ليتم استيعابها في فهرس Azure الذكاء الاصطناعي Search.

قد تحتاج إلى التفكير في استخدام فهرس Azure الذكاء الاصطناعي Search عندما تريد:

تخصيص عملية إنشاء الفهرس.
أعد استخدام فهرس تم إنشاؤه من قبل عن طريق استيعاب البيانات من مصادر بيانات أخرى.

إشعار

لاستخدام فهرس موجود، يجب أن يحتوي على حقل واحد على الأقل قابل للبحث.

أنواع البحث

يوفر Azure OpenAI على بياناتك أنواع البحث التالية التي يمكنك استخدامها عند إضافة مصدر البيانات.

البحث عن الكلمات الأساسية
البحث الدلالي
البحث في المتجهات باستخدام نماذج تضمين Ada، المتوفرة في مناطق محددة

لتمكين البحث في المتجهات، تحتاج إلى نموذج تضمين موجود تم نشره في مورد Azure OpenAI. حدد نشر التضمين عند توصيل بياناتك، ثم حدد أحد أنواع البحث المتجه ضمن إدارة البيانات. إذا كنت تستخدم Azure الذكاء الاصطناعي Search كمصدر بيانات، فتأكد من أن لديك عمود متجه في الفهرس.

إذا كنت تستخدم الفهرس الخاص بك، يمكنك تخصيص تعيين الحقول عند إضافة مصدر البيانات لتحديد الحقول التي سيتم تعيينها عند الإجابة عن الأسئلة. لتخصيص تعيين الحقل، حدد استخدام تعيين حقل مخصص في صفحة مصدر البيانات عند إضافة مصدر البيانات.

هام

يخضع البحث الدلالي لتسعير إضافي. تحتاج إلى اختيار Basic أو أعلى SKU لتمكين البحث الدلالي أو البحث المتجه. راجع الفرق في مستوى التسعير وحدود الخدمة لمزيد من المعلومات.
للمساعدة في تحسين جودة استرداد المعلومات واستجابة النموذج، نوصي بتمكين البحث الدلالي عن اللغات التالية لمصدر البيانات: الإنجليزية والفرنسية والإسبانية والبرتغالية والإيطالية وألمانيا والصينية (Zh) واليابانية والكورية والروسية والعربية.

خيار البحث	نوع الاسترداد	أسعار إضافية؟	المزايا
الكلمه الاساسيه	بحث بالكلمة الأساسية	لا توجد أسعار إضافية.	إجراء تحليل استعلام سريع ومرنة ومطابقته عبر حقول قابلة للبحث، باستخدام المصطلحات أو العبارات بأي لغة مدعومة، مع عوامل التشغيل أو بدونها.
الدلالي	بحث دلالي	تسعير إضافي لاستخدام البحث الدلالي.	يحسن دقة نتائج البحث وملاءمتها باستخدام إعادة ترتيب (مع نماذج الذكاء الاصطناعي) لفهم المعنى الدلالي لمصطلحات الاستعلام والمستندات التي تم إرجاعها بواسطة مصنف البحث الأولي
المتجه	البحث عن المتجهات	أسعار إضافية على حساب Azure OpenAI الخاص بك من استدعاء نموذج التضمين.	يمكنك من العثور على المستندات المشابهة لإدخال استعلام معين استنادا إلى تضمينات المتجه للمحتوى.
مختلط (متجه + كلمة أساسية)	هجين للبحث عن المتجهات والبحث عن الكلمات الأساسية	أسعار إضافية على حساب Azure OpenAI الخاص بك من استدعاء نموذج التضمين.	يقوم بإجراء بحث التشابه عبر حقول المتجهات باستخدام تضمينات المتجهات، مع دعم تحليل الاستعلام المرن والبحث الكامل في النص عبر الحقول الأبجدية الرقمية باستخدام استعلامات المصطلحات.
hybrid (vector + keyword) + دلالي	هجين للبحث عن المتجهات والبحث الدلالي والبحث عن الكلمات الأساسية.	تسعير إضافي على حساب Azure OpenAI الخاص بك من استدعاء نموذج التضمين، وتسعير إضافي لاستخدام البحث الدلالي.	يستخدم تضمينات المتجهات وفهم اللغة وتحليل الاستعلام المرن لإنشاء تجارب بحث غنية وتطبيقات الذكاء الاصطناعي توليدية يمكنها التعامل مع سيناريوهات استرداد المعلومات المعقدة والمتنوعة.

البحث الذكي

يحتوي Azure OpenAI على بياناتك على بحث ذكي ممكن لبياناتك. يتم تمكين البحث الدلالي بشكل افتراضي إذا كان لديك كل من البحث الدلالي والبحث عن الكلمات الأساسية. إذا كان لديك تضمين نماذج، فإن البحث الذكي افتراضيا للبحث المختلط + الدلالي.

التحكم في الوصول على مستوى المستند

إشعار

يتم دعم التحكم في الوصول على مستوى المستند عند تحديد Azure الذكاء الاصطناعي Search كمصدر بيانات.

يتيح لك Azure OpenAI على بياناتك تقييد المستندات التي يمكن استخدامها في استجابات لمستخدمين مختلفين باستخدام عوامل تصفية أمان Azure الذكاء الاصطناعي Search. عند تمكين الوصول إلى مستوى المستند، يتم اقتطاع نتائج البحث التي تم إرجاعها من Azure الذكاء الاصطناعي Search واستخدامها لإنشاء استجابة استنادا إلى عضوية مجموعة Microsoft Entra للمستخدم. يمكنك فقط تمكين الوصول على مستوى المستند على فهارس Azure الذكاء الاصطناعي Search الموجودة راجع استخدام Azure OpenAI على بياناتك بشكل آمن لمزيد من المعلومات.

تعيين حقل الفهرس

إذا كنت تستخدم الفهرس الخاص بك، فستتم مطالبتك في Azure OpenAI Studio بتحديد الحقول التي تريد تعيينها للإجابة على الأسئلة عند إضافة مصدر البيانات. يمكنك توفير حقول متعددة لبيانات المحتوى، ويجب أن تتضمن كافة الحقول التي تحتوي على نص يتعلق بحالة الاستخدام الخاصة بك.

في هذا المثال، توفر الحقول المعينة إلى بيانات المحتوى والعنوان معلومات للنموذج للإجابة على الأسئلة. يستخدم العنوان أيضا لنص اقتباس العنوان. ينشئ الحقل المعين إلى اسم الملف أسماء الاقتباسات في الاستجابة.

يساعد تعيين هذه الحقول بشكل صحيح على ضمان أن النموذج لديه استجابة أفضل وجودة اقتباس. يمكنك أيضا تكوينه في واجهة برمجة التطبيقات باستخدام المعلمة fieldsMapping .

إذا كنت ترغب في تنفيذ معايير إضافية تستند إلى القيمة لتنفيذ الاستعلام، يمكنك إعداد عامل تصفية بحث باستخدام المعلمة filter في واجهة برمجة تطبيقات REST.

كيفية استيعاب البيانات في بحث Azure الذكاء الاصطناعي

يتم استيعاب البيانات في Azure الذكاء الاصطناعي البحث باستخدام العملية التالية:

يتم إنشاء أصول الاستيعاب في مورد Azure الذكاء الاصطناعي Search وحساب تخزين Azure. هذه الأصول حاليا هي: المفهرسات والفهارس ومصادر البيانات ومهارة مخصصة في مورد البحث وحاوية (تسمى لاحقا حاوية المجموعات) في حساب تخزين Azure. يمكنك تحديد حاوية تخزين Azure الإدخال باستخدام استوديو Azure OpenAI، أو واجهة برمجة تطبيقات الاستيعاب (معاينة).
تتم قراءة البيانات من حاوية الإدخال، ويتم فتح المحتويات وتقسيمها إلى مجموعات صغيرة بحد أقصى 1024 رمزا مميزا لكل منها. إذا تم تمكين البحث عن المتجهات، تحسب الخدمة المتجه الذي يمثل التضمينات في كل مجموعة. يتم تخزين إخراج هذه الخطوة (تسمى البيانات "المعالجة مسبقا" أو "المكتنزة") في حاوية المجموعات التي تم إنشاؤها في الخطوة السابقة.
يتم تحميل البيانات المعالجة مسبقا من حاوية المجموعات، وفهرستها في فهرس Azure الذكاء الاصطناعي Search.

قد ترغب في استخدام Azure Blob Storage كمصدر بيانات إذا كنت تريد الاتصال ب Azure Blob Storage الحالي واستخدام الملفات المخزنة في حاوياتك.

جدولة التحديثات التلقائية للفهرس

إشعار

يتم دعم التحديث التلقائي للفهرس لتخزين Azure Blob فقط.

للحفاظ على تحديث فهرس Azure الذكاء الاصطناعي Search بأحدث بياناتك، يمكنك جدولة تحديث فهرس تلقائي بدلا من تحديثه يدويا في كل مرة يتم فيها تحديث بياناتك. لا يتوفر التحديث التلقائي للفهرس إلا عند اختيار Azure Blob Storage كمصدر بيانات. لتمكين تحديث الفهرس التلقائي:

إضافة مصدر بيانات باستخدام Azure OpenAI studio.
ضمن تحديد مصدر البيانات أو إضافته، حدد جدول المفهرس واختر إيقاع التحديث الذي ترغب في تطبيقه.

بعد تعيين استيعاب البيانات إلى إيقاع غير مرة واحدة، سيتم إنشاء مفهرسات البحث في Azure الذكاء الاصطناعي بجدول مكافئ ل 0.5 * the cadence specified. وهذا يعني أنه في إيقاع محدد، ستقوم المفهرسات بسحب المستندات التي تمت إضافتها أو تعديلها من حاوية التخزين وإعادة معالجتها وفهرستها. تضمن هذه العملية معالجة البيانات المحدثة مسبقا وفهرستها في الفهرس النهائي بال إيقاع المطلوب تلقائيا. لتحديث بياناتك، تحتاج فقط إلى تحميل المستندات الإضافية من مدخل Microsoft Azure. من المدخل، حدد Storage Account>Containers. حدد اسم الحاوية الأصلية، ثم تحميل. سيلتقط الفهرس الملفات تلقائيا بعد فترة التحديث المجدولة. لن يتم تنظيف الأصول الوسيطة التي تم إنشاؤها في مورد Azure الذكاء الاصطناعي Search بعد الاستيعاب للسماح بتشغيلها في المستقبل. هذه الأصول هي:

{Index Name}-index
{Index Name}-indexer
{Index Name}-indexer-chunk
{Index Name}-datasource
{Index Name}-skillset

لتعديل الجدول الزمني، يمكنك استخدام مدخل Microsoft Azure.

افتح صفحة مورد البحث في مدخل Microsoft Azure
تحديد المفهرسات من الجزء الأيمن
نفذ الخطوات التالية على المفهرسين اللذين يحملان اسم الفهرس كبادئة.
1. حدد المفهرس لفتحه. ثم حدد علامة التبويب الإعدادات .
2. تحديث الجدول الزمني إلى إيقاع المطلوب من "الجدول" أو تحديد إيقاع مخصص من "الفاصل الزمني (دقائق)"
3. حدد حفظ.

كيفية استيعاب البيانات في بحث Azure الذكاء الاصطناعي

يتم استيعاب البيانات في Azure الذكاء الاصطناعي البحث باستخدام العملية التالية:

يتم إنشاء أصول الاستيعاب في مورد Azure الذكاء الاصطناعي Search وحساب تخزين Azure. هذه الأصول حاليا هي: المفهرسات والفهارس ومصادر البيانات ومهارة مخصصة في مورد البحث وحاوية (تسمى لاحقا حاوية المجموعات) في حساب تخزين Azure. يمكنك تحديد حاوية تخزين Azure الإدخال باستخدام استوديو Azure OpenAI، أو واجهة برمجة تطبيقات الاستيعاب (معاينة).
تتم قراءة البيانات من حاوية الإدخال، ويتم فتح المحتويات وتقسيمها إلى مجموعات صغيرة بحد أقصى 1024 رمزا مميزا لكل منها. إذا تم تمكين البحث عن المتجهات، تحسب الخدمة المتجه الذي يمثل التضمينات في كل مجموعة. يتم تخزين إخراج هذه الخطوة (تسمى البيانات "المعالجة مسبقا" أو "المكتنزة") في حاوية المجموعات التي تم إنشاؤها في الخطوة السابقة.
يتم تحميل البيانات المعالجة مسبقا من حاوية المجموعات، وفهرستها في فهرس Azure الذكاء الاصطناعي Search.

يمكنك لصق عناوين URL وستقوم الخدمة بتخزين محتوى صفحة الويب، باستخدامه عند إنشاء استجابات من النموذج. يجب أن يكون للمحتوى في عناوين URL/عناوين الويب التي تستخدمها الخصائص التالية ليتم استيعابها بشكل صحيح:

موقع ويب عام، مثل استخدام بياناتك مع خدمة Azure OpenAI - Azure OpenAI | Microsoft Learn. لا يمكنك إضافة عنوان URL/ويب مع التحكم في الوصول، مثل عناوين كلمة المرور.
موقع HTTPS على الويب.
حجم المحتوى في كل عنوان URL أصغر من 5 ميغابايت.
يمكن تنزيل موقع الويب كأحد أنواع الملفات المدعومة.
يتم دعم طبقة واحدة فقط من الارتباطات المتداخلة. سيتم جلب ما يصل إلى 20 ارتباطا فقط، على صفحة الويب.

بمجرد إضافة عنوان URL/الويب لاستيعاب البيانات، يتم جلب صفحات الويب من عنوان URL وحفظها في Azure Blob Storage باسم حاوية: webpage-<index name>. سيتم حفظ كل عنوان URL في حاوية مختلفة داخل الحساب. ثم تتم فهرسة الملفات في فهرس Azure الذكاء الاصطناعي Search، والذي يستخدم للاسترداد عند الدردشة مع النموذج.

يمكنك الاتصال بقاعدة بيانات متجه Elasticsearch والدردشة مع بياناتك.

المتطلبات الأساسية

قاعدة بيانات Elasticsearch
نموذج تضمين. يمكنك:
- استخدام نموذج تضمين Azure OpenAI text-embedding-ada-002 موجود، أو
- أحضر نموذج التضمين الخاص بك المستضاف على Elasticsearch.
قم بإعداد بياناتك باستخدام دفتر ملاحظات python المتوفر على GitHub.

طلب الإذن بالوصول

يعد استخدام مصدر بيانات Elasticsearch ميزة معاينة تخضع لشروط خدمة الوصول المحدود في الشروط الخاصة بالخدمة لخدمات Azure الذكاء الاصطناعي. يجب عليك ملء نموذج طلب وإرساله لطلب الوصول إلى مصدر بيانات Elasticsearch. يطلب النموذج معلومات حول شركتك والسيناريو الذي تخطط لاستخدام مصدر بيانات Elasticsearch له. بعد إرسال النموذج، سيقوم فريق خدمات Azure الذكاء الاصطناعي بمراجعته وإرسال قرار إليك عبر البريد الإلكتروني في غضون 10 أيام عمل.

الاتصال Elasticsearch إلى Azure OpenAI على بياناتك

قم بإعداد Elasticsearch والحصول على معلومات الاتصال الخاصة بك.

تحتاج إلى إدخال نقطة نهاية Elasticsearch ومفتاح API المشفرة للاتصال بقاعدة بيانات Elasticsearch. ثم انقر فوق التحقق من الاتصال.
حدد الفهرس الذي تريد الاتصال به.
(اختياري) استخدم تعيين حقل مخصص.

يمكنك تخصيص تعيين الحقل عند إضافة مصدر البيانات الخاص بك لتحديد الحقول التي سيتم تعيينها عند الإجابة على الأسئلة، أو استخدام القيم الافتراضية.
اختر نوع البحث. يوفر Azure OpenAI على بياناتك أنواع البحث التالية التي يمكنك استخدامها عند إضافة مصدر البيانات.
تابع من خلال الشاشات التي تظهر وحدد حفظ وإغلاق.

أنواع البحث

يوفر Azure OpenAI على بياناتك أنواع البحث التالية التي يمكنك استخدامها عند إضافة مصدر البيانات.

لتمكين البحث في المتجهات، تحتاج إلى نموذج تضمين موجود تم نشره في مورد Azure OpenAI أو مستضاف على Elasticsearch. حدد نشر التضمين عند توصيل بياناتك، ثم حدد أحد أنواع البحث المتجه ضمن إدارة البيانات.

خيار البحث	نوع الاسترداد	أسعار إضافية؟	المزايا
الكلمه الاساسيه	بحث بالكلمة الأساسية	لا توجد أسعار إضافية.	إجراء تحليل استعلام سريع ومرنة ومطابقته عبر حقول قابلة للبحث، باستخدام المصطلحات أو العبارات بأي لغة مدعومة، مع عوامل التشغيل أو بدونها.
المتجه	البحث عن المتجهات	أسعار إضافية على حساب Azure OpenAI الخاص بك من استدعاء نموذج التضمين.	يمكنك من العثور على المستندات المشابهة لإدخال استعلام معين استنادا إلى تضمينات المتجه للمحتوى.

تعيين حقل الفهرس

يمكنك تخصيص تعيين الحقول عند إضافة مصدر البيانات لتحديد الحقول التي سيتم تعيينها عند الإجابة عن الأسئلة. لتخصيص تعيين الحقل، حدد استخدام تعيين حقل مخصص في صفحة مصدر البيانات عند إضافة مصدر البيانات. يمكنك توفير حقول متعددة لبيانات المحتوى، ويجب أن تتضمن كافة الحقول التي تحتوي على نص يتعلق بحالة الاستخدام الخاصة بك.

يساعد تعيين هذه الحقول بشكل صحيح على ضمان أن النموذج لديه استجابة أفضل وجودة اقتباس. يمكنك أيضا تكوين هذا في واجهة برمجة التطبيقات باستخدام المعلمة fields_mapping .

استخدام Elasticsearch كمصدر بيانات عبر واجهة برمجة التطبيقات

بالإضافة إلى استخدام قواعد بيانات Elasticsearch في Azure OpenAI Studio، يمكنك أيضا استخدام قاعدة بيانات Elasticsearch باستخدام واجهة برمجة التطبيقات.

النشر إلى copilot (معاينة) أو تطبيق ويب

بعد توصيل Azure OpenAI ببياناتك، يمكنك نشرها باستخدام الزر Deploy to في استوديو Azure OpenAI.

يمنحك هذا خيار نشر تطبيق ويب مستقل لك ولمستخدميك للتفاعل مع نماذج الدردشة باستخدام واجهة مستخدم رسومية. راجع استخدام تطبيق ويب Azure OpenAI للحصول على مزيد من المعلومات.

يمكنك أيضا النشر إلى copilot في Copilot Studio (معاينة) مباشرة من استوديو Azure OpenAI، مما يتيح لك إحضار تجارب المحادثة إلى قنوات مختلفة مثل: Microsoft Teams ومواقع الويب وDynamics 365 وقنوات Azure Bot Service الأخرى. يجب أن يكون المستأجر المستخدم في خدمة Azure OpenAI و Copilot Studio (معاينة) هو نفسه. لمزيد من المعلومات، راجع استخدام اتصال ب Azure OpenAI على بياناتك.

إشعار

يتوفر النشر إلى copilot في Copilot Studio (معاينة) فقط في مناطق الولايات المتحدة.

استخدام Azure OpenAI على بياناتك بشكل آمن

يمكنك استخدام Azure OpenAI على بياناتك بشكل آمن عن طريق حماية البيانات والموارد باستخدام التحكم في الوصول المستند إلى الدور في Microsoft Entra ID والشبكات الظاهرية ونقاط النهاية الخاصة. يمكنك أيضا تقييد المستندات التي يمكن استخدامها في الاستجابات لمستخدمين مختلفين باستخدام عوامل تصفية أمان Azure الذكاء الاصطناعي Search. راجع استخدام Azure OpenAI بأمان على بياناتك.

أفضل الممارسات

استخدم الأقسام التالية لمعرفة كيفية تحسين جودة الاستجابات التي يقدمها النموذج.

معلمة الاستيعاب

عند إدخال بياناتك في Azure الذكاء الاصطناعي Search، يمكنك تعديل الإعدادات الإضافية التالية إما في الاستوديو أو واجهة برمجة تطبيقات الاستيعاب.

حجم المجموعة (معاينة)

يعالج Azure OpenAI On Your Data مستنداتك عن طريق تقسيمها إلى مجموعات قبل استيعابها. حجم المجموعة هو الحد الأقصى للحجم من حيث عدد الرموز المميزة لأي مجموعة في فهرس البحث. يتحكم حجم المجموعة وعدد المستندات المستردة معا في مقدار المعلومات (الرموز المميزة) المضمنة في المطالبة المرسلة إلى النموذج. بشكل عام، حجم المجموعة مضروبا في عدد المستندات المستردة هو إجمالي عدد الرموز المميزة المرسلة إلى النموذج.

تعيين حجم المجموعة لحالة الاستخدام الخاصة بك

حجم المجموعة الافتراضي هو 1024 رمزا مميزا. ومع ذلك، نظرا لتفرد بياناتك، قد تجد حجم مجموعة مختلف (مثل 256 أو 512 أو 1536 رمزا مميزا) أكثر فعالية.

يمكن أن يؤدي ضبط حجم المجموعة إلى تحسين أداء روبوت الدردشة. بينما يتطلب العثور على حجم المجموعة الأمثل بعض التجربة والخطأ، ابدأ بالنظر في طبيعة مجموعة البيانات الخاصة بك. عادة ما يكون حجم المجموعة الأصغر أفضل لمجموعات البيانات ذات الحقائق المباشرة والسياق الأقل، بينما قد يكون حجم المجموعة الأكبر مفيدا لمزيد من المعلومات السياقية، على الرغم من أنه قد يؤثر على أداء الاسترداد.

حجم مجموعة صغيرة مثل 256 تنتج المزيد من المجموعات الحبيبية. يعني هذا الحجم أيضا أن النموذج سيستخدم عددا أقل من الرموز المميزة لإنشاء مخرجاته (ما لم يكن عدد المستندات المستردة مرتفعا جدا)، مما قد يكلف أقل. تعني المجموعات الأصغر أيضا أن النموذج لا يتعين عليه معالجة وتفسير مقاطع طويلة من النص، ما يقلل من الضوضاء والتشتت. ومع ذلك، تشكل هذه النقاوة والتركيز مشكلة محتملة. قد لا تكون المعلومات المهمة من بين أهم المجموعات المستردة، خاصة إذا تم تعيين عدد المستندات المستردة إلى قيمة منخفضة مثل 3.

تلميح

ضع في اعتبارك أن تغيير حجم المجموعة يتطلب إعادة استيعاب مستنداتك، لذلك من المفيد أولا ضبط معلمات وقت التشغيل مثل التقييد وعدد المستندات التي تم استردادها. ضع في اعتبارك تغيير حجم المجموعة إذا كنت لا تزال لا تحصل على النتائج المرجوة:

إذا كنت تواجه عددا كبيرا من الردود مثل "لا أعرف" للأسئلة التي يجب أن تكون في مستنداتك، ففكر في تقليل حجم المجموعة إلى 256 أو 512 لتحسين الدقة.
إذا كان روبوت الدردشة يقدم بعض التفاصيل الصحيحة ولكنه يفتقد تفاصيل أخرى، وهو ما يظهر في الاقتباسات، فقد تساعد زيادة حجم المجموعة إلى 1536 في التقاط المزيد من المعلومات السياقية.

معلمات وقت التشغيل

يمكنك تعديل الإعدادات الإضافية التالية في قسم Data parameters في Azure OpenAI Studio وواجهة برمجة التطبيقات. لا تحتاج إلى إعادة استيعاب بياناتك عند تحديث هذه المعلمات.

اسم المعلمة	‏‏الوصف
الحد من الاستجابات لبياناتك	تقوم هذه العلامة بتكوين نهج روبوت الدردشة لمعالجة الاستعلامات غير المرتبطة بمصدر البيانات أو عندما تكون مستندات البحث غير كافية للحصول على إجابة كاملة. عند تعطيل هذا الإعداد، يكمل النموذج استجاباته بمعرفته الخاصة بالإضافة إلى مستنداتك. عند تمكين هذا الإعداد، يحاول النموذج الاعتماد فقط على مستنداتك للاستجابات. هذه هي المعلمة `inScope` في واجهة برمجة التطبيقات، ويتم تعيينها إلى true بشكل افتراضي.
المستندات المستردة	هذه المعلمة عبارة عن عدد صحيح يمكن تعيينه إلى 3 أو 5 أو 10 أو 20، ويتحكم في عدد مجموعات المستندات المقدمة إلى نموذج اللغة الكبير لصياغة الاستجابة النهائية. بشكل افتراضي، يتم تعيين هذا إلى 5. قد تكون عملية البحث مزعجة، وفي بعض الأحيان، بسبب التقسيم، قد تنتشر المعلومات ذات الصلة عبر مجموعات متعددة في فهرس البحث. يضمن تحديد رقم أعلى K، مثل 5، أن النموذج يمكنه استخراج المعلومات ذات الصلة، على الرغم من القيود المتأصلة في البحث والتقسيم. ومع ذلك، يمكن أن تؤدي زيادة العدد المرتفع جدا إلى تشتيت انتباه النموذج. بالإضافة إلى ذلك، يعتمد الحد الأقصى لعدد المستندات التي يمكن استخدامها بشكل فعال على إصدار النموذج، حيث لكل منها حجم سياق وسعة مختلفين للتعامل مع المستندات. إذا وجدت أن الاستجابات تفتقد إلى سياق مهم، فحاول زيادة هذه المعلمة. هذه هي المعلمة `topNDocuments` في واجهة برمجة التطبيقات، وهي 5 بشكل افتراضي.
التشدد	تحديد عدوانية النظام في تصفية مستندات البحث استنادا إلى درجات التشابه الخاصة بها. يستعلم النظام عن Azure Search أو مخازن المستندات الأخرى، ثم يقرر المستندات التي يجب توفيرها لنماذج اللغات الكبيرة مثل ChatGPT. يمكن أن تؤدي تصفية المستندات غير ذات الصلة إلى تحسين أداء روبوت الدردشة الشامل بشكل كبير. يتم استبعاد بعض المستندات من نتائج أعلى K إذا كانت درجات التشابه منخفضة قبل إعادة توجيهها إلى النموذج. يتم التحكم في ذلك بقيمة عدد صحيح تتراوح من 1 إلى 5. يعني تعيين هذه القيمة إلى 1 أن النظام سيقوم بتصفية المستندات بأقل قدر ممكن استنادا إلى تشابه البحث مع استعلام المستخدم. وعلى العكس من ذلك، يشير الإعداد 5 إلى أن النظام سيقوم بتصفية المستندات بقوة، مع تطبيق حد تشابه عال جدا. إذا وجدت أن روبوت الدردشة يحذف المعلومات ذات الصلة، فقم بخفض صرامة عامل التصفية (تعيين القيمة الأقرب إلى 1) لتضمين المزيد من المستندات. وعلى العكس من ذلك، إذا كانت المستندات غير ذات الصلة تشتت الاستجابات، فقم بزيادة الحد (تعيين القيمة أقرب إلى 5). هذه هي المعلمة `strictness` في واجهة برمجة التطبيقات، ويتم تعيينها إلى 3 بشكل افتراضي.

مراجع غير مقتبسة

من الممكن أن يرجع "TYPE":"UNCITED_REFERENCE" النموذج بدلا من "TYPE":CONTENT واجهة برمجة التطبيقات للمستندات التي يتم استردادها من مصدر البيانات، ولكن لا يتم تضمينها في الاقتباس. يمكن أن يكون هذا مفيدا لتصحيح الأخطاء، ويمكنك التحكم في هذا السلوك عن طريق تعديل التقييد واسترداد معلمات وقت تشغيل المستندات الموضحة أعلاه.

رسالة النظام

يمكنك تحديد رسالة نظام لتوجيه رد النموذج عند استخدام Azure OpenAI على بياناتك. تسمح لك هذه الرسالة بتخصيص ردودك أعلى نمط الجيل المعزز للاسترداد (RAG) الذي يستخدمه Azure OpenAI على بياناتك. يتم استخدام رسالة النظام بالإضافة إلى مطالبة أساسية داخلية لتوفير التجربة. لدعم ذلك، نقوم باقتطاع رسالة النظام بعد عدد معين من الرموز المميزة للتأكد من أن النموذج يمكنه الإجابة عن الأسئلة باستخدام بياناتك. إذا كنت تقوم بتعريف سلوك إضافي أعلى التجربة الافتراضية، فتأكد من أن مطالبة النظام مفصلة وتشرح التخصيص المتوقع بالضبط.

بمجرد تحديد إضافة مجموعة البيانات الخاصة بك، يمكنك استخدام قسم رسالة النظام في Azure OpenAI Studio، أو المعلمة roleInformationفي واجهة برمجة التطبيقات.

أنماط الاستخدام المحتملة

تعريف دور

يمكنك تحديد الدور الذي تريده لمساعدك. على سبيل المثال، إذا كنت تقوم بإنشاء روبوت دعم، يمكنك إضافة "أنت مساعد دعم حدث خبير يساعد المستخدمين على حل المشكلات الجديدة."

تحديد نوع البيانات التي يتم استردادها

يمكنك أيضا إضافة طبيعة البيانات التي تقدمها إلى المساعد.

حدد موضوع مجموعة البيانات أو نطاقها، مثل "التقرير المالي" أو "الورقة الأكاديمية" أو "تقرير الحادث". على سبيل المثال، للحصول على الدعم التقني، قد تضيف "تجيب على الاستعلامات باستخدام معلومات من حوادث مماثلة في المستندات التي تم استردادها."
إذا كانت بياناتك لها خصائص معينة، يمكنك إضافة هذه التفاصيل إلى رسالة النظام. على سبيل المثال، إذا كانت مستنداتك باللغة اليابانية، يمكنك إضافة "استرداد المستندات اليابانية ويجب عليك قراءتها بعناية باللغة اليابانية والإجابة باللغة اليابانية".
إذا كانت مستنداتك تتضمن بيانات منظمة مثل الجداول من تقرير مالي، يمكنك أيضا إضافة هذه الحقيقة إلى مطالبة النظام. على سبيل المثال، إذا كانت بياناتك تحتوي على جداول، يمكنك إضافة "يتم منحك بيانات في شكل جداول تتعلق بالنتائج المالية ويجب عليك قراءة الجدول سطرا سطرا لإجراء العمليات الحسابية للإجابة على أسئلة المستخدم."

تعريف نمط الإخراج

يمكنك أيضا تغيير إخراج النموذج عن طريق تعريف رسالة النظام. على سبيل المثال، إذا كنت تريد التأكد من أن إجابات المساعد باللغة الفرنسية، يمكنك إضافة مطالبة مثل "أنت مساعد الذكاء الاصطناعي يساعد المستخدمين الذين يفهمون اللغة الفرنسية في العثور على المعلومات. يمكن أن تكون أسئلة المستخدم باللغة الإنجليزية أو الفرنسية. يرجى قراءة المستندات المستردة بعناية والإجابة عليها باللغة الفرنسية. يرجى ترجمة المعرفة من الوثائق إلى الفرنسية لضمان أن جميع الإجابات باللغة الفرنسية."

إعادة تأكيد السلوك النقدي

يعمل Azure OpenAI على بياناتك عن طريق إرسال إرشادات إلى نموذج لغة كبير في شكل مطالبات للإجابة على استعلامات المستخدم باستخدام بياناتك. إذا كان هناك سلوك معين مهم للتطبيق، يمكنك تكرار السلوك في رسالة النظام لزيادة دقتها. على سبيل المثال، لتوجيه النموذج للإجابة فقط من المستندات، يمكنك إضافة "الرجاء الإجابة باستخدام المستندات المستردة فقط، ودون استخدام معرفتك. يرجى إنشاء اقتباسات للمستندات المستردة لكل مطالبة في إجابتك. إذا تعذر الرد على سؤال المستخدم باستخدام المستندات التي تم استردادها، فالرجاء شرح السبب وراء أهمية المستندات لاستعلامات المستخدم. على أي حال، لا تجيب باستخدام معرفتك الخاصة."

الحيل الهندسية الموجهة

هناك العديد من الحيل في الهندسة السريعة التي يمكنك محاولة تحسين الإخراج. مثال واحد هو سلسلة التفكير المطالبة حيث يمكنك إضافة "دعونا نفكر خطوة بخطوة حول المعلومات في المستندات المستردة للإجابة على استعلامات المستخدم. استخراج المعرفة ذات الصلة لاستعلامات المستخدم من المستندات خطوة بخطوة وتشكيل إجابة من أسفل إلى أعلى من المعلومات المستخرجة من المستندات ذات الصلة."

إشعار

يتم استخدام رسالة النظام لتعديل كيفية استجابة مساعد GPT لسؤال مستخدم استنادا إلى الوثائق المستردة. لا يؤثر على عملية الاسترداد. إذا كنت ترغب في توفير إرشادات لعملية الاسترداد، فمن الأفضل تضمينها في الأسئلة. رسالة النظام هي إرشادات فقط. قد لا يلتزم النموذج بكل تعليمات محددة لأنه تم إعداده بسلوكيات معينة مثل الموضوعية، وتجنب العبارات المثيرة للجدل. قد يحدث سلوك غير متوقع إذا تعارضت رسالة النظام مع هذه السلوكيات.

الحد الأقصى للاستجابة

تعيين حد لعدد الرموز المميزة لكل استجابة نموذج. الحد الأعلى ل Azure OpenAI على بياناتك هو 1500. وهذا يعادل تعيين المعلمة max_tokens في واجهة برمجة التطبيقات.

الحد من الاستجابات لبياناتك

يشجع هذا الخيار النموذج على الاستجابة باستخدام بياناتك فقط، ويتم تحديده بشكل افتراضي. إذا قمت بإلغاء تحديد هذا الخيار، فقد يطبق النموذج معرفته الداخلية بسهولة أكبر للاستجابة. حدد التحديد الصحيح استنادا إلى حالة الاستخدام والسيناريو.

التفاعل مع النموذج

استخدم الممارسات التالية للحصول على أفضل النتائج عند الدردشة مع النموذج.

محفوظات المحادثات

قبل بدء محادثة جديدة (أو طرح سؤال غير مرتبط بالأسئلة السابقة)، قم بإلغاء تحديد محفوظات الدردشة.
يمكن توقع الحصول على إجابات مختلفة لنفس السؤال بين منعطف المحادثة الأول والتناوبات اللاحقة لأن محفوظات المحادثات تغير الحالة الحالية للنموذج. إذا تلقيت إجابات غير صحيحة، فبلغ عنها كخطأ في الجودة.

استجابة النموذج

إذا لم تكن راضيا عن استجابة النموذج لسؤال معين، فحاول إما جعل السؤال أكثر تحديدا أو أكثر عمومية لمعرفة كيفية استجابة النموذج، وأعد صياغة سؤالك وفقا لذلك.
وقد ثبت أن المطالبة بسلسلة التفكير فعالة في جعل النموذج ينتج المخرجات المطلوبة للأسئلة/المهام المعقدة.

طول السؤال

تجنب طرح أسئلة طويلة وتقسيمها إلى أسئلة متعددة إن أمكن. تحتوي نماذج GPT على حدود لعدد الرموز المميزة التي يمكنها قبولها. يتم حساب حدود الرمز المميز من أجل: سؤال المستخدم ورسالة النظام ومستندات البحث المستردة (المجموعات) والمطالبات الداخلية ومحفوظات المحادثات (إن وجدت) والاستجابة. إذا تجاوز السؤال حد الرمز المميز، فسيتم اقتطاعه.

دعم متعدد اللغات

حاليا، البحث عن الكلمات الأساسية والبحث الدلالي في Azure OpenAI على بياناتك يدعم الاستعلامات بنفس لغة البيانات الموجودة في الفهرس. على سبيل المثال، إذا كانت بياناتك باللغة اليابانية، فيجب أن تكون استعلامات الإدخال أيضا باللغة اليابانية. لاسترداد المستند عبر اللغات، نوصي بإنشاء الفهرس مع تمكين بحث المتجه.
للمساعدة في تحسين جودة استرداد المعلومات والاستجابة النموذجية، نوصي بتمكين البحث الدلالي عن اللغات التالية: الإنجليزية والفرنسية والإسبانية والبرتغالية والإيطالية وألمانيا والصينية (Zh) واليابانية والكورية والروسية والعربية
نوصي باستخدام رسالة نظام لإعلام النموذج بأن بياناتك بلغة أخرى. على سبيل المثال:
*"*أنت مساعد الذكاء الاصطناعي مصمم لمساعدة المستخدمين على استخراج المعلومات من المستندات اليابانية المستردة. يرجى التدقيق في المستندات اليابانية بعناية قبل صياغة رد. سيكون استعلام المستخدم باللغة اليابانية، ويجب عليك الاستجابة أيضا باللغة اليابانية."
إذا كانت لديك مستندات بلغات متعددة، نوصي بإنشاء فهرس جديد لكل لغة وتوصيلها بشكل منفصل ب Azure OpenAI.

بيانات متدفقة

يمكنك إرسال طلب دفق باستخدام المعلمة stream ، ما يسمح بإرسال البيانات وتلقيها بشكل متزايد، دون انتظار استجابة واجهة برمجة التطبيقات بأكملها. يمكن أن يؤدي ذلك إلى تحسين الأداء وتجربة المستخدم، خاصة بالنسبة للبيانات الكبيرة أو الديناميكية.

{
    "stream": true,
    "dataSources": [
        {
            "type": "AzureCognitiveSearch",
            "parameters": {
                "endpoint": "'$AZURE_AI_SEARCH_ENDPOINT'",
                "key": "'$AZURE_AI_SEARCH_API_KEY'",
                "indexName": "'$AZURE_AI_SEARCH_INDEX'"
            }
        }
    ],
    "messages": [
        {
            "role": "user",
            "content": "What are the differences between Azure Machine Learning and Azure AI services?"
        }
    ]
}

محفوظات المحادثات للحصول على نتائج أفضل

عند الدردشة مع نموذج، سيساعد توفير محفوظات الدردشة النموذج على إرجاع نتائج ذات جودة أعلى. لا تحتاج إلى تضمين context خاصية رسائل المساعد في طلبات واجهة برمجة التطبيقات للحصول على جودة استجابة أفضل. راجع الوثائق المرجعية لواجهة برمجة التطبيقات للحصول على أمثلة.

استدعاء الدالة

تسمح لك بعض نماذج Azure OpenAI بتحديد الأدوات والمعلمات tool_choice لتمكين استدعاء الدالة . يمكنك إعداد استدعاء الدالة من خلال واجهة برمجة تطبيقات/chat/completions REST. إذا كانت مصادر البيانات و toolsفي الطلب، يتم تطبيق النهج التالي.

إذا كان tool_choice هو none، يتم تجاهل الأدوات، ويتم استخدام مصادر البيانات فقط لإنشاء الإجابة.
وإلا، إذا tool_choice لم يتم تحديد أو تحديد كعنصر auto أو ، يتم تجاهل مصادر البيانات، وستحتوي الاستجابة على اسم الدالات المحددة والوسيطات، إن وجدت. حتى إذا قرر النموذج عدم تحديد أي دالة، فلا يزال يتم تجاهل مصادر البيانات.

إذا لم يفي النهج أعلاه باحتياجاتك، فيرجى مراعاة خيارات أخرى، على سبيل المثال: تدفق المطالبة أو واجهة برمجة تطبيقات المساعدين.

تقدير استخدام الرمز المميز ل Azure OpenAI على بياناتك

خدمة Azure OpenAI على الجيل المعزز لاسترداد البيانات (RAG) التي تستفيد من كل من خدمة البحث (مثل Azure الذكاء الاصطناعي Search) والجيل (نماذج Azure OpenAI) للسماح للمستخدمين بالحصول على إجابات لأسئلتهم استنادا إلى البيانات المقدمة.

كجزء من مسار RAG هذا، هناك ثلاث خطوات على مستوى عال:

إعادة صياغة استعلام المستخدم في قائمة أهداف البحث. يتم ذلك عن طريق إجراء مكالمة إلى النموذج مع مطالبة تتضمن إرشادات وسؤال المستخدم ومحفوظات المحادثات. دعونا نسمي هذا موجه الهدف.
لكل هدف، يتم استرداد مجموعات مستندات متعددة من خدمة البحث. بعد تصفية المجموعات غير ذات الصلة استنادا إلى حد التقييد المحدد من قبل المستخدم وإعادة تجميع/تجميع المجموعات استنادا إلى المنطق الداخلي، يتم اختيار عدد مجموعات المستندات المحددة من قبل المستخدم.
يتم إرسال مجموعات المستندات هذه، إلى جانب سؤال المستخدم ومحفوظات المحادثات ومعلومات الدور والإرشادات إلى النموذج لإنشاء استجابة النموذج النهائية. دعونا نسمي هذا بمطالبة الجيل.

في المجموع، هناك استدعاءان تم إجراؤها على النموذج:

لمعالجة الهدف: يتضمن تقدير الرمز المميز لمطالبة الهدف تلك الخاصة بسؤال المستخدم ومحفوظات المحادثات والإرشادات المرسلة إلى النموذج لإنشاء الهدف.
لإنشاء الاستجابة: يتضمن تقدير الرمز المميز لمطالبة الجيل تلك الخاصة بسؤال المستخدم ومحفوظات المحادثات وقائمة مجموعات المستندات المستردة ومعلومات الدور والإرشادات المرسلة إليها للتوليد.

يجب أن تؤخذ الرموز المميزة للإخراج التي أنشأها النموذج (كلا الهدفين والاستجابة) في الاعتبار لإجمالي تقدير الرمز المميز. يعطي جمع جميع الأعمدة الأربعة أدناه متوسط إجمالي الرموز المميزة المستخدمة لإنشاء استجابة.

النموذج	عدد الرموز المميزة لمطالبة الجيل	عدد الرموز المميزة لمطالبة الهدف	عدد الرموز المميزة للاستجابة	عدد الرموز المميزة للهدف
gpt-35-turbo-16k	4297	1366	111	25
gpt-4-0613	3997	1385	118	18
معاينة gpt-4-1106	4538	811	119	27
gpt-35-turbo-1106	4854	1372	110	26

تستند الأرقام أعلاه إلى الاختبار على مجموعة بيانات باستخدام:

191 محادثة
250 سؤالا
10 متوسط الرموز المميزة لكل سؤال
4 تحويلات للمحادثة لكل محادثة في المتوسط

والمعلمات التالية.

الإعداد	القيمة‬
عدد المستندات التي تم استردادها	5
التشدد	3
حجم المجموعة	1024
هل تقيد الاستجابات بالبيانات التي تم استيعابها؟	صواب

ستختلف هذه التقديرات استنادا إلى القيم التي تم تعيينها للمعلمات أعلاه. على سبيل المثال، إذا تم تعيين عدد المستندات التي تم استردادها إلى 10 وتم تعيين التقييد إلى 1، فسيصعد عدد الرموز المميزة. إذا لم تقتصر الاستجابات التي تم إرجاعها على البيانات التي تم استيعابها، فهناك إرشادات أقل تعطى للنموذج وسيتعطل عدد الرموز المميزة.

وتعتمد التقديرات أيضا على طبيعة الوثائق والأسئلة المطروحة. على سبيل المثال، إذا كانت الأسئلة مفتوحة، من المحتمل أن تكون الردود أطول. وبالمثل، ستساهم رسالة نظام أطول في مطالبة أطول تستهلك المزيد من الرموز المميزة، وإذا كانت محفوظات المحادثات طويلة، ستكون المطالبة أطول.

النموذج	الحد الأقصى للرمز المميز لرسالة النظام	الحد الأقصى للرمز المميزة لاستجابة النموذج
GPT-35-0301	400	1500
GPT-35-0613-16K	1000	3200
GPT-4-0613-8K	400	1500
GPT-4-0613-32K	2000	6400

يعرض الجدول أعلاه الحد الأقصى لعدد الرموز المميزة التي يمكن استخدامها لرسالة النظام واستجابة النموذج. بالإضافة إلى ذلك، يستهلك ما يلي أيضا الرموز المميزة:

مطالبة التعريف: إذا قمت بتقييد الاستجابات من النموذج إلى محتوى بيانات الترسيخ (inScope=True في واجهة برمجة التطبيقات)، فإن الحد الأقصى لعدد الرموز المميزة أعلى. وإلا (على سبيل المثال إذا inScope=False) يكون الحد الأقصى أقل. هذا الرقم متغير اعتمادا على طول الرمز المميز لسؤال المستخدم ومحفوظات المحادثات. يتضمن هذا التقدير المطالبة الأساسية ومطالبات إعادة كتابة الاستعلام للاسترداد.
سؤال المستخدم والمحفوظات: متغير ولكن تم تعيينه في 2000 رمز مميز.
المستندات المستردة (المجموعات): يعتمد عدد الرموز المميزة المستخدمة من قبل مجموعات المستندات المستردة على عوامل متعددة. الحد الأعلى لهذا هو عدد مجموعات المستندات التي تم استردادها مضروبة في حجم المجموعة. ومع ذلك، سيتم اقتطاعها استنادا إلى الرموز المميزة المتوفرة للنموذج المحدد المستخدم بعد حساب بقية الحقول.

20٪ من الرموز المميزة المتاحة محجوزة لاستجابة النموذج. تتضمن 80٪ المتبقية من الرموز المميزة المتوفرة مطالبة التعريف وسؤال المستخدم ومحفوظات المحادثات ورسالة النظام. يتم استخدام موازنة الرمز المميز المتبقية بواسطة مجموعات المستندات المستردة.

لحساب عدد الرموز المميزة التي يستهلكها إدخالك (مثل سؤالك، رسالة النظام/معلومات الدور)، استخدم نموذج التعليمات البرمجية التالي.

import tiktoken

class TokenEstimator(object):

    GPT2_TOKENIZER = tiktoken.get_encoding("gpt2")

    def estimate_tokens(self, text: str) -> int:
        return len(self.GPT2_TOKENIZER.encode(text))
      
token_output = TokenEstimator.estimate_tokens(input_text)

استكشاف الأخطاء وإصلاحها

لاستكشاف أخطاء العمليات الفاشلة وإصلاحها، ابحث دائما عن الأخطاء أو التحذيرات المحددة إما في استجابة واجهة برمجة التطبيقات أو استوديو Azure OpenAI. فيما يلي بعض الأخطاء والتحذيرات الشائعة:

فشل مهام الاستيعاب

مشكلات قيود الحصة النسبية

تعذر إنشاء فهرس يحمل الاسم X في الخدمة Y. تم تجاوز الحصة النسبية للفهرس لهذه الخدمة. يجب عليك إما حذف الفهارس غير المستخدمة أولا، أو إضافة تأخير بين طلبات إنشاء الفهرس، أو ترقية الخدمة لحدود أعلى.

تم تجاوز الحصة النسبية القياسية للمفهرس X لهذه الخدمة. لديك حاليا مفهرسات X القياسية. يجب إما حذف المفهرسات غير المستخدمة أولا، أو تغيير المفهرس 'executionMode'، أو ترقية الخدمة للحصول على حدود أعلى.

القرار:

الترقية إلى مستوى تسعير أعلى أو حذف الأصول غير المستخدمة.

معالجة مشكلات المهلة مسبقا

تعذر تنفيذ المهارة بسبب فشل طلب واجهة برمجة تطبيقات الويب

تعذر تنفيذ المهارة لأن استجابة مهارة واجهة برمجة تطبيقات الويب غير صالحة

القرار:

قم بتقسيم مستندات الإدخال إلى مستندات أصغر وحاول مرة أخرى.

مشاكل الأذونات

هذا الطلب غير مخول لتنفيذ هذه العملية

القرار:

وهذا يعني أنه لا يمكن الوصول إلى حساب التخزين باستخدام بيانات الاعتماد المحددة. في هذه الحالة، يرجى مراجعة بيانات اعتماد حساب التخزين التي تم تمريرها إلى واجهة برمجة التطبيقات والتأكد من عدم إخفاء حساب التخزين خلف نقطة نهاية خاصة (إذا لم يتم تكوين نقطة نهاية خاصة لهذا المورد).

503 خطأ عند إرسال الاستعلامات باستخدام Azure الذكاء الاصطناعي Search

يمكن أن تترجم كل رسالة مستخدم إلى استعلامات بحث متعددة، يتم إرسال جميعها إلى مورد البحث بالتوازي. يمكن أن ينتج عن ذلك سلوك تقييد عندما يكون عدد النسخ المتماثلة للبحث والأقسام منخفضا. قد لا يكون الحد الأقصى لعدد الاستعلامات في الثانية التي يمكن أن يدعمها قسم واحد ونسخة متماثلة واحدة كافيا. في هذه الحالة، ضع في اعتبارك زيادة النسخ المتماثلة والأقسام، أو إضافة منطق السكون/إعادة المحاولة في التطبيق الخاص بك. راجع وثائق Azure الذكاء الاصطناعي Search لمزيد من المعلومات.

التوفر الإقليمي ودعم النموذج

يمكنك استخدام Azure OpenAI على بياناتك مع مورد Azure OpenAI في المناطق التالية:

شرق أستراليا
جنوب البرازيل
شرق كندا
شرق الولايات المتحدة
East US 2
وسط فرنسا
شرق اليابان
وسط شمال الولايات المتحدة
شرق النرويج
جنوب أفريقيا
South Central US
جنوب الهند
منطقة السويد الوسطى
شمال سويسرا
جنوب المملكة المتحدة
أوروبا الغربية
غرب الولايات المتحدة

النماذج المدعومة

gpt-4 (0314)
gpt-4 (0613)
gpt-4 (0125)
gpt-4-32k (0314)
gpt-4-32k (0613)
gpt-4 (معاينة 1106)
gpt-35-turbo-16k (0613)
gpt-35-turbo (1106)

إذا كان مورد Azure OpenAI الخاص بك في منطقة أخرى، فلن تتمكن من استخدام Azure OpenAI على بياناتك.

Share via

Azure OpenAI على بياناتك

ما هو Azure OpenAI على بياناتك

الشروع في العمل

عناصر التحكم في الوصول المستندة إلى دور Azure (Azure RBAC) لإضافة مصادر البيانات

تنسيقات البيانات وأنواع الملفات

مصادر البيانات المدعومة

أنواع البحث

البحث الذكي

التحكم في الوصول على مستوى المستند

تعيين حقل الفهرس

عامل تصفية البحث (API)

كيفية استيعاب البيانات في بحث Azure الذكاء الاصطناعي

النشر إلى copilot (معاينة) أو تطبيق ويب

استخدام Azure OpenAI على بياناتك بشكل آمن

أفضل الممارسات

معلمة الاستيعاب

حجم المجموعة (معاينة)

تعيين حجم المجموعة لحالة الاستخدام الخاصة بك

معلمات وقت التشغيل

مراجع غير مقتبسة

رسالة النظام

أنماط الاستخدام المحتملة

الحد الأقصى للاستجابة

الحد من الاستجابات لبياناتك

التفاعل مع النموذج

بيانات متدفقة

محفوظات المحادثات للحصول على نتائج أفضل

استدعاء الدالة

تقدير استخدام الرمز المميز ل Azure OpenAI على بياناتك

استكشاف الأخطاء وإصلاحها

فشل مهام الاستيعاب

503 خطأ عند إرسال الاستعلامات باستخدام Azure الذكاء الاصطناعي Search

التوفر الإقليمي ودعم النموذج

النماذج المدعومة

الخطوات التالية

الموارد الإضافية