تجميع البيانات المتكاملة وتضمينها في Azure الذكاء الاصطناعي Search

هام

يتم تجميع البيانات المتكاملة وتعميمها في المعاينة العامة ضمن شروط الاستخدام التكميلية. توفر واجهة برمجة تطبيقات REST 2023-10-01-Preview هذه الميزة.

الخط المتجه المتكامل هو امتداد للبنية الأساسية لبرنامج ربط العمليات التجارية للفهرسة والاستعلام في Azure الذكاء الاصطناعي Search. يضيف القدرات التالية:

  • تقسيم البيانات أثناء الفهرسة
  • تحويل النص إلى متجه أثناء الفهرسة
  • تحويل النص إلى متجه أثناء الاستعلامات

لا يعد تجميع البيانات مطلبا صعبا، ولكن ما لم تكن مستنداتك الأولية صغيرة، فإن التقسيم ضروري لتلبية متطلبات إدخال الرمز المميز لتضمين النماذج.

الفائدة الرئيسية هي أن الخط المتجه المتكامل يسرع التطوير ويقلل من مهام الصيانة أثناء استيعاب البيانات ووقت الاستعلام لأن هناك مكونات خارجية أقل للتكوين والإدارة.

تحويلات المتجهات أحادية الاتجاه: تحويل النص إلى متجه. لا يوجد تحويل متجه إلى نص للاستعلامات أو النتائج (على سبيل المثال، لا يمكنك تحويل نتيجة متجه إلى سلسلة يمكن للبشر قراءتها).

استخدام المتجهات المتكاملة أثناء الفهرسة

بالنسبة إلى تقسيم البيانات وتحويل النص إلى متجه، فإنك تعتمد على المكونات التالية:

  • مفهرس، الذي يسترد البيانات الأولية من مصدر بيانات مدعوم ويعمل كمحرك البنية الأساسية لبرنامج ربط العمليات التجارية.

  • مجموعة مهارات تم تكوينها من أجل:

    • مهارة تقسيم النص، المستخدمة لتقسيم البيانات.
    • مهارة AzureOpenAIEmbedding، المرفقة بالنص embedding-ada-002 على Azure OpenAI.
    • بدلا من ذلك، يمكنك استخدام مهارة مخصصة بدلا من AzureOpenAIEmbdding التي تشير إلى نموذج تضمين آخر على Azure أو على جانب آخر.
  • فهرس متجه لتلقي المحتوى المكتنز والمتجه.

استخدام المتجهات المتكاملة في الاستعلامات

لتحويل النص إلى متجه أثناء الاستعلامات، يمكنك الاعتماد على هذه المكونات:

  • متجه، معرف في مخطط الفهرس، تم تعيينه إلى حقل متجه، ويستخدم تلقائيا في وقت الاستعلام لتحويل استعلام نصي إلى متجه.
  • استعلام يحدد حقل متجه واحد أو أكثر.
  • سلسلة نصية يتم تحويلها إلى متجه في وقت الاستعلام.

رسم تخطيطي للمكون

يوضح الرسم التخطيطي التالي مكونات المتجهات المتكاملة.

رسم تخطيطي للمكونات في سير عمل متجه متكامل.

سير العمل هو مسار مفهرس. يقوم المفهرسون باسترداد البيانات من مصادر البيانات المدعومة وبدء إثراء البيانات (أو الذكاء الاصطناعي المطبقة) عن طريق استدعاء خدمات Azure OpenAI أو Azure الذكاء الاصطناعي أو التعليمات البرمجية المخصصة لتحويلات النص إلى متجه أو معالجة أخرى.

يركز الرسم التخطيطي على المتجهات المتكاملة، ولكن الحل الخاص بك لا يقتصر على هذه القائمة. يمكنك إضافة المزيد من المهارات لإثراء الذكاء الاصطناعي، وإنشاء مخزن معارف، وإضافة ترتيب دلالي، وإضافة ضبط الصلة، وميزات الاستعلام الأخرى.

التوفر والتسعير

تتوفر الخطوط المتجهة المتكاملة في جميع المناطق والمستواني. ومع ذلك، إذا كنت تستخدم Azure OpenAI ومهارة AzureOpenAIEmbedding، فتحقق من التوفر الإقليمي لتلك الخدمة.

إذا كنت تستخدم مهارة مخصصة وآلية استضافة Azure (مثل تطبيق وظائف Azure وAzure Web App وAzure Kubernetes)، فتحقق من صفحة المنتج حسب المنطقة للحصول على توفر الميزة.

يعد تقسيم البيانات (مهارة تقسيم النص) مجانيا ومتاحا على جميع خدمات Azure الذكاء الاصطناعي في جميع المناطق.

إشعار

يتم نشر بعض خدمات البحث القديمة التي تم إنشاؤها قبل 1 يناير 2019 على البنية الأساسية التي لا تدعم أحمال عمل المتجهات. إذا حاولت إضافة حقل متجه إلى مخطط والحصول على خطأ، فهذا نتيجة لخدمات قديمة. في هذه الحالة، يجب إنشاء خدمة بحث جديدة لتجربة ميزة المتجه.

ما هي السيناريوهات التي يمكن أن تدعم المتجهات المتكاملة؟

  • قم بتقسيم المستندات الكبيرة إلى مجموعات، وهي مفيدة للسيناريوهات المتجهة وغير الوسيطة. بالنسبة إلى المتجهات، تساعدك المجموعات على تلبية قيود الإدخال لتضمين النماذج. بالنسبة للسيناريوهات غير المترابطة، قد يكون لديك تطبيق بحث على نمط الدردشة حيث يقوم GPT بتجميع الاستجابات من مجموعات مفهرسة. يمكنك استخدام المجموعات المتجهة أو غير المترابطة للبحث بنمط الدردشة.

  • إنشاء مخزن متجهات حيث تكون كافة الحقول عبارة عن حقول متجهات، ومعرف المستند (مطلوب لفهرس البحث) هو حقل السلسلة الوحيد. استعلم عن مخزن المتجهات لاسترداد معرفات المستندات، ثم أرسل حقول المتجهات الخاصة بالمستند إلى نموذج آخر.

  • اجمع بين الحقول المتجهة والنص للبحث المختلط، مع الترتيب الدلالي أو بدونه. يعمل التوجيه المتكامل على تبسيط جميع السيناريوهات التي يدعمها البحث في المتجهات.

متى تستخدم المتجهات المتكاملة

نوصي باستخدام دعم المتجهات المضمن في Azure الذكاء الاصطناعي Studio. إذا لم يفي هذا الأسلوب باحتياجاتك، يمكنك إنشاء مفهرسات ومجموعات مهارات تستدعي المتجهات المتكاملة باستخدام الواجهات البرمجية ل Azure الذكاء الاصطناعي Search.

كيفية استخدام المتجهات المتكاملة

بالنسبة إلى المتجهات للاستعلام فقط:

  1. إضافة متجه إلى فهرس. يجب أن يكون نفس نموذج التضمين المستخدم لإنشاء متجهات في الفهرس.
  2. قم بتعيين المتجه إلى ملف تعريف متجه، ثم قم بتعيين ملف تعريف متجه إلى حقل المتجه.
  3. صياغة استعلام متجه يحدد السلسلة النصية الموجهة.

سيناريو أكثر شيوعا - تجميع البيانات وتعميمها أثناء الفهرسة:

  1. إنشاء اتصال مصدر بيانات بمصدر بيانات مدعوم للفهرسة المستندة إلى المفهرس.
  2. إنشاء مجموعة مهارات تستدعي مهارة تقسيم النص للتقسيم وAzureOpenAIEmbeddingModel أو مهارة مخصصة لتحجيم المجموعات.
  3. إنشاء فهرس يحدد المتجه لوقت الاستعلام، وتعيينه إلى حقول المتجهات.
  4. إنشاء مفهرس لدفع كل شيء، من استرداد البيانات، إلى تنفيذ مجموعة المهارات، من خلال الفهرسة.

اختياريا، قم بإنشاء فهارس ثانوية للسيناريوهات المتقدمة حيث يكون المحتوى المكتتب في فهرس واحد، وغير مقطع في فهرس آخر. الفهارس المكتظة (أو الفهارس الثانوية) مفيدة لتطبيقات RAG.

تلميح

جرب معالج استيراد البيانات واتجاهها الجديد في مدخل Microsoft Azure لاستكشاف المتجهات المتكاملة قبل كتابة أي تعليمة برمجية.

أو قم بتكوين دفتر ملاحظات Jupyter لتشغيل نفس سير العمل، خلية تلو خلية، لمعرفة كيفية عمل كل خطوة.

القيود

تأكد من معرفة حصص وحدود Azure OpenAI لتضمين النماذج. يحتوي Azure الذكاء الاصطناعي Search على نهج إعادة المحاولة، ولكن إذا تم استنفاد الحصة النسبية، تفشل إعادة المحاولة.

حدود الرمز المميز ل Azure OpenAI لكل دقيقة هي لكل نموذج، لكل اشتراك. ضع هذا في اعتبارك إذا كنت تستخدم نموذج تضمين لكل من أحمال عمل الاستعلام والفهرسة. اتبع أفضل الممارسات، إن أمكن. لديك نموذج تضمين لكل حمل عمل، وحاول توزيعه في اشتراكات مختلفة.

في Azure الذكاء الاصطناعي Search، تذكر أن هناك حدود للخدمة حسب الطبقة وأحمال العمل.

وأخيرا، الميزات التالية غير مدعومة حاليا:

فوائد المتجهات المتكاملة

فيما يلي بعض الفوائد الرئيسية للخطوط المتجهة المتكاملة:

  • لا يوجد خط أنابيب منفصل لتقسيم البيانات والخطوط المتجهة. التعليمات البرمجية أبسط للكتابة والصيانة.

  • أتمتة الفهرسة من طرف إلى طرف. عندما تتغير البيانات في المصدر (كما هو الحال في Azure Storage أو Azure SQL أو Cosmos DB)، يمكن للمفهرس نقل هذه التحديثات عبر المسار بأكمله، من الاسترداد، إلى تكسير المستندات، من خلال إثراء الذكاء الاصطناعي الاختياري، وتقسيم البيانات، واتجاهها، والفهرسة.

  • عرض المحتوى المكتنز على الفهارس الثانوية. يتم إنشاء الفهارس الثانوية كما تفعل مع أي فهرس بحث (مخطط مع حقول وبنيات أخرى)، ولكن يتم ملؤها جنبا إلى جنب مع فهرس أساسي بواسطة مفهرس. يتدفق المحتوى من كل مستند مصدر إلى الحقول في الفهارس الأساسية والثانوية أثناء تشغيل الفهرسة نفسه.

    الفهارس الثانوية مخصصة لتطبيقات أنماط الأسئلة والأجوبة أو الدردشة. يحتوي الفهرس الثانوي على معلومات دقيقة لمطابقات أكثر تحديدا، ولكن الفهرس الأصل يحتوي على مزيد من المعلومات ويمكن أن ينتج غالبا إجابة أكثر اكتمالا. عند العثور على تطابق في الفهرس الثانوي، يقوم الاستعلام بإرجاع المستند الأصل من الفهرس الأساسي. على سبيل المثال، بافتراض وجود ملف PDF كبير كمستند مصدر، قد يحتوي الفهرس الأساسي على معلومات أساسية (العنوان والتاريخ والكاتب والوصف)، بينما يحتوي الفهرس الثانوي على أجزاء من المحتوى القابل للبحث.

الخطوات التالية