إثراء الذكاء الاصطناعي في البحث المعرفي في Azure

الذكاء الاصطناعي الإثراء هو تطبيق نماذج التعلم الآلي على المحتوى الخام ، حيث يتم استخدام التحليل والاستدلال لإنشاء محتوى وهيكل قابل للبحث حيث لم يكن موجودا من قبل. نظرا لأن Azure Cognitive Search هو حل للبحث عن النص الكامل، فإن الغرض من إثراء الذكاء الاصطناعي هو تحسين فائدة المحتوى الخاص بك في السيناريوهات المتعلقة بالبحث:

  • الترجمة الآلية والكشف عن اللغة يدعمان البحث متعدد اللغات
  • التعرف على الكيانات يعثر على الأشخاص والأماكن والكيانات الأخرى في أجزاء كبيرة من النص
  • استخراج العبارة الرئيسية يحدد ثم يجمع المصطلحات الهامة
  • التعرف الضوئي على الأحرف (OCR) يستخرج النص من الملفات الثنائية
  • علامات تحليل الصور وتصفها في حقول النص القابلة للبحث

إثراء الذكاء الاصطناعي هو امتداد لخط أنابيب المفهرس .

تعد النقاط في Azure Storage أكثر مدخلات البيانات شيوعا، ولكن يمكن لأي مصدر بيانات مدعوم توفير المحتوى الأولي. تضيف مجموعة المهارات ، المرفقة بمفهرس ، الذكاء الاصطناعي المعالجة. يستخرج المفهرس المحتوى ويقوم بإعداد خط الأنابيب. تقوم مجموعة المهارات بتنفيذ خطوات الإثراء. الإخراج هو دائما فهرس بحث ، واختياريا مخزن للمعرفة.

Enrichment pipeline diagram

تتكون مجموعات المهارات من مهارات مضمنة من البحث المعرفي أو مهارات مخصصة للمعالجة الخارجية التي تقدمها. المهارات المخصصة ليست معقدة دائما. على سبيل المثال، إذا كان لديك حزمة موجودة توفر مطابقة الأنماط أو نموذج تصنيف المستندات، فيمكنك لفها بمهارة مخصصة.

وتندرج المهارات المضمنة في هذه الفئات:

تعتمد المهارات المضمنة على واجهات برمجة تطبيقات الخدمات المعرفية: رؤية الكمبيوتروخدمة اللغة. ما لم يكن إدخال المحتوى الخاص بك صغيرا، توقع إرفاق مورد خدمات إدراكية قابل للفوترة لتشغيل أحمال عمل أكبر.

التوافر والتسعير

يتوفر إثراء الذكاء الاصطناعي في المناطق التي تحتوي على Azure Cognitive Services. يمكنك التحقق من توفر الإثراء الذكاء الاصطناعي على صفحة منتجات Azure المتوفرة حسب المنطقة. يتوفر الإثراء الذكاء الاصطناعي في جميع المناطق باستثناء:

  • جنوب شرق أستراليا
  • شمال الصين 2
  • وسط غرب ألمانيا

تتبع الفوترة نموذج تسعير الدفع أولا بأول. يتم تمرير تكاليف استخدام المهارات المضمنة عند تحديد مفتاح الخدمات المعرفية متعدد المناطق في مجموعة المهارات. هناك أيضا تكاليف مرتبطة باستخراج الصور ، كما تم قياسها بواسطة البحث المعرفي. ومع ذلك ، فإن استخراج النص ومهارات الأداة المساعدة غير قابلة للفوترة. لمزيد من المعلومات، راجع كيفية تحصيل الرسوم منك مقابل البحث المعرفي في Azure.

متى تستخدم الذكاء الاصطناعي الإثراء

يكون الإثراء مفيدا إذا كان المحتوى الخام عبارة عن نص غير منظم أو محتوى صورة أو محتوى يحتاج إلى اكتشاف اللغة وترجمتها. يمكن لتطبيق الذكاء الاصطناعي من خلال المهارات المعرفية المضمنة فتح هذا المحتوى للبحث عن النص الكامل وتطبيقات علوم البيانات.

يفتح الإثراء أيضا المعالجة الخارجية. يمكن دمج التعليمات البرمجية مفتوحة المصدر أو التابعة لجهة خارجية أو الجهة الأولى في خط الأنابيب كمهارة مخصصة. تندرج نماذج التصنيف التي تحدد الخصائص البارزة لأنواع المستندات المختلفة ضمن هذه الفئة، ولكن يمكن استخدام أي حزمة خارجية تضيف قيمة إلى المحتوى الخاص بك.

حالات الاستخدام للمهارات المضمنة

مجموعة المهارات التي يتم تجميعها باستخدام المهارات المضمنة مناسبة تماما لسيناريوهات التطبيق التالية:

  • التعرف الضوئي على الأحرف (OCR) الذي يتعرف على الخط والنص المكتوب بخط اليد في المستندات الممسوحة ضوئيا (JPEG) ربما يكون المهارة الأكثر استخداما.

  • الترجمة النصية للمحتوى متعدد اللغات هي مهارة أخرى شائعة الاستخدام. يتم تضمين اكتشاف اللغة في ترجمة النص، ولكن يمكنك أيضا تشغيل " اكتشاف اللغة" كمهارة منفصلة لإخراج رمز لغة لكل جزء من المحتوى.

  • ملفات PDF مع صورة ونص مدمجين. يمكن استخراج النص المضمن دون إثراء الذكاء الاصطناعي ، ولكن إضافة مهارات الصورة واللغة يمكن أن تفتح المزيد من المعلومات أكثر مما يمكن الحصول عليه من خلال الفهرسة القياسية المستندة إلى النص.

  • مستندات غير منظمة أو شبه منظمة تحتوي على محتوى له معنى متأصل أو تنظيم مخفي في المستند الأكبر.

    غالبا ما تحتوي النقاط على وجه الخصوص على مجموعة كبيرة من المحتوى الذي يتم تعبئته في "حقل" واحد. من خلال إرفاق مهارات معالجة الصور واللغات الطبيعية بمفهرس، يمكنك إنشاء معلومات موجودة في المحتوى الخام، ولكن لا تظهر بخلاف ذلك كحقول متميزة.

    بعض المهارات المعرفية المضمنة الجاهزة للاستخدام والتي يمكن أن تساعد: استخراج العبارات الرئيسيةوالتعرف على الكيانات (الأشخاص والمؤسسات والمواقع على سبيل المثال لا الحصر).

    بالإضافة إلى ذلك ، يمكن أيضا استخدام المهارات المضمنة في إعادة هيكلة المحتوى من خلال عمليات تقسيم النص ودمجه وتشكيله.

حالات الاستخدام للمهارات المخصصة

يمكن أن تدعم المهارات المخصصة سيناريوهات أكثر تعقيدا، مثل التعرف على النماذج، أو اكتشاف كيان مخصص باستخدام نموذج تقوم بتوفيره والتفاف حوله في واجهة ويب المهارات المخصصة. تشمل العديد من الأمثلة على المهارات المخصصة ما يلي:

خطوات الإثراء

يتكون خط أنابيب الإثراء من مفهرسين لديهم مجموعات من المهارات. تحدد مجموعة المهارات خطوات الإثراء، ويقود المفهرس مجموعة المهارات. عند تكوين مفهرس، يمكنك تضمين خصائص مثل تعيينات حقول المخرجات التي ترسل محتوى مثريا إلى فهرس بحث أو إسقاطات تحدد هياكل البيانات في مخزن المعارف.

بعد الفهرسة، يمكنك الوصول إلى المحتوى عبر طلبات البحث من خلال جميع أنواع الاستعلامات التي يدعمها Azure Cognitive Search.

الخطوة 1: مرحلة تكسير الاتصال والمستندات

تتصل المفهرسات بمصادر خارجية باستخدام المعلومات المتوفرة في مصدر بيانات المفهرس. عندما يتصل المفهرس بالمورد ، فإنه " سيكسر المستندات" لاستخراج النص والصور. يمكن توجيه محتوى الصورة إلى المهارات التي تؤدي معالجة الصور، بينما يتم وضع محتوى النص في قائمة الانتظار لمعالجة النصوص.

Document cracking phase

تقوم هذه الخطوة بتجميع كل المحتوى الأولي أو الخام الذي سيخضع الذكاء الاصطناعي التخصيب. لكل مستند، يتم إنشاء شجرة إثراء. في البداية ، الشجرة هي مجرد تمثيل عقدة الجذر ، لكنها سوف تنمو وتكتسب بنية أثناء تنفيذ مجموعة المهارات.

الخطوة 2: مرحلة إثراء مجموعة المهارات

تحدد مجموعة المهارات العمليات الذرية التي يتم تنفيذها على كل وثيقة. على سبيل المثال، بالنسبة للنصوص والصور المستخرجة من PDF، قد تطبق مجموعة المهارات التعرف على الكيان أو اكتشاف اللغة أو استخراج العبارات الرئيسية لإنتاج حقول جديدة في الفهرس الخاص بك غير متوفرة أصلا في المصدر.

Enrichment phase

يمكن أن تكون مجموعة المهارات ضئيلة أو معقدة للغاية ، ولا تحدد فقط نوع المعالجة ، ولكن أيضا ترتيب العمليات. تحتوي معظم مجموعات المهارات على حوالي ثلاث إلى خمس مهارات.

تحدد مجموعة المهارات ، بالإضافة إلى تعيينات حقل المخرجات المحددة كجزء من مفهرس ، خط أنابيب الإثراء بالكامل. لمزيد من المعلومات حول تجميع كل هذه القطع معا، راجع تعريف مجموعة مهارات.

داخليا، يولد خط الأنابيب مجموعة من الوثائق المثرية. يمكنك تحديد أجزاء المستندات المفصلة التي يجب تعيينها إلى حقول قابلة للفهرسة في فهرس البحث. على سبيل المثال، إذا قمت بتطبيق استخراج العبارة الرئيسية ومهارات التعرف على الكيان، فستصبح هذه الحقول الجديدة جزءا من المستند المخصب، ويمكن تعيينها إلى حقول في الفهرس. راجع التعليقات التوضيحية لمعرفة المزيد حول تكوينات الإدخال/الإخراج.

الخطوة 3: الفهرسة

الفهرسة هي العملية التي يتم فيها استيعاب المحتوى الخام والغني كحقول في فهرس البحث، وكإسقاطات إذا كنت تقوم أيضا بإنشاء مخزن معرفة. يمكن أن يظهر نفس المحتوى المخصب في كليهما، باستخدام تعيينات الحقول الضمنية أو الصريحة لإرسال المحتوى إلى الحقول الصحيحة.

يتم إنشاء المحتوى المخصب أثناء تنفيذ مجموعة المهارات، وهو مؤقت ما لم تقم بحفظه. لكي يظهر المحتوى المخصب في فهرس بحث، يجب أن يحتوي المفهرس على معلومات التعيين حتى يتمكن من إرسال محتوى مخصب إلى حقل في فهرس بحث. تقوم تعيينات حقول المخرجات بإعداد هذه الاقترانات.

تخزين المخرجات المخصبة

في Azure Cognitive Search، يحفظ المفهرس الإخراج الذي ينشئه.

الفهرس القابل للبحث هو أحد المخرجات التي يتم إنشاؤها دائما بواسطة مفهرس. مواصفات الفهرس هي أحد متطلبات المفهرس، وعند إرفاق مجموعة مهارات، يتم استخدام مخرجات مجموعة المهارات، بالإضافة إلى أي حقول يتم تعيينها مباشرة من المصدر، لملء الفهرس. عادة ، يتم استيعاب مخرجات مهارات محددة ، مثل العبارات الرئيسية أو درجات المشاعر ، في المؤشر في الحقول التي تم إنشاؤها لهذا الغرض.

مخزن المعرفة هو إخراج اختياري ، يستخدم للتطبيقات النهائية مثل تعدين المعرفة. يتم تعريف مخزن المعرفة ضمن مجموعة المهارات. يحدد تعريفه ما إذا كانت مستنداتك المفصلة يتم عرضها كجداول أو كائنات (ملفات أو نقاط). يوصى باستخدام الإسقاطات الجدولية للتحليل التفاعلي في أدوات مثل Power BI. عادة ما تستخدم الملفات والنقاط في علوم البيانات أو أعباء العمل المماثلة.

وأخيرا، يمكن للمفهرس تخزين المستندات المحدثة مؤقتا في Azure Blob Storage لإعادة استخدامها المحتمل في عمليات تنفيذ مجموعة المهارات اللاحقة. ذاكرة التخزين المؤقت للاستخدام الداخلي. يمكن استهلاك الإثراءات المخزنة مؤقتا بنفس مجموعة المهارات التي تعيد تشغيلها في وقت لاحق. التخزين المؤقت مفيد إذا كانت مجموعة مهاراتك تتضمن تحليل الصور أو التعرف الضوئي على الحروف ، وتريد تجنب وقت وتكلفة إعادة معالجة ملفات الصور.

الفهارس ومخازن المعرفة مستقلة تماما عن بعضها البعض. على الرغم من أنه يجب عليك إرفاق فهرس لتلبية متطلبات المفهرس، إذا كان هدفك الوحيد هو مخزن المعرفة، فيمكنك تجاهل الفهرس بعد تعبئته. تجنب حذفه على الرغم من ذلك. إذا كنت ترغب في إعادة تشغيل المفهرس ومجموعة المهارات، فستحتاج إلى الفهرس حتى يتم تشغيل المفهرس.

استهلاك المحتوى المخصب

ناتج إثراء الذكاء الاصطناعي هو إما فهرس قابل للبحث في النص بالكامل على Azure Cognitive Search، أو مخزن معارف في Azure Storage.

التحقق من المحتوى في فهرس بحث

قم بتشغيل الاستعلامات للوصول إلى المحتوى المخصب الذي تم إنشاؤه بواسطة خط الأنابيب. يشبه الفهرس أي فهرس آخر قد تنشئه ل Azure Cognitive Search: يمكنك استكمال تحليل النص باستخدام محللات مخصصة، أو استدعاء استعلامات البحث الغامضة، أو إضافة فلاتر، أو تجربة ملفات تعريف تسجيل النقاط لضبط ملاءمة البحث.

التحقق من المحتوى في مخزن المعرفة

في Azure Storage، يمكن أن يفترض مخزن المعارف الأشكال التالية: حاوية نقطية من مستندات JSON، أو حاوية نقطية من كائنات الصور، أو جداول في "تخزين الجداول". يمكنك استخدام "مستعرض التخزين" أو Power BI أو أي تطبيق يتصل ب Azure Storage للوصول إلى المحتوى الخاص بك.

  • تلتقط حاوية blob المستندات المحدثة بالكامل، وهو أمر مفيد إذا كنت تقوم بإنشاء خلاصة في عمليات أخرى.

  • يكون الجدول مفيدا إذا كنت بحاجة إلى شرائح من المستندات المخصبة، أو إذا كنت تريد تضمين أجزاء معينة من الإخراج أو استبعادها. بالنسبة للتحليل في Power BI، تعد الجداول مصدر البيانات الموصى به لاستكشاف البيانات وتصورها في Power BI.

قائمة التحقق: سير عمل نموذجي

  1. عند بدء مشروع، من المفيد العمل مع مجموعة فرعية من البيانات. تصميم المفهرس ومجموعة المهارات هو عملية تكرارية ، والعمل يسير بشكل أسرع مع مجموعة بيانات تمثيلية صغيرة.

  2. أنشئ مصدر بيانات يحدد اتصالا ببياناتك.

  3. إنشاء مجموعة مهارات لإضافة الإثراء.

  4. إنشاء مخطط فهرس يحدد فهرس بحث.

  5. قم بإنشاء مفهرس لجمع جميع المكونات المذكورة أعلاه معا. تقوم هذه الخطوة باسترداد البيانات وتشغيل مجموعة المهارات وتحميل الفهرس.

  6. قم بتشغيل الاستعلامات لتقييم النتائج وتعديل التعليمات البرمجية لتحديث مجموعات المهارات أو المخطط أو تكوين المفهرس.

لتكرار أي من الخطوات المذكورة أعلاه، قم بإعادة تعيين المفهرس قبل تشغيله. أو احذف الكائنات وأعد إنشائها في كل تشغيل (يوصى بذلك إذا كنت تستخدم الطبقة المجانية). يجب عليك أيضا تمكين التخزين المؤقت للتخصيب لإعادة استخدام الإثراءات الحالية حيثما أمكن ذلك.

الخطوات التالية