معالج استيراد البيانات في Azure Cognitive Search
ينشئ معالج استيراد البيانات في مدخل Microsoft Azure كائنات متعددة تستخدم للفهرسة والإثراء الذكاء الاصطناعي على خدمة بحث. إذا كنت جديدا على Azure Cognitive Search، فهي واحدة من أقوى الميزات تحت تصرفك. بأقل جهد، يمكنك إنشاء مسار فهرسة أو إثراء يمارس معظم وظائف Azure Cognitive Search.
إذا كنت تستخدم المعالج لاختبار إثبات المفهوم، تشرح هذه المقالة العمل الداخلي للمعالج بحيث يمكنك استخدامه بشكل أكثر فعالية.
هذه المقالة ليست خطوة بخطوة. للحصول على تعليمات حول استخدام المعالج مع بيانات العينة المضمنة، راجع التشغيل السريع: إنشاء فهرس بحث أو التشغيل السريع: إنشاء ترجمة نصية ومجموعة مهارات الكيان.
بدء تشغيل المعالج
في مدخل Microsoft Azure، افتح صفحة خدمة البحث من لوحة المعلومات أو ابحث عن الخدمة في قائمة الخدمة. في صفحة نظرة عامة على الخدمة في الأعلى، انقر فوق استيراد البيانات.
يفتح المعالج موسعا بالكامل في نافذة المستعرض بحيث يكون لديك مساحة أكبر للعمل. العديد من الصفحات كثيفة جدا.
يمكنك أيضا تشغيل استيراد البيانات من خدمات Azure الأخرى، بما في ذلك Azure Cosmos DB وAzure SQL Database SQL Managed Instance وAzure Blob Storage. ابحث عن إضافة Azure Cognitive Search في جزء التنقل الأيسر في صفحة نظرة عامة على الخدمة.
الكائنات التي تم إنشاؤها بواسطة المعالج
سيخرج المعالج العناصر في الجدول التالي. بعد إنشاء الكائنات، يمكنك مراجعة تعريفات JSON الخاصة بها في المدخل أو استدعائها من التعليمات البرمجية.
| عنصر | الوصف |
|---|---|
| المُفهرس | كائن تكوين يحدد مصدر بيانات وفهرس هدف ومجموعة مهارات اختيارية وجدول زمني اختياري وإعدادات تكوين اختيارية لتسليم الخطأ وترميز base-64. |
| Data Source | استمرار معلومات الاتصال ببيانات المصدر، بما في ذلك بيانات الاعتماد. يُستخدم عنصر مصدر البيانات فقط مع المفهرسات. |
| الفهرس | بنية البيانات الفعلية المستخدمة للبحث عن النص الكامل والاستعلامات الأخرى. |
| مجموعة المهارات | اختياري. مجموعة كاملة من التعليمات لمعالجة المحتوى وتحويله وتشكيله، بما في ذلك تحليل المعلومات واستخراجها من ملفات الصور. باستثناء البُنى البسيطة والمحدودة للغاية، تتضمن هذه المجموعة الإشارة إلى مورد Cognitive Services الذي يوفر الإثراء. |
| مخزن المعارف | اختياري. يخزن الإخراج من مسار إثراء الذكاء الاصطناعي في الجداول والكائنات الثنائية كبيرة الحجم في Azure Storage للتحليل المستقل أو معالجة انتقال البيانات من الخادم. |
المزايا والقيود
قبل كتابة أي تعليمة برمجية، يمكنك استخدام المعالج للنماذج الأولية واختبار إثبات المفهوم. يتصل المعالج بمصادر البيانات الخارجية، ويعين البيانات لإنشاء فهرس أولي، ثم يستورد البيانات كمستندات JSON إلى فهرس على Azure Cognitive Search.
إذا كنت تقوم بتقييم مجموعات المهارات، فسيتعامل المعالج مع جميع تعيينات حقول الإخراج ويضيف وظائف المساعد لإنشاء كائنات قابلة للاستخدام. تتم إضافة تقسيم النص إذا قمت بتحديد وضع تحليل. تتم إضافة دمج النصوص إذا اخترت تحليل الصور بحيث يمكن للمعالج إعادة توحيد أوصاف النص مع محتوى الصورة. تمت إضافة مهارات Shaper لدعم الإسقاطات الصالحة إذا اخترت خيار مخزن المعرفة. تأتي جميع المهام المذكورة أعلاه مع منحنى تعلم. إذا كنت جديدا على الإثراء، فإن القدرة على التعامل مع هذه الخطوات من أجلك تسمح لك بقياس قيمة المهارة دون الحاجة إلى استثمار الكثير من الوقت والجهد.
أخذ العينات هو العملية التي يتم من خلالها استنتاج مخطط الفهرس، ولديه بعض القيود. عند إنشاء مصدر البيانات، يختار المعالج عينة عشوائية من المستندات لتحديد الأعمدة التي تشكل جزءا من مصدر البيانات. لا تتم قراءة جميع الملفات، حيث قد يستغرق ذلك ساعات لمصادر البيانات الكبيرة جدا. نظرا لتحديد المستندات، يتم استخدام بيانات التعريف المصدر، مثل اسم الحقل أو النوع، لإنشاء مجموعة حقول في مخطط فهرس. اعتمادا على تعقيد البيانات المصدر، قد تحتاج إلى تحرير المخطط الأولي للتأكد من دقته، أو توسيعه للاكتمال. يمكنك إجراء التغييرات المضمنة في صفحة تعريف الفهرس.
بشكل عام، تكون مزايا استخدام المعالج واضحة: طالما تم استيفاء المتطلبات، يمكنك إنشاء نموذج أولي لفهرس قابل للاستعلام في غضون دقائق. تتم معالجة بعض تعقيدات الفهرسة، مثل تسلسل البيانات كمستندات JSON، بواسطة المعالج.
المعالج ليس بدون قيود. يتم تلخيص القيود على النحو التالي:
لا يعتمد المعالج التكرار أو إعادة الاستخدام. ينشئ كل تمرير عبر المعالج فهرسا جديدا ومجموعة مهارات وتكوين مفهرس. يمكن الاستمرار في مصادر البيانات وإعادة استخدامها فقط داخل المعالج. لتحرير كائنات أخرى أو تحسينها، إما حذف الكائنات والبدء من جديد، أو استخدام واجهات برمجة تطبيقات REST أو .NET SDK لتعديل البنيات.
يجب أن يتواجد محتوى المصدر في مصدر بيانات مدعوم.
يتم أخذ العينات عبر مجموعة فرعية من بيانات المصدر. بالنسبة لمصادر البيانات الكبيرة، من الممكن أن يفوت المعالج الحقول. قد تحتاج إلى توسيع المخطط، أو تصحيح أنواع البيانات المستنتجة، إذا كان أخذ العينات غير كاف.
الذكاء الاصطناعي الإثراء، كما هو مكشوف في المدخل، يقتصر على مجموعة فرعية من المهارات المضمنة.
يقتصر مخزن المعرفة، الذي يمكن إنشاؤه بواسطة المعالج، على بعض الإسقاطات الافتراضية ويستخدم اصطلاح تسمية افتراضي. إذا كنت ترغب في تخصيص الأسماء أو الإسقاطات، فستحتاج إلى إنشاء مخزن المعارف من خلال REST API أو SDKs.
يجب تمكين الوصول العام إلى جميع الشبكات على مصدر البيانات المدعوم أثناء استخدام المعالج، حيث لن يتمكن المدخل من الوصول إلى مصدر البيانات أثناء الإعداد إذا تم تعطيل الوصول العام. وهذا يعني أنه إذا تم تمكين جدار حماية لمصدر البيانات الخاص بك، فيجب عليك تعطيله، وتشغيل معالج استيراد البيانات ثم تمكينه بعد اكتمال إعداد المعالج. إذا لم يكن هذا خيارا، يمكنك إنشاء مصدر بيانات Azure Cognitive Search والمفهرس ومجموعة المهارات والفهرس من خلال REST API أو SDKs.
سير العمل
يتم تنظيم المعالج في أربع خطوات رئيسية:
الاتصال إلى مصدر بيانات Azure مدعوم.
إنشاء مخطط فهرس، يتم الاستدلال عليه بواسطة بيانات مصدر أخذ العينات.
اختياريا، أضف الذكاء الاصطناعي الإثراء لاستخراج المحتوى والبنية أو إنشاؤها. يتم تجميع مدخلات إنشاء مخزن معارف في هذه الخطوة.
قم بتشغيل المعالج لإنشاء كائنات وتحميل البيانات وتعيين جدول زمني وخيارات تكوين أخرى.
تكوين مصدر البيانات في المعالج
يتصل معالج استيراد البياناتبمصدر بيانات مدعوم خارجي باستخدام المنطق الداخلي الذي توفره مفهرسات Azure Cognitive Search، والمجهزة لعينة المصدر، وقراءة بيانات التعريف، وكسر المستندات لقراءة المحتوى والبنية، وتسلسل المحتويات ك JSON للاستيراد اللاحق إلى Azure Cognitive Search.
لا يتم ضمان توفر جميع مصادر بيانات المعاينة في المعالج. نظرا لأن كل مصدر بيانات لديه إمكانية إدخال تغييرات أخرى في المراحل النهائية، فلن تتم إضافة مصدر بيانات المعاينة إلا إلى قائمة مصادر البيانات إذا كان يدعم بالكامل جميع التجارب في المعالج، مثل تعريف مجموعة المهارات واستدلال مخطط الفهرس.
يمكنك الاستيراد فقط من جدول واحد أو طريقة عرض قاعدة بيانات أو بنية بيانات مكافئة، ولكن يمكن أن تتضمن البنية بنى فرعية هرمية أو متداخلة. لمزيد من المعلومات، راجع كيفية نمذجة الأنواع المعقدة.
تكوين مجموعة المهارات في المعالج
يحدث تكوين مجموعة المهارات بعد تعريف مصدر البيانات لأن نوع مصدر البيانات سيعلم توفر بعض المهارات المضمنة. على وجه الخصوص، إذا كنت تقوم بفهرسة الملفات من Blob Storage، فإن اختيارك لوضع تحليل هذه الملفات سيحدد ما إذا كان تحليل التوجه متوفرا أم لا.
سيضيف المعالج المهارات التي تختارها، ولكنه سيضيف أيضا مهارات أخرى ضرورية لتحقيق نتيجة ناجحة. على سبيل المثال، إذا قمت بتحديد مخزن معارف، يضيف المعالج مهارة Shaper لدعم الإسقاطات (أو بنيات البيانات المادية).
تعد مجموعات المهارات اختيارية وهناك زر في أسفل الصفحة للتخطي للأمام إذا كنت لا تريد إثراء الذكاء الاصطناعي.
تكوين مخطط الفهرس في المعالج
يقوم المعالج بنماذج مصدر البيانات للكشف عن الحقول ونوع الحقل. اعتمادا على مصدر البيانات، قد يوفر أيضا حقولا لفهرسة بيانات التعريف.
نظرا لأن أخذ العينات هو تمرين غير دقيقة، راجع الفهرس للحصول على الاعتبارات التالية:
هل قائمة الحقول دقيقة؟ إذا كان مصدر البيانات يحتوي على حقول لم يتم التقاطها في أخذ العينات، يمكنك إضافة أي حقول جديدة لم يتم أخذ العينات لها يدويا، وإزالة أي حقول لا تضيف قيمة إلى تجربة بحث أو التي لن يتم استخدامها في تعبير عامل تصفية أو ملف تعريف تسجيل النقاط.
هل نوع البيانات مناسب للبيانات الواردة؟ يدعم Azure Cognitive Search أنواع بيانات نموذج بيانات الكيان (EDM). بالنسبة إلى بيانات Azure SQL، هناك مخطط تعيين يحدد القيم المكافئة. لمزيد من المعلومات الأساسية، راجع تعيينات الحقول والتحويلات.
هل لديك حقل واحد يمكن أن يكون بمثابة المفتاح؟ يجب أن يكون هذا الحقل Edm.string ويجب أن يحدد مستندا بشكل فريد. بالنسبة للبيانات الارتباطية، قد يتم تعيينها إلى مفتاح أساسي. بالنسبة للكائنات الثنائية
metadata-storage-pathكبيرة الحجم، قد يكون . إذا كانت قيم الحقول تتضمن مسافات أو شرط، فيجب عليك تعيين الخيار Base-64 Encode Key في الخطوة إنشاء مفهرس ، ضمن خيارات متقدمة، لمنع التحقق من صحة هذه الأحرف.تعيين السمات لتحديد كيفية استخدام هذا الحقل في فهرس.
خذ وقتك في هذه الخطوة لأن السمات تحدد التعبير الفعلي للحالحقول في الفهرس. إذا كنت ترغب في تغيير السمات لاحقا، حتى برمجيا، فستحتاج دائما تقريبا إلى إسقاط الفهرس وإعادة بنائه. السمات الأساسية مثل Searchable و Retrievable لها تأثير ضئيل على التخزين. يؤدي تمكين عوامل التصفية واستخدام المقترحات إلى زيادة متطلبات التخزين.
يمكن Searchable البحث في النص الكامل. يجب أن يكون لكل حقل مستخدم في استعلامات النموذج الحر أو في تعبيرات الاستعلام هذه السمة. يتم إنشاء الفهارس المقلوبة لكل حقل تقوم بوضع علامة عليه على أنه قابل للبحث.
ترجع القابلة للاسترداد الحقل في نتائج البحث. يجب أن يكون لكل حقل يوفر محتوى لنتائج البحث هذه السمة. تعيين هذا الحقل لا يؤثر بشكل ملحوظ على حجم الفهرس.
يسمح القابل للتصفية بالإشارة إلى الحقل في تعبيرات التصفية. يجب أن يحتوي كل حقل مستخدم في تعبير $filter على هذه السمة. تعبيرات عامل التصفية مخصصة للتطابقات الدقيقة. نظرا لأن السلاسل النصية تظل سليمة، يلزم المزيد من التخزين لاستيعاب المحتوى الحرفي.
يتيح Facetable الحقل للتنقل بين الواجهات. يمكن وضع علامة على الحقول التي تم وضع علامة عليها أيضا على أنها قابلة للتصفية ك Facetable فقط.
يسمح Sortable باستخدام الحقل في فرز. يجب أن يحتوي كل حقل مستخدم في تعبير $Orderby على هذه السمة.
هل تحتاج إلى تحليل معجمي؟ بالنسبة لحقول Edm.string القابلة للبحث، يمكنك تعيين محلل إذا كنت تريد الفهرسة والاستعلام المحسنين للغة.
الإعداد الافتراضي هو Standard Lucene ولكن يمكنك اختيار Microsoft English إذا كنت تريد استخدام محلل Microsoft للمعالجة المعجمية المتقدمة، مثل حل نماذج الأسماء والفعل غير المنتظمة. يمكن تحديد محللات اللغة فقط في المدخل. يجب أن يتم استخدام محلل مخصص أو محلل غير لغة مثل الكلمة الأساسية والنمط وما إلى ذلك برمجيا. لمزيد من المعلومات حول المحللات، راجع إضافة محللات اللغة.
هل تحتاج إلى وظيفة typeahead في شكل الإكمال التلقائي أو النتائج المقترحة؟ حدد خانة الاختيار Suggester لتمكين اقتراحات استعلام typeahead والإكمال التلقائي في الحقول المحددة. يضيف المقترحون إلى عدد المصطلحات المميزة في الفهرس الخاص بك، وبالتالي يستهلكون المزيد من التخزين.
تكوين المفهرس في المعالج
تجمع الصفحة الأخيرة من المعالج مدخلات المستخدم لتكوين المفهرس. يمكنك تحديد جدول وتعيين خيارات أخرى تختلف حسب نوع مصدر البيانات.
داخليا، يقوم المعالج أيضا بإعداد ما يلي، والذي لا يكون مرئيا في المفهرس حتى بعد إنشائه:
- تعيينات الحقول بين مصدر البيانات والفهرس
- تعيينات حقل الإخراج بين إخراج المهارة والفهرس
الخطوات التالية
أفضل طريقة لفهم فوائد وقيود المعالج هي التنقل عبره. سيرشدك التشغيل السريع التالي خلال كل خطوة.