تمكين التخزين المؤقت للإثراء التدريجي في البحث المعرفي في Azure

هام

هذه الميزة في المعاينة العامة بموجب شروط الاستخدام التكميلية. تدعم واجهة برمجة تطبيقات REST للمعاينة هذه الميزة

توضح هذه المقالة كيفية إضافة التخزين المؤقت إلى خط أنابيب إثراء بحيث يمكنك تعديل خطوات التخصيب النهائية دون الحاجة إلى إعادة الإنشاء بالكامل في كل مرة. بشكل افتراضي ، تكون مجموعة المهارات عديمة الجنسية ، ويتطلب تغيير أي جزء من تكوينها إعادة تشغيل كاملة للمفهرس. باستخدام الإثراء التدريجي، يمكن للمفهرس تحديد أجزاء شجرة المستندات التي يجب تحديثها استنادا إلى التغييرات المكتشفة في تعريفات مجموعة المهارات أو المفهرس. يتم الحفاظ على المخرجات المعالجة الحالية وإعادة استخدامها كلما أمكن ذلك.

يتم وضع المحتوى المخزن مؤقتا في Azure Storage باستخدام معلومات الحساب التي تقدمها. يتم إنشاء الحاوية، المسماة ms-az-search-indexercache-<alpha-numerc-string>، عند تشغيل المفهرس. يجب اعتباره مكونا داخليا تديره خدمة البحث الخاصة بك ويجب عدم تعديله.

إذا لم تكن معتادا على إعداد المفهرسات، فابدأ بنظرة عامة على المفهرس ثم تابع إلى مجموعات المهارات للتعرف على خطوط أنابيب الإثراء. لمزيد من المعلومات الأساسية حول المفاهيم الرئيسية، انظر الإثراء التدريجي.

المتطلبات الأساسية

يستخدم Azure Storage لتخزين الإثراءات المخزنة مؤقتا. يجب أن يكون حساب التخزين للأغراض العامة v2.

يلزم توفر واجهات برمجة تطبيقات المعاينة أو مجموعات تطوير البرامج Azure التجريبية لتمكين ذاكرة التخزين المؤقت على مفهرس. لا توفر البوابة الإلكترونية حاليا خيارا لإثراء التخزين المؤقت.

تمكين على المفهرسات الجديدة

في المفهرسات الجديدة، أضف الخاصية "ذاكرة التخزين المؤقت" في حمولة تعريف المفهرس عند استدعاء إنشاء مفهرس أو تحديثه (2021-04-30-معاينة)". يمكنك أيضا استخدام إصدار واجهة برمجة تطبيقات المعاينة السابق ، 2020-06-30-Preview.

POST https://[service name].search.windows.net/indexers?api-version=2021-04-30-Preview
    {
        "name": "<YOUR-INDEXER-NAME>",
        "targetIndexName": "<YOUR-INDEX-NAME>",
        "dataSourceName": "<YOUR-DATASOURCE-NAME>",
        "skillsetName": "<YOUR-SKILLSET-NAME>",
        "cache" : {
            "storageConnectionString" : "<YOUR-STORAGE-ACCOUNT-CONNECTION-STRING>",
            "enableReprocessing": true
        },
        "fieldMappings" : [],
        "outputFieldMappings": [],
        "parameters": []
        }
    }

تمكين على المفهرسات الموجودة

بالنسبة للمفهرسين الموجودين الذين لديهم مجموعة مهارات بالفعل، اتبع الخطوات التالية لإضافة التخزين المؤقت. كعملية لمرة واحدة، أعد تعيين المفهرس وأعد تشغيله بالكامل لتحميل ذاكرة التخزين المؤقت.

الخطوة 1: الحصول على تعريف المفهرس

ابدأ بمفهرس عمل صالح يحتوي على هذه المكونات: مصدر البيانات ومجموعة المهارات والفهرس. باستخدام عميل API، أرسل طلب مفهرس GET لاسترداد المفهرس . عند استخدام إصدار واجهة برمجة تطبيقات المعاينة إلى GET the indexer، تتم إضافة خاصية "ذاكرة التخزين المؤقت" التي تم تعيينها إلى null إلى التعريف تلقائيا.

GET https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]?api-version=2021-04-30-Preview
    Content-Type: application/json
    api-key: [YOUR-ADMIN-KEY]

الخطوة 2: تعيين خاصية ذاكرة التخزين المؤقت

في تعريف الفهرس، قم بتعديل "ذاكرة التخزين المؤقت" لتضمين الخصائص المطلوبة والاختيارية التالية:

  • (مطلوب) storageConnectionString يجب تعيينه إلى سلسلة اتصال تخزين Azure.
  • (اختياري) enableReprocessing تشير الخاصية المنطقيةtrue (بشكل افتراضي) إلى تمكين التخصيب التدريجي. قم بالتعيين إلى ما إذا كنت تريد تعليق المعالجة التزايدية أثناء إجراء عمليات أخرى كثيفة الاستخدام للموارد، مثل فهرسة المستندات الجديدة، ثم قم بالتبديل مرة أخرى إلى falsetrue وقت لاحق.
POST https://[service name].search.windows.net/indexers?api-version=2021-04-30-Preview
    {
        "name": "<YOUR-INDEXER-NAME>",
        "targetIndexName": "<YOUR-INDEX-NAME>",
        "dataSourceName": "<YOUR-DATASOURCE-NAME>",
        "skillsetName": "<YOUR-SKILLSET-NAME>",
        "cache" : {
            "storageConnectionString" : "<YOUR-STORAGE-ACCOUNT-CONNECTION-STRING>",
            "enableReprocessing": true
        },
        "fieldMappings" : [],
        "outputFieldMappings": [],
        "parameters": []
    }

الخطوة 3: إعادة تعيين المفهرس

يلزم إعادة تعيين المفهرس عند إعداد الإثراء التدريجي للمفهرسات الموجودة لضمان أن تكون جميع المستندات في حالة متناسقة. يمكنك استخدام البوابة الإلكترونية أو عميل واجهة برمجة التطبيقات لهذه المهمة.

POST https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]/reset?api-version=2021-04-30-Preview
    Content-Type: application/json
    api-key: [YOUR-ADMIN-KEY]

الخطوة 4: حفظ المفهرس

تحديث المفهرس (2021-04-30-معاينة) مع طلب PUT ، حيث يتضمن نص الطلب "ذاكرة التخزين المؤقت".

PUT https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]?api-version=2021-04-30-Preview
    Content-Type: application/json
    api-key: [YOUR-ADMIN-KEY]
    {
        "name" : "<YOUR-INDEXER-NAME>",
        ...
        "cache": {
            "storageConnectionString": "<YOUR-STORAGE-ACCOUNT-CONNECTION-STRING>",
            "enableReprocessing": true
        }
    }

إذا قمت الآن بإصدار طلب GET آخر على المفهرس، فستتضمن الاستجابة من الخدمة خاصية ID في كائن ذاكرة التخزين المؤقت. يتم إلحاق السلسلة الأبجدية الرقمية باسم الحاوية التي تحتوي على جميع النتائج المخزنة مؤقتا والحالة الوسيطة لكل مستند تتم معالجته بواسطة هذا المفهرس. سيتم استخدام المعرف لتسمية ذاكرة التخزين المؤقت بشكل فريد في تخزين Blob.

    "cache": {
        "ID": "<ALPHA-NUMERIC STRING>",
        "enableReprocessing": true,
        "storageConnectionString": "DefaultEndpointsProtocol=https;AccountName=<YOUR-STORAGE-ACCOUNT>;AccountKey=<YOUR-STORAGE-KEY>;EndpointSuffix=core.windows.net"
    }

الخطوة 5: تشغيل المفهرس

لتشغيل المفهرس، يمكنك استخدام البوابة الإلكترونية أو واجهة برمجة التطبيقات. في البوابة الإلكترونية، من قائمة المفهرسين، حدد المفهرس وانقر فوق تشغيل. تتمثل إحدى مزايا استخدام البوابة الإلكترونية في أنه يمكنك مراقبة حالة المفهرس وملاحظة مدة المهمة وعدد المستندات التي تتم معالجتها. يتم تحديث صفحات البوابة الإلكترونية كل بضع دقائق.

بدلا من ذلك، يمكنك استخدام REST لتشغيل المفهرس:

POST https://[YOUR-SEARCH-SERVICE].search.windows.net/indexers/[YOUR-INDEXER-NAME]/run?api-version=2020-06-30-Preview
Content-Type: application/json
api-key: [YOUR-ADMIN-KEY]

ملاحظة

تؤدي إعادة تعيين المفهرس وإعادة تشغيله إلى إعادة إنشاء كاملة بحيث يمكن تخزين المحتوى مؤقتا. سيتم إعادة تشغيل جميع الإثراءات المعرفية على جميع المستندات. تبدأ إعادة استخدام المحتوى المخصب من ذاكرة التخزين المؤقت بعد تحميل ذاكرة التخزين المؤقت.

التحقق من الإخراج المخزن مؤقتا

ابحث عن ذاكرة التخزين المؤقت في Azure Storage، ضمن حاوية Blob. سيكون ms-az-search-indexercache-<some-alphanumeric-string>اسم الحاوية .

يتم إنشاء ذاكرة تخزين مؤقت واستخدامها بواسطة مفهرس. محتواه غير قابل للقراءة البشرية.

للتحقق مما إذا كانت ذاكرة التخزين المؤقت قيد التشغيل، قم بتعديل مجموعة مهارات وتشغيل المفهرس، ثم قارن بين المقاييس قبل وبعد وقت التنفيذ وعدد المستندات.

مجموعات المهارات التي تتضمن تحليل الصور والتعرف الضوئي على الأحرف (OCR) للمستندات الممسوحة ضوئيا تجعل حالات الاختبار جيدة. إذا قمت بتعديل مهارة نص في المراحل النهائية أو أي مهارة غير مرتبطة بالصورة، فيمكن للمفهرس استرداد كل محتوى الصور والتعرف الضوئي على الحروف الذي تمت معالجته مسبقا من ذاكرة التخزين المؤقت، وتحديث ومعالجة التغييرات المتعلقة بالنص التي تشير إليها عمليات التحرير فقط. يمكنك توقع رؤية عدد أقل من المستندات في عدد مستندات تنفيذ المفهرس وأوقات تنفيذ أقصر ورسوم أقل على فاتورتك.

تعد مجموعة الملفات المستخدمة في البرامج التعليمية التجريبية للبحث عن ترس حالة اختبار مفيدة لأنها تحتوي على 14 ملفا بتنسيقات مختلفة JPG ، PNG ، HTML ، DOCX ، PPTX ، وأنواع أخرى. التغيير en إلى es لغة أخرى أو لغة أخرى في مهارة ترجمة النص لاختبار إثبات المفهوم للإثراء التدريجي.

الأخطاء الشائعة

يحدث الخطأ التالي إذا نسيت تحديد إصدار واجهة برمجة تطبيقات معاينة عند الطلب:

"The request is invalid. Details: indexer : A resource without a type name was found, but no expected type was specified. To allow entries without type information, the expected type must also be specified when the model is specified."

سيحدث أيضا خطأ طلب غير صحيح 400 إذا كنت تفتقد أحد متطلبات المفهرس. ستحدد رسالة الخطأ أي تبعيات مفقودة.

الخطوات التالية

وينطبق الإثراء التدريجي على المفهرسات التي تحتوي على مجموعات من المهارات، مما يوفر محتوى قابلا لإعادة الاستخدام لكل من الفهارس ومخازن المعرفة. توفر الروابط التالية مزيدا من المعلومات حول التخزين المؤقت ومجموعات المهارات.