فهم عملية الفهرسة

مكتمل

تعمل عملية الفهرسة من خلال إنشاء مستند لكل كيان مُفهرس. أثناء الفهرسة، يبني مسار الإثراء بشكل مُتكرر المستندات التي تجمع بيانات التعريف من مصدر البيانات مع الحقول المثرّية التي تستخرجها المهارات المعرفية. يمكنك اعتبار كل مستند مُفهرس كبنية JSON، والتي تتكون مبدئياً من مستند يحتوي على حقول الفهرسة التي عيّنتها إلى الحقول المُستخرجة مباشرة من البيانات المصدر، مثل ما يلي:

  • المستند
    • metadata_storage_name
    • metadata_author
    • المحتوى

عندما تحتوي المستندات في مصدر البيانات على صور، يمكنك تكوين المُفهرس لاستخراج بيانات الصورة ووضع كل صورة في مجموعة normalized_images، مثل ما يلي:

  • المستند
    • metadata_storage_name
    • metadata_author
    • المحتوى
    • normalized_images
      • image0
      • image1

فيما تمكنك معايرة بيانات الصورة بهذه الطريقة من تمكين استخدام مجموعة الصور كإدخال للمهارات التي تستخرج المعلومات من بيانات الصورة.

تضيف كل مهارة حقولاً إلى المستندلذا على سبيل المثال قد تُخزّن المهارة التي تستخرج اللغة التي يُكتب بها المستند ناتجها في حقل اللغة مثل ما يلي:

  • المستند
    • metadata_storage_name
    • metadata_author
    • المحتوى
    • normalized_images
      • image0
      • image1
    • اللغة

يُنظم المستند في صورة تسلسل هرمي، وتُطبق المهارات على سياق محدد داخل التسلسل الهرمي، مما يُمكنك من تشغيل المهارة لكل عنصر عند مستوى معين في المستند. على سبيل المثال، يمكنك تشغيل مهارة التعرف البصري على الأحرف (OCR) لكل صورة في مجموعة الصورة التي تمت معايرتها لاستخراج أيّ نص تحتوي عليه:

  • المستند
    • metadata_storage_name
    • metadata_author
    • المحتوى
    • normalized_images
      • image0
        • نص
      • image1
        • نص
    • اللغة

يمكن استخدام حقول الناتج من كل مهارة كمدخلات لمهارات أخرى في وقت لاحق في المسار، والذي يُخزّن بدوره نواتجها في بنية المستند. على سبيل المثال، يمكننا استخدام مهارة الدمج لجمع محتوى النص الأصلي مع النص المُستخرج من كل صورة لإنشاء حقل merged_content جديد يحتوي على جميع النصوص الموجودة في المستند، وهذا يشمل نص الصورة.

  • المستند
    • metadata_storage_name
    • metadata_author
    • المحتوى
    • normalized_images
      • image0
        • نص
      • image1
        • نص
    • اللغة
    • merged_content

يُعيّن المُفهرس الحقول الموجودة في بنية المستند النهائي في نهاية المسار إلى حقول الفهرسة بإحدى الطريقتين:

  1. تُعيّن جميع الحقول المُستخرجة مباشرة من بيانات المصدر إلى حقول الفهرسة. قد تكون عمليات التعيين هذه ضمنية (تُعين الحقول تلقائياً إلى الحقول التي تحمل الاسم نفسه في الفهرس) أو صراحة (يُعرّف التعيين لمطابقة حقل المصدر مع حقل الفهرسة، غالباً لإعادة تسمية الحقل باسم أكثر فائدة أو لتطبيق دالة على قيمة البيانات كما عُيّنت).
  2. تُعيّن حقول الناتج من المهارات في مجموعة المهارات صراحةً من موقع مُسلسل هرمياً في الناتج إلى الحقل المستهدف في الفهرس.