استخراج الوثائق المهارة المعرفية

تستخرج مهارة استخراج المستند المحتوى من ملف داخل خط أنابيب الإثراء. يتيح لك ذلك الاستفادة من خطوة استخراج المستند التي تحدث عادة قبل تنفيذ مجموعة المهارات مع الملفات التي قد يتم إنشاؤها بواسطة مهارات أخرى.

ملاحظة

هذه المهارة ليست ملزمة بالخدمات المعرفية وليس لها متطلبات رئيسية للخدمات المعرفية. هذه المهارة تستخرج النص والصور. استخراج النص مجاني. يتم قياس استخراج الصور بواسطة Azure Cognitive Search. في خدمة البحث المجانية ، يتم استيعاب تكلفة 20 معاملة لكل مفهرس يوميا حتى تتمكن من إكمال عمليات البدء السريع والبرامج التعليمية والمشاريع الصغيرة مجانا. بالنسبة إلى الأساسي والقياسي وما فوق، يكون استخراج الصور قابلا للفوترة.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

تنسيقات المستندات المعتمدة

يمكن ل DocumentExtractionSkill استخراج النص من تنسيقات المستندات التالية:

  • CSV (راجع فهرسة نقاط CSV)
  • يمل
  • EPUB
  • جي زد
  • HTML
  • JSON (انظر فهرسة نقاط JSON)
  • KML (XML للتمثيلات الجغرافية)
  • تنسيقات Microsoft Office: DOCX / DOC / DOCM ، XLSX / XLS / XLSM ، PPTX / PPT / PPTM ، MSG (رسائل البريد الإلكتروني Outlook) ، XML (كل من 2003 و 2006 WORD XML)
  • تنسيقات المستندات المفتوحة: ODT و ODS و ODP
  • PDF
  • ملفات النص العادي (انظر أيضا فهرسة النص العادي)
  • آر تي إف
  • XML
  • ZIP

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

الإدخالات القيم المسموح بها الوصف
parsingMode default
text
json
قم بالتعيين إلى default لاستخراج المستند من الملفات التي ليست نصا نقيا أو json. بالنسبة للملفات المصدر التي تحتوي على ترميز (مثل ملفات PDF وHTML وRTF Microsoft Office)، استخدم الإعداد الافتراضي لاستخراج النص فقط، مطروحا منه أي لغة ترميز أو علامات تمييز. إذا parsingMode لم يتم تعريفه صراحة ، تعيينه على default.

قم بالتعيين إلى text ما إذا كانت الملفات المصدر TXT. يعمل وضع التحليل هذا على تحسين الأداء على الملفات النصية العادية. إذا كانت الملفات تتضمن توصيفا، فسيحتفظ هذا الوضع بالعلامات في الإخراج النهائي.

اضبط على json استخراج المحتوى المنظم من ملفات json.
dataToExtract contentAndMetadata
allMetadata
اضبط على contentAndMetadata استخراج جميع البيانات الوصفية والمحتوى النصي من كل ملف. إذا dataToExtract لم يتم تعريفه صراحة ، تعيينه على contentAndMetadata.

اضبط على allMetadata استخراج خصائص بيانات التعريف لنوع المحتوى فقط (على سبيل المثال، بيانات التعريف الفريدة لملفات .png فقط).
configuration انظر أدناه. قاموس للمعلمات الاختيارية التي تضبط كيفية إجراء استخراج المستند. راجع الجدول أدناه للحصول على أوصاف لخصائص التكوين المدعومة.
معلمة التكوين القيم المسموح بها الوصف
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
اضبط على none تجاهل الصور المضمنة أو ملفات الصور في مجموعة البيانات، أو إذا كانت البيانات المصدر لا تتضمن ملفات الصور. هذا هو الوضع الافتراضي.

بالنسبة إلى التعرف الضوئي على الحروف وتحليل الصور، اضبط على generateNormalizedImages أن تقوم المهارة بإنشاء مجموعة من الصور العادية كجزء من تكسير المستندات. يتطلب هذا الإجراء أن parsingMode يتم تعيينه إلى ويتم dataToExtract تعيينه إلى defaultcontentAndMetadata. تشير الصورة العادية إلى معالجة إضافية تؤدي إلى إخراج صورة موحدة وحجمها وتدويرها لتعزيز العرض المتسق عند تضمين الصور في نتائج البحث المرئية (على سبيل المثال، الصور الفوتوغرافية بنفس الحجم في عنصر تحكم الرسم البياني كما هو موضح في العرض التوضيحي ل JFK). يتم إنشاء هذه المعلومات لكل صورة عند استخدام هذا الخيار.

إذا قمت بتعيينها إلى generateNormalizedImagePerPage، التعامل مع ملفات PDF بشكل مختلف من حيث أنه بدلا من استخراج الصور المضمنة ، سيتم تقديم كل صفحة كصورة وتطبيعها وفقا لذلك. سيتم التعامل مع أنواع الملفات غير PDF كما لو generateNormalizedImages تم تعيينها.
normalizedImageMaxWidth أي عدد صحيح بين 50-10000 الحد الأقصى للعرض (بالبكسل) للصور العادية التي تم إنشاؤها. الافتراضي هو 2000.
normalizedImageMaxHeight أي عدد صحيح بين 50-10000 الحد الأقصى للارتفاع (بالبكسل) للصور العادية التي تم إنشاؤها. الافتراضي هو 2000.

ملاحظة

يعتمد الإعداد الافتراضي البالغ 2000 بكسل للصور العادية على الحد الأقصى للعرض والارتفاع إلى الحد الأقصى للأحجام التي تدعمها مهارة التعرف الضوئي على الحروف ومهارة تحليل الصور. تدعم مهارة التعرف الضوئي على الحروف الحد الأقصى للعرض والارتفاع 4200 للغات غير الإنجليزية ، و 10000 للغة الإنجليزية. إذا قمت بزيادة الحدود القصوى، فقد تفشل المعالجة في الصور الأكبر حجما اعتمادا على تعريف مجموعة المهارات ولغة المستندات.

مدخلات المهارات

اسم الإدخال الوصف
file_data الملف الذي يجب استخراج المحتوى منه.

يجب أن يكون الإدخال "file_data" كائنا تم تعريفه على النحو التالي:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

بدلا من ذلك ، يمكن تعريفه على النحو التالي:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

يمكن إنشاء كائن مرجع الملف بإحدى الطرق الثلاث:

  • تعيين المعلمة allowSkillsetToReadFileData على تعريف المفهرس إلى "true". سيؤدي ذلك إلى إنشاء مسار /document/file_data يمثل كائنا يمثل بيانات الملف الأصلية التي تم تنزيلها من مصدر بيانات blob. تنطبق هذه المعلمة فقط على الملفات الموجودة في وحدة تخزين Blob.

  • تعيين المعلمة imageAction على تعريف المفهرس إلى قيمة أخرى غير none. يؤدي ذلك إلى إنشاء مجموعة من الصور التي تتبع الاتفاقية المطلوبة للإدخال إلى هذه المهارة إذا تم تمريرها بشكل فردي (أي ). /document/normalized_images/*

  • وجود مهارة مخصصة إرجاع كائن json معرف تماما كما هو موضح أعلاه. يجب تعيين المعلمة إلى بالضبط file ويجب أن تكون المعلمة هي بيانات صفيف البايت المشفرة الأساسية 64 لمحتوى الملف ، أو يجب أن تكون المعلمة url$typedata عنوان URL منسقا بشكل صحيح مع إمكانية الوصول إلى تنزيل الملف في هذا الموقع.

مخرجات المهارات

اسم الإخراج الوصف
content المحتوى النصي للوثيقة.
normalized_images عندما يتم تعيين إلى imageAction قيمة أخرى غير none، سيحتوي حقل normalized_images الجديد على مجموعة من الصور. راجع استخراج النص والمعلومات من الصور لمزيد من التفاصيل حول تنسيق الإخراج.

نموذج تعريف

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

عينة الإدخال

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

عينة الإخراج

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

راجع أيضًا