استخراج الوثائق المهارة المعرفية
تستخرج مهارة استخراج المستند المحتوى من ملف داخل خط أنابيب الإثراء. يتيح لك ذلك الاستفادة من خطوة استخراج المستند التي تحدث عادة قبل تنفيذ مجموعة المهارات مع الملفات التي قد يتم إنشاؤها بواسطة مهارات أخرى.
ملاحظة
هذه المهارة ليست ملزمة بالخدمات المعرفية وليس لها متطلبات رئيسية للخدمات المعرفية. هذه المهارة تستخرج النص والصور. استخراج النص مجاني. يتم قياس استخراج الصور بواسطة Azure Cognitive Search. في خدمة البحث المجانية ، يتم استيعاب تكلفة 20 معاملة لكل مفهرس يوميا حتى تتمكن من إكمال عمليات البدء السريع والبرامج التعليمية والمشاريع الصغيرة مجانا. بالنسبة إلى الأساسي والقياسي وما فوق، يكون استخراج الصور قابلا للفوترة.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
تنسيقات المستندات المعتمدة
يمكن ل DocumentExtractionSkill استخراج النص من تنسيقات المستندات التالية:
- CSV (راجع فهرسة نقاط CSV)
- يمل
- EPUB
- جي زد
- HTML
- JSON (انظر فهرسة نقاط JSON)
- KML (XML للتمثيلات الجغرافية)
- تنسيقات Microsoft Office: DOCX / DOC / DOCM ، XLSX / XLS / XLSM ، PPTX / PPT / PPTM ، MSG (رسائل البريد الإلكتروني Outlook) ، XML (كل من 2003 و 2006 WORD XML)
- تنسيقات المستندات المفتوحة: ODT و ODS و ODP
- ملفات النص العادي (انظر أيضا فهرسة النص العادي)
- آر تي إف
- XML
- ZIP
معلمات المهارة
المعلمات حساسة لحالة الأحرف.
| الإدخالات | القيم المسموح بها | الوصف |
|---|---|---|
parsingMode |
default text json |
قم بالتعيين إلى default لاستخراج المستند من الملفات التي ليست نصا نقيا أو json. بالنسبة للملفات المصدر التي تحتوي على ترميز (مثل ملفات PDF وHTML وRTF Microsoft Office)، استخدم الإعداد الافتراضي لاستخراج النص فقط، مطروحا منه أي لغة ترميز أو علامات تمييز. إذا parsingMode لم يتم تعريفه صراحة ، تعيينه على default. قم بالتعيين إلى text ما إذا كانت الملفات المصدر TXT. يعمل وضع التحليل هذا على تحسين الأداء على الملفات النصية العادية. إذا كانت الملفات تتضمن توصيفا، فسيحتفظ هذا الوضع بالعلامات في الإخراج النهائي. اضبط على json استخراج المحتوى المنظم من ملفات json. |
dataToExtract |
contentAndMetadata allMetadata |
اضبط على contentAndMetadata استخراج جميع البيانات الوصفية والمحتوى النصي من كل ملف. إذا dataToExtract لم يتم تعريفه صراحة ، تعيينه على contentAndMetadata. اضبط على allMetadata استخراج خصائص بيانات التعريف لنوع المحتوى فقط (على سبيل المثال، بيانات التعريف الفريدة لملفات .png فقط). |
configuration |
انظر أدناه. | قاموس للمعلمات الاختيارية التي تضبط كيفية إجراء استخراج المستند. راجع الجدول أدناه للحصول على أوصاف لخصائص التكوين المدعومة. |
| معلمة التكوين | القيم المسموح بها | الوصف |
|---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
اضبط على none تجاهل الصور المضمنة أو ملفات الصور في مجموعة البيانات، أو إذا كانت البيانات المصدر لا تتضمن ملفات الصور. هذا هو الوضع الافتراضي. بالنسبة إلى التعرف الضوئي على الحروف وتحليل الصور، اضبط على generateNormalizedImages أن تقوم المهارة بإنشاء مجموعة من الصور العادية كجزء من تكسير المستندات. يتطلب هذا الإجراء أن parsingMode يتم تعيينه إلى ويتم dataToExtract تعيينه إلى defaultcontentAndMetadata. تشير الصورة العادية إلى معالجة إضافية تؤدي إلى إخراج صورة موحدة وحجمها وتدويرها لتعزيز العرض المتسق عند تضمين الصور في نتائج البحث المرئية (على سبيل المثال، الصور الفوتوغرافية بنفس الحجم في عنصر تحكم الرسم البياني كما هو موضح في العرض التوضيحي ل JFK). يتم إنشاء هذه المعلومات لكل صورة عند استخدام هذا الخيار. إذا قمت بتعيينها إلى generateNormalizedImagePerPage، التعامل مع ملفات PDF بشكل مختلف من حيث أنه بدلا من استخراج الصور المضمنة ، سيتم تقديم كل صفحة كصورة وتطبيعها وفقا لذلك. سيتم التعامل مع أنواع الملفات غير PDF كما لو generateNormalizedImages تم تعيينها. |
normalizedImageMaxWidth |
أي عدد صحيح بين 50-10000 | الحد الأقصى للعرض (بالبكسل) للصور العادية التي تم إنشاؤها. الافتراضي هو 2000. |
normalizedImageMaxHeight |
أي عدد صحيح بين 50-10000 | الحد الأقصى للارتفاع (بالبكسل) للصور العادية التي تم إنشاؤها. الافتراضي هو 2000. |
ملاحظة
يعتمد الإعداد الافتراضي البالغ 2000 بكسل للصور العادية على الحد الأقصى للعرض والارتفاع إلى الحد الأقصى للأحجام التي تدعمها مهارة التعرف الضوئي على الحروف ومهارة تحليل الصور. تدعم مهارة التعرف الضوئي على الحروف الحد الأقصى للعرض والارتفاع 4200 للغات غير الإنجليزية ، و 10000 للغة الإنجليزية. إذا قمت بزيادة الحدود القصوى، فقد تفشل المعالجة في الصور الأكبر حجما اعتمادا على تعريف مجموعة المهارات ولغة المستندات.
مدخلات المهارات
| اسم الإدخال | الوصف |
|---|---|
file_data |
الملف الذي يجب استخراج المحتوى منه. |
يجب أن يكون الإدخال "file_data" كائنا تم تعريفه على النحو التالي:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
بدلا من ذلك ، يمكن تعريفه على النحو التالي:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
يمكن إنشاء كائن مرجع الملف بإحدى الطرق الثلاث:
تعيين المعلمة
allowSkillsetToReadFileDataعلى تعريف المفهرس إلى "true". سيؤدي ذلك إلى إنشاء مسار/document/file_dataيمثل كائنا يمثل بيانات الملف الأصلية التي تم تنزيلها من مصدر بيانات blob. تنطبق هذه المعلمة فقط على الملفات الموجودة في وحدة تخزين Blob.تعيين المعلمة
imageActionعلى تعريف المفهرس إلى قيمة أخرى غيرnone. يؤدي ذلك إلى إنشاء مجموعة من الصور التي تتبع الاتفاقية المطلوبة للإدخال إلى هذه المهارة إذا تم تمريرها بشكل فردي (أي )./document/normalized_images/*وجود مهارة مخصصة إرجاع كائن json معرف تماما كما هو موضح أعلاه. يجب تعيين المعلمة إلى بالضبط
fileويجب أن تكون المعلمة هي بيانات صفيف البايت المشفرة الأساسية 64 لمحتوى الملف ، أو يجب أن تكون المعلمةurl$typedataعنوان URL منسقا بشكل صحيح مع إمكانية الوصول إلى تنزيل الملف في هذا الموقع.
مخرجات المهارات
| اسم الإخراج | الوصف |
|---|---|
content |
المحتوى النصي للوثيقة. |
normalized_images |
عندما يتم تعيين إلى imageAction قيمة أخرى غير none، سيحتوي حقل normalized_images الجديد على مجموعة من الصور. راجع استخراج النص والمعلومات من الصور لمزيد من التفاصيل حول تنسيق الإخراج. |
نموذج تعريف
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
عينة الإدخال
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
عينة الإخراج
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}