المهارة المعرفية OCR
تتعرف مهارة التعرف الضوئي على الأحرف (OCR) على النصوص المطبوعة والمكتوبة بخط اليد في ملفات الصور. تستخدم هذه المهارة نماذج التعلم الآلي التي توفرها واجهة برمجة تطبيقات رؤية الكمبيوترv3.0 في الخدمات المعرفية. يتم تعيين مهارة التعرف الضوئي على الحروف إلى الوظائف التالية:
- بالنسبة إلى الإنجليزية والإسبانية والألمانية والفرنسية والإيطالية والبرتغالية والهولندية ، يتم استخدام واجهة برمجة التطبيقات " قراءة" الجديدة.
- بالنسبة لجميع اللغات الأخرى، يتم استخدام واجهة برمجة تطبيقات OCR القديمة .
تستخرج مهارة التعرف الضوئي على الحروف النص من ملفات الصور. تتضمن تنسيقات الملفات المدعومة ما يلي:
- . جي بي جي
- .JPG
- .PNG
- .BMP
- .GIF
- . تيفي
ملاحظة
ترتبط هذه المهارة بالخدمات المعرفية وتتطلب موردا قابلا للفوترة للمعاملات التي تتجاوز 20 مستندا لكل مفهرس يوميا. يتم فرض رسوم على تنفيذ المهارات المضمنة بسعر الخدمات المعرفية الحالي للدفع أولا بأول.
بالإضافة إلى ذلك، يمكن فوترة استخراج الصور بواسطة Azure Cognitive Search.
معلمات المهارة
المعلمات حساسة لحالة الأحرف.
| اسم المعلمة | الوصف |
|---|---|
detectOrientation |
تمكين الكشف التلقائي عن اتجاه الصورة. القيم الصالحة: صواب / خطأ. |
defaultLanguageCode |
رمز اللغة لنص الإدخال. تتضمن اللغات المدعومة: |
lineEnding |
القيمة المطلوب استخدامها بين كل سطر مكتشف. القيم المحتملة: "الفضاء" ، "CarriageReturn" ، "LineFeed". الافتراضي هو "الفضاء". |
في السابق ، كانت هناك معلمة تسمى "textExtractionAlgorithm" لتحديد ما إذا كان يجب على المهارة استخراج نص "مطبوع" أو "مكتوب بخط اليد". تم إهمال هذه المعلمة ولم تعد ضرورية لأن أحدث خوارزمية لقراءة API قادرة على استخراج كلا النوعين من النصوص في وقت واحد. إذا كان تعريف مهارتك يتضمن بالفعل هذه المعلمة ، فلن تحتاج إلى إزالتها ، ولكن لن يتم استخدامها بعد الآن وسيتم استخراج كلا النوعين من النص من الآن فصاعدا بغض النظر عما تم تعيينه عليه.
مدخلات المهارات
| اسم الإدخال | الوصف |
|---|---|
image |
نوع معقد. يعمل حاليا فقط مع الحقل "/document/normalized_images" ، الذي ينتجه مفهرس Azure Blob عند imageAction تعيينه إلى قيمة أخرى غير none. راجع العينة لمزيد من المعلومات. |
مخرجات المهارات
| اسم الإخراج | الوصف |
|---|---|
text |
نص عادي مستخرج من الصورة. |
layoutText |
نوع معقد يصف النص المستخرج والموقع الذي تم العثور فيه على النص. |
نموذج تعريف
{
"skills": [
{
"description": "Extracts text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": null,
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text",
"targetName": "myText"
},
{
"name": "layoutText",
"targetName": "myLayoutText"
}
]
}
]
}
نموذج النص والتخطيطإخراج النص
{
"text": "Hello World. -John",
"layoutText":
{
"language" : "en",
"text" : "Hello World. -John",
"lines" : [
{
"boundingBox":
[ {"x":10, "y":10}, {"x":50, "y":10}, {"x":50, "y":30},{"x":10, "y":30}],
"text":"Hello World."
},
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"-John"
}
],
"words": [
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"Hello"
},
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"World."
},
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"-John"
}
]
}
}
عينة: دمج النص المستخرج من الصور المضمنة مع محتوى المستند.
حالة الاستخدام الشائعة لدمج النص هي القدرة على دمج التمثيل النصي للصور (نص من مهارة التعرف الضوئي على الحروف ، أو التسمية التوضيحية للصورة) في حقل محتوى المستند.
يقوم المثال التالي مجموعة المهارات بإنشاء حقل merged_text . يحتوي هذا الحقل على المحتوى النصي للمستند والنص المسجل بالتعرف الضوئي على الحروف من كل صورة من الصور المضمنة في هذا المستند.
طلب بناء جملة النص الأساسي
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
يفترض مثال مجموعة المهارات أعلاه وجود حقل صور طبيعية. لإنشاء هذا الحقل، قم بتعيين تكوين imageAction في تعريف المفهرس الخاص بك لإنشاء NormalizedImages كما هو موضح أدناه:
{
//...rest of your indexer definition goes here ...
"parameters": {
"configuration": {
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}