نماذج Form Recognizer
تمكنك نماذج Azure Form Recognizer المعدة مسبقا من إضافة معالجة ذكية للمستندات إلى تطبيقاتك وتدفقاتك دون الحاجة إلى تدريب النماذج الخاصة بك وإنشائها. تستخدم النماذج المعدة مسبقا التعرف الضوئي على الأحرف (OCR) جنبا إلى جنب مع نماذج التعلم العميق لتحديد واستخراج حقول النص والبيانات المحددة مسبقا الشائعة في أنواع معينة من النماذج والمستندات. يقوم أداة التعرف على النموذج باستخراج بيانات النموذج والمستند ثم إرجاع استجابة JSON منظمة ومنظمة. يدعم نموذج التعرف على الإصدار 2.1 نماذج الفواتير والإيصالات ووثائق الهوية وبطاقات العمل.
نظرة عامة على النموذج
| النموذج | الوصف |
|---|---|
| تحليل الوثائق | |
| 🆕قراءة (معاينة) | استخراج خطوط النص المطبوعة والمكتوبة بخط اليد والكلمات والمواقع واللغات المكتشفة. |
| 🆕وثيقة عامة (معاينة) | استخراج النص والجداول والبنية وأزواج القيم الرئيسية والكيانات المسماة. |
| Layout | استخراج معلومات النص والتخطيط من المستندات. |
| منشأ مسبقًا | |
| 🆕W-2 (معاينة) | استخراج الموظف وصاحب العمل ومعلومات الأجور وما إلى ذلك من نماذج W-2 الأمريكية. |
| الفاتورة | استخراج المعلومات الرئيسية من الفواتير الإنجليزية والإسبانية. |
| إيصال | استخراج المعلومات الرئيسية من الإيصالات باللغة الإنجليزية. |
| مستند المعرف | استخراج المعلومات الرئيسية من رخص القيادة الأمريكية وجوازات السفر الدولية. |
| بطاقة العمل | استخراج المعلومات الأساسية من بطاقات العمل الإنجليزية. |
| مخصص | |
| مخصص | استخراج البيانات من النماذج والمستندات الخاصة بعملك. يتم تدريب النماذج المخصصة على بياناتك المميزة وحالات الاستخدام. |
| تتالف | أنشئ مجموعة من النماذج المخصصة وقم بتعيينها إلى نموذج واحد تم إنشاؤه من أنواع النماذج الخاصة بك. |
قراءة (معاينة)
تقوم واجهة برمجة تطبيقات القراءة بتحليل واستخراج الخطوط والكلمات ومواقعها واللغات المكتشفة والنمط المكتوب بخط اليد إذا تم اكتشافها.
نموذج مستند تمت معالجته باستخدام استوديو التعرف على النماذج:
W-2 (معاينة)
يقوم نموذج W-2 بتحليل واستخراج المعلومات الرئيسية المبلغ عنها في كل مربع على نموذج W-2. يدعم النموذج النماذج القياسية والمخصصة من عام 2018 إلى الوقت الحاضر ، بما في ذلك النماذج الفردية والمتعددة في صفحة واحدة.
نموذج مستند W-2 تمت معالجته باستخدام استوديو التعرف على النماذج:
وثيقة عامة (معاينة)
تدعم واجهة برمجة تطبيقات المستندات العامة معظم أنواع النماذج وستحلل مستنداتك وتربط القيم بالمفاتيح والإدخالات إلى الجداول التي تكتشفها. إنه مثالي لاستخراج أزواج القيم الرئيسية الشائعة من المستندات. يمكنك استخدام نموذج المستند العام كبديل لتدريب نموذج مخصص بدون تسميات.
المستند العام هو نموذج مدرب مسبقا ويمكن استدعاؤه مباشرة عبر واجهة برمجة تطبيقات REST.
يدعم نموذج المستند العام التعرف على الكيانات المسماة (NER) لعدة فئات كيانات. NER هي القدرة على تحديد الكيانات المختلفة في النص وتصنيفها إلى فئات أو أنواع محددة مسبقا مثل: الشخص والموقع والحدث والمنتج والمؤسسة. يمكن أن يكون استخراج الكيانات مفيدا في السيناريوهات التي تريد التحقق من صحة القيم المستخرجة فيها. يتم استخراج الكيانات من المحتوى بأكمله.
نموذج مستند تمت معالجته باستخدام استوديو التعرف على النماذج:
Layout
تقوم واجهة برمجة تطبيقات التخطيط بتحليل واستخراج النص والجداول والرؤوس وعلامات التحديد ومعلومات البنية من النماذج والمستندات.
نموذج مستند تمت معالجته باستخدام استوديو التعرف على النماذج:
الفاتورة
يقوم نموذج الفاتورة بتحليل واستخراج المعلومات الرئيسية من فواتير المبيعات. تقوم واجهة برمجة التطبيقات بتحليل الفواتير بتنسيقات مختلفة واستخراج المعلومات الأساسية مثل اسم العميل وعنوان إرسال الفواتير وتاريخ الاستحقاق والمبلغ المستحق. حاليا ، يدعم النموذج الفواتير الإنجليزية والإسبانية.
نموذج فاتورة تمت معالجته باستخدام استوديو التعرف على النماذج:
إيصال
يقوم نموذج الإيصال بتحليل واستخراج المعلومات الرئيسية من الإيصالات المطبوعة والمكتوبة بخط اليد.
نموذج إيصال تمت معالجته باستخدام استوديو التعرف على النماذج:
مستند المعرف
يقوم نموذج وثيقة الهوية بتحليل واستخراج المعلومات الأساسية من المستندات التالية:
رخص القيادة الأمريكية (جميع الولايات ال 50 ومقاطعة كولومبيا)
صفحات السيرة الذاتية من جوازات السفر الدولية (باستثناء التأشيرة ووثائق السفر الأخرى). تقوم واجهة برمجة التطبيقات بتحليل وثائق الهوية والمقتطفات
نموذج رخصة القيادة الأمريكية التي تمت معالجتها باستخدام نموذج التعرف على الاستوديو:
بطاقة العمل
يقوم نموذج بطاقة العمل بتحليل واستخراج المعلومات الأساسية من صور بطاقة العمل.
نموذج بطاقة العمل التي تمت معالجتها باستخدام استوديو التعرف على النماذج:
مخصص
يقوم النموذج المخصص بتحليل البيانات واستخراجها من النماذج والمستندات الخاصة بنشاطك التجاري. واجهة برمجة التطبيقات هي برنامج تعلم آلي مدرب على التعرف على حقول النماذج داخل المحتوى المميز الخاص بك واستخراج أزواج القيم الرئيسية وبيانات الجدول. تحتاج فقط إلى خمسة أمثلة من نفس نوع النموذج للبدء ويمكن تدريب نموذجك المخصص مع مجموعات البيانات المصنفة أو بدونها.
نموذج قالب مخصص تمت معالجته باستخدام استوديو التعرف على النماذج:
نموذج مخصص مؤلف
يتم إنشاء نموذج مكون عن طريق أخذ مجموعة من النماذج المخصصة وتعيينها إلى نموذج واحد تم إنشاؤه من أنواع النماذج الخاصة بك. يمكنك تعيين نماذج مخصصة متعددة لنموذج مؤلف يسمى بمعرف نموذج واحد.
نافذة مربع حوار النموذج المركبةنموذج التعرف على الاستوديو:
استخراج البيانات النموذجية
| استخراج البيانات | استخراج النص | أزواج القيم الرئيسية | الحقول | علامات التحديد | الجداول | Entities |
|---|---|---|---|---|---|---|
| 🆕 قراءة مسبقة الصنع | ✓ | |||||
| 🆕 prebuilt-tax.us.w2 | ✓ | ✓ | ✓ | ✓ | ✓ | |
| 🆕 مستند مدمج مسبقا | ✓ | ✓ | ✓ | ✓ | ✓ | |
| تخطيط مسبق الصنع | ✓ | ✓ | ✓ | |||
| فاتورة مسبقة الصنع | ✓ | ✓ | ✓ | ✓ | ✓ | |
| إيصال مسبق الصنع | ✓ | ✓ | ✓ | |||
| مستند معرف مدمج مسبقا | ✓ | ✓ | ✓ | |||
| بطاقة عمل مسبقة الصنع | ✓ | ✓ | ✓ | |||
| مخصص | ✓ | ✓ | ✓ | ✓ | ✓ |
متطلبات الإدخال
- للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.
- تنسيقات الملفات المدعومة: JPEG وPNG وBMP وTIFF وPDF (مضمنة في النص أو ممسوحة ضوئياً). تعد ملفات PDF المضمنة في النص هي الأفضل للتخلص من احتمال حدوث خطأ في استخراج الأحرف والموقع.
- بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).
- يجب أن يكون حجم الملف أقل من 50 ميجابايت.
- يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 × 10000 بكسل.
- تصل أبعاد ملف PDF إلى 17×17 بوصة، بما يتوافق مع حجم الورق الحجم القانوني أو A3، أو أصغر.
- الحجم الإجمالي لبيانات التدريب 500 صفحة أو أقل.
- إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
- للتعلم غير الخاضع للإشراف (بدون البيانات المصنفة):
- يجب أن تحتوي البيانات على مفاتيح وقيم.
- يجب أن تظهر المفاتيح أعلى القيم أو يسارها؛ حيث لا يمكن أن تظهر أدناها أو على يمينها.
ملاحظة
لا تدعم أداة "وضع العلامات النموذجية" تنسيق ملف BMP. هذا قيد على الأداة وليس خدمة التعرف على النماذج.
معاينة أداة التعرف على النموذج v3.0
يقدم أداة التعرف على النموذج الإصدار 3.0 (المعاينة) العديد من الميزات والإمكانات الجديدة:
- نموذج القراءة (المعاينة) هو واجهة برمجة تطبيقات جديدة تستخرج خطوط النص والكلمات ومواقعها واللغات المكتشفة والنص المكتوب بخط اليد، إذا تم اكتشافها.
- نموذج المستند العام (المعاينة) هو واجهة برمجة تطبيقات جديدة تستخدم نموذجا مدربا مسبقا لاستخراج النص والجداول والبنية وأزواج القيم الرئيسية والكيانات المسماة من النماذج والمستندات.
- يدعم نموذج الاستلام (المعاينة) معالجة إيصالات الفندق المكونة من صفحة واحدة.
- يدعم نموذج وثيقة الهوية (المعاينة) الموافقات والقيود واستخراج تصنيف المركبات من رخص القيادة الأمريكية.
- يدعم نموذج W-2 (المعاينة) الموظف وصاحب العمل ومعلومات الأجور وما إلى ذلك من نماذج W-2 الأمريكية.
- تدعم واجهة برمجة تطبيقات النموذج المخصص (المعاينة) اكتشاف التوقيع للنماذج المخصصة.
ترحيل الإصدار
تعرف على كيفية استخدام الإصدار 3.0 من أداة التعرف على النماذج في تطبيقاتك من خلال اتباع دليل ترحيل أداة التعرف على النماذج الإصدار 3.0
الخطوات التالية
تعرف على كيفية معالجة النماذج والمستندات الخاصة بك باستخدام أداة نموذج التعرف على النماذج الخاصة بنا
أكمل التشغيل السريع للتعرف على النموذج وابدأ في إنشاء تطبيق لمعالجة المستندات بلغة التطوير التي تختارها.



