نماذج Form Recognizer

تمكنك نماذج Azure Form Recognizer المعدة مسبقا من إضافة معالجة ذكية للمستندات إلى تطبيقاتك وتدفقاتك دون الحاجة إلى تدريب النماذج الخاصة بك وإنشائها. تستخدم النماذج المعدة مسبقا التعرف الضوئي على الأحرف (OCR) جنبا إلى جنب مع نماذج التعلم العميق لتحديد واستخراج حقول النص والبيانات المحددة مسبقا الشائعة في أنواع معينة من النماذج والمستندات. يقوم أداة التعرف على النموذج باستخراج بيانات النموذج والمستند ثم إرجاع استجابة JSON منظمة ومنظمة. يدعم نموذج التعرف على الإصدار 2.1 نماذج الفواتير والإيصالات ووثائق الهوية وبطاقات العمل.

نظرة عامة على النموذج

النموذج الوصف
تحليل الوثائق
🆕قراءة (معاينة) استخراج خطوط النص المطبوعة والمكتوبة بخط اليد والكلمات والمواقع واللغات المكتشفة.
🆕وثيقة عامة (معاينة) استخراج النص والجداول والبنية وأزواج القيم الرئيسية والكيانات المسماة.
Layout استخراج معلومات النص والتخطيط من المستندات.
منشأ مسبقًا
🆕W-2 (معاينة) استخراج الموظف وصاحب العمل ومعلومات الأجور وما إلى ذلك من نماذج W-2 الأمريكية.
الفاتورة استخراج المعلومات الرئيسية من الفواتير الإنجليزية والإسبانية.
إيصال استخراج المعلومات الرئيسية من الإيصالات باللغة الإنجليزية.
مستند المعرف استخراج المعلومات الرئيسية من رخص القيادة الأمريكية وجوازات السفر الدولية.
بطاقة العمل استخراج المعلومات الأساسية من بطاقات العمل الإنجليزية.
مخصص
مخصص استخراج البيانات من النماذج والمستندات الخاصة بعملك. يتم تدريب النماذج المخصصة على بياناتك المميزة وحالات الاستخدام.
تتالف أنشئ مجموعة من النماذج المخصصة وقم بتعيينها إلى نموذج واحد تم إنشاؤه من أنواع النماذج الخاصة بك.

قراءة (معاينة)

تقوم واجهة برمجة تطبيقات القراءة بتحليل واستخراج الخطوط والكلمات ومواقعها واللغات المكتشفة والنمط المكتوب بخط اليد إذا تم اكتشافها.

نموذج مستند تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot: Screenshot of sample document processed using Form Recognizer studio Read

W-2 (معاينة)

يقوم نموذج W-2 بتحليل واستخراج المعلومات الرئيسية المبلغ عنها في كل مربع على نموذج W-2. يدعم النموذج النماذج القياسية والمخصصة من عام 2018 إلى الوقت الحاضر ، بما في ذلك النماذج الفردية والمتعددة في صفحة واحدة.

نموذج مستند W-2 تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot of a sample W-2.

وثيقة عامة (معاينة)

  • تدعم واجهة برمجة تطبيقات المستندات العامة معظم أنواع النماذج وستحلل مستنداتك وتربط القيم بالمفاتيح والإدخالات إلى الجداول التي تكتشفها. إنه مثالي لاستخراج أزواج القيم الرئيسية الشائعة من المستندات. يمكنك استخدام نموذج المستند العام كبديل لتدريب نموذج مخصص بدون تسميات.

  • المستند العام هو نموذج مدرب مسبقا ويمكن استدعاؤه مباشرة عبر واجهة برمجة تطبيقات REST.

  • يدعم نموذج المستند العام التعرف على الكيانات المسماة (NER) لعدة فئات كيانات. NER هي القدرة على تحديد الكيانات المختلفة في النص وتصنيفها إلى فئات أو أنواع محددة مسبقا مثل: الشخص والموقع والحدث والمنتج والمؤسسة. يمكن أن يكون استخراج الكيانات مفيدا في السيناريوهات التي تريد التحقق من صحة القيم المستخرجة فيها. يتم استخراج الكيانات من المحتوى بأكمله.

نموذج مستند تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot: general document analysis in the Form Recognizer Studio.

Layout

تقوم واجهة برمجة تطبيقات التخطيط بتحليل واستخراج النص والجداول والرؤوس وعلامات التحديد ومعلومات البنية من النماذج والمستندات.

نموذج مستند تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot: Screenshot of sample document processed using Form Recognizer studio

الفاتورة

يقوم نموذج الفاتورة بتحليل واستخراج المعلومات الرئيسية من فواتير المبيعات. تقوم واجهة برمجة التطبيقات بتحليل الفواتير بتنسيقات مختلفة واستخراج المعلومات الأساسية مثل اسم العميل وعنوان إرسال الفواتير وتاريخ الاستحقاق والمبلغ المستحق. حاليا ، يدعم النموذج الفواتير الإنجليزية والإسبانية.

نموذج فاتورة تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot of a sample invoice.

إيصال

يقوم نموذج الإيصال بتحليل واستخراج المعلومات الرئيسية من الإيصالات المطبوعة والمكتوبة بخط اليد.

نموذج إيصال تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot of a sample receipt.

مستند المعرف

يقوم نموذج وثيقة الهوية بتحليل واستخراج المعلومات الأساسية من المستندات التالية:

  • رخص القيادة الأمريكية (جميع الولايات ال 50 ومقاطعة كولومبيا)

  • صفحات السيرة الذاتية من جوازات السفر الدولية (باستثناء التأشيرة ووثائق السفر الأخرى). تقوم واجهة برمجة التطبيقات بتحليل وثائق الهوية والمقتطفات

نموذج رخصة القيادة الأمريكية التي تمت معالجتها باستخدام نموذج التعرف على الاستوديو:

Screenshot of a sample identification card.

بطاقة العمل

يقوم نموذج بطاقة العمل بتحليل واستخراج المعلومات الأساسية من صور بطاقة العمل.

نموذج بطاقة العمل التي تمت معالجتها باستخدام استوديو التعرف على النماذج:

Screenshot of a sample business card.

مخصص

يقوم النموذج المخصص بتحليل البيانات واستخراجها من النماذج والمستندات الخاصة بنشاطك التجاري. واجهة برمجة التطبيقات هي برنامج تعلم آلي مدرب على التعرف على حقول النماذج داخل المحتوى المميز الخاص بك واستخراج أزواج القيم الرئيسية وبيانات الجدول. تحتاج فقط إلى خمسة أمثلة من نفس نوع النموذج للبدء ويمكن تدريب نموذجك المخصص مع مجموعات البيانات المصنفة أو بدونها.

نموذج قالب مخصص تمت معالجته باستخدام استوديو التعرف على النماذج:

Screenshot: Form Recognizer tool analyze-a-custom-form window.

نموذج مخصص مؤلف

يتم إنشاء نموذج مكون عن طريق أخذ مجموعة من النماذج المخصصة وتعيينها إلى نموذج واحد تم إنشاؤه من أنواع النماذج الخاصة بك. يمكنك تعيين نماذج مخصصة متعددة لنموذج مؤلف يسمى بمعرف نموذج واحد.

نافذة مربع حوار النموذج المركبةنموذج التعرف على الاستوديو:

Screenshot of Form Recognizer Studio compose custom model dialog window.

استخراج البيانات النموذجية

استخراج البيانات استخراج النص أزواج القيم الرئيسية الحقول علامات التحديد الجداول Entities
🆕 قراءة مسبقة الصنع
🆕 prebuilt-tax.us.w2
🆕 مستند مدمج مسبقا
تخطيط مسبق الصنع
فاتورة مسبقة الصنع
إيصال مسبق الصنع
مستند معرف مدمج مسبقا
بطاقة عمل مسبقة الصنع
مخصص

متطلبات الإدخال

  • للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.
  • تنسيقات الملفات المدعومة: JPEG وPNG وBMP وTIFF وPDF (مضمنة في النص أو ممسوحة ضوئياً). تعد ملفات PDF المضمنة في النص هي الأفضل للتخلص من احتمال حدوث خطأ في استخراج الأحرف والموقع.
  • بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).
  • يجب أن يكون حجم الملف أقل من 50 ميجابايت.
  • يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 × 10000 بكسل.
  • تصل أبعاد ملف PDF إلى 17×17 بوصة، بما يتوافق مع حجم الورق الحجم القانوني أو A3، أو أصغر.
  • الحجم الإجمالي لبيانات التدريب 500 صفحة أو أقل.
  • إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
  • للتعلم غير الخاضع للإشراف (بدون البيانات المصنفة):
    • يجب أن تحتوي البيانات على مفاتيح وقيم.
    • يجب أن تظهر المفاتيح أعلى القيم أو يسارها؛ حيث لا يمكن أن تظهر أدناها أو على يمينها.

ملاحظة

لا تدعم أداة "وضع العلامات النموذجية" تنسيق ملف BMP. هذا قيد على الأداة وليس خدمة التعرف على النماذج.

معاينة أداة التعرف على النموذج v3.0

يقدم أداة التعرف على النموذج الإصدار 3.0 (المعاينة) العديد من الميزات والإمكانات الجديدة:

ترحيل الإصدار

تعرف على كيفية استخدام الإصدار 3.0 من أداة التعرف على النماذج في تطبيقاتك من خلال اتباع دليل ترحيل أداة التعرف على النماذج الإصدار 3.0

الخطوات التالية