بناء نموذج تصنيف مخصص وتدريبه

ينطبق هذا المحتوى على:علامهv4.0 (معاينة) | الإصدارات السابقة:علامة اختيار زرقاءv3.1 (GA)علامة اختيار زرقاءv3.0 (GA)

هام

نموذج التصنيف المخصص حاليا في المعاينة العامة. قد تتغير الميزات والنهج والعمليات، قبل التوفر العام (GA)، استنادا إلى ملاحظات المستخدم.

يمكن لنماذج التصنيف المخصصة تصنيف كل صفحة في ملف إدخال لتحديد المستند (المستندات) داخلها. يمكن لنماذج المصنف أيضا تحديد مستندات متعددة أو مثيلات متعددة لمستند واحد في ملف الإدخال. تتطلب النماذج المخصصة لذكاء المستند ما يصل إلى خمسة مستندات تدريبية لكل فئة مستند للبدء. للبدء في تدريب نموذج تصنيف مخصص، تحتاج إلى خمسة مستندات على الأقل لكل فئة وفئة من المستندات.

متطلبات إدخال نموذج التصنيف المخصص

تأكد من أن مجموعة بيانات التدريب تتبع متطلبات الإدخال ل Document Intelligence.

  • للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.

  • تنسيقات الملفات المعتمدة:

    النموذج PDF الصورة:
    JPEG/JPG، PNG، BMP، TIFF، HEIF
    Microsoft Office:
    Word (DOCX) وExcel (XLSX) وPowerPoint (PPTX) وHTML
    قراءة
    Layout ✔ (معاينة 2024-02-29، 2023-10-31-preview)
    مستند عام
    منشأ مسبقًا
    استخراج مخصص
    تصنيف مخصص ✔ (2024-02-29-preview)
  • بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).

  • حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) و4 ميغابايت للمستوى المجاني (F0).

  • يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 بكسل × 10000 بكسل.

  • إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.

  • الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص نقطة تقريبا 8عند 150 نقطة لكل بوصة (DPI).

  • بالنسبة للتدريب على النموذج المخصص، الحد الأقصى لعدد صفحات بيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.

    • لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب و1G-MB للنموذج العصبي.

    • بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1GB التدريب بحد أقصى 10000 صفحة.

نصائح بيانات التدريب

اتبع هذه التلميحات لتحسين مجموعة البيانات الخاصة بك للتدريب:

  • استخدم مستندات PDF المستندة إلى نص بدلاً من المستندات المستندة إلى الصورة، إن أمكن. تتم معالجة مستندات PDFs الممسوحة ضوئيًا كصور.

  • إذا كانت صور النموذج ذات جودة أقل، فاستخدم مجموعة كبيرة من البيانات (10-15 صورة، على سبيل المثال).

تحميل بيانات التدريب الخاصة بك

بمجرد تجميع مجموعة النماذج أو المستندات للتدريب، تحتاج إلى تحميلها إلى حاوية تخزين Azure blob. إذا كنت لا تعرف كيفية إنشاء حساب تخزين Azure مع حاوية، اتبع التشغيل السريع لـ Azure Storage لمدخل Azure. يمكنك استخدام مستوى التسعير الحر (F0⁩) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج. إذا تم تنظيم مجموعة البيانات الخاصة بك كمجلدات، فحافظ على هذه البنية حيث يمكن ل Studio استخدام أسماء المجلدات الخاصة بك للتسميات لتبسيط عملية التسمية.

إنشاء مشروع تصنيف في Document Intelligence Studio

يوفر Document Intelligence Studio وينسق جميع استدعاءات واجهة برمجة التطبيقات المطلوبة لإكمال مجموعة البيانات وتدريب النموذج الخاص بك.

  1. ابدأ بالانتقال إلى Document Intelligence Studio. في المرة الأولى التي تستخدم فيها Studio، تحتاج إلى تهيئة اشتراكك ومجموعة الموارد والموارد. ثم اتبع المتطلبات الأساسية للمشاريع المخصصة لتكوين Studio للوصول إلى مجموعة بيانات التدريب الخاصة بك.

  2. في Studio، حدد تجانب نموذج التصنيف المخصص، في قسم النماذج المخصصة من الصفحة وحدد الزر Create a project .

    لقطة شاشة لكيفية إنشاء مشروع مصنف في Document Intelligence Studio.

    1. في مربع الحوار إنشاء مشروع، أدخل اسما لمشروعك، ووصفا اختياريا، وحدد متابعة.

    2. بعد ذلك، اختر مورد Document Intelligence أو أنشئه قبل تحديد continue.

    لقطة شاشة تعرض نافذة حوار إعداد المشروع.

  3. بعد ذلك، حدد حساب التخزين الذي استخدمته لتحميل مجموعة بيانات تدريب النموذج المخصص. يجب أن يكون مسار المجلد فارغًا إذا كانت مستندات التدريب موجودة في جذر الحاوية. إذا كانت مستنداتك في مجلد فرعي، أدخل المسار النسبي من جذر الحاوية في حقل مسار المجلد. بمجرد تكوين حساب التخزين الخاص بك، حدد استمرار.

    هام

    يمكنك إما تنظيم مجموعة بيانات التدريب حسب المجلدات حيث يكون اسم المجلد هو التسمية أو الفئة للمستندات أو إنشاء قائمة مسطحة بالمستندات التي يمكنك تعيين تسمية لها في Studio.

    لقطة شاشة توضح كيفية تحديد مورد Document Intelligence.

  4. يتطلب تدريب مصنف مخصص الإخراج من نموذج التخطيط لكل مستند في مجموعة البيانات. قم بتشغيل التخطيط على جميع المستندات قبل عملية تدريب النموذج.

  5. أخيرًا، راجع إعدادات المشروع وحدد إنشاء مشروع لإنشاء مشروع جديد. يجب أن تكون الآن في نافذة التسمية وترى الملفات في مجموعة البيانات مدرجة.

تسمية البيانات

في مشروعك، تحتاج فقط إلى تسمية كل مستند بتسمية الفئة المناسبة.

لقطة شاشة تعرض اختيار مورد Document Intelligence.

ترى الملفات التي قمت بتحميلها إلى التخزين في قائمة الملفات، جاهزة للتسمية. لديك بعض الخيارات لتسمية مجموعة البيانات الخاصة بك.

  1. إذا كانت المستندات منظمة في مجلدات، يطالبك Studio باستخدام أسماء المجلدات كتسميات. تعمل هذه الخطوة على تبسيط التسمية وصولا إلى تحديد واحد.

  2. لتعيين تسمية إلى مستند، حدد علامة تحديد إضافة تسمية لتعيين تسمية.

  3. التحكم في التحديد لتحديد مستندات متعددة لتعيين تسمية

يجب أن يكون لديك الآن جميع المستندات في مجموعة البيانات الخاصة بك المسماة. إذا نظرت إلى حساب التخزين، فستجد ملفات .ocr.json تتوافق مع كل مستند في مجموعة بيانات التدريب وملف class-name.jsonl جديد لكل فئة مسماة. يتم إرسال مجموعة بيانات التدريب هذه لتدريب النموذج.

تدريب النموذج

مع تسمية مجموعة البيانات الخاصة بك، أنت الآن جاهز لتدريب النموذج الخاص بك. حدد زر التدريب في الزاوية العلوية اليمنى.

  1. في مربع حوار نموذج التدريب، قم بتوفير معرف مصنف فريد ووصف اختياريا. يقبل معرف المصنف نوع بيانات سلسلة.

  2. حدد تدريب لبدء عملية التدريب.

  3. يتم تدريب نماذج المصنف في غضون بضع دقائق.

  4. انتقل إلى قائمة النماذج لعرض حالة عملية التدريب.

اختبار النموذج

بمجرد اكتمال تدريب النموذج، يمكنك اختبار النموذج الخاص بك عن طريق تحديد النموذج في صفحة قائمة النماذج.

  1. حدد النموذج وحدد على الزر اختبار.

  2. أضف ملفا جديدا عن طريق استعراض ملف أو إسقاط ملف في محدد المستند.

  3. مع تحديد ملف، اختر الزر تحليل لاختبار النموذج.

  4. يتم عرض نتائج النموذج مع قائمة المستندات المحددة ودرجة الثقة لكل مستند تم تحديده ونطاق الصفحة لكل مستند من المستندات المحددة.

  5. تحقق من صحة النموذج الخاص بك عن طريق تقييم النتائج لكل مستند تم تحديده.

تدريب مصنف مخصص باستخدام SDK أو API

ينسق Studio استدعاءات واجهة برمجة التطبيقات لتدريب مصنف مخصص. تتطلب مجموعة بيانات تدريب المصنف الإخراج من واجهة برمجة تطبيقات التخطيط التي تطابق إصدار واجهة برمجة التطبيقات لنموذج التدريب الخاص بك. يمكن أن يؤدي استخدام نتائج التخطيط من إصدار API أقدم إلى نموذج بدقة أقل.

ينشئ Studio نتائج التخطيط لمجموعة بيانات التدريب الخاصة بك إذا كانت مجموعة البيانات لا تحتوي على نتائج التخطيط. عند استخدام API أو SDK لتدريب مصنف، تحتاج إلى إضافة نتائج التخطيط إلى المجلدات التي تحتوي على المستندات الفردية. يجب أن تكون نتائج التخطيط بتنسيق استجابة واجهة برمجة التطبيقات عند استدعاء التخطيط مباشرة. نموذج كائن SDK مختلف، تأكد من أن layout results هي نتائج واجهة برمجة التطبيقات وليس SDK response.

استكشاف الأخطاء وإصلاحها

يتطلب نموذج التصنيف نتائج من نموذج التخطيط لكل مستند تدريب. إذا لم تقدم نتائج التخطيط، يحاول Studio تشغيل نموذج التخطيط لكل مستند قبل تدريب المصنف. يتم تقييد هذه العملية ويمكن أن تؤدي إلى استجابة 429.

في Studio، قبل التدريب على نموذج التصنيف، قم بتشغيل نموذج التخطيط على كل مستند وتحميله إلى نفس موقع المستند الأصلي. بمجرد إضافة نتائج التخطيط، يمكنك تدريب نموذج المصنف على مستنداتك.

الخطوات التالية