إنشاء مجموعة بيانات تدريب لنموذج مخصص
عند استخدام النموذج المخصص "التعرف على النماذج"، يمكنك توفير بيانات التدريب الخاصة بك لعملية "تدريب النموذج المخصص" ، بحيث يمكن تدريب النموذج على النماذج الخاصة بالمجال الخاص بك. اتبع هذا الدليل لمعرفة كيفية جمع البيانات وإعدادها لتدريب النموذج بشكل فعال.
تحتاج إلى خمسة نماذج مملوءة على الأقل من نفس النوع.
إذا كنت ترغب في استخدام بيانات التدريب المصنفة يدويا، فيجب أن تبدأ بخمسة نماذج مملوءة على الأقل من نفس النوع. لا يزال بإمكانك استخدام النماذج غير المصنفة بالإضافة إلى مجموعة البيانات المطلوبة.
متطلبات إدخال النموذج المخصص
أولا، تأكد من أن مجموعة بيانات التدريب الخاصة بك تتبع متطلبات الإدخال الخاصة بأداة التعرف على النماذج.
- للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.
- تنسيقات الملفات المدعومة: JPEG وPNG وBMP وTIFF وPDF (مضمنة في النص أو ممسوحة ضوئياً). تعد ملفات PDF المضمنة في النص هي الأفضل للتخلص من احتمال حدوث خطأ في استخراج الأحرف والموقع.
- بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).
- يجب أن يكون حجم الملف أقل من 50 ميجابايت.
- يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 × 10000 بكسل.
- تصل أبعاد ملف PDF إلى 17×17 بوصة، بما يتوافق مع حجم الورق الحجم القانوني أو A3، أو أصغر.
- الحجم الإجمالي لبيانات التدريب 500 صفحة أو أقل.
- إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
نصائح حول بيانات التدريب
اتبع هذه النصائح الإضافية لزيادة تحسين مجموعة البيانات الخاصة بك للتدريب.
- إذا كان ذلك ممكنا، استخدم مستندات PDF المستندة إلى النص بدلا من المستندات المستندة إلى الصور. يتم التعامل مع ملفات PDF الممسوحة ضوئيا كصور.
- بالنسبة للنماذج المعبأة، استخدم الأمثلة التي تحتوي على جميع حقولها الممتلئة.
- استخدم النماذج ذات القيم المختلفة في كل حقل.
- إذا كانت صور النموذج ذات جودة أقل، فاستخدم مجموعة بيانات أكبر (10-15 صورة، على سبيل المثال).
Upload بيانات التدريب الخاصة بك
عند تجميع مجموعة مستندات النموذج التي ستستخدمها للتدريب، ستحتاج إلى تحميلها إلى حاوية تخزين Azure blob. إذا كنت لا تعرف كيفية إنشاء حساب تخزين Azure باستخدام حاوية، فاتبع التشغيل السريع لتخزين Azure لمدخل Azure. استخدم طبقة الأداء القياسية.
إذا كنت ترغب في استخدام البيانات المصنفة يدويا، فسيتعين عليك أيضا تحميل ملفات . labels.jsonو.ocr.json التي تتوافق مع مستندات التدريب الخاصة بك. يمكنك استخدام أداة وضع العلامات النموذجية (أو واجهة المستخدم الخاصة بك) لإنشاء هذه الملفات.
تنظيم بياناتك في مجلدات فرعية (اختياري)
بشكل افتراضي، ستستخدم واجهة برمجة تطبيقات Train Custom Model (تدريب النموذج المخصص ) مستندات النموذج الموجودة في جذر حاوية التخزين فقط. ومع ذلك، يمكنك التدريب باستخدام البيانات في مجلدات فرعية إذا قمت بتحديدها في استدعاء واجهة برمجة التطبيقات. عادة ما يكون نص استدعاء "قطار النموذج المخصص " التنسيق التالي، حيث <SAS URL> يوجد عنوان URL لتوقيع الوصول المشترك للحاوية الخاصة بك:
{
"source":"<SAS URL>"
}
إذا أضفت المحتوى التالي إلى نص الطلب، تدريب واجهة برمجة التطبيقات على المستندات الموجودة في المجلدات الفرعية. الحقل "prefix" اختياري وسيقصر مجموعة بيانات التدريب على الملفات التي تبدأ مساراتها بالسلسلة المحددة. لذا فإن قيمة "Test"، على سبيل المثال ، ستجعل واجهة برمجة التطبيقات تنظر فقط إلى الملفات أو المجلدات التي تبدأ بكلمة "اختبار".
{
"source": "<SAS URL>",
"sourceFilter": {
"prefix": "<prefix string>",
"includeSubFolders": true
},
"useLabelFile": false
}
الخطوات التالية
الآن بعد أن تعلمت كيفية إنشاء مجموعة بيانات تدريبية، اتبع بداية سريعة لتدريب نموذج مخصص للتعرف على النماذج والبدء في استخدامه في النماذج.
- تدريب نموذج واستخراج بيانات النموذج باستخدام مكتبة العميل أو واجهة برمجة تطبيقات REST
- التدريب باستخدام الملصقات باستخدام أداة وضع العلامات النموذجية