تخصيص النموذج (الإصدار 4.0 معاينة)

مقالة
01/19/2024

يتيح لك تخصيص النموذج تدريب نموذج تحليل الصور المتخصص لحالة الاستخدام الخاصة بك. يمكن أن تقوم النماذج المخصصة إما بتصنيف الصور (تنطبق العلامات على الصورة بأكملها) أو الكشف عن الكائنات (تنطبق العلامات على مناطق معينة من الصورة). بمجرد إنشاء النموذج المخصص وتدريبه، فإنه ينتمي إلى مورد الرؤية الخاص بك، ويمكنك تسميته باستخدام واجهة برمجة تطبيقات تحليل الصور.

تنفيذ تخصيص النموذج بسرعة وسهولة باتباع التشغيل السريع:

التشغيل السريع ل Vision Studio

التشغيل السريع ل Python SDK

هام

يمكنك تدريب نموذج مخصص باستخدام خدمة Custom Vision أو خدمة Image Analysis 4.0 مع تخصيص النموذج. يقارن الجدول التالي بين الخدمتين.

المناطق

خدمة الرؤية المخصصة

خدمة تحليل الصور 4.0

المهام

الكشف عن كائن تصنيف
الصور

نموذج أساسي

سي

نموذج المحول

التسمية

Customvision.ai

AML Studio

مدخل ويب

Customvision.ai

Vision Studio

المكتبات

REST، SDK

REST، نموذج Python

الحد الأدنى من بيانات التدريب المطلوبة

15 صورة لكل فئة

2-5 صور لكل فئة

مساحة تخزين بيانات التدريب

تم التحميل إلى الخدمة

حساب تخزين الكائن الثنائي كبير الحجم للعميل

استضافة نموذجية

السحابة والحافة

استضافة السحابة فقط، استضافة حاوية الحافة القادمة

جودة الذكاء الاصطناعي

السياق	تصنيف الصور (دقة أعلى 1، 22 مجموعة بيانات)	الكشف عن الكائنات (mAP@50، 59 مجموعة بيانات)
طلقة 2	51.47	33.3
3 طلقة	56.73	37.0
5 طلقة	63.01	43.4
10 طلقة	68.95	54.0
كامل	85.25	76.6

السياق	تصنيف الصور (دقة أعلى 1، 22 مجموعة بيانات)	الكشف عن الكائنات (mAP@50، 59 مجموعة بيانات)
طلقة 2	73.02	49.2
3 طلقة	75.51	61.1
5 طلقة	79.14	68.2
10 طلقة	81.31	75.0
كامل	90.98	85.4

التسعير

تسعير Custom Vision

تسعير تحليل الصور

مكونات السيناريو

المكونات الرئيسية لنظام تخصيص النموذج هي صور التدريب وملف COCO وعناصر مجموعة البيانات وعنصر النموذج.

صور التدريب

يجب أن تتضمن مجموعة صور التدريب الخاصة بك عدة أمثلة لكل من التسميات التي تريد اكتشافها. ستحتاج أيضا إلى جمع بعض الصور الإضافية لاختبار النموذج الخاص بك بمجرد تدريبه. يجب تخزين الصور في حاوية تخزين Azure حتى يمكن الوصول إليها من قبل النموذج.

لتدريب نموذجك بشكل فعال، استخدم الصور ذات التنوع البصري. حدد الصور التي تختلف حسب:

زاوية الكاميرا
إضاءة
الخلفية
أسلوب مرئي
موضوع (موضوعات) فردية / مجمعة
size
النوع

بالإضافة إلى ذلك، تأكد من أن جميع صور التدريب الخاصة بك تفي بالمعايير التالية:

يجب تقديم الصورة بتنسيق JPEG أو PNG أو GIF أو BMP أو WEBP أو ICO أو TIFF أو MPO.
يجب أن يكون حجم ملف الصورة أقل من 20 ميغابايت.
يجب أن تكون أبعاد الصورة أكبر من 50 × 50 بكسل وأقل من 16000 × 16000 بكسل.

ملف COCO

يشير ملف COCO إلى جميع صور التدريب ويربطها بمعلومات التسمية الخاصة بها. في حالة الكشف عن الكائن، حدد إحداثيات المربع المحيط لكل علامة على كل صورة. يجب أن يكون هذا الملف بتنسيق COCO، وهو نوع معين من ملف JSON. يجب تخزين ملف COCO في نفس حاوية تخزين Azure مثل صور التدريب.

تلميح

حول ملفات COCO

ملفات COCO هي ملفات JSON مع حقول مطلوبة محددة: "images"و "annotations"و."categories" سيبدو نموذج ملف COCO كما يلي:

{
 "images": [
   {
     "id": 1,
     "width": 500,
     "height": 828,
     "file_name": "0.jpg",
     "absolute_url": "https://blobstorage1.blob.core.windows.net/cpgcontainer/0.jpg"
   },
    {
      "id": 2,
      "width": 754,
      "height": 832,
      "file_name": "1.jpg",
      "absolute_url": "https://blobstorage1.blob.core.windows.net/cpgcontainer/1.jpg"
    },

   ...

  ],
  "annotations": [
    {
      "id": 1,
      "category_id": 7,
      "image_id": 1,
      "area": 0.407,
      "bbox": [
        0.02663142641129032,
        0.40691584277841153,
        0.9524163571731749,
        0.42766634515266866
      ]
    },
    {
      "id": 2,
      "category_id": 9,
      "image_id": 2,
      "area": 0.27,
      "bbox": [
        0.11803319477782331,
        0.41586723392402375,
        0.7765206955096307,
        0.3483334397217212
      ]
    },
    ...

  ],
  "categories": [
    {
      "id": 1,
      "name": "vegall original mixed vegetables"
    },
    {
      "id": 2,
      "name": "Amy's organic soups lentil vegetable"
    },
    {
      "id": 3,
      "name": "Arrowhead 8oz"
    },

    ...

  ]
}

مرجع حقل ملف COCO

إذا كنت تقوم بإنشاء ملف COCO الخاص بك من البداية، فتأكد من تعبئة جميع الحقول المطلوبة بالتفاصيل الصحيحة. تصف الجداول التالية كل حقل في ملف COCO:

"الصور"

المفتاح	النوع	‏‏الوصف	مطلوب؟
`id`	integer	معرف الصورة الفريد، بدءا من 1	‏‏نعم‬
`width`	integer	عرض الصورة بالبكسل	‏‏نعم‬
`height`	integer	ارتفاع الصورة بالبكسل	‏‏نعم‬
`file_name`	سلسلة	اسم فريد للصورة	‏‏نعم‬
`absolute_url` أو `coco_url`	سلسلة	مسار الصورة ك URI مطلق إلى كائن ثنائي كبير الحجم في حاوية كائن ثنائي كبير الحجم. يجب أن يكون لدى مورد Vision إذن لقراءة ملفات التعليقات التوضيحية وجميع ملفات الصور المشار إليها.	‏‏نعم‬

يمكن العثور على absolute_url قيمة في خصائص حاوية الكائن الثنائي كبير الحجم:

absolute url

"التعليقات التوضيحية"

المفتاح	النوع	‏‏الوصف	مطلوب؟
`id`	integer	معرف التعليق التوضيحي	‏‏نعم‬
`category_id`	integer	معرف الفئة المحددة في `categories` القسم	‏‏نعم‬
`image_id`	integer	معرف الصورة	‏‏نعم‬
`area`	integer	قيمة 'Width' x 'Height' (القيم الثالثة والرابحة من `bbox`)	لا
`bbox`	list[float]	الإحداثيات النسبية لمربع الإحاطة (من 0 إلى 1)، بالترتيب "إلى اليسار" و"الأعلى" و"العرض" و"الارتفاع"	‏‏نعم‬

"الفئات"

المفتاح	النوع	‏‏الوصف	مطلوب؟
`id`	integer	معرف فريد لكل فئة (فئة التسمية). وينبغي أن تكون هذه موجودة في `annotations` القسم .	‏‏نعم‬
`name`	سلسلة	اسم الفئة (فئة التسمية)	‏‏نعم‬

التحقق من ملف COCO

يمكنك استخدام نموذج التعليمات البرمجية ل Python للتحقق من تنسيق ملف COCO.

كائن مجموعة البيانات

كائن Dataset هو بنية بيانات مخزنة بواسطة خدمة تحليل الصور التي تشير إلى ملف الاقتران. تحتاج إلى إنشاء كائن Dataset قبل أن تتمكن من إنشاء نموذج وتدريبه.

كائن النموذج

كائن النموذج هو بنية بيانات مخزنة بواسطة خدمة تحليل الصور التي تمثل نموذجا مخصصا. يجب أن تكون مرتبطة بمجموعة بيانات من أجل القيام بالتدريب الأولي. بمجرد تدريبه، يمكنك الاستعلام عن النموذج الخاص بك عن طريق إدخال اسمه في معلمة model-name الاستعلام لاستدعاء Analyze Image API.

حدود الحصة النسبية

يصف الجدول التالي الحدود على مقياس مشاريع النموذج المخصصة.

Category	مصنف صور عام	كاشف كائن عام
الحد الأقصى لعدد ساعات التدريب	288 (12 يوما)	288 (12 يوما)
Max # training images	1,000,000	200,000
Max # صور التقييم	100,000	100,000
الحد الأدنى لصور التدريب # لكل فئة	2	2
الحد الأقصى لعلامات #لكل صورة	متعدد الفئات: 1	غير متوفرة
الحد الأقصى لمناطق #لكل صورة	غير متوفرة	1,000
الحد الأقصى لفئات #	2,500	1,000
الحد الأدنى لفئات #	2	1
الحد الأقصى لحجم الصورة (تدريب)	20 ميغابايت	20 ميغابايت
الحد الأقصى لحجم الصورة (التنبؤ)	المزامنة: 6 ميغابايت، دفعة: 20 ميغابايت	المزامنة: 6 ميغابايت، دفعة: 20 ميغابايت
الحد الأقصى لعرض/ارتفاع الصورة (تدريب)	10,240	10,240
الحد الأدنى لعرض/ارتفاع الصورة (التنبؤ)	50	50
المناطق المتاحة	غرب الولايات المتحدة 2، وشرق الولايات المتحدة، وغرب أوروبا	غرب الولايات المتحدة 2، وشرق الولايات المتحدة، وغرب أوروبا
أنواع الصور المقبولة	jpg، png، bmp، gif، jpeg	jpg، png، bmp، gif، jpeg

الأسئلة الشائعة

لماذا يفشل استيراد ملف COCO عند الاستيراد من تخزين الكائن الثنائي كبير الحجم؟

حاليا، تعالج Microsoft مشكلة تتسبب في فشل استيراد ملف COCO مع مجموعات البيانات الكبيرة عند البدء في Vision Studio. للتدريب على استخدام مجموعة بيانات كبيرة، يوصى باستخدام واجهة برمجة تطبيقات REST بدلا من ذلك.

لماذا يستغرق التدريب وقتا أطول/أقصر من ميزانيتي المحددة؟

ميزانية التدريب المحددة هي وقت الحساب المعاير، وليس وقت ساعة الحائط. يتم سرد بعض الأسباب الشائعة للفرق:

أطول من الميزانية المحددة:
- يواجه تحليل الصور حركة مرور عالية التدريب، وقد تكون موارد GPU ضيقة. قد تنتظر وظيفتك في قائمة الانتظار أو يتم تعليقها أثناء التدريب.
- واجهت عملية التدريب على الواجهة الخلفية حالات فشل غير متوقعة، ما أدى إلى إعادة محاولة المنطق. لا تستهلك عمليات التشغيل الفاشلة ميزانيتك، ولكن يمكن أن يؤدي ذلك إلى وقت تدريب أطول بشكل عام.
- يتم تخزين بياناتك في منطقة مختلفة عن مورد الرؤية الخاص بك، مما سيؤدي إلى وقت أطول لنقل البيانات.
ميزانية أقصر من الميزانية المحددة: تسرع العوامل التالية التدريب على حساب استخدام المزيد من الميزانية في وقت معين من ساعة الحائط.
- يتدرب تحليل الصور في بعض الأحيان باستخدام وحدات معالجة الرسومات المتعددة اعتمادا على بياناتك.
- يقوم تحليل الصور في بعض الأحيان بتدريب تجارب استكشاف متعددة على وحدات معالجة الرسومات المتعددة في نفس الوقت.
- يستخدم تحليل الصور أحيانا وحدات SKU لوحدة معالجة الرسومات الرئيسية (أسرع) للتدريب.

لماذا يفشل تدريبي وماذا يجب أن أفعل؟

فيما يلي بعض الأسباب الشائعة لفشل التدريب:

diverged: لا يمكن للتدريب تعلم أشياء ذات معنى من بياناتك. بعض الأسباب الشائعة هي:
- البيانات غير كافية: يجب أن يساعد توفير المزيد من البيانات.
- البيانات ذات جودة رديئة: تحقق مما إذا كانت صورك ذات دقة منخفضة أو نسب عرض إلى ارتفاع قصوى أو إذا كانت التعليقات التوضيحية خاطئة.
notEnoughBudget: ميزانيتك المحددة غير كافية لحجم مجموعة البيانات ونوع النموذج الذي تقوم بتدريبه. حدد ميزانية أكبر.
datasetCorrupt: عادة ما يعني هذا أنه لا يمكن الوصول إلى الصور المتوفرة أو أن ملف التعليق التوضيحي بتنسيق غير صحيح.
datasetNotFound: يتعذر العثور على مجموعة البيانات
unknown: قد تكون هذه مشكلة في الخلفية. تواصل مع دعم التحقيق.

ما هي المقاييس المستخدمة لتقييم النماذج؟

يتم استخدام المقاييس التالية:

تصنيف الصور: متوسط الدقة، الدقة الأعلى 1، الدقة الأعلى 5
الكشف عن الكائنات: متوسط متوسط الدقة @ 30، متوسط متوسط الدقة @ 50، متوسط متوسط الدقة @ 75

لماذا يفشل تسجيل مجموعة البيانات الخاصة بي؟

يجب أن تكون استجابات واجهة برمجة التطبيقات مفيدة بما فيه الكفاية. وهي:

DatasetAlreadyExists: توجد مجموعة بيانات بنفس الاسم
DatasetInvalidAnnotationUri: "تم توفير URI غير صالح بين معرفات الموارد المنتظمة للتعليقات التوضيحية في وقت تسجيل مجموعة البيانات.

كم عدد الصور المطلوبة للحصول على جودة نموذج معقولة/جيدة/أفضل؟

على الرغم من أن نماذج فلورنسا لديها قدرة كبيرة قليلة اللقطات (تحقيق أداء نموذج رائع في ظل توفر بيانات محدود)، بشكل عام، فإن المزيد من البيانات يجعل النموذج المدرب أفضل وأكثر قوة. تتطلب بعض السيناريوهات القليل من البيانات (مثل تصنيف تفاحة مقابل موزة)، ولكن البعض الآخر يتطلب المزيد (مثل الكشف عن 200 نوع من الحشرات في الغابات المطيرة). وهذا يجعل من الصعب تقديم توصية واحدة.

إذا كانت ميزانية تسمية البيانات مقيدة، فإن سير العمل الموصى به هو تكرار الخطوات التالية:

جمع N الصور لكل فئة، حيث N يسهل عليك جمع الصور (على سبيل المثال، N=3)
تدريب نموذج واختباره على مجموعة التقييم الخاصة بك.
إذا كان أداء النموذج هو:
- جيد بما فيه الكفاية (الأداء أفضل من توقعاتك أو أدائك بالقرب من تجربتك السابقة مع بيانات أقل تم جمعها): توقف هنا واستخدم هذا النموذج.
- ليس جيدا (الأداء لا يزال أقل من توقعاتك أو أفضل من تجربتك السابقة مع بيانات أقل تم جمعها على هامش معقول):
- اجمع المزيد من الصور لكل فئة - رقم يسهل عليك جمعه - وارجع إلى الخطوة 2.
- إذا لاحظت أن الأداء لم يعد يتحسن بعد بضع تكرارات، فقد يكون ذلك بسبب:
  - هذه المشكلة غير محددة جيدا أو صعبة جدا. تواصل معنا لتحليل كل حالة على حدة.
  - قد تكون بيانات التدريب ذات جودة منخفضة: تحقق مما إذا كانت هناك تعليقات توضيحية خاطئة أو صور منخفضة البكسل جدا.

ما مقدار ميزانية التدريب التي يجب أن أحددها؟

يجب تحديد الحد الأعلى للميزانية التي ترغب في استهلاكها. يستخدم تحليل الصور نظام AutoML في الخلفية لتجربة نماذج مختلفة ووصفات تدريبية للعثور على أفضل نموذج لحالة الاستخدام الخاصة بك. كلما زادت الميزانية المقدمة، زادت فرصة العثور على نموذج أفضل.

يتوقف نظام AutoML أيضا تلقائيا إذا استنتج أنه ليست هناك حاجة لتجربة المزيد، حتى إذا كانت هناك ميزانية متبقية. لذلك، فإنه لا يستنفد دائما ميزانيتك المحددة. يضمن لك عدم فوترتك عبر ميزانيتك المحددة.

هل يمكنني التحكم في المعلمات الفائقة أو استخدام نماذجي الخاصة في التدريب؟

لا، تستخدم خدمة تخصيص نموذج تحليل الصور نظام تدريب AutoML منخفض التعليمات البرمجية يعالج البحث عن المعلمة الفائقة وتحديد النموذج الأساسي في الخلفية.

هل يمكنني تصدير نموذجي بعد التدريب؟

يتم دعم واجهة برمجة تطبيقات التنبؤ فقط من خلال الخدمة السحابية.

لماذا يفشل التقييم لنموذج الكشف عن الكائنات؟

فيما يلي الأسباب المحتملة:

internalServerError: حدث خطأ غير معروف. الرجاء إعادة المحاولة لاحقًا.
modelNotFound: لم يتم العثور على النموذج المحدد.
datasetNotFound: لم يتم العثور على مجموعة البيانات المحددة.
datasetAnnotationsInvalid: حدث خطأ أثناء محاولة تنزيل التعليقات التوضيحية للحقيقة الأرضية المرتبطة بمجموعة بيانات الاختبار أو تحليلها.
datasetEmpty: لم تحتوي مجموعة بيانات الاختبار على أي تعليقات توضيحية "للحقيقة الأساسية".

ما هو زمن الانتقال المتوقع للتنبؤات مع النماذج المخصصة؟

لا نوصي باستخدام نماذج مخصصة للبيئات الحرجة للأعمال بسبب زمن الانتقال العالي المحتمل. عندما يقوم العملاء بتدريب نماذج مخصصة في Vision Studio، تنتمي هذه النماذج المخصصة إلى مورد Azure الذكاء الاصطناعي Vision الذي تم تدريبهم ضمنه، ويمكن للعميل إجراء مكالمات إلى تلك النماذج باستخدام واجهة برمجة تطبيقات تحليل الصور . عند إجراء هذه الاستدعاءات، يتم تحميل النموذج المخصص في الذاكرة، ويتم تهيئة البنية الأساسية للتنبؤ. في حين يحدث هذا، قد يواجه العملاء زمن انتقال أطول من المتوقع لتلقي نتائج التنبؤ.

خصوصية البيانات وأمنها

كما هو الحال مع جميع خدمات Azure الذكاء الاصطناعي، يجب أن يكون المطورون الذين يستخدمون تخصيص نموذج تحليل الصور على دراية بسياسات Microsoft بشأن بيانات العملاء. راجع صفحة خدمات الذكاء الاصطناعي Azure في مركز توثيق Microsoft لمعرفة المزيد.

الخطوات التالية

إنشاء نموذج مخصص وتدريبه

Share via