نموذج عبر التحقق من الصحة
توضح هذه المقالة كيفية استخدام مكون نموذج التحقق من الصحة عبر في Azure مصمم التعلم الآلي. التحقق المتبادل هو تقنية غالبا ما تستخدم في التعلم الآلي لتقييم كل من تباين مجموعة البيانات وموثوقية أي نموذج تم تدريبه من خلال تلك البيانات.
يأخذ مكون نموذج التحقق من الصحة المتقاطعة كإدخال مجموعة بيانات موسومة ، إلى جانب نموذج تصنيف أو انحدار غير مدرب. يقسم مجموعة البيانات إلى عدد معين من المجموعات الفرعية (الطيات) ، ويبني نموذجا على كل طية ، ثم يعيد مجموعة من إحصائيات الدقة لكل طي. من خلال مقارنة إحصائيات الدقة لجميع الطيات ، يمكنك تفسير جودة مجموعة البيانات. يمكنك بعد ذلك فهم ما إذا كان النموذج عرضة للاختلافات في البيانات.
يقوم نموذج التحقق من الصحة المتقاطع أيضا بإرجاع النتائج والاحتمالات المتوقعة لمجموعة البيانات، بحيث يمكنك تقييم موثوقية التنبؤات.
كيفية عمل التحقق المتبادل
يقسم التحقق المتبادل بيانات التدريب بشكل عشوائي إلى طيات.
يتم تعيين الخوارزمية افتراضيا إلى 10 أضعاف إذا لم تكن قد قسمت مجموعة البيانات مسبقا. لتقسيم مجموعة البيانات إلى عدد مختلف من الطيات، يمكنك استخدام مكون القسم والعينة والإشارة إلى عدد الطيات التي يجب استخدامها.
يضع المكون البيانات جانبا في الجزء المرئي من الصفحة 1 لاستخدامها في التحقق من الصحة. (وهذا ما يسمى أحيانا الطية الرافضة.) يستخدم المكون الطيات المتبقية لتدريب نموذج.
على سبيل المثال، إذا قمت بإنشاء خمسة أضعاف، يقوم المكون بإنشاء خمسة نماذج أثناء التحقق من الصحة المتقاطعة. يقوم المكون بتدريب كل نموذج باستخدام أربعة أخماس البيانات. يختبر كل نموذج على الخمس المتبقي.
أثناء اختبار النموذج لكل طيات ، يقوم المكون بتقييم إحصائيات دقة متعددة. تعتمد الإحصاءات التي يستخدمها المكون على نوع النموذج الذي تقوم بتقييمه. تستخدم إحصاءات مختلفة لتقييم نماذج التصنيف مقابل نماذج الانحدار.
عند اكتمال عملية البناء والتقييم لجميع الطيات، يقوم نموذج التحقق من الصحة المتقاطع بإنشاء مجموعة من مقاييس الأداء والنتائج المسجلة لجميع البيانات. راجع هذه المقاييس لمعرفة ما إذا كانت أي طية واحدة ذات دقة عالية أو منخفضة.
مزايا التحقق المتبادل
هناك طريقة مختلفة وشائعة لتقييم نموذج ما وهي تقسيم البيانات إلى مجموعة تدريب واختبار باستخدام Split Data ، ثم التحقق من صحة النموذج على بيانات التدريب. لكن التحقق المتبادل يوفر بعض المزايا:
يستخدم التحقق المتبادل المزيد من بيانات الاختبار.
يقيس التحقق المتبادل أداء النموذج باستخدام المعلمات المحددة في مساحة بيانات أكبر. أي أن التحقق المتبادل يستخدم مجموعة بيانات التدريب بأكملها لكل من التدريب والتقييم ، بدلا من جزء منها. في المقابل، إذا قمت بالتحقق من صحة نموذج باستخدام البيانات التي تم إنشاؤها من تقسيم عشوائي، فعادة ما تقوم بتقييم النموذج على 30 بالمائة فقط أو أقل من البيانات المتاحة.
ومع ذلك ، نظرا لأن التحقق المتبادل يدرب النموذج ويتحقق من صحته عدة مرات عبر مجموعة بيانات أكبر ، فهو أكثر كثافة من الناحية الحسابية. يستغرق الأمر وقتا أطول بكثير من التحقق من الصحة على تقسيم عشوائي.
يقوم التحقق المتبادل بتقييم كل من مجموعة البيانات والنموذج.
التحقق المتبادل لا يقيس ببساطة دقة النموذج. كما أنه يمنحك فكرة عن مدى تمثيل مجموعة البيانات ومدى حساسية النموذج للاختلافات في البيانات.
كيفية استخدام نموذج التحقق من الصحة المتقاطعة
قد يستغرق التحقق من الصحة المتقاطعة وقتا طويلا للتشغيل إذا كانت مجموعة البيانات كبيرة. لذلك ، يمكنك استخدام نموذج التحقق من الصحة المتقاطع في المرحلة الأولية من بناء النموذج واختباره. في هذه المرحلة ، يمكنك تقييم جودة معلمات النموذج (على افتراض أن وقت الحساب مقبول). يمكنك بعد ذلك تدريب النموذج الخاص بك وتقييمه باستخدام المعلمات المحددة مع مكونات نموذج التدريبوتقييم النموذج .
في هذا السيناريو، يمكنك تدريب واختبار النموذج باستخدام نموذج التحقق من صحة المتقاطعة.
أضف مكون نموذج التحقق من الصحة المتقاطع إلى خط الأنابيب الخاص بك. يمكنك العثور عليه في Azure التعلم الآلي مصمم، في فئة تقييم تسجيل نقاط & النماذج.
الاتصال مخرجات أي نموذج تصنيف أو انحدار.
على سبيل المثال، إذا كنت تستخدم شجرة القرارات المعززة من فئتين للتصنيف، فقم بتكوين النموذج باستخدام المعلمات التي تريدها. ثم اسحب موصلا من منفذ النموذج غير المدرب للمصنف إلى المنفذ المطابق ل Cross Validate Model.
تلميح
لست مضطرا إلى تدريب النموذج، لأن نموذج التحقق من الصحة المتبادل يقوم تلقائيا بتدريب النموذج كجزء من التقييم.
على منفذ مجموعة البيانات في نموذج التحقق من الصحة المتقاطعة، قم بتوصيل أي مجموعة بيانات تدريب موسومة.
في اللوحة اليسرى من نموذج التحقق من الصحة المتقاطع، انقر فوق تحرير العمود. حدد العمود الفردي الذي يحتوي على تسمية الفئة أو القيمة التي يمكن التنبؤ بها.
قم بتعيين قيمة لمعلمة البذور العشوائية إذا كنت تريد تكرار نتائج التحقق المتبادل عبر عمليات التشغيل المتتالية على نفس البيانات.
إرسال المسار.
راجع قسم النتائج للحصول على وصف للتقارير.
النتائج
بعد اكتمال جميع التكرارات، يقوم نموذج التحقق من الصحة المتقاطع بإنشاء نقاط لمجموعة البيانات بأكملها. كما أنه ينشئ مقاييس أداء يمكنك استخدامها لتقييم جودة النموذج.
النتائج المسجلة
يوفر الإخراج الأول للمكون بيانات المصدر لكل صف، إلى جانب بعض القيم المتوقعة والاحتمالات ذات الصلة.
لعرض النتائج، في خط الأنابيب، انقر بزر الماوس الأيمن فوق المكون نموذج التحقق من الصحة المتقاطعة. حدد تصور النتائج المسجلة.
| اسم عمود جديد | الوصف |
|---|---|
| التصنيفات المسجلة | تتم إضافة هذا العمود في نهاية مجموعة البيانات. يحتوي على القيمة المتوقعة لكل صف. |
| الاحتمالات المسجلة | تتم إضافة هذا العمود في نهاية مجموعة البيانات. يشير إلى الاحتمال المقدر للقيمة في التصنيفات المدرجة. |
| رقم الطي | يشير إلى الفهرس المستند إلى الصفر للطي الذي تم تعيين كل صف من البيانات إليه أثناء التحقق من الصحة المتقاطعة. |
نتائج التقييم
التقرير الثاني مصنف حسب الطيات. تذكر أنه أثناء التنفيذ ، يقوم Cross Validate Model بتقسيم بيانات التدريب بشكل عشوائي إلى طيات n (افتراضيا ، 10). في كل تكرار عبر مجموعة البيانات، يستخدم نموذج التحقق من الصحة المتقاطعة طيا واحدا كمجموعة بيانات للتحقق من الصحة. يستخدم طيات n-1 المتبقية لتدريب نموذج. يتم اختبار كل نموذج من نماذج n مقابل البيانات الموجودة في جميع الطيات الأخرى.
في هذا التقرير، يتم سرد الطيات حسب قيمة الفهرس، بترتيب تصاعدي. للترتيب في أي عمود آخر، يمكنك حفظ النتائج كمجموعة بيانات.
لعرض النتائج، في خط الأنابيب، انقر بزر الماوس الأيمن فوق المكون نموذج التحقق من الصحة المتقاطعة. حدد تصور نتائج التقييم حسب الطية.
| اسم العمود | الوصف |
|---|---|
| رقم الطي | معرف لكل طيات. إذا قمت بإنشاء خمسة أضعاف ، فستكون هناك خمس مجموعات فرعية من البيانات ، مرقمة من 0 إلى 4. |
| عدد الأمثلة في الطية | عدد الصفوف المخصصة لكل طي. يجب أن تكون متساوية تقريبا. |
يتضمن المكون أيضا المقاييس التالية لكل طي، بناء على نوع النموذج الذي تقوم بتقييمه:
نماذج التصنيف: الدقة ، الاستدعاء ، F-score ، AUC ، الدقة
نماذج الانحدار: متوسط الخطأ المطلق ، والخطأ الجذري المتوسط التربيعي ، والخطأ المطلق النسبي ، والخطأ التربيعي النسبي ، ومعامل التحديد
ملاحظات فنية
من أفضل الممارسات تطبيع مجموعات البيانات قبل استخدامها للتحقق من الصحة المتبادلة.
يعد نموذج التحقق من الصحة المتقاطع أكثر كثافة من الناحية الحسابية ويستغرق وقتا أطول لإكماله مما لو قمت بالتحقق من صحة النموذج باستخدام مجموعة بيانات مقسمة عشوائيا. والسبب هو أن نموذج التحقق من صحة الصليب يقوم بتدريب النموذج والتحقق من صحته عدة مرات.
ليست هناك حاجة لتقسيم مجموعة البيانات إلى مجموعات تدريب واختبار عند استخدام التحقق المتبادل لقياس دقة النموذج.
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.