تقييم مكون النموذج

توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.

استخدم هذا المكون لقياس دقة نموذج مدرب. يمكنك توفير مجموعة بيانات تحتوي على درجات تم إنشاؤها من نموذج، ويقوم مكون تقييم النموذج بحساب مجموعة من مقاييس التقييم القياسية في الصناعة.

تعتمد المقاييس التي يتم إرجاعها بواسطة نموذج التقييم على نوع النموذج الذي تقوم بتقييمه:

  • نماذج التصنيف
  • نماذج الانحدار
  • نماذج التجميع

تلميح

إذا كنت جديدا على تقييم النموذج ، فإننا نوصي بسلسلة الفيديو التي كتبها الدكتور ستيفن إلستون ، كجزء من دورة التعلم الآلي من EdX.

كيفية استخدام نموذج التقييم

  1. الاتصال إخراج مجموعة البيانات المسجلة لنموذج النتيجة أو إخراج مجموعة بيانات النتيجة لتعيين البيانات إلى المجموعات إلى منفذ الإدخال الأيسر لنموذج التقييم.

    ملاحظة

    إذا كنت تستخدم مكونات مثل "تحديد أعمدة في مجموعة البيانات" لتحديد جزء من مجموعة بيانات الإدخال، يرجى التأكد من وجود عمود التسمية الفعلي (المستخدم في التدريب) وعمود "الاحتمالات المسجلة" وعمود "التسميات المسجلة" لحساب مقاييس مثل AUC ودقة التصنيف الثنائي / الكشف عن الشذوذ. عمود التصنيف الفعلي، عمود "التصنيفات المسجلة" موجود لحساب مقاييس التصنيف/الانحدار متعدد الفئات. عمود "المهام"، الأعمدة "DistancesToClusterCenter no. X' (X هو مؤشر سنترويد ، يتراوح من 0 ، ...، عدد centroids-1) موجود لحساب مقاييس التجميع.

    هام

    • لتقييم النتائج، يجب أن تحتوي مجموعة بيانات المخرجات على أسماء أعمدة نقاط محددة، والتي تفي بمتطلبات مكون تقييم النموذج.
    • Labels سيتم اعتبار العمود تسميات فعلية.
    • بالنسبة لمهمة الانحدار، يجب أن تحتوي مجموعة البيانات المراد تقييمها على عمود واحد، يسمى Regression Scored Labels، والذي يمثل التسميات المسجلة.
    • بالنسبة لمهمة التصنيف الثنائي، يجب أن تحتوي مجموعة البيانات المراد تقييمها على عمودين، مسماة Binary Class Scored Labels،، والتي تمثل التسميات المسجلة،Binary Class Scored Probabilities والاحتمالات على التوالي.
    • بالنسبة لمهمة التصنيف المتعدد، يجب أن تحتوي مجموعة البيانات المراد تقييمها على عمود واحد، يسمى Multi Class Scored Labels، والذي يمثل التسميات المسجلة. إذا لم تكن مخرجات مكون المنبع تحتوي على هذه الأعمدة ، فأنت بحاجة إلى التعديل وفقا للمتطلبات المذكورة أعلاه.
  2. [اختياري] الاتصال إخراج مجموعة البيانات المسجلة لنموذج النتيجة أو إخراج مجموعة بيانات النتيجة لتعيين البيانات إلى المجموعات للنموذج الثاني إلى منفذ الإدخال الصحيحلنموذج التقييم. يمكنك بسهولة مقارنة النتائج من نموذجين مختلفين على نفس البيانات. يجب أن تكون خوارزميتا الإدخال هما نفس نوع الخوارزمية. أو يمكنك مقارنة الدرجات من عمليتين مختلفتين على نفس البيانات بمعلمات مختلفة.

    ملاحظة

    يشير نوع الخوارزمية إلى "تصنيف من فئتين" و "تصنيف متعدد الفئات" و "انحدار" و "تجميع" ضمن "خوارزميات التعلم الآلي".

  3. أرسل خط الأنابيب لإنشاء درجات التقييم.

النتائج

بعد تشغيل تقييم النموذج، حدد المكون لفتح لوحة التنقل تقييم النموذج على اليمين. ثم اختر علامة التبويب مخرجات + سجلات ، وفي علامة التبويب هذه يحتوي قسم مخرجات البيانات على العديد من الرموز. تحتوي أيقونة Visualize على أيقونة رسم بياني شريطي، وهي الطريقة الأولى لرؤية النتائج.

بالنسبة للتصنيف الثنائي، بعد النقر فوق الرمز Visualize ، يمكنك تصور مصفوفة الارتباك الثنائي. بالنسبة للتصنيفات المتعددة، يمكنك العثور على ملف مخطط مصفوفة الارتباك ضمن علامة التبويب المخرجات + السجلات على النحو التالي:

Preview of uploaded image

إذا قمت بتوصيل مجموعات البيانات بكلا مدخلي نموذج التقييم، فستحتوي النتائج على مقاييس لكل من مجموعتي البيانات أو كلا النموذجين. يتم عرض النموذج أو البيانات المرفقة بالمنفذ الأيسر أولا في التقرير، متبوعة بمقاييس مجموعة البيانات، أو النموذج المرفق على المنفذ الأيمن.

على سبيل المثال، تمثل الصورة التالية مقارنة بين النتائج من نموذجين للتجميع تم بناؤهما على نفس البيانات، ولكن بمعلمات مختلفة.

Comparing2Models

نظرا لأن هذا نموذج تجميع، فإن نتائج التقييم تختلف عما لو قارنت درجات من نموذجين للانحدار، أو قارنت نموذجين للتصنيف. ومع ذلك ، فإن العرض التقديمي العام هو نفسه.

المقاييس

يصف هذا القسم المقاييس التي تم إرجاعها لأنواع محددة من النماذج المدعومة للاستخدام مع تقييم النموذج:

مقاييس نماذج التصنيف

يتم الإبلاغ عن المقاييس التالية عند تقييم نماذج التصنيف الثنائي.

  • تقيس الدقة مدى جودة نموذج التصنيف كنسبة من النتائج الحقيقية إلى إجمالي الحالات.

  • الدقة هي نسبة النتائج الحقيقية على جميع النتائج الإيجابية. الدقة = TP / (TP + FP)

  • الاستدعاء هو جزء من إجمالي كمية المثيلات ذات الصلة التي تم استردادها بالفعل. استدعاء = TP / (TP + FN)

  • يتم حساب درجة F1 كمتوسط مرجح للدقة والاستدعاء بين 0 و 1 ، حيث تكون قيمة درجة F1 المثالية هي 1.

  • تقيس AUC المساحة تحت المنحنى المرسوم بإيجابيات حقيقية على المحور y وإيجابيات خاطئة على المحور x. هذا المقياس مفيد لأنه يوفر رقما واحدا يتيح لك مقارنة النماذج من أنواع مختلفة. AUC هو تصنيف عتبة ثابتة. وهو يقيس جودة تنبؤات النموذج بغض النظر عن عتبة التصنيف التي يتم اختيارها.

مقاييس نماذج الانحدار

تم تصميم المقاييس التي يتم إرجاعها لنماذج الانحدار لتقدير مقدار الخطأ. يعتبر النموذج مناسبا للبيانات بشكل جيد إذا كان الفرق بين القيم المرصودة والمتوقعة صغيرا. ومع ذلك ، فإن النظر إلى نمط البقايا (الفرق بين أي نقطة متوقعة وقيمتها الفعلية المقابلة) يمكن أن يخبرك الكثير عن التحيز المحتمل في النموذج.

يتم الإبلاغ عن المقاييس التالية لتقييم نماذج الانحدار.

  • متوسط الخطأ المطلق (MAE) يقيس مدى قرب التنبؤات من النتائج الفعلية ؛ وبالتالي ، فإن درجة أقل أفضل.

  • يقوم الجذر متوسط الخطأ التربيعي (RMSE) بإنشاء قيمة واحدة تلخص الخطأ في النموذج. من خلال تربيع الفرق ، يتجاهل المقياس الفرق بين الإفراط في التنبؤ والتنبؤ الناقص.

  • الخطأ المطلق النسبي (RAE) هو الفرق المطلق النسبي بين القيم المتوقعة والفعلية. نسبي لأن الفرق المتوسط مقسوما على المتوسط الحسابي.

  • يقوم الخطأ التربيعي النسبي (RSE) بالمثل بتطبيع الخطأ التربيعي الكلي للقيم المتوقعة عن طريق القسمة على إجمالي الخطأ التربيعي للقيم الفعلية.

  • يمثل معامل التحديد ، الذي يشار إليه غالبا باسم R2 ، القوة التنبؤية للنموذج كقيمة بين 0 و 1. الصفر يعني أن النموذج عشوائي (لا يفسر شيئا) ؛ 1 يعني أن هناك تناسب مثالي. ومع ذلك ، يجب توخي الحذر في تفسير قيم R2 ، حيث يمكن أن تكون القيم المنخفضة طبيعية تماما ويمكن الاشتباه في القيم العالية.

مقاييس نماذج التجميع

نظرا لأن نماذج التجميع تختلف اختلافا كبيرا عن نماذج التصنيف والانحدار في العديد من النواحي، يقوم نموذج التقييم أيضا بإرجاع مجموعة مختلفة من الإحصاءات لنماذج التجميع.

تصف الإحصاءات التي تم إرجاعها لنموذج التجميع عدد نقاط البيانات التي تم تعيينها لكل مجموعة، ومقدار الفصل بين المجموعات، ومدى إحكام تجميع نقاط البيانات داخل كل مجموعة.

يتم حساب متوسط إحصائيات نموذج التجميع على مجموعة البيانات بأكملها، مع وجود صفوف إضافية تحتوي على الإحصاءات لكل مجموعة.

يتم الإبلاغ عن المقاييس التالية لتقييم نماذج التجميع.

  • تمثل الدرجات في العمود، متوسط المسافة إلى مركز آخر، مدى قرب، في المتوسط، كل نقطة في المجموعة من مراكز جميع المجموعات الأخرى.

  • تمثل الدرجات في العمود، متوسط المسافة إلى مركز المجموعة، قرب جميع النقاط في المجموعة من مركز تلك المجموعة.

  • يوضح العمود عدد النقاط عدد نقاط البيانات التي تم تعيينها لكل مجموعة، إلى جانب إجمالي عدد نقاط البيانات الإجمالية في أي مجموعة.

    إذا كان عدد نقاط البيانات المعينة للمجموعات أقل من العدد الإجمالي لنقاط البيانات المتاحة، فهذا يعني أنه لا يمكن تعيين نقاط البيانات إلى مجموعة.

  • تمثل الدرجات في العمود، المسافة القصوى إلى مركز الكتلة، الحد الأقصى للمسافات بين كل نقطة والمركز المركزي لعنقود تلك النقطة.

    إذا كان هذا الرقم مرتفعا ، فقد يعني ذلك أن الكتلة مشتتة على نطاق واسع. يجب عليك مراجعة هذه الإحصائية مع متوسط المسافة إلى مركز الكتلة لتحديد انتشار المجموعة.

  • تسرد درجة التقييم المجمع في أسفل كل قسم من أقسام النتائج متوسط الدرجات للمجموعات التي تم إنشاؤها في هذا النموذج المحدد.

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.