تقييم نتائج تجارب التعلم الآلي الآلي
في هذه المقالة، تعرف على كيفية تقييم النماذج المدربة بواسطة تجربة التعلم الآلي الآلي (ML) ومقارنتها. على مدار تجربة ML الآلية ، يتم إنشاء العديد من عمليات التشغيل ويقوم كل تشغيل بإنشاء نموذج. لكل نموذج، يقوم التعلم الآلي الآلي بإنشاء مقاييس تقييم ومخططات تساعدك على قياس أداء النموذج.
على سبيل المثال، يقوم ML التلقائي بإنشاء المخططات التالية استنادا إلى نوع التجربة.
المتطلبات الأساسية
- اشتراك Azure. (إذا لم يكن لديك اشتراك في Azure، فقم بإنشاء حساب مجاني قبل البدء)
- تجربة Azure التعلم الآلي تم إنشاؤها باستخدام إما:
- استوديو Azure التعلم الآلي (لا يلزم وجود رمز)
- The Azure التعلم الآلي Python SDK
عرض نتائج التشغيل
بعد اكتمال تجربة ML التلقائية ، يمكن العثور على سجل عمليات التشغيل من خلال:
- متصفح مع استوديو Azure التعلم الآلي
- دفتر ملاحظات Jupyter باستخدام أداة RunDetails Jupyter
توضح لك الخطوات ومقاطع الفيديو التالية كيفية عرض سجل التشغيل ومقاييس تقييم النموذج والمخططات في الاستوديو:
- سجل الدخول إلى الاستوديو وانتقل إلى مساحة العمل الخاصة بك.
- في القائمة اليمنى، اختر التجارب.
- اختر تجربتك من قائمة التجارب.
- في الجدول الموجود أسفل الصفحة، حدد تشغيل ML تلقائي.
- في علامة التبويب النماذج ، حدد اسم الخوارزمية للنموذج الذي تريد تقييمه.
- في علامة التبويب المقاييس ، استخدم خانات الاختيار الموجودة على اليمين لعرض المقاييس والمخططات.

مقاييس التصنيف
يحسب التعلم الآلي التلقائي مقاييس الأداء لكل نموذج تصنيف تم إنشاؤه لتجربتك. تستند هذه المقاييس إلى تنفيذ scikit learn.
يتم تعريف العديد من مقاييس التصنيف للتصنيف الثنائي على فئتين، وتتطلب المتوسط على الفئات لإنتاج درجة واحدة للتصنيف متعدد الفئات. يوفر Scikit-learn العديد من طرق المتوسط ، ثلاثة منها يعرض ML الآلي: الكليوالجزئيوالمرجح.
- الماكرو - احسب المقياس لكل فئة وخذ المتوسط غير المرجح
- Micro - حساب المقياس عالميا عن طريق حساب إجمالي الإيجابيات الحقيقية والسلبيات الخاطئة والإيجابيات الكاذبة (بغض النظر عن الفئات).
- مرجح - احسب المقياس لكل فئة وخذ المتوسط المرجح استنادا إلى عدد العينات لكل فئة.
في حين أن كل طريقة متوسط لها فوائدها ، فإن أحد الاعتبارات الشائعة عند اختيار الطريقة المناسبة هو عدم التوازن الطبقي. إذا كان للفئات أعداد مختلفة من العينات، فقد يكون من المفيد استخدام متوسط كلي حيث تعطى فئات الأقليات وزنا متساويا لفئات الأغلبية. تعرف على المزيد حول المقاييس الثنائية مقابل المقاييس متعددة الفئات في ML الآلي.
يلخص الجدول التالي مقاييس أداء النموذج التي يحسبها التعلم الآلي التلقائي لكل نموذج تصنيف تم إنشاؤه لتجربتك. لمزيد من التفاصيل، راجع وثائق scikit-learn المرتبطة في حقل الحساب لكل مقياس.
ملاحظة
ارجع إلى قسم مقاييس الصور للحصول على تفاصيل إضافية حول مقاييس نماذج تصنيف الصور.
| متري | الوصف | العملية الحسابية |
|---|---|---|
| الجامعة الأمريكية بالقاهرة | AUC هي المنطقة الواقعة تحت منحنى خصائص تشغيل جهاز الاستقبال. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] تتضمن أسماء المقاييس المدعومة، AUC_macro، المتوسط الحسابي للجامعة الأمريكية بالقاهرة لكل فصل.AUC_micro، محسوبة بحساب مجموع الإيجابيات الحقيقية، والسلبيات الكاذبة، والإيجابيات الكاذبة. AUC_weighted، المتوسط الحسابي للدرجة لكل فئة، مرجحا بعدد المثيلات الحقيقية في كل فئة. AUC_binary، قيمة الجامعة الأمريكية بالقاهرة من خلال التعامل مع فئة واحدة محددة كفئة والجمع بين جميع الفئات الأخرى كفئة truefalse . |
العملية الحسابية |
| الدقة | الدقة هي نسبة التنبؤات التي تتطابق تماما مع تسميات الفئات الحقيقية. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] |
العملية الحسابية |
| average_precision | يلخص متوسط الدقة منحنى الاستدعاء الدقيق باعتباره المتوسط المرجح للدقة التي تم تحقيقها عند كل عتبة، مع الزيادة في الاستدعاء من العتبة السابقة المستخدمة كوزن. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] تتضمن أسماء المقاييس المدعومة، average_precision_score_macro، المتوسط الحسابي لمتوسط درجة الدقة لكل فئة.average_precision_score_micro، محسوبة بحساب مجموع الإيجابيات الحقيقية، والسلبيات الكاذبة، والإيجابيات الكاذبة.average_precision_score_weighted، المتوسط الحسابي لمتوسط درجة الدقة لكل فئة، مرجحا بعدد المثيلات الحقيقية في كل فئة. average_precision_score_binary، قيمة متوسط الدقة من خلال التعامل مع فئة معينة كفئة والجمع بين جميع الفئات الأخرى كفئة truefalse . |
العملية الحسابية |
| balanced_accuracy | الدقة المتوازنة هي المتوسط الحسابي للاستدعاء لكل فئة. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] |
العملية الحسابية |
| f1_score | درجة F1 هي الوسط التوافقي للدقة والتذكر. إنه مقياس متوازن جيد لكل من الإيجابيات الكاذبة والسلبيات الكاذبة. ومع ذلك ، فإنه لا يأخذ السلبيات الحقيقية في الاعتبار. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] تتضمن أسماء المقاييس المدعومة، f1_score_macroالمتوسط الحسابي لدرجات F1 لكل فئة.: f1_score_microيتم حسابها من خلال حساب إجمالي الإيجابيات الحقيقية والسلبيات الخاطئة والإيجابيات الكاذبة.: f1_score_weightedالمتوسط المرجح حسب تكرار فئة درجة F1 لكل فئة.: f1_score_binary، قيمة F1 من خلال معاملة فئة معينة كفئة true والجمع بين جميع الفئات الأخرى كفئة false . |
العملية الحسابية |
| log_loss | هذه هي دالة الخسارة المستخدمة في الانحدار اللوجستي (متعدد الحدود) وامتداداته مثل الشبكات العصبية ، والتي تعرف بأنها احتمال السجل السلبي للتسميات الحقيقية بالنظر إلى تنبؤات المصنف الاحتمالي. هدف: أقرب إلى 0 كلما كان ذلك أفضل المدى: [0 ، inf) |
العملية الحسابية |
| norm_macro_recall | استدعاء الماكرو العادي هو استدعاء المتوسط الكلي وتطبيعه ، بحيث يكون للأداء العشوائي درجة 0 ، والأداء المثالي لديه درجة 1. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] |
(recall_score_macro - R) / (1 - R) أين ، R هي القيمة المتوقعة للتنبؤات العشوائية recall_score_macro .R = 0.5 للتصنيف الثنائي. R = (1 / C) لمشاكل تصنيف الفئة C. |
| matthews_correlation | معامل ارتباط ماثيوز هو مقياس متوازن للدقة ، والذي يمكن استخدامه حتى لو كانت فئة واحدة تحتوي على العديد من العينات أكثر من الأخرى. يشير معامل 1 إلى التنبؤ المثالي ، و 0 التنبؤ العشوائي ، و -1 التنبؤ العكسي. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [-1، 1] |
العملية الحسابية |
| الضبط | الدقة هي قدرة النموذج على تجنب تصنيف العينات السلبية على أنها إيجابية. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] تتضمن أسماء المقاييس المدعومة، precision_score_macro، المتوسط الحسابي للدقة لكل فئة. precision_score_micro، محسوبة عالميا من خلال حساب إجمالي الإيجابيات الحقيقية والإيجابيات الكاذبة. precision_score_weighted، المتوسط الحسابي للدقة لكل فئة، مرجحا بعدد المثيلات الحقيقية في كل فئة. precision_score_binary، قيمة الدقة من خلال التعامل مع فئة واحدة محددة كفئة والجمع بين جميع الفئات الأخرى كفئة truefalse . |
العملية الحسابية |
| الاسترجاع | الاستدعاء هو قدرة النموذج على اكتشاف جميع العينات الإيجابية. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] تتضمن أسماء المقاييس المدعومة، recall_score_macroالمتوسط الحسابي للاستدعاء لكل فئة.: recall_score_microمحسوبة عالميا من خلال حساب إجمالي الإيجابيات الحقيقية والسلبيات الكاذبة والإيجابيات الكاذبة.:recall_score_weightedالمتوسط الحسابي للاستدعاء لكل فئة، مرجحا بعدد المثيلات الحقيقية في كل فئة.: recall_score_binary، قيمة الاستدعاء من خلال التعامل مع فئة معينة كفئة والجمع بين جميع الفئات الأخرى كفئة truefalse . |
العملية الحسابية |
| weighted_accuracy | الدقة المرجحة هي الدقة حيث يتم ترجيح كل عينة بالعدد الإجمالي للعينات التي تنتمي إلى نفس الفئة. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [0، 1] |
العملية الحسابية |
مقاييس التصنيف الثنائية مقابل مقاييس التصنيف متعددة الفئات
يكتشف ML الآلي تلقائيا ما إذا كانت البيانات ثنائية ويسمح أيضا للمستخدمين بتنشيط مقاييس التصنيف الثنائي حتى لو كانت البيانات متعددة الفئات عن طريق تحديد true فئة. سيتم الإبلاغ عن مقاييس التصنيف متعددة الفئات بغض النظر عما إذا كانت مجموعة البيانات تحتوي على فئتين أو أكثر من فئتين. لن يتم الإبلاغ عن مقاييس التصنيف الثنائي إلا عندما تكون البيانات ثنائية، أو يقوم المستخدمون بتنشيط الخيار.
ملاحظة
عند اكتشاف مهمة تصنيف ثنائي، نستخدمها numpy.unique للعثور على مجموعة التسميات وسيتم استخدام التسمية الأحدث true كفئة. نظرا لوجود إجراء فرز في numpy.unique، سيكون اختيار true الفئة مستقرا.
لاحظ أن مقاييس التصنيف متعددة الفئات مخصصة للتصنيف متعدد الفئات. عند تطبيقها على مجموعة بيانات ثنائية، لن تتعامل هذه المقاييس مع أي فئة على أنها الفئة true ، كما قد تتوقع. يتم إلحاق المقاييس المخصصة بوضوح للفئات المتعددة ب micro، macroأو weighted. ومن الأمثلة على ذلك average_precision_score، ، ، ، recall_scoref1_scoreprecision_scoreو .AUC على سبيل المثال، بدلا من حساب الاستدعاء على أنه tp / (tp + fn)، فإن متوسط الاستدعاء متعدد الفئات (micro، macroأو weighted) متوسط على كلتا الفئتين من مجموعة بيانات التصنيف الثنائي. وهذا يعادل حساب الاستدعاء للفصل true والفصل false بشكل منفصل ، ثم أخذ متوسط الاثنين.
إلى جانب ذلك ، على الرغم من دعم الكشف التلقائي عن التصنيف الثنائي ، إلا أنه لا يزال يوصى دائما بتحديد true الفئة يدويا للتأكد من حساب مقاييس التصنيف الثنائي للفئة الصحيحة.
لتنشيط المقاييس لمجموعات بيانات التصنيف الثنائي عندما تكون مجموعة البيانات نفسها متعددة الفئات، يحتاج المستخدمون فقط إلى تحديد الفئة التي سيتم التعامل معها كفئة true وسيتم حساب هذه المقاييس.
مصفوفة الخطأ
توفر مصفوفات الارتباك رؤية مرئية لكيفية ارتكاب نموذج التعلم الآلي أخطاء منهجية في تنبؤاته لنماذج التصنيف. كلمة "ارتباك" في الاسم تأتي من نموذج "مربك" أو عينات تسمية خاطئة. تحتوي الخلية في الصف i والعمود j في مصفوفة الارتباك على عدد العينات في مجموعة بيانات التقييم التي تنتمي إلى الفئة C_i والتي تم تصنيفها بواسطة النموذج كفئة C_j.
في الاستوديو، تشير الخلية الداكنة إلى عدد أكبر من العينات. سيؤدي تحديد طريقة العرض " تمت التسوية" في القائمة المنسدلة إلى التطبيع فوق كل صف مصفوفة لإظهار النسبة المئوية للفئة C_i المتوقع أن تكون فئة C_j. تتمثل فائدة طريقة عرض Raw الافتراضية في أنه يمكنك معرفة ما إذا كان عدم التوازن في توزيع الفئات الفعلية قد تسبب في قيام النموذج بتصنيف عينات من فئة الأقلية بشكل خاطئ ، وهي مشكلة شائعة في مجموعات البيانات غير المتوازنة.
سيكون لمصفوفة الارتباك في نموذج جيد معظم العينات على طول القطر.
مصفوفة الارتباك لنموذج جيد

مصفوفة الارتباك لنموذج سيئ

منحنى ROC
يرسم منحنى خاصية تشغيل المستقبل (ROC) العلاقة بين المعدل الإيجابي الحقيقي (TPR) والمعدل الإيجابي الخاطئ (FPR) مع تغير عتبة القرار. يمكن أن يكون منحنى ROC أقل إفادة عند تدريب النماذج على مجموعات البيانات ذات الاختلال في توازن الطبقة العالية ، حيث يمكن لفئة الأغلبية أن تغرق المساهمات من فئات الأقليات.
يمكن تفسير المساحة تحت المنحنى (AUC) على أنها نسبة العينات المصنفة بشكل صحيح. بتعبير أدق ، فإن AUC هو احتمال أن يصنف المصنف عينة إيجابية مختارة عشوائيا أعلى من عينة سلبية مختارة عشوائيا. يعطي شكل المنحنى حدسا للعلاقة بين TPR و FPR كدالة لعتبة التصنيف أو حدود القرار.
يقترب المنحنى الذي يقترب من الزاوية العلوية اليسرى من الرسم البياني من TPR بنسبة 100٪ و 0٪ FPR ، وهو أفضل نموذج ممكن. سينتج نموذج عشوائي منحنى ROC على y = x طول الخط من الزاوية السفلية اليسرى إلى أعلى اليمين. سيكون للنموذج الأسوأ من العشوائي منحنى ROC ينخفض تحت y = x الخط.
تلميح
بالنسبة لتجارب التصنيف، يمكن استخدام كل من المخططات الخطية المنتجة لنماذج التعلم الآلي الآلية لتقييم النموذج لكل فئة أو متوسطه على جميع الفئات. يمكنك التبديل بين طرق العرض المختلفة هذه بالنقر فوق تسميات الفئات في وسيلة الإيضاح الموجودة على يسار المخطط.
منحنى ROC لنموذج جيد

منحنى ROC لنموذج سيئ

منحنى الاستدعاء الدقيق
يرسم منحنى الاستدعاء الدقيق العلاقة بين الدقة والاستدعاء مع تغير عتبة القرار. الاستدعاء هو قدرة النموذج على اكتشاف جميع العينات الإيجابية والدقة هي قدرة النموذج على تجنب تصنيف العينات السلبية على أنها إيجابية. قد تتطلب بعض مشاكل العمل استدعاء أعلى وبعض الدقة العالية اعتمادا على الأهمية النسبية لتجنب السلبيات الكاذبة مقابل الإيجابيات الكاذبة.
تلميح
بالنسبة لتجارب التصنيف، يمكن استخدام كل من المخططات الخطية المنتجة لنماذج التعلم الآلي الآلية لتقييم النموذج لكل فئة أو متوسطه على جميع الفئات. يمكنك التبديل بين طرق العرض المختلفة هذه بالنقر فوق تسميات الفئات في وسيلة الإيضاح الموجودة على يسار المخطط.
منحنى الاستدعاء الدقيق لنموذج جيد

منحنى الاستدعاء الدقيق لنموذج سيئ

منحنى المكاسب التراكمية
يرسم منحنى المكاسب التراكمية النسبة المئوية للعينات الموجبة المصنفة بشكل صحيح كدالة للنسبة المئوية للعينات التي تم النظر فيها حيث ننظر في العينات بترتيب الاحتمال المتوقع.
لحساب الربح، قم أولا بفرز جميع العينات من أعلى إلى أدنى احتمال تنبأ به النموذج. ثم خذ x% أعلى توقعات الثقة. اقسم عدد العينات الإيجابية المكتشفة في ذلك x% على إجمالي عدد العينات الإيجابية للحصول على المكسب. الكسب التراكمي هو النسبة المئوية للعينات الإيجابية التي نكتشفها عند النظر في بعض البيانات التي من المرجح أن تنتمي إلى الفئة الإيجابية.
سيقوم النموذج المثالي بترتيب جميع العينات الإيجابية فوق جميع العينات السلبية مما يعطي منحنى مكاسب تراكمي يتكون من جزأين مستقيمين. الأول هو خط مع ميل 1 / x من إلى أين x هو جزء من (0, 0) العينات التي تنتمي إلى (x, 1) الفئة الموجبة (1 / num_classes إذا كانت الفئات متوازنة). والثاني هو خط أفقي من (x, 1) إلى (1, 1). في الجزء الأول ، يتم تصنيف جميع العينات الإيجابية بشكل صحيح ويذهب الكسب التراكمي إلى 100% داخل أول x% العينات التي تم النظر فيها.
سيكون للنموذج x% العشوائي الأساسي منحنى مكاسب تراكمي يلي y = x حيث تم اكتشاف العينات التي تم النظر فيها فقط حول x% إجمالي العينات الإيجابية. سيكون للنموذج المثالي لمجموعة بيانات متوازنة منحنى متوسط جزئي وخط متوسط كلي له ميل حتى يكون الكسب num_classes التراكمي 100٪ ثم أفقيا حتى تكون النسبة المئوية للبيانات 100.
تلميح
بالنسبة لتجارب التصنيف، يمكن استخدام كل من المخططات الخطية المنتجة لنماذج التعلم الآلي الآلية لتقييم النموذج لكل فئة أو متوسطه على جميع الفئات. يمكنك التبديل بين طرق العرض المختلفة هذه بالنقر فوق تسميات الفئات في وسيلة الإيضاح الموجودة على يسار المخطط.
منحنى المكاسب التراكمية لنموذج جيد

منحنى المكاسب التراكمية لنموذج سيئ

منحنى الرفع
يوضح منحنى الرفع عدد المرات التي يكون فيها أداء النموذج أفضل مقارنة بالنموذج العشوائي. يتم تعريف الرفع على أنه نسبة الكسب التراكمي إلى الكسب التراكمي لنموذج عشوائي (والذي يجب أن يكون 1دائما ).
يأخذ هذا الأداء النسبي في الاعتبار حقيقة أن التصنيف يصبح أكثر صعوبة كلما قمت بزيادة عدد الفصول. (يتنبأ نموذج عشوائي بشكل غير صحيح بجزء أعلى من العينات من مجموعة بيانات تحتوي على 10 فئات مقارنة بمجموعة بيانات تحتوي على فئتين)
منحنى الرفع الأساسي هو الخط الذي y = 1 يكون فيه أداء النموذج متسقا مع أداء النموذج العشوائي. بشكل عام ، سيكون منحنى الرفع لنموذج جيد أعلى على هذا الرسم البياني وأبعد عن المحور x ، مما يدل على أنه عندما يكون النموذج أكثر ثقة في توقعاته ، فإنه يؤدي أداء أفضل عدة مرات من التخمين العشوائي.
تلميح
بالنسبة لتجارب التصنيف، يمكن استخدام كل من المخططات الخطية المنتجة لنماذج التعلم الآلي الآلية لتقييم النموذج لكل فئة أو متوسطه على جميع الفئات. يمكنك التبديل بين طرق العرض المختلفة هذه بالنقر فوق تسميات الفئات في وسيلة الإيضاح الموجودة على يسار المخطط.
منحنى الرفع لنموذج جيد

منحنى الرفع لنموذج سيئ

منحنى المعايرة
يرسم منحنى المعايرة ثقة النموذج في توقعاته مقابل نسبة العينات الإيجابية في كل مستوى ثقة. سيقوم النموذج المعاير جيدا بتصنيف 100٪ من التنبؤات التي يعين لها ثقة بنسبة 100٪ ، و 50٪ من التنبؤات التي يعينها ثقة بنسبة 50٪ ، و 20٪ من التنبؤات التي يعينها ثقة بنسبة 20٪ ، وما إلى ذلك. سيكون للنموذج المعاير تماما منحنى معايرة يتبع الخط الذي y = x يتنبأ فيه النموذج تماما باحتمال أن تنتمي العينات إلى كل فئة.
إن النموذج المفرط في الثقة سيبالغ في التنبؤ بالاحتمالات القريبة من الصفر وواحد ، ونادرا ما يكون غير متأكد من فئة كل عينة وسيبدو منحنى المعايرة مشابها ل "S" الخلفية. سيقوم النموذج غير الواثق بتعيين احتمال أقل في المتوسط للفئة التي يتنبأ بها وسيبدو منحنى المعايرة المرتبط به مشابها ل "S". لا يصور منحنى المعايرة قدرة النموذج على التصنيف بشكل صحيح ، ولكن بدلا من ذلك قدرته على تعيين الثقة بشكل صحيح لتوقعاته. لا يزال بإمكان النموذج السيئ أن يكون له منحنى معايرة جيد إذا قام النموذج بتعيين ثقة منخفضة وعدم يقين مرتفع بشكل صحيح.
ملاحظة
منحنى المعايرة حساس لعدد العينات، لذلك يمكن لمجموعة صغيرة للتحقق من الصحة أن تنتج نتائج صاخبة قد يكون من الصعب تفسيرها. هذا لا يعني بالضرورة أن النموذج ليس معايرا جيدا.
منحنى المعايرة لنموذج جيد

منحنى المعايرة لنموذج سيئ

مقاييس الانحدار/التنبؤ
يقوم التعلم الآلي الآلي بحساب نفس مقاييس الأداء لكل نموذج تم إنشاؤه، بغض النظر عما إذا كانت تجربة انحدار أو تنبؤ. تخضع هذه المقاييس أيضا للتطبيع لتمكين المقارنة بين النماذج المدربة على البيانات ذات النطاقات المختلفة. لمعرفة المزيد، راجع تطبيع المقياس.
يلخص الجدول التالي مقاييس أداء النموذج التي تم إنشاؤها لتجارب الانحدار والتنبؤ. مثل مقاييس التصنيف ، تستند هذه المقاييس أيضا إلى تطبيقات scikit learn. يتم ربط وثائق تعلم scikit المناسبة وفقا لذلك ، في حقل الحساب .
| متري | الوصف | العملية الحسابية |
|---|---|---|
| explained_variance | يقيس التباين الموضح مدى حساب النموذج للتباين في المتغير المستهدف. هو الانخفاض في النسبة المئوية في تباين البيانات الأصلية إلى تباين الأخطاء. عندما يكون متوسط الأخطاء 0 ، فإنه يساوي معامل التحديد (انظر r2_score أدناه). هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: (-inf، 1] |
العملية الحسابية |
| mean_absolute_error | متوسط الخطأ المطلق هو القيمة المتوقعة للقيمة المطلقة للفرق بين الهدف والتنبؤ. هدف: أقرب إلى 0 كلما كان ذلك أفضل المدى: [0 ، inf) انواع: mean_absolute_error normalized_mean_absolute_error، mean_absolute_error مقسوما على نطاق البيانات. |
العملية الحسابية |
| mean_absolute_percentage_error | متوسط الخطأ المطلقة في النسبة المئوية (MAPE) هو مقياس لمتوسط الفرق بين القيمة المتوقعة والقيمة الفعلية. هدف: أقرب إلى 0 كلما كان ذلك أفضل المدى: [0 ، inf) |
|
| median_absolute_error | متوسط الخطأ المطلق هو متوسط جميع الاختلافات المطلقة بين الهدف والتنبؤ. هذه الخسارة قوية للقيم المتطرفة. هدف: أقرب إلى 0 كلما كان ذلك أفضل المدى: [0 ، inf) انواع: median_absolute_errornormalized_median_absolute_errormedian_absolute_error مقسوما على نطاق البيانات.: |
العملية الحسابية |
| r2_score | يقيس R2 (معامل التحديد) الانخفاض النسبي في متوسط الخطأ التربيعي (MSE) بالنسبة إلى التباين الكلي للبيانات المرصودة. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [-1، 1] ملاحظة: غالبا ما يكون ل R2 النطاق (-inf ، 1]. يمكن أن يكون MSE أكبر من التباين الملحوظ ، لذلك يمكن أن يكون ل R2 قيم سلبية كبيرة بشكل تعسفي ، اعتمادا على البيانات وتنبؤات النموذج. أبلغت مقاطع ML الآلية عن درجات R2 عند -1 ، لذا فإن قيمة -1 ل R2 تعني على الأرجح أن درجة R2 الحقيقية أقل من -1. ضع في اعتبارك قيم المقاييس الأخرى وخصائص البيانات عند تفسير درجة R2 سالبة. |
العملية الحسابية |
| root_mean_squared_error | متوسط الخطأ التربيعي الجذري (RMSE) هو الجذر التربيعي للفرق التربيعي المتوقع بين الهدف والتنبؤ. بالنسبة للمقدر غير المتحيز ، فإن RMSE يساوي الانحراف المعياري. هدف: أقرب إلى 0 كلما كان ذلك أفضل المدى: [0 ، inf) انواع: root_mean_squared_error normalized_root_mean_squared_errorroot_mean_squared_error مقسوما على نطاق البيانات.: |
العملية الحسابية |
| root_mean_squared_log_error | الجذر متوسط خطأ السجل التربيعي هو الجذر التربيعي للخطأ اللوغاريتمي التربيعي المتوقع. هدف: أقرب إلى 0 كلما كان ذلك أفضل المدى: [0 ، inf) انواع: root_mean_squared_log_error normalized_root_mean_squared_log_errorroot_mean_squared_log_error مقسوما على نطاق البيانات.: |
العملية الحسابية |
| spearman_correlation | ارتباط سبيرمان هو مقياس غير بارامتري لرتابة العلاقة بين مجموعتين من البيانات. على عكس ارتباط بيرسون ، لا يفترض ارتباط سبيرمان أن كلتا مجموعتي البيانات موزعتان بشكل طبيعي. مثل معاملات الارتباط الأخرى ، يتراوح سبيرمان بين -1 و 1 مع 0 مما يعني عدم وجود ارتباط. ارتباطات -1 أو 1 تعني علاقة رتيبة دقيقة. سبيرمان هو مقياس ارتباط من رتبة رتبة مما يعني أن التغييرات في القيم المتوقعة أو الفعلية لن تغير نتيجة سبيرمان إذا لم تغير ترتيب ترتيب القيم المتوقعة أو الفعلية. هدف: أقرب إلى 1 كلما كان ذلك أفضل المدى: [-1، 1] |
العملية الحسابية |
التطبيع المتري
يعمل التعلم الآلي الآلي على تطبيع مقاييس الانحدار والتنبؤ التي تتيح المقارنة بين النماذج المدربة على البيانات ذات النطاقات المختلفة. النموذج المدرب على بيانات ذات نطاق أكبر لديه خطأ أعلى من نفس النموذج المدرب على البيانات ذات النطاق الأصغر ، ما لم يتم تطبيع هذا الخطأ.
على الرغم من عدم وجود طريقة قياسية لتطبيع مقاييس الخطأ ، إلا أن ML الآلي يتبع النهج الشائع لقسمة الخطأ على نطاق البيانات: normalized_error = error / (y_max - y_min)
ملاحظة
لا يتم حفظ نطاق البيانات مع النموذج. إذا قمت بالاستدلال مع نفس النموذج على مجموعة اختبار متوقفة ، y_miny_max وقد تتغير وفقا لبيانات الاختبار وقد لا يتم استخدام المقاييس العادية مباشرة لمقارنة أداء النموذج في مجموعات التدريب والاختبار. يمكنك تمرير قيمة ومن y_miny_max مجموعة التدريب الخاصة بك لجعل المقارنة عادلة.
عند تقييم نموذج التنبؤ على بيانات السلاسل الزمنية، يتخذ التعلم الآلي الآلي خطوات إضافية لضمان حدوث التطبيع لكل معرف سلسلة زمنية (حبوب)، لأنه من المحتمل أن يكون لكل سلسلة زمنية توزيع مختلف للقيم المستهدفة.
مخلفات
مخطط البقايا هو رسم بياني لأخطاء التنبؤ (البقايا) التي تم إنشاؤها لتجارب الانحدار والتنبؤ. يتم حساب البقايا كما هو الحال y_predicted - y_true بالنسبة لجميع العينات ثم يتم عرضها كرسم بياني لإظهار تحيز النموذج.
في هذا المثال، لاحظ أن كلا النموذجين متحيزان قليلا للتنبؤ بأقل من القيمة الفعلية. هذا ليس من غير المألوف بالنسبة لمجموعة بيانات ذات توزيع منحرف للأهداف الفعلية ، ولكنه يشير إلى أداء أسوأ للنموذج. سيكون للنموذج الجيد توزيع بقايا يبلغ ذروته عند الصفر مع القليل من البقايا في أقصى الحدود. النموذج الأسوأ سيكون له توزيع بقايا منتشرة مع عدد أقل من العينات حول الصفر.
مخطط البقايا لنموذج جيد

مخطط البقايا لنموذج سيئ

متوقع مقابل صحيح
بالنسبة لتجربة الانحدار والتنبؤ ، يرسم المخطط المتوقع مقابل الحقيقي العلاقة بين الميزة المستهدفة (القيم الحقيقية / الفعلية) وتنبؤات النموذج. يتم ربط القيم الحقيقية على طول المحور x ولكل حاوية يتم رسم متوسط القيمة المتوقعة بأشرطة خطأ. هذا يسمح لك بمعرفة ما إذا كان النموذج متحيزا نحو التنبؤ بقيم معينة. يعرض الخط متوسط التنبؤ وتشير المنطقة المظللة إلى تباين التنبؤات حول هذا الوسط.
في كثير من الأحيان ، سيكون للقيمة الحقيقية الأكثر شيوعا التنبؤات الأكثر دقة مع أدنى تباين. تعد مسافة خط الاتجاه من الخط المثالي y = x حيث يوجد عدد قليل من القيم الحقيقية مقياسا جيدا لأداء النموذج على القيم المتطرفة. يمكنك استخدام الرسم البياني في أسفل المخطط للمنطق حول توزيع البيانات الفعلي. يمكن أن يؤدي تضمين المزيد من عينات البيانات حيث يكون التوزيع متناثرا إلى تحسين أداء النموذج على البيانات غير المرئية.
في هذا المثال، لاحظ أن النموذج الأفضل يحتوي على خط متوقع مقابل خط حقيقي أقرب إلى الخط المثالي y = x .
مخطط متوقع مقابل مخطط حقيقي لنموذج جيد

مخطط متوقع مقابل مخطط حقيقي لنموذج سيئ

مقاييس نماذج الصور (معاينة)
يستخدم ML الآلي الصور من مجموعة بيانات التحقق من الصحة لتقييم أداء النموذج. يتم قياس أداء النموذج على مستوى الحقبة لفهم كيفية تقدم التدريب. ينقضي عصر عندما يتم تمرير مجموعة بيانات كاملة إلى الأمام والخلف عبر الشبكة العصبية مرة واحدة بالضبط.
مقاييس تصنيف الصور
المقياس الأساسي للتقييم هو دقة نماذج التصنيف الثنائية والمتعددة الفئات و IoU (التقاطع عبر الاتحاد) لنماذج التصنيف متعددة التسميات. مقاييس التصنيف لنماذج تصنيف الصور هي نفسها المحددة في قسم مقاييس التصنيف . يتم أيضا تسجيل قيم الخسارة المرتبطة بحقبة ما والتي يمكن أن تساعد في مراقبة كيفية تقدم التدريب وتحديد ما إذا كان النموذج مفرطا في التركيب أو غير مناسب.
يرتبط كل تنبؤ من نموذج التصنيف بدرجة ثقة ، مما يشير إلى مستوى الثقة الذي تم به التنبؤ. يتم تقييم نماذج تصنيف الصور متعددة التسميات افتراضيا بعتبة درجة 0.5 مما يعني أن التنبؤات التي تتمتع بهذا المستوى من الثقة على الأقل هي التي سيتم اعتبارها تنبؤا إيجابيا للفئة المرتبطة فقط. لا يستخدم التصنيف متعدد الفئات عتبة النتيجة ولكن بدلا من ذلك ، تعتبر الفئة التي حصلت على أقصى درجة ثقة بمثابة التنبؤ.
مقاييس على مستوى الحقبة الزمنية لتصنيف الصور
على عكس مقاييس التصنيف لمجموعات البيانات الجدولية، تسجل نماذج تصنيف الصور جميع مقاييس التصنيف على مستوى الحقبة كما هو موضح أدناه.

مقاييس ملخص لتصنيف الصور
بصرف النظر عن المقاييس العددية التي يتم تسجيلها على مستوى العصر ، يقوم نموذج تصنيف الصور أيضا بتسجيل مقاييس ملخص مثل مصفوفة الارتباكومخططات التصنيف بما في ذلك منحنى ROC ومنحنى الاستدعاء الدقيق وتقرير التصنيف للنموذج من أفضل حقبة نحصل فيها على أعلى درجة قياس (دقة) أولية.
يوفر تقرير التصنيف القيم على مستوى الفئة لمقاييس مثل الدقة والتذكر ودرجة f1 والدعم وAUC average_precision مع مستويات مختلفة من المتوسط - الجزئي والكلي والمرجح كما هو موضح أدناه. يرجى الرجوع إلى تعريفات المقاييس من قسم مقاييس التصنيف .

مقاييس الكشف عن الكائنات وتجزئة المثيل
يرتبط كل تنبؤ من اكتشاف كائن صورة أو نموذج تجزئة مثيل بدرجة ثقة.
التنبؤات ذات درجة الثقة الأكبر من عتبة النتيجة هي مخرجات كتنبؤات وتستخدم في الحساب المتري ، والقيمة الافتراضية لها هي نموذج محدد ويمكن الرجوع إليها من صفحة ضبط المعلمة الفائقةbox_score_threshold ( hyperparameter).
يعتمد الحساب المتري لنموذج الكشف عن كائن الصورة وتجزئة المثيل على قياس تداخل محدد بواسطة مقياس يسمى IoU (تقاطع فوق الاتحاد) والذي يتم حسابه عن طريق تقسيم منطقة التداخل بين الحقيقة الأرضية والتنبؤات حسب منطقة اتحاد الحقيقة الأرضية والتنبؤات. تتم مقارنة IoU المحسوبة من كل تنبؤ مع عتبة تداخل تسمى عتبة IoU التي تحدد مدى تداخل التنبؤ مع حقيقة أرضية مشروحة من قبل المستخدم من أجل اعتبارها تنبؤا إيجابيا. إذا كان IoU المحسوب من التنبؤ أقل من عتبة التداخل ، فلن يعتبر التنبؤ تنبؤا إيجابيا للفئة المرتبطة.
المقياس الأساسي لتقييم نماذج الكشف عن كائنات الصورة وتجزئة المثيل هو متوسط الدقة المتوسط (mAP). mAP هي متوسط قيمة متوسط الدقة (AP) عبر جميع الفئات. تدعم نماذج الكشف الآلي عن كائنات ML حساب mAP باستخدام الطريقتين الشائعتين أدناه.
مقاييس باسكال للمركبات العضوية المتطايرة:
Pascal VOC mAP هي الطريقة الافتراضية لحساب mAP لنماذج تجزئة اكتشاف الكائنات / المثيل. تقوم طريقة mAP على غرار Pascal VOC بحساب المساحة تحت إصدار من منحنى الاستدعاء الدقيق. يتم حساب p(ri) الأول ، وهو الدقة عند الاستدعاء i لجميع قيم الاستدعاء الفريدة. ثم يتم استبدال p(ri) بأقصى قدر من الدقة التي تم الحصول عليها لأي استدعاء r' >= ri. تتناقص قيمة الدقة بشكل رتيب في هذا الإصدار من المنحنى. يتم تقييم مقياس Pascal VOC mAP افتراضيا بعتبة IoU تبلغ 0.5. يتوفر شرح مفصل لهذا المفهوم في هذه المدونة.
مقاييس كوكو:
تستخدم طريقة تقييم COCO طريقة استيفاء من 101 نقطة لحساب AP إلى جانب متوسط أكثر من عشرة عتبات IoU. يتوافق AP@[.5:.95] مع متوسط AP ل IoU من 0.5 إلى 0.95 بحجم خطوة 0.05. يسجل ML الآلي جميع المقاييس الاثني عشر المحددة بواسطة طريقة COCO بما في ذلك AP و AR (متوسط الاستدعاء) على مستويات مختلفة في سجلات التطبيق بينما تعرض واجهة مستخدم المقاييس فقط mAP عند عتبة IoU من 0.5.
تلميح
يمكن أن يستخدم تقييم نموذج اكتشاف كائن الصورة مقاييس كوكو إذا تم تعيين المعلمة الفائقة لتكون "كوكو" كما هو موضح في قسم ضبط المعلمات الفائقةvalidation_metric_type.
مقاييس على مستوى الحقبة الزمنية للكشف عن الكائنات وتجزئة المثيل
يتم تسجيل قيم mAP والدقة والاستدعاء على مستوى حقبة زمنية لنماذج الكشف عن كائن الصورة / تجزئة المثيل. يتم أيضا تسجيل مقاييس mAP والدقة والتذكر على مستوى الفصل باسم "per_label_metrics". يجب النظر إلى "per_label_metrics" كجدول.
ملاحظة
لا تتوفر مقاييس على مستوى الحقبة الزمنية للدقة والتذكر per_label_metrics عند استخدام طريقة "كوكو".

تفسيرات النموذج وأهمية الميزات
في حين أن مقاييس ومخططات تقييم النموذج جيدة لقياس الجودة العامة للنموذج ، فإن فحص مجموعة البيانات التي تتميز بنموذج يستخدم لإجراء تنبؤاته أمر ضروري عند ممارسة الذكاء الاصطناعي المسؤولة. هذا هو السبب في أن ML الآلي يوفر لوحة معلومات لتفسيرات النماذج لقياس المساهمات النسبية لميزات مجموعة البيانات والإبلاغ عنها. تعرف على كيفية عرض لوحة معلومات التفسيرات في استوديو Azure التعلم الآلي.
للحصول على تجربة التعليمات البرمجية الأولى، راجع كيفية إعداد تفسيرات النماذج لتجارب ML التلقائية باستخدام Azure التعلم الآلي Python SDK.
ملاحظة
لا تتوفر إمكانية التفسير، وهي أفضل تفسير للنموذج، لتجارب التنبؤ الآلي بالتعلم الآلي التي توصي بالخوارزميات التالية كأفضل نموذج أو مجموعة:
- TCNFالمستكشف
- أوتوأريما
- التنعيم الأسي
- نبي
- المتوسط
- ساذج
- المتوسط الموسمي
- ساذج موسمي
الخطوات التالية
- جرب نماذج نماذج دفاتر الملاحظات النموذجية لنموذج التعلم الآلي (Machine Explanation).
- بالنسبة للأسئلة الخاصة بالتعلم الآلي الآلي ، تواصل مع askautomatedml@microsoft.com.