كيفية تحديد خوارزميات ل Azure التعلم الآلي
السؤال الشائع هو "ما هي خوارزمية التعلم الآلي التي يجب أن أستخدمها؟" تعتمد الخوارزمية التي تحددها بشكل أساسي على جانبين مختلفين من سيناريو علم البيانات الخاص بك:
ماذا تريد أن تفعل ببياناتك؟ على وجه التحديد ، ما هو سؤال العمل الذي تريد الإجابة عليه من خلال التعلم من بياناتك السابقة؟
ما هي متطلبات سيناريو علم البيانات الخاص بك؟ على وجه التحديد ، ما هي الدقة ووقت التدريب والخطية وعدد المعلمات وعدد الميزات التي يدعمها حلك؟

سيناريوهات الأعمال وورقة الغش خوارزمية التعلم الآلي
تساعدك ورقة الغش في خوارزمية Azure التعلم الآلي في الاعتبار الأول: ما الذي تريد القيام به ببياناتك؟ على التعلم الآلي ورقة الغش في الخوارزمية، ابحث عن المهمة التي تريد القيام بها، ثم ابحث عن خوارزمية مصمم Azure التعلم الآلي لحل التحليلات التنبؤية.
يوفر مصمم التعلم الآلي مجموعة شاملة من الخوارزميات ، مثل غابة القرار متعددة الفئات ، وأنظمة التوصية ، وانحدار الشبكة العصبية ، والشبكة العصبية متعددة الفئات ، وتجميع K-Means. تم تصميم كل خوارزمية لمعالجة نوع مختلف من مشاكل التعلم الآلي. راجع التعلم الآلي خوارزمية المصمم ومرجع المكون للحصول على قائمة كاملة إلى جانب وثائق حول كيفية عمل كل خوارزمية وكيفية ضبط المعلمات لتحسين الخوارزمية.
ملاحظة
قم بتنزيل ورقة الغش هنا: ورقة الغش في خوارزمية التعلم الآلي (11 × 17 بوصة)
جنبا إلى جنب مع الإرشادات الواردة في ورقة الغش في خوارزمية Azure التعلم الآلي، ضع في اعتبارك المتطلبات الأخرى عند اختيار خوارزمية التعلم الآلي لحلك. فيما يلي عوامل إضافية يجب مراعاتها ، مثل الدقة ووقت التدريب والخطية وعدد المعلمات وعدد الميزات.
مقارنة خوارزميات التعلم الآلي
تضع بعض خوارزميات التعلم افتراضات معينة حول بنية البيانات أو النتائج المرجوة. إذا تمكنت من العثور على واحدة تناسب احتياجاتك ، فيمكن أن تمنحك نتائج أكثر فائدة أو تنبؤات أكثر دقة أو أوقات تدريب أسرع.
يلخص الجدول التالي بعض أهم خصائص الخوارزميات من عائلات التصنيف والانحدار والتجميع:
| الخوارزمية | دقة | وقت التدريب | الخطي | المعلمات | ملاحظات |
|---|---|---|---|---|---|
| عائلة التصنيف | |||||
| الانحدار اللوجستي من فئتين | جيد | سريع | نعم | 4 | |
| غابة القرار من فئتين | ممتاز | متوسط | لا | 5 | يظهر أوقات تسجيل أبطأ. اقترح عدم العمل مع One-vs-All Multiclass ، بسبب أوقات تسجيل النقاط البطيئة الناجمة عن قفل المداس في تراكم تنبؤات الأشجار |
| شجرة القرار المعززة من فئتين | ممتاز | متوسط | لا | 6 | مساحة ذاكرة كبيرة |
| شبكة عصبية من فئتين | جيد | متوسط | لا | 8 | |
| الإدراك الحسي المتوسط من فئتين | جيد | متوسط | نعم | 4 | |
| آلة متجه دعم من فئتين | جيد | سريع | نعم | 5 | جيد لمجموعات الميزات الكبيرة |
| الانحدار اللوجستي متعدد الطبقات | جيد | سريع | نعم | 4 | |
| غابة القرار متعددة الطبقات | ممتاز | متوسط | لا | 5 | يظهر أوقات تسجيل أبطأ |
| شجرة القرار المعززة متعددة الطبقات | ممتاز | متوسط | لا | 6 | يميل إلى تحسين الدقة مع بعض المخاطر الصغيرة المتمثلة في تغطية أقل |
| شبكة عصبية متعددة الطبقات | جيد | متوسط | لا | 8 | |
| فئة واحدة مقابل الكل متعددة الفئات | - | - | - | - | راجع خصائص الطريقة المكونة من فئتين المحددة |
| عائلة الانحدار | |||||
| التراجع الخطي | جيد | سريع | نعم | 4 | |
| قرار انحدار الغابات | ممتاز | متوسط | لا | 5 | |
| تعزيز انحدار شجرة القرار | ممتاز | متوسط | لا | 6 | مساحة ذاكرة كبيرة |
| انحدار الشبكة العصبية | جيد | متوسط | لا | 8 | |
| تجميع الأسرة | |||||
| نظام المجموعات K-Means | ممتاز | متوسط | نعم | 8 | خوارزمية تجميع |
متطلبات سيناريو علم البيانات
بمجرد معرفة ما تريد القيام به ببياناتك ، تحتاج إلى تحديد متطلبات إضافية للحل الخاص بك.
قم باتخاذ الخيارات وربما المقايضات للمتطلبات التالية:
- الدقة
- وقت التدريب
- الخطي
- عدد المعلمات
- عدد الميزات
الدقة
تقيس الدقة في التعلم الآلي فعالية النموذج كنسبة من النتائج الحقيقية إلى إجمالي الحالات. في التعلم الآلي مصمم، يقوم مكون نموذج التقييم بحساب مجموعة من مقاييس التقييم القياسية في الصناعة. يمكنك استخدام هذا المكون لقياس دقة نموذج مدرب.
الحصول على أدق إجابة ممكنة ليس ضروريا دائما. في بعض الأحيان يكون التقريب كافيا ، اعتمادا على ما تريد استخدامه من أجله. إذا كان هذا هو الحال ، فقد تتمكن من تقليل وقت المعالجة بشكل كبير من خلال الالتزام بطرق أكثر تقريبية. تميل الطرق التقريبية أيضا بشكل طبيعي إلى تجنب الإفراط في التركيب.
هناك ثلاث طرق لاستخدام مكون نموذج التقييم:
- إنشاء درجات على بيانات التدريب الخاصة بك من أجل تقييم النموذج
- إنشاء درجات على النموذج، ولكن قارن هذه الدرجات بالدرجات في مجموعة اختبار محجوزة
- مقارنة الدرجات لنموذجين مختلفين ولكن مرتبطين ، باستخدام نفس مجموعة البيانات
للحصول على قائمة كاملة بالمقاييس والأساليب التي يمكنك استخدامها لتقييم دقة نماذج التعلم الآلي، راجع تقييم مكون النموذج.
وقت التدريب
في التعلم تحت الإشراف، يعني التدريب استخدام البيانات التاريخية لبناء نموذج التعلم الآلي الذي يقلل من الأخطاء. يختلف عدد الدقائق أو الساعات اللازمة لتدريب نموذج ما اختلافا كبيرا بين الخوارزميات. غالبا ما يرتبط وقت التدريب ارتباطا وثيقا بالدقة. واحد عادة ما يرافق الآخر.
بالإضافة إلى ذلك ، بعض الخوارزميات أكثر حساسية لعدد نقاط البيانات من غيرها. يمكنك اختيار خوارزمية معينة لأن لديك حدا زمنيا ، خاصة عندما تكون مجموعة البيانات كبيرة.
في التعلم الآلي المصمم، عادة ما يكون إنشاء واستخدام نموذج التعلم الآلي عملية من ثلاث خطوات:
قم بتكوين نموذج، عن طريق اختيار نوع معين من الخوارزميات، ثم تحديد معلماته أو معلماته التشعبية.
قم بتوفير مجموعة بيانات مصنفة وتحتوي على بيانات متوافقة مع الخوارزمية. الاتصال كل من البيانات والنموذج إلى مكون تدريب النموذج.
بعد الانتهاء من التدريب ، استخدم النموذج المدرب مع أحد مكونات التسجيل لإجراء تنبؤات على البيانات الجديدة.
الخطي
تعني الخطية في الإحصاءات والتعلم الآلي أن هناك علاقة خطية بين متغير وثابت في مجموعة البيانات الخاصة بك. على سبيل المثال، تفترض خوارزميات التصنيف الخطي أنه يمكن فصل الفئات بواسطة خط مستقيم (أو تناظريته ذات الأبعاد الأعلى).
تستفيد الكثير من خوارزميات التعلم الآلي من الخطية. في Azure التعلم الآلي مصمم، فإنها تشمل:
تفترض خوارزميات الانحدار الخطي أن اتجاهات البيانات تتبع خطا مستقيما. هذا الافتراض ليس سيئا بالنسبة لبعض المشاكل ، ولكنه يقلل من الدقة بالنسبة للآخرين. على الرغم من عيوبها ، فإن الخوارزميات الخطية تحظى بشعبية كاستراتيجية أولى. فهي تميل إلى أن تكون بسيطة حسابيا وسريعة التدريب.

حدود الفئة غير الخطية: الاعتماد على خوارزمية التصنيف الخطي سيؤدي إلى دقة منخفضة.

البيانات ذات الاتجاه غير الخطي: سيؤدي استخدام طريقة الانحدار الخطي إلى توليد أخطاء أكبر بكثير من اللازم.
عدد المعلمات
المعلمات هي المقابض التي يحصل عليها عالم البيانات عند إعداد خوارزمية. وهي أرقام تؤثر على سلوك الخوارزمية، مثل تحمل الأخطاء أو عدد التكرارات، أو الخيارات بين المتغيرات لكيفية تصرف الخوارزمية. يمكن أن يكون وقت التدريب ودقة الخوارزمية حساسين في بعض الأحيان للحصول على الإعدادات الصحيحة. عادة ، تتطلب الخوارزميات ذات الأعداد الكبيرة من المعلمات أكبر قدر من التجربة والخطأ للعثور على مزيج جيد.
بدلا من ذلك ، هناك مكون Tune Model Hyperparameters في مصمم التعلم الآلي: الهدف من هذا المكون هو تحديد المعلمات التشعبية المثلى لنموذج التعلم الآلي. يقوم المكون بإنشاء نماذج متعددة واختبارها باستخدام مجموعات مختلفة من الإعدادات. يقارن المقاييس على جميع النماذج للحصول على مجموعات من الإعدادات.
على الرغم من أن هذه طريقة رائعة للتأكد من أنك قد امتدت إلى مساحة المعلمة ، إلا أن الوقت اللازم لتدريب نموذج يزداد أضعافا مضاعفة مع عدد المعلمات. الجانب الإيجابي هو أن وجود العديد من المعلمات يشير عادة إلى أن الخوارزمية لديها مرونة أكبر. يمكن أن يحقق في كثير من الأحيان دقة جيدة جدا ، شريطة أن تتمكن من العثور على المزيج الصحيح من إعدادات المعلمات.
عدد الميزات
في التعلم الآلي ، الميزة هي متغير قابل للقياس الكمي للظاهرة التي تحاول تحليلها. بالنسبة لأنواع معينة من البيانات ، يمكن أن يكون عدد الميزات كبيرا جدا مقارنة بعدد نقاط البيانات. هذا هو الحال في كثير من الأحيان مع علم الوراثة أو البيانات النصية.
يمكن لعدد كبير من الميزات أن يعرقل بعض خوارزميات التعلم ، مما يجعل وقت التدريب طويلا بشكل غير عملي. تعد آلات ناقلات الدعم مناسبة بشكل خاص للسيناريوهات ذات العدد الكبير من الميزات. لهذا السبب ، تم استخدامها في العديد من التطبيقات من استرجاع المعلومات إلى تصنيف النص والصور. يمكن استخدام آلات ناقلات الدعم لكل من مهام التصنيف والانحدار.
يشير اختيار المعالم إلى عملية تطبيق الاختبارات الإحصائية على المدخلات ، بالنظر إلى مخرجات محددة. الهدف هو تحديد الأعمدة الأكثر تنبؤا بالإخراج. يوفر مكون تحديد المعالم المستند إلى عامل التصفية في التعلم الآلي مصمم خوارزميات متعددة لتحديد المعالم للاختيار من بينها. يتضمن المكون طرق الارتباط مثل ارتباط بيرسون وقيم كاي تربيع.
يمكنك أيضا استخدام مكون أهمية ميزة التباديل لحساب مجموعة من درجات أهمية المعالم لمجموعة البيانات الخاصة بك. يمكنك بعد ذلك الاستفادة من هذه الدرجات لمساعدتك في تحديد أفضل الميزات لاستخدامها في نموذج.
الخطوات التالية
- تعرف على المزيد حول مصمم التعلم الآلي Azure
- للحصول على أوصاف لجميع خوارزميات التعلم الآلي المتوفرة في Azure التعلم الآلي مصمم، راجع خوارزمية المصمم التعلم الآلي ومرجع المكون
- لاستكشاف العلاقة بين التعلم العميق والتعلم الآلي الذكاء الاصطناعي، راجع Learning العميقة مقابل التعلم الآلي