تحديد الميزة المستندة إلى عامل التصفية

توضح هذه المقالة كيفية استخدام مكون "تحديد المعالم المستندة إلى عامل التصفية" في مصمم Azure التعلم الآلي. يساعدك هذا المكون على تحديد الأعمدة في مجموعة بيانات الإدخال التي تتمتع بأكبر قدر من القوة التنبؤية.

بشكل عام ، يشير اختيار الميزات إلى عملية تطبيق الاختبارات الإحصائية على المدخلات ، بالنظر إلى مخرجات محددة. الهدف هو تحديد الأعمدة الأكثر تنبؤا بالإخراج. يوفر مكون تحديد المعالم المستند إلى عامل التصفية خوارزميات متعددة لتحديد المعالم للاختيار من بينها. يتضمن المكون طرق الارتباط مثل ارتباط بيرسون وقيم كاي تربيع.

عند استخدام مكون تحديد المعالم المستندة إلى عامل التصفية، يمكنك توفير مجموعة بيانات وتحديد العمود الذي يحتوي على التسمية أو المتغير التابع. ثم يمكنك تحديد طريقة واحدة لاستخدامها في قياس أهمية المعالم.

يقوم المكون بإخراج مجموعة بيانات تحتوي على أفضل أعمدة المعالم، كما تم ترتيبها حسب القوة التنبؤية. كما أنه يخرج أسماء المعالم ودرجاتها من المقياس المحدد.

ما هو اختيار الميزة المستندة إلى الفلتر

يسمى هذا المكون لتحديد المعالم "المستند إلى عامل التصفية" لأنك تستخدم المقياس المحدد للعثور على سمات غير ذات صلة. ثم تقوم بتصفية الأعمدة الزائدة عن الحاجة من النموذج الخاص بك. يمكنك اختيار مقياس إحصائي واحد يناسب بياناتك، ويقوم المكون بحساب درجة لكل عمود معلم. يتم إرجاع الأعمدة مرتبة حسب نقاط الميزات الخاصة بها.

من خلال اختيار الميزات المناسبة ، يمكنك تحسين دقة وكفاءة التصنيف.

عادة ما تستخدم فقط الأعمدة التي تحتوي على أفضل الدرجات لإنشاء نموذجك التنبؤي. يمكن ترك الأعمدة ذات درجات تحديد المعالم الضعيفة في مجموعة البيانات وتجاهلها عند إنشاء نموذج.

كيفية اختيار مقياس تحديد المعالم

يوفر مكون تحديد المعالم Filter-Based مجموعة متنوعة من المقاييس لتقييم قيمة المعلومات في كل عمود. يوفر هذا القسم وصفا عاما لكل مقياس، وكيفية تطبيقه. يمكنك العثور على متطلبات إضافية لاستخدام كل مقياس في الملاحظات الفنية وفي تعليمات تكوين كل مكون.

  • علاقة بيرسون

    تعرف إحصائية ارتباط بيرسون ، أو معامل ارتباط بيرسون ، أيضا في النماذج الإحصائية باسم القيمة r . بالنسبة لأي متغيرين ، ترجع قيمة تشير إلى قوة الارتباط.

    يتم حساب معامل ارتباط بيرسون عن طريق أخذ التباين المشترك بين متغيرين والقسمة على ناتج انحرافاتهما المعيارية. لا تؤثر تغيرات المقياس في المتغيرين على المعامل.

  • تشي مربع

    اختبار chi-squared ثنائي الاتجاه هو طريقة إحصائية تقيس مدى قرب القيم المتوقعة من النتائج الفعلية. تفترض الطريقة أن المتغيرات عشوائية ومأخوذة من عينة كافية من المتغيرات المستقلة. تشير إحصائية chi-squared الناتجة إلى مدى بعد النتائج عن النتيجة المتوقعة (العشوائية).

تلميح

إذا كنت بحاجة إلى خيار مختلف لطريقة تحديد المعالم المخصصة، فاستخدم مكون تنفيذ R Script .

كيفية تكوين Filter-Based تحديد الميزة

يمكنك اختيار مقياس إحصائي قياسي. يقوم المكون بحساب العلاقة بين زوج من الأعمدة: عمود التسمية وعمود المعالم.

  1. أضف مكون تحديد ميزة Filter-Based إلى خط الأنابيب. يمكنك العثور عليه في فئة تحديد الميزة في المصمم.

  2. الاتصال مجموعة بيانات إدخال تحتوي على عمودين على الأقل من الميزات المحتملة.

    لضمان تحليل عمود وإنشاء درجة معلم، استخدم مكون تحرير بيانات التعريف لتعيين السمة IsFeature .

    هام

    تأكد من أن الأعمدة التي تقدمها كإدخال هي ميزات محتملة. على سبيل المثال، عمود يحتوي على قيمة واحدة ليس له قيمة معلومات.

    إذا كنت تعرف أن بعض الأعمدة ستجعل الميزات سيئة، فيمكنك إزالتها من تحديد الأعمدة. يمكنك أيضا استخدام مكون تحرير بيانات التعريف لوضع علامة عليها على أنها فئوية.

  3. بالنسبة إلى طريقة تسجيل الميزات، اختر إحدى الطرق الإحصائية التالية التي تم إنشاؤها لاستخدامها في حساب الدرجات.

    الأسلوب المتطلبات
    علاقة بيرسون يمكن أن تكون التسمية نصية أو رقمية. يجب أن تكون الميزات رقمية.
    تشي مربع يمكن أن تكون التصنيفات والميزات نصية أو رقمية. استخدم هذه الطريقة لحساب أهمية الميزة لعمودين فئويين.

    تلميح

    إذا قمت بتغيير المقياس المحدد، إعادة تعيين جميع التحديدات الأخرى. لذا تأكد من تعيين هذا الخيار أولا.

  4. حدد الخيار تشغيل على أعمدة المعالم فقط لإنشاء درجة فقط للأعمدة التي تم وضع علامة عليها مسبقا كميزات.

    إذا قمت بإلغاء تحديد هذا الخيار، فسيقوم المكون بإنشاء درجة لأي عمود يفي بخلاف ذلك بالمعايير، حتى عدد الأعمدة المحددة في عدد الميزات المطلوبة.

  5. بالنسبة إلى العمود الهدف، حدد محدد عمود التشغيل لاختيار عمود التسمية إما بالاسم أو بفهرسه. (تستند الفهارس إلى أساس واحد.)
    مطلوب عمود تسمية لجميع الطرق التي تنطوي على ارتباط إحصائي. يقوم المكون بإرجاع خطأ في وقت التصميم إذا اخترت عدم وجود عمود تسمية أو أعمدة تسمية متعددة.

  6. بالنسبة إلى عدد الميزات المطلوبة، أدخل عدد أعمدة المعالم التي تريد إرجاعها نتيجة لذلك:

    • الحد الأدنى لعدد الميزات التي يمكنك تحديدها هو واحد، ولكننا نوصي بزيادة هذه القيمة.

    • إذا كان العدد المحدد من الميزات المطلوبة أكبر من عدد الأعمدة في مجموعة البيانات ، إرجاع جميع الميزات. حتى الميزات ذات الدرجات الصفرية يتم إرجاعها.

    • إذا قمت بتحديد أعمدة نتائج أقل من أعمدة المعالم، ترتيب المعالم حسب النتيجة التنازلية. يتم إرجاع الميزات العليا فقط.

  7. إرسال المسار.

هام

إذا كنت ستستخدم تحديد المعالم المستندة إلى عامل التصفية في الاستدلال، فأنت بحاجة إلى استخدام تحويل تحديد الأعمدة لتخزين نتيجة الميزة المحددة وتطبيق التحويل لتطبيق تحويل الميزة المحدد على مجموعة بيانات النقاط.

ارجع إلى لقطة الشاشة التالية لإنشاء خط الأنابيب الخاص بك ، للتأكد من أن تحديدات الأعمدة هي نفسها لعملية تسجيل النقاط.

Sample pipeline

النتائج

بعد اكتمال المعالجة:

  • للاطلاع على قائمة كاملة بأعمدة المعالم التي تم تحليلها ودرجاتها، انقر بزر الماوس الأيمن فوق المكون وحدد تصور.

  • لعرض مجموعة البيانات استنادا إلى معايير تحديد المعالم، انقر بزر الماوس الأيمن فوق المكون وحدد تصور.

إذا كانت مجموعة البيانات تحتوي على أعمدة أقل مما كنت تتوقع، فتحقق من إعدادات المكون. تحقق أيضا من أنواع البيانات للأعمدة المقدمة كمدخلات. على سبيل المثال، إذا قمت بتعيين عدد المعالم المطلوبة إلى 1، فستحتوي مجموعة بيانات الإخراج على عمودين فقط: عمود التسمية، وعمود المعالم الأكثر ترتيبا.

ملاحظات فنية

تفاصيل التنفيذ

إذا كنت تستخدم ارتباط بيرسون على معلم رقمي وتسمية فئوية، حساب درجة الميزة على النحو التالي:

  1. لكل مستوى في العمود الفئوي، احسب المتوسط الشرطي للعمود الرقمي.

  2. ربط عمود الوسائل الشرطية بالعمود الرقمي.

المتطلبات

  • لا يمكن إنشاء درجة تحديد معلم لأي عمود تم تعيينه كعمود تصنيف أو نقاط .

  • إذا حاولت استخدام طريقة تسجيل نقاط مع عمود من نوع بيانات لا تدعمه الطريقة، فسيثير المكون خطأ. أو سيتم تعيين درجة صفر للعمود.

  • إذا كان العمود يحتوي على قيم منطقية (صواب/خطأ)، فستتم معالجتها ك True = 1 و False = 0.

  • لا يمكن أن يكون العمود ميزة إذا تم تعيينه كتصنيف أو نتيجة.

كيفية التعامل مع القيم المفقودة

  • لا يمكنك تحديد عمود هدف (تسمية) أي عمود يحتوي على جميع القيم المفقودة.

  • إذا كان العمود يحتوي على قيم مفقودة، يتجاهلها المكون عند حساب درجة العمود.

  • إذا كان العمود المعين كعمود معلم يحتوي على جميع القيم المفقودة، يقوم المكون بتعيين درجة صفر.

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.