المكون: K-يعني التجميع

توضح هذه المقالة كيفية استخدام مكون تجميع K-Means في Azure التعلم الآلي مصمم لإنشاء نموذج تجميع K-means غير مدرب.

K-means هي واحدة من أبسط وأشهر خوارزميات التعلم غير الخاضعة للإشراف . يمكنك استخدام الخوارزمية لمجموعة متنوعة من مهام التعلم الآلي، مثل:

لإنشاء نموذج تجميع، يمكنك:

  • أضف هذا المكون إلى خط الأنابيب الخاص بك.
  • الاتصال مجموعة بيانات.
  • قم بتعيين المعلمات، مثل عدد المجموعات التي تتوقعها، ومقياس المسافة الذي يجب استخدامه في إنشاء المجموعات، وما إلى ذلك.

بعد تكوين المعلمات التشعبية للمكونات، يمكنك توصيل النموذج غير المدرب بنموذج تجميع القطارات. نظرا لأن خوارزمية K-means هي طريقة تعلم غير خاضعة للإشراف، فإن عمود التسمية اختياري.

  • إذا كانت بياناتك تتضمن تصنيفا، يمكنك استخدام قيم التسمية لتوجيه اختيار المجموعات وتحسين النموذج.

  • إذا لم يكن لبياناتك أي تسمية، تنشئ الخوارزمية مجموعات تمثل الفئات المحتملة، استنادا إلى البيانات فقط.

فهم تجميع K-means

بشكل عام ، يستخدم التجميع تقنيات تكرارية لتجميع الحالات في مجموعة بيانات في مجموعات تمتلك خصائص مماثلة. هذه المجموعات مفيدة لاستكشاف البيانات ، وتحديد الحالات الشاذة في البيانات ، وفي النهاية لإجراء التنبؤات. يمكن أن تساعدك نماذج التجميع أيضا في تحديد العلاقات في مجموعة بيانات قد لا تستمدها منطقيا من خلال الاستعراض أو الملاحظة البسيطة. لهذه الأسباب ، غالبا ما يتم استخدام التجميع في المراحل المبكرة من مهام التعلم الآلي ، لاستكشاف البيانات واكتشاف الارتباطات غير المتوقعة.

عند تكوين نموذج تجميع باستخدام الأسلوب K-means، يجب تحديد رقم هدف k يشير إلى عدد السنترويدات التي تريدها في النموذج. السنترويد هو نقطة تمثل كل مجموعة. تقوم خوارزمية K-means بتعيين كل نقطة بيانات واردة إلى إحدى المجموعات عن طريق تقليل مجموع المربعات داخل المجموعة.

عندما تعالج بيانات التدريب ، تبدأ خوارزمية K-means بمجموعة أولية من centroids المختارة عشوائيا. تعمل Centroids كنقاط انطلاق للمجموعات ، وهي تطبق خوارزمية لويد لتحسين مواقعها بشكل متكرر. تتوقف خوارزمية K-means عن بناء مجموعات وتكريرها عندما تستوفي شرطا أو أكثر من هذه الشروط:

  • تستقر السنترويدات ، مما يعني أن تعيينات الكتلة للنقاط الفردية لم تعد تتغير وأن الخوارزمية قد تقاربت على حل.

  • أكملت الخوارزمية تشغيل العدد المحدد من التكرارات.

بعد الانتهاء من مرحلة التدريب، يمكنك استخدام مكون تعيين البيانات إلى مجموعات لتعيين حالات جديدة إلى إحدى المجموعات التي عثرت عليها باستخدام خوارزمية K-means. يمكنك تنفيذ تعيين نظام المجموعة عن طريق حساب المسافة بين الحالة الجديدة والمركز المركزي لكل مجموعة. يتم تعيين كل حالة جديدة إلى المجموعة مع أقرب سنترويد.

تكوين مكون تجميع K-Means

  1. أضف مكون تجميع K-Means إلى خط الأنابيب الخاص بك.

  2. لتحديد الطريقة التي تريد تدريب النموذج بها، حدد الخيار إنشاء وضع مدرب .

    • معلمة واحدة: إذا كنت تعرف المعلمات الدقيقة التي تريد استخدامها في نموذج التجميع، فيمكنك توفير مجموعة محددة من القيم كوسيطات.
  3. بالنسبة إلى عدد السنترويدات، اكتب عدد المجموعات التي تريد أن تبدأ بها الخوارزمية.

    لا يضمن النموذج إنتاج هذا العدد من المجموعات بالضبط. تبدأ الخوارزمية بهذا العدد من نقاط البيانات وتتكرر للعثور على التكوين الأمثل. يمكنك الرجوع إلى الشفرة المصدرية ل sklearn.

  4. يتم استخدام الخصائص تهيئة لتحديد الخوارزمية المستخدمة لتعريف تكوين الكتلة الأولي.

    • أولا N: يتم اختيار بعض العدد الأولي من نقاط البيانات من مجموعة البيانات واستخدامها كوسيلة أولية.

      وتسمى هذه الطريقة أيضا طريقة Forgy.

    • عشوائي: تضع الخوارزمية بشكل عشوائي نقطة بيانات في مجموعة ثم تحسب الوسط الأولي ليكون المركز المركزي للنقاط المعينة عشوائيا للعنقود.

      وتسمى هذه الطريقة أيضا طريقة التقسيم العشوائي .

    • K-Means++: هذه هي الطريقة الافتراضية لتهيئة المجموعات.

      تم اقتراح خوارزمية K-means++ في عام 2007 من قبل ديفيد آرثر وسيرجي فاسيلفيتسكي لتجنب التجميع الضعيف بواسطة خوارزمية K-means القياسية. K-means++ يحسن من K-means القياسية باستخدام طريقة مختلفة لاختيار مراكز الكتلة الأولية.

  5. بالنسبة لبذرة الأرقام العشوائية، اكتب قيمة اختياريا لاستخدامها كبذرة لتهيئة المجموعة. يمكن أن يكون لهذه القيمة تأثير كبير على تحديد المجموعة.

  6. بالنسبة إلى Metric، اختر الدالة التي تريد استخدامها لقياس المسافة بين متجهات العنقود، أو بين نقاط البيانات الجديدة والمركز المختار عشوائيا. يدعم Azure التعلم الآلي مقاييس مسافة الكتلة التالية:

    • الإقليدية: تستخدم المسافة الإقليدية عادة كمقياس للتشتت العنقودي للتجميع K-means. يفضل هذا المقياس لأنه يقلل من متوسط المسافة بين النقاط والسنترويدات.
  7. بالنسبة إلى التكرارات، اكتب عدد المرات التي يجب أن تتكرر فيها الخوارزمية على بيانات التدريب قبل أن تنتهي من اختيار السنترويدات.

    يمكنك ضبط هذه المعلمة لتحقيق التوازن بين الدقة ووقت التدريب.

  8. بالنسبة إلى وضع تعيين التسمية، حدد خيارا يحدد كيفية التعامل مع عمود التسمية، إذا كان موجودا في مجموعة البيانات.

    نظرا لأن تجميع K-means هو طريقة تعلم آلي غير خاضعة للإشراف ، فإن التسميات اختيارية. ومع ذلك، إذا كانت مجموعة البيانات تحتوي بالفعل على عمود تسمية، فيمكنك استخدام هذه القيم لتوجيه تحديد المجموعات، أو يمكنك تحديد تجاهل القيم.

    • تجاهل عمود التسمية: يتم تجاهل القيم الموجودة في عمود التسمية ولا يتم استخدامها في إنشاء النموذج.

    • تعبئة القيم المفقودة: يتم استخدام قيم أعمدة التسمية كميزات للمساعدة في إنشاء المجموعات. إذا كانت أي صفوف تفتقر إلى تسمية، فرض القيمة باستخدام ميزات أخرى.

    • الكتابة فوق من الأقرب إلى المركز: يتم استبدال قيم عمود التسمية بقيم التسمية المتوقعة، باستخدام تسمية النقطة الأقرب إلى المركز الحالي.

  9. حدد الخيار تطبيع الميزات إذا كنت تريد تطبيع الميزات قبل التدريب.

    إذا قمت بتطبيق التطبيع، قبل التدريب، يتم تطبيع نقاط البيانات إلى [0,1] بواسطة MinMaxNormalizer.

  10. تدريب النموذج.

    • إذا قمت بتعيين إنشاء وضع المدرب إلى معلمة واحدة، فأضف مجموعة بيانات ذات علامات تمييز وقم بتدريب النموذج باستخدام مكون نموذج تجميع القطار .

النتائج

بعد الانتهاء من تكوين النموذج وتدريبه، يكون لديك نموذج يمكنك استخدامه لإنشاء الدرجات. ومع ذلك، هناك طرق متعددة لتدريب النموذج، وطرق متعددة لعرض النتائج واستخدامها:

التقط لقطة للنموذج في مساحة العمل الخاصة بك

إذا كنت تستخدم مكون نموذج تجميع القطارات :

  1. حدد مكون نموذج تجميع القطار وافتح اللوحة اليمنى.

  2. حدد علامة التبويب المخرجات . حدد أيقونة تسجيل مجموعة البيانات لحفظ نسخة من النموذج المدرب.

يمثل النموذج المحفوظ بيانات التدريب في الوقت الذي قمت فيه بحفظ النموذج. إذا قمت لاحقا بتحديث بيانات التدريب المستخدمة في خط الأنابيب، فلن تقوم بتحديث النموذج المحفوظ.

الاطلاع على مجموعة بيانات نتائج التجميع

إذا كنت تستخدم مكون نموذج تجميع القطارات :

  1. انقر بزر الماوس الأيمن فوق مكون نموذج تجميع القطارات .

  2. حدد ⁧⁩تصور⁧⁩.

تلميحات لتوليد أفضل نموذج تجميع

من المعروف أن عملية البذر المستخدمة أثناء التجميع يمكن أن تؤثر بشكل كبير على النموذج. البذر يعني الموضع الأولي للنقاط في المراكز المحتملة.

على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على العديد من القيم المتطرفة، وتم اختيار القيم المتطرفة لزرع المجموعات، فلن تتناسب نقاط البيانات الأخرى بشكل جيد مع تلك المجموعة، ويمكن أن تكون المجموعة مفردة. أي أنه قد يكون لها نقطة واحدة فقط.

يمكنك تجنب هذه المشكلة بطريقتين:

  • قم بتغيير عدد السنترويدات وجرب قيم بذور متعددة.

  • قم بإنشاء نماذج متعددة ، مع تغيير المقياس أو تكرار المزيد.

بشكل عام ، مع نماذج التجميع ، من الممكن أن يؤدي أي تكوين معين إلى مجموعة محسنة محليا من المجموعات. وبعبارة أخرى، فإن مجموعة المجموعات التي يتم إرجاعها بواسطة النموذج تناسب فقط نقاط البيانات الحالية ولا يمكن تعميمها على البيانات الأخرى. إذا كنت تستخدم تكوينا أوليا مختلفا ، فقد تجد طريقة K-means تكوينا مختلفا ومتفوقا.

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.