مكون القسم والعينة

توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.

استخدم مكون القسم والعينة لإجراء أخذ عينات على مجموعة بيانات أو لإنشاء أقسام من مجموعة البيانات الخاصة بك.

يعد أخذ العينات أداة مهمة في التعلم الآلي لأنه يتيح لك تقليل حجم مجموعة البيانات مع الحفاظ على نفس نسبة القيم. يدعم هذا المكون العديد من المهام ذات الصلة المهمة في التعلم الآلي:

  • تقسيم بياناتك إلى أقسام فرعية متعددة بنفس الحجم.

    يمكنك استخدام الأقسام للتحقق من الصحة المتقاطعة، أو لتعيين حالات لمجموعات عشوائية.

  • فصل البيانات إلى مجموعات ثم العمل مع البيانات من مجموعة معينة.

    بعد تعيين الحالات عشوائيا إلى مجموعات مختلفة، قد تحتاج إلى تعديل الميزات المقترنة بمجموعة واحدة فقط.

  • أخذ العينات.

    يمكنك استخراج نسبة مئوية من البيانات، أو تطبيق أخذ عينات عشوائية، أو اختيار عمود لاستخدامه لموازنة مجموعة البيانات وإجراء أخذ عينات طبقية على قيمها.

  • إنشاء مجموعة بيانات أصغر للاختبار.

    إذا كان لديك الكثير من البيانات، فقد تحتاج إلى استخدام الصفوف n الأولى فقط أثناء إعداد خط الأنابيب، ثم التبديل إلى استخدام مجموعة البيانات الكاملة عند إنشاء النموذج. يمكنك أيضا استخدام أخذ العينات لإنشاء مجموعة بيانات أصغر لاستخدامها في التطوير.

تكوين المكون

يدعم هذا المكون الطرق التالية لتقسيم بياناتك إلى أقسام أو لأخذ العينات. اختر الطريقة أولا، ثم قم بتعيين خيارات إضافية تتطلبها الطريقة.

  • الرأس
  • أخذ نماذج
  • تعيين إلى طيات
  • اختيار أضعاف

الحصول على صفوف TOP N من مجموعة بيانات

استخدم هذا الوضع للحصول على الصفوف n الأولى فقط. يعد هذا الخيار مفيدا إذا كنت ترغب في اختبار خط أنابيب على عدد صغير من الصفوف، ولا تحتاج إلى موازنة البيانات أو أخذ عينات منها بأي شكل من الأشكال.

  1. أضف مكون القسم والعينة إلى خط الأنابيب في الواجهة، وقم بتوصيل مجموعة البيانات.

  2. وضع القسم أو العينة: اضبط هذا الخيار على الرأس.

  3. عدد الصفوف المراد تحديدها: أدخل عدد الصفوف المراد إرجاعها.

    يجب أن يكون عدد الصفوف عددا صحيحا غير سالب. إذا كان عدد الصفوف المحددة أكبر من عدد الصفوف في مجموعة البيانات، إرجاع مجموعة البيانات بأكملها.

  4. إرسال المسار.

يقوم المكون بإخراج مجموعة بيانات واحدة تحتوي فقط على العدد المحدد من الصفوف. تتم قراءة الصفوف دائما من أعلى مجموعة البيانات.

إنشاء نموذج من البيانات

يدعم هذا الخيار أخذ العينات العشوائية البسيطة أو أخذ العينات العشوائية الطبقية. من المفيد إذا كنت ترغب في إنشاء مجموعة بيانات نموذجية تمثيلية أصغر للاختبار.

  1. أضف مكون القسم والعينة إلى خط الأنابيب الخاص بك، وقم بتوصيل مجموعة البيانات.

  2. وضع القسم أو العينة: اضبط هذا الخيار على أخذ العينات.

  3. معدل أخذ العينات: أدخل قيمة بين 0 و1. تحدد هذه القيمة النسبة المئوية للصفوف من مجموعة البيانات المصدر التي يجب تضمينها في مجموعة بيانات المخرجات.

    على سبيل المثال، إذا كنت تريد نصف مجموعة البيانات الأصلية فقط، فأدخل 0.5 للإشارة إلى أن معدل أخذ العينات يجب أن يكون 50 بالمائة.

    يتم خلط صفوف مجموعة بيانات الإدخال ووضعها بشكل انتقائي في مجموعة بيانات الإخراج ، وفقا للنسبة المحددة.

  4. البذور العشوائية لأخذ العينات: اختياريا، أدخل عددا صحيحا لاستخدامه كقيمة بذور.

    هذا الخيار مهم إذا كنت تريد تقسيم الصفوف بنفس الطريقة في كل مرة. القيمة الافتراضية هي 0 ، مما يعني أنه يتم إنشاء بذرة بداية بناء على ساعة النظام. يمكن أن تؤدي هذه القيمة إلى نتائج مختلفة قليلا في كل مرة تقوم فيها بتشغيل خط الأنابيب.

  5. التقسيم الطبقي لأخذ العينات: حدد هذا الخيار إذا كان من المهم تقسيم الصفوف في مجموعة البيانات بالتساوي على بعض أعمدة المفاتيح قبل أخذ العينات.

    بالنسبة لعمود مفتاح التقسيم الطبقي لأخذ العينات، حدد عمود طبقة واحد لاستخدامه عند تقسيم مجموعة البيانات. ثم يتم تقسيم الصفوف في مجموعة البيانات كما يلي:

    1. يتم تجميع جميع صفوف الإدخال (طبقية) حسب القيم الموجودة في عمود الطبقات المحدد.

    2. يتم خلط الصفوف داخل كل مجموعة.

    3. تتم إضافة كل مجموعة بشكل انتقائي إلى مجموعة بيانات المخرجات لتلبية النسبة المحددة.

  6. إرسال المسار.

    باستخدام هذا الخيار، يقوم المكون بإخراج مجموعة بيانات واحدة تحتوي على عينة تمثيلية من البيانات. الجزء المتبقي غير المعينات من مجموعة البيانات ليس ناتجا.

تقسيم البيانات إلى أقسام

استخدم هذا الخيار عندما تريد تقسيم مجموعة البيانات إلى مجموعات فرعية من البيانات. يفيد هذا الخيار أيضا عندما تريد إنشاء عدد مخصص من الطيات للتحقق من الصحة المتقاطعة، أو تقسيم الصفوف إلى عدة مجموعات.

  1. أضف مكون القسم والعينة إلى خط الأنابيب الخاص بك، وقم بتوصيل مجموعة البيانات.

  2. بالنسبة لوضع القسم أو العينة، حدد تعيين إلى طيات.

  3. استخدام الاستبدال في التقسيم: حدد هذا الخيار إذا كنت تريد إعادة الصف الذي تم أخذ عينات منه إلى مجموعة الصفوف لإعادة الاستخدام المحتملة. ونتيجة لذلك، قد يتم تعيين الصف نفسه لعدة طيات.

    إذا كنت لا تستخدم الاستبدال (الخيار الافتراضي)، فلن يتم وضع الصف الذي تم أخذ عينات منه مرة أخرى في مجموعة الصفوف لإعادة الاستخدام المحتملة. ونتيجة لذلك، يمكن تعيين كل صف إلى طية واحدة فقط.

  4. تقسيم عشوائي: حدد هذا الخيار إذا كنت تريد تعيين الصفوف عشوائيا إلى طيات.

    إذا لم تحدد هذا الخيار، تعيين صفوف للطيات من خلال طريقة روبن المستديرة.

  5. البذور العشوائية: اختياريا، أدخل عددا صحيحا لاستخدامه كقيمة للبذور. هذا الخيار مهم إذا كنت تريد تقسيم الصفوف بنفس الطريقة في كل مرة. خلاف ذلك ، فإن القيمة الافتراضية ل 0 تعني أنه سيتم استخدام بذرة بداية عشوائية.

  6. حدد طريقة التقسيم: حدد الطريقة التي تريد بها تقسيم البيانات على كل قسم، باستخدام الخيارات التالية:

    • القسم بالتساوي: استخدم هذا الخيار لوضع عدد متساو من الصفوف في كل قسم. لتحديد عدد أقسام الإخراج، أدخل رقما صحيحا في المربع تحديد عدد الطيات لتقسيمها بالتساوي إلى .

    • قسم بنسب مخصصة: استخدم هذا الخيار لتحديد حجم كل قسم كقائمة مفصولة بفواصل.

      على سبيل المثال، افترض أنك تريد إنشاء ثلاثة أقسام. سيحتوي القسم الأول على 50 بالمائة من البيانات. سيحتوي القسمان المتبقيان على 25 بالمائة من البيانات. في المربع قائمة النسب المفصولة بفاصلة، أدخل هذه الأرقام: .5، .25، .25.

      يجب أن يصل مجموع جميع أحجام الأقسام إلى 1 بالضبط.

      إذا قمت بإدخال أرقام تصل إلى أقل من 1، إنشاء قسم إضافي للاحتفاظ بالصفوف المتبقية. على سبيل المثال، إذا قمت بإدخال القيم .2 و .3، يتم إنشاء قسم ثالث للاحتفاظ بنسبة 50 بالمائة المتبقية من كافة الصفوف.

      إذا قمت بإدخال أرقام تصل إلى أكثر من 1، رفع خطأ عند تشغيل خط الأنابيب.

  7. التقسيم الطبقي: حدد هذا الخيار إذا كنت تريد أن تكون الصفوف طبقية عند التقسيم، ثم اختر عمود الطبقات.

  8. إرسال المسار.

    باستخدام هذا الخيار، يقوم المكون بإخراج مجموعات بيانات متعددة. يتم تقسيم مجموعات البيانات وفقا للقواعد التي حددتها.

استخدام البيانات من قسم محدد مسبقا

استخدم هذا الخيار عندما تقوم بتقسيم مجموعة بيانات إلى أقسام متعددة وتريد الآن تحميل كل قسم بدوره لمزيد من التحليل أو المعالجة.

  1. أضف مكون القسم والعينة إلى خط الأنابيب.

  2. الاتصال المكون إلى إخراج مثيل سابق من القسم والعينة. يجب أن يكون هذا المثيل قد استخدم الخيار تعيين إلى طيات لإنشاء عدد معين من الأقسام.

  3. وضع القسم أو العينة: حدد اختيار طي.

  4. حدد الطية التي سيتم أخذ عينات منها: حدد قسما لاستخدامه عن طريق إدخال فهرسه. تستند مؤشرات التقسيم إلى 1. على سبيل المثال، إذا قمت بتقسيم مجموعة البيانات إلى ثلاثة أجزاء، فستحتوي الأقسام على المؤشرات 1 و2 و3.

    إذا قمت بإدخال قيمة فهرس غير صالحة، رفع خطأ في وقت التصميم: خطأ 0018: تحتوي مجموعة البيانات على بيانات غير صالحة.

    بالإضافة إلى تجميع مجموعة البيانات حسب الطيات، يمكنك فصل مجموعة البيانات إلى مجموعتين: الطية المستهدفة، وكل شيء آخر. للقيام بذلك ، أدخل فهرس طية واحدة ، ثم حدد الخيار اختيار تكملة للطية المحددة للحصول على كل شيء باستثناء البيانات الموجودة في الطية المحددة.

  5. إذا كنت تعمل مع أقسام متعددة، فيجب إضافة المزيد من مثيلات مكون القسم والعينة للتعامل مع كل قسم.

    على سبيل المثال، يتم تعيين مكون القسم والعينة في الصف الثاني إلى تعيين إلى طيات، ويتم تعيين المكون في الصف الثالث إلى اختيار طي.

    Partition and sample

  6. إرسال المسار.

    باستخدام هذا الخيار، يقوم المكون بإخراج مجموعة بيانات واحدة تحتوي فقط على الصفوف المعينة لتلك الطية.

ملاحظة

لا يمكنك عرض تسميات الطيات مباشرة. وهي موجودة فقط في البيانات الوصفية.

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.