مكون البيانات المقسمة

توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.

استخدم مكون تقسيم البيانات لتقسيم مجموعة بيانات إلى مجموعتين متميزتين.

هذا المكون مفيد عندما تحتاج إلى فصل البيانات إلى مجموعات التدريب والاختبار. يمكنك أيضا تخصيص طريقة تقسيم البيانات. تدعم بعض الخيارات التوزيع العشوائي للبيانات. يتم تصميم البعض الآخر لنوع بيانات معين أو نوع نموذج.

تكوين المكون

تلميح

قبل اختيار وضع التقسيم، اقرأ جميع الخيارات لتحديد نوع الانقسام الذي تحتاجه. إذا قمت بتغيير وضع التقسيم، فقد تتم إعادة تعيين جميع الخيارات الأخرى.

  1. أضف مكون تقسيم البيانات إلى خط الأنابيب الخاص بك في المصمم. يمكنك العثور على هذا المكون ضمن تحويل البيانات، في الفئة عينة وتقسيم .

  2. وضع التقسيم: اختر أحد الأوضاع التالية، بناء على نوع البيانات المتوفرة لديك وكيفية تقسيمها. كل وضع تقسيم لديه خيارات مختلفة.

    • تقسيم الصفوف: استخدم هذا الخيار إذا كنت تريد فقط تقسيم البيانات إلى قسمين. يمكنك تحديد النسبة المئوية للبيانات المراد وضعها في كل قسم. بشكل افتراضي، يتم تقسيم البيانات 50/50.

      يمكنك أيضا توزيع اختيار الصفوف عشوائيا في كل مجموعة، واستخدام العينات الطبقية. في أخذ العينات الطبقية، يجب تحديد عمود واحد من البيانات التي تريد تقسيم القيم لها بالتساوي بين مجموعتي بيانات النتائج.

    • تقسيم التعبير العادي: حدد هذا الخيار عندما تريد تقسيم مجموعة البيانات الخاصة بك عن طريق اختبار عمود واحد لقيمة.

      على سبيل المثال، إذا كنت تقوم بتحليل المشاعر، يمكنك التحقق من وجود اسم منتج معين في حقل نصي. يمكنك بعد ذلك تقسيم مجموعة البيانات إلى صفوف باسم المنتج المستهدف والصفوف بدون اسم المنتج الهدف.

    • تقسيم التعبير النسبي: استخدم هذا الخيار كلما أردت تطبيق شرط على عمود رقم. يمكن أن يكون الرقم حقل تاريخ / وقت ، أو عمود يحتوي على مبالغ العمر أو الدولار ، أو حتى نسبة مئوية. على سبيل المثال، قد ترغب في تقسيم مجموعة البيانات استنادا إلى تكلفة العناصر، أو تجميع الأشخاص حسب الفئات العمرية، أو فصل البيانات حسب تاريخ التقويم.

تقسيم الصفوف

  1. أضف مكون Split Data إلى خط الأنابيب الخاص بك في المصمم، وقم بتوصيل مجموعة البيانات التي تريد تقسيمها.

  2. بالنسبة إلى وضع التقسيم، حدد تقسيم الصفوف.

  3. جزء من الصفوف في مجموعة بيانات الإخراج الأولى: استخدم هذا الخيار لتحديد عدد الصفوف التي ستدخل في الإخراج الأول (الجانب الأيسر). ستذهب جميع الصفوف الأخرى إلى الإخراج الثاني (الجانب الأيمن).

    تمثل النسبة المئوية للصفوف المرسلة إلى مجموعة بيانات الإخراج الأولى، لذا يجب إدخال رقم عشري بين 0 و1.

    على سبيل المثال، إذا قمت بإدخال 0.75 كقيمة، تقسيم مجموعة البيانات 75/25. في هذا التقسيم، سيتم إرسال 75 بالمائة من الصفوف إلى مجموعة بيانات الإخراج الأولى. وسيتم إرسال ال 25 في المائة المتبقية إلى مجموعة بيانات المخرجات الثانية.

  4. حدد خيار الانقسام العشوائي إذا كنت تريد توزيع تحديد البيانات عشوائيا في المجموعتين. هذا هو الخيار المفضل عند إنشاء مجموعات بيانات التدريب والاختبار.

  5. البذور العشوائية: سيتم تجاهل هذه المعلمة إذا تم تعيين الانقسام العشوائي إلى false. وإلا أدخل قيمة صحيحة غير سالبة لبدء التسلسل العشوائي الزائف للمثيلات المراد استخدامها. يتم استخدام هذه البذرة الافتراضية في جميع المكونات التي تولد أرقاما عشوائية.

    تحديد البذور يجعل النتائج قابلة للتكرار. إذا كنت بحاجة إلى تكرار نتائج عملية الانقسام ، فيجب عليك تحديد نفس رقم البذور لمولد الأرقام العشوائية.

  6. التقسيم الطبقي: اضبط هذا الخيار على True للتأكد من أن مجموعتي بيانات المخرجات تحتويان على عينة تمثيلية للقيم الموجودة في عمود الطبقات أو عمود مفتاح التقسيم الطبقي.

    مع أخذ العينات الطبقية ، يتم تقسيم البيانات بحيث تحصل كل مجموعة بيانات ناتجة على نفس النسبة المئوية تقريبا من كل قيمة مستهدفة. على سبيل المثال، قد ترغب في التأكد من أن مجموعات التدريب والاختبار متوازنة تقريبا فيما يتعلق بالنتيجة أو ببعض الأعمدة الأخرى (مثل الجنس).

  7. إرسال المسار.

تحديد تعبير عادي

  1. أضف مكون تقسيم البيانات إلى خط الأنابيب، وقم بتوصيله كإدخال إلى مجموعة البيانات التي تريد تقسيمها.

  2. بالنسبة إلى وضع التقسيم، حدد تقسيم التعبير العادي.

  3. في المربع تعبير عادي ، أدخل تعبيرا عاديا صالحا.

    يجب أن يتبع التعبير العادي بناء جملة بايثون للتعبيرات العادية.

  4. إرسال المسار.

    استنادا إلى التعبير العادي الذي توفره، تنقسم مجموعة البيانات إلى مجموعتين من الصفوف: صفوف ذات قيم تطابق التعبير وكل الصفوف المتبقية.

توضح الأمثلة التالية كيفية تقسيم مجموعة بيانات باستخدام خيار التعبير العادي .

كلمة واحدة كاملة

يضع هذا المثال في مجموعة البيانات الأولى جميع الصفوف التي تحتوي على النص Gryphon في العمود Text. يضع صفوفا أخرى في الإخراج الثاني من البيانات المقسمة.

    \"Text" Gryphon  

فرعيه

يبحث هذا المثال عن السلسلة المحددة في أي موضع داخل العمود الثاني من مجموعة البيانات. يشار إلى المركز هنا بقيمة المؤشر 1. المباراة حساسة لحالة الأحرف.

(\1) ^[a-f]

تحتوي مجموعة بيانات النتيجة الأولى على جميع الصفوف حيث يبدأ عمود الفهرس بأحد هذه الأحرف: a, , , b, , fcde. يتم توجيه جميع الصفوف الأخرى إلى الإخراج الثاني.

تحديد تعبير نسبي

  1. أضف مكون تقسيم البيانات إلى خط الأنابيب، وقم بتوصيله كإدخال إلى مجموعة البيانات التي تريد تقسيمها.

  2. بالنسبة لوضع التقسيم، حدد التعبير النسبي.

  3. في المربع التعبير العلائقي ، أدخل تعبيرا ينفذ عملية مقارنة على عمود واحد.

    بالنسبة للعمود الرقمي:

    • يحتوي العمود على أرقام من أي نوع بيانات رقمية، بما في ذلك أنواع بيانات التاريخ والوقت.
    • يمكن أن يشير التعبير إلى اسم عمود واحد كحد أقصى.
    • استخدم حرف العطف ، &للعملية AND. استخدم حرف الأنبوب، |لعملية OR.
    • يتم دعم عوامل التشغيل التالية: <, , , , >=><=, ==!=.
    • لا يمكنك تجميع العمليات باستخدام ( و ).

    بالنسبة لعمود السلسلة:

    • يتم دعم المشغلين التاليين: ==، !=.
  4. إرسال المسار.

    يقسم التعبير مجموعة البيانات إلى مجموعتين من الصفوف: صفوف ذات قيم تفي بالشرط، وكل الصفوف المتبقية.

توضح الأمثلة التالية كيفية تقسيم مجموعة بيانات باستخدام خيار التعبير النسبي في مكون تقسيم البيانات .

السنة التقويمية

السيناريو الشائع هو تقسيم مجموعة بيانات على السنوات. يحدد التعبير التالي كافة الصفوف التي تكون فيها القيم في العمود Year أكبر من 2010.

\"Year" > 2010

يجب أن يمثل تعبير التاريخ كافة أجزاء التاريخ المضمنة في عمود البيانات. يجب أن يكون تنسيق التواريخ في عمود البيانات متسقا.

على سبيل المثال ، في عمود التاريخ الذي يستخدم التنسيق mmddyyyy، يجب أن يكون التعبير شيئا من هذا القبيل:

\"Date" > 1/1/2010

فهرس العمود

يوضح التعبير التالي كيف يمكنك استخدام فهرس الأعمدة لتحديد كافة الصفوف في العمود الأول من مجموعة البيانات التي تحتوي على قيم أقل من أو تساوي 30، ولكنها لا تساوي 20.

(\0)<=30 & !=20

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.