مكون تقسيم البيانات

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم مكون Split Data لتقسيم مجموعة البيانات إلى مجموعتين مختلفتين.

هذا المكون مفيد عندما تحتاج إلى فصل البيانات إلى مجموعات تدريب واختبار. يمكنك أيضًا تخصيص طريقة تقسيم البيانات. تدعم بعض الخيارات التوزيع العشوائي للبيانات. تم تصميم البعض الآخر لنوع بيانات أو نوع نموذج معين.

اضبط المكون

تلميح

قبل أن تختار وضع التقسيم، اقرأ جميع الخيارات لتحديد نوع التقسيم الذي تحتاجه. وإذا قمت بتغيير وضع التقسيم، فقد تتم إعادة تعيين جميع الخيارات الأخرى.

  1. أضف مكوِّن تقسيم البيانات إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم. يمكنك العثور على هذا المكون ضمن تحويل البيانات، في فئة العينة والتقسيم.

  2. وضع التقسيم: اختر أحد الأوضاع التالية، استنادًا إلى نوع البيانات التي لديك والطريقة التي تريد تقسيمها بها. كل وضع تقسيم له خيارات مختلفة.

    • تقسيم الصفوف: استخدم هذا الخيار إذا كنت تريد فقط تقسيم البيانات إلى جزأين. يمكنك تحديد النسبة المئوية للبيانات التي سيتم وضعها في كل تقسيم. بشكل افتراضي، يتم تقسيم البيانات بنسبة 50/50.

      يمكنك أيضًا عشوائية تحديد الصفوف في كل مجموعة، واستخدام أخذ العينات الطبقية. في أخذ العينات الطبقية، يجب تحديد عمود واحد من البيانات التي تريد تقسيم القيم الخاصة بها بالتساوي بين مجموعتي بيانات النتيجة.

    • تقسيم التعبير العادي: اختر هذا الخيار عندما تريد تقسيم مجموعة البيانات الخاصة بك عن طريق اختبار عمود واحد لقيمة.

      وعلى سبيل المثال، إذا كنت تقوم بتحليل التوجه، يمكنك التحقق من وجود اسم منتج معين في حقل نصي. يمكنك بعد ذلك تقسيم مجموعة البيانات إلى صفوف باستخدام اسم المنتج المستهدف والصفوف دون اسم المنتج الهدف.

    • تقسيم التعبير النسبي: استخدم هذا الخيار كلما أردت تطبيق شرط على عمود رقم. يمكن أن يكون الرقم حقل تاريخ/وقت، أو عمودًا يحتوي على العمر أو مبالغ بالدولار، أو حتى نسبة مئوية. على سبيل المثال، قد ترغب في تقسيم مجموعة البيانات الخاصة بك بناءً على تكلفة العناصر، أو تجميع الأشخاص حسب الفئات العمرية، أو فصل البيانات حسب تاريخ التقويم.

تقسيم الصفوف

  1. أضف المكون تقسيم البيانات إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم، وقم بتوصيل مجموعة البيانات التي تريد تقسيمها.

  2. وبالنسبة إلى وضع التقسيم، حدد تقسيم الصفوف.

  3. كسر الصفوف في مجموعة بيانات الإخراج الأولى: استخدم هذا الخيار لتحديد عدد الصفوف التي ستنتقل إلى الإخراج الأول (الجانب الأيسر). ستنتقل جميع الصفوف الأخرى إلى الإخراج الثاني (الجانب الأيمن).

    تمثل النسبة النسبة المئوية للصفوف المرسلة إلى مجموعة بيانات الإخراج الأولى، لذلك يجب إدخال رقم عشري بين 0 و1.

    وعلى سبيل المثال، إذا أدخلت 0.75 كقيمة، فسيتم تقسيم مجموعة البيانات 75/25. وفي هذا التقسيم، سيتم إرسال 75 بالمائة من الصفوف إلى مجموعة بيانات الإخراج الأولى. سيتم إرسال نسبة 25 بالمائة المتبقية إلى مجموعة بيانات الإخراج الثانية.

  4. ثم حدد الخيار تقسيم عشوائي إذا كنت تريد عشوائية تحديد البيانات إلى المجموعتين. وهذا هو الخيار المفضل عند إنشاء مجموعتي بيانات التدريب والاختبار.

  5. البيانات الأولية العشوائية: سيتم تجاهل هذه المعلمة إذا تم تعيين تقسيم عشوائي إلى خطأ. بخلاف ذلك، أدخل قيمة عدد صحيح غير سالب لبدء التسلسل العشوائي الزائف للمثيلات التي سيتم استخدامها. يتم استخدام هذا الأصل الافتراضي في جميع المكونات التي تُنشئ أرقامًا عشوائية.

    تحديد قيمة أولية تجعل النتائج قابلة للتكرار. إذا كنت بحاجة إلى تكرار نتائج عملية التقسيم، يجب عليك تحديد نفس الرقم الأولي لمولد الأرقام العشوائية.

  6. التقسيم الطبقي: قم بتعيين هذا الخيار إلى True للتأكد من أن مجموعتي بيانات الإخراج تحتوي على عينة تمثيلية للقيم في عمود الطبقات أو عمود مفتاح التقسيم الطبقي.

    مع أخذ العينات الطبقية، يتم تقسيم البيانات بحيث تحصل كل مجموعة بيانات مخرجة تقريبًا على نفس النسبة المئوية لكل قيمة مستهدفة. على سبيل المثال، قد ترغب في التأكد من أن مجموعات التدريب والاختبار لديك متوازنة تقريبًا فيما يتعلق بالنتيجة أو بعض الأعمدة الأخرى (مثل الجنس).

  7. إرسال المسار.

حدد تعبيرًا عاديًا

  1. أضف المُكون تقسيم البيانات إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم، وقم بتوصيل مجموعة البيانات التي تريد تقسيمها.

  2. وبالنسبة إلى وضع التقسيم، حدد تقسيم التعبير العادي.

  3. في المربع تعبير عادي، أدخل تعبيرًا عاديًا صالحًا.

    يجب أن يتبع التعبير النمطي بناء جملة Python للتعبيرات العادية.

  4. إرسال المسار.

    استنادًا إلى التعبير العادي الذي توفره، يتم تقسيم مجموعة البيانات إلى مجموعتين من الصفوف: الصفوف ذات القيم التي تطابق التعبير وجميع الصفوف المتبقية.

توضح الأمثلة التالية كيفية تقسيم مجموعة بيانات باستخدام خيار التعبير العادي.

كلمة واحدة كاملة

ويضع هذا المثال في مجموعة البيانات الأولى جميع الصفوف التي تحتوي على النص Gryphon في العمود Text. يضع صفوفًا أخرى في الإخراج الثاني من Split Data.

    \"Text" Gryphon  

سلسلة فرعية

ويبحث هذا المثال عن السلسلة المحددة في أي موضع داخل العمود الثاني من مجموعة البيانات. يُشار إلى المركز هنا بقيمة المؤشر 1. المطابقة حساسة لحالة الأحرف.

(\1) ^[a-f]

تحتوي مجموعة بيانات النتيجة الأولى على جميع الصفوف حيث يبدأ عمود الفهرس بأحد هذه الأحرف: a، b، c، d، e، f. يتم توجيه جميع الصفوف الأخرى إلى الإخراج الثاني.

تحديد تعبير نسبي

  1. أضف المُكون تقسيم البيانات إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم، وقم بتوصيل مجموعة البيانات التي تريد تقسيمها.

  2. وبالنسبة إلى وضع التقسيم، حدد التعبير النسبي.

  3. وفي مربع التعبير الارتباطي، أدخل تعبيرًا يقوم بإجراء عملية مقارنة على عمود واحد.

    بالنسبة إلى العمود الرقمي:

    • يحتوي العمود على أرقام من أي نوع بيانات رقمي، بما في ذلك أنواع بيانات التاريخ والوقت.
    • ويمكن أن يشير التعبير إلى اسم عمود واحد كحد أقصى.
    • استخدم حرف علامة العطف، &، لعملية AND. استخدم حرف العمود، |، لعملية OR.
    • يتم دعم العوامل التالية: < و> و<= و>= و== و!=.
    • لا يمكن تجميع العمليات باستخدام ( و ).

    وبالنسبة إلى عمود السلسلة:

    • يتم دعم العوامل التالية: == و!=.
  4. إرسال المسار.

    يقسِّم التعبير مجموعة البيانات إلى مجموعتين من الصفوف: صفوف ذات قيم تفي بالشرط، وكل الصفوف المتبقية.

توضح الأمثلة التالية كيفية تقسيم مجموعة بيانات باستخدام خيار التعبير النسبي في المكون تقسيم البيانات.

السنة التقويمية

السيناريو الشائع هو تقسيم مجموعة البيانات حسب السنوات. يحدد التعبير التالي كافة الصفوف التي تكون فيها القيم في العمود Year أكبر من تلك في 2010.

\"Year" > 2010

يجب أن يراعي تعبير التاريخ جميع أجزاء التاريخ المضمنة في عمود البيانات. يجب أن يكون تنسيق التواريخ في عمود البيانات متسقًا.

وعلى سبيل المثال، في عمود التاريخ الذي يستخدم التنسيق mmddyyyy، يجب أن يكون التعبير كما يلي:

\"Date" > 1/1/2010

فهرس الأعمدة

يوضح التعبير التالي كيف يمكنك استخدام فهرس العمود لتحديد جميع الصفوف في العمود الأول من مجموعة البيانات التي تحتوي على قيم أقل من أو تساوي 30، ولكنها لا تساوي 20.

(\0)<=30 & !=20

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.