إزالة مكون "الصفوف المكررة"
توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.
استخدم هذا المكون لإزالة التكرارات المحتملة من مجموعة بيانات.
على سبيل المثال، افترض أن بياناتك تبدو كما يلي، وتمثل سجلات متعددة للمرضى.
| هوية المريض | الأحرف الأولي | النوع | العمر | اعترف |
|---|---|---|---|---|
| 1 | و.M. | M | 53 | يناير |
| 2 | ف.أ.M. | M | 53 | يناير |
| 3 | ف.أ.M. | M | 24 | يناير |
| 3 | و.M. | M | 24 | فبراير |
| 4 | و.M. | M | 23 | فبراير |
| و.M. | M | 23 | ||
| 5 | ف.أ.M. | M | 53 | |
| 6 | ف.أ.M. | M | NaN | |
| 7 | ف.أ.M. | M | NaN |
من الواضح أن هذا المثال يحتوي على أعمدة متعددة مع بيانات يحتمل أن تكون مكررة. يعتمد ما إذا كانت مكررة بالفعل على معرفتك بالبيانات.
على سبيل المثال، قد تعرف أن العديد من المرضى لديهم نفس الاسم. لن تقضي على التكرارات باستخدام أي أعمدة أسماء ، فقط عمود المعرف . وبهذه الطريقة، تتم تصفية الصفوف التي تحتوي على قيم معرف مكررة فقط، بغض النظر عما إذا كان المرضى يحملون نفس الاسم أم لا.
بدلا من ذلك، قد تقرر السماح بالتكرارات في حقل المعرف، واستخدام مجموعة أخرى من الملفات للعثور على سجلات فريدة، مثل الاسم الأول واسم العائلة والعمر والجنس.
لتعيين معايير ما إذا كان الصف مكررا أم لا، يمكنك تحديد عمود واحد أو مجموعة من الأعمدة لاستخدامها كمفاتيح. يعتبر الصفان مكررين فقط عندما تكون القيم الموجودة في جميع أعمدة المفاتيح متساوية. إذا كان لأي صف قيمة مفقودة للمفاتيح، فلن يتم اعتباره صفوفا مكررة. على سبيل المثال، إذا تم تعيين الجنس والعمر كمفاتيح في الجدول أعلاه، فإن الصفين 6 و7 ليسا صفين مكررين نظرا لأنهما يحتويان على قيمة مفقودة في العمر.
عند تشغيل المكون، فإنه ينشئ مجموعة بيانات مرشحة، ويقوم بإرجاع مجموعة من الصفوف التي لا تحتوي على تكرارات عبر مجموعة الأعمدة التي حددتها.
هام
لا يتم تغيير مجموعة البيانات المصدر. ينشئ هذا المكون مجموعة بيانات جديدة تتم تصفيتها لاستبعاد التكرارات، استنادا إلى المعايير التي تحددها.
كيفية استخدام "إزالة الصفوف المكررة"
أضف المكون إلى خط الأنابيب الخاص بك. يمكنك العثور على مكون إزالة الصفوف المكررة ضمن تحويل البياناتومعالجتها.
الاتصال مجموعة البيانات التي تريد التحقق من وجود صفوف مكررة.
في جزء الخصائص ، ضمن تعبير عامل تصفية تحديد عمود المفاتيح، انقر فوق تشغيل محدد الأعمدة، لاختيار أعمدة لاستخدامها في تحديد التكرارات.
في هذا السياق ، لا يعني Key معرفا فريدا. يتم تعيين كافة الأعمدة التي تحددها باستخدام محدد الأعمدة كأعمدة رئيسية. تعتبر جميع الأعمدة غير المحددة أعمدة غير رئيسية. يحدد مزيج الأعمدة التي تحددها كمفاتيح تفرد السجلات. (فكر في الأمر على أنه عبارة SQL تستخدم روابط متعددة للمساواة.)
أمثلة:
- "أريد التأكد من أن المعرفات فريدة من نوعها": اختر عمود المعرف فقط.
- "أريد التأكد من أن الجمع بين الاسم الأول واسم العائلة والمعرف فريد من نوعه": حدد جميع الأعمدة الثلاثة.
استخدم خانة الاختيار الاحتفاظ بالصف المكرر الأول للإشارة إلى الصف الذي سيتم إرجاعه عند العثور على التكرارات:
- إذا تم تحديده، إرجاع الصف الأول وتجاهل الصفوف الأخرى.
- إذا قمت بإلغاء تحديد هذا الخيار، الاحتفاظ بآخر صف مكرر في النتائج، ويتم تجاهل الآخرين.
إرسال المسار.
لمراجعة النتائج، انقر بزر الماوس الأيمن فوق المكون، وحدد تصور.
تلميح
إذا كان من الصعب فهم النتائج، أو إذا كنت تريد استبعاد بعض الأعمدة من الاعتبار، فيمكنك إزالة الأعمدة باستخدام مكون تحديد أعمدة في مجموعة البيانات .
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.