تنظيف مكون البيانات المفقودة
توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.
استخدم هذا المكون لإزالة القيم المفقودة أو استبدالها أو استنتاجها.
غالبا ما يتحقق علماء البيانات من البيانات بحثا عن القيم المفقودة ثم يقومون بإجراء عمليات مختلفة لإصلاح البيانات أو إدراج قيم جديدة. الهدف من عمليات التنظيف هذه هو منع المشاكل الناجمة عن البيانات المفقودة التي يمكن أن تنشأ عند تدريب نموذج.
يدعم هذا المكون أنواعا متعددة من العمليات "لتنظيف" القيم المفقودة، بما في ذلك:
- استبدال القيم المفقودة بعنصر نائب أو متوسط أو قيمة أخرى
- إزالة الصفوف والأعمدة التي تحتوي على قيم مفقودة بالكامل
- استنتاج القيم استنادا إلى الأساليب الإحصائية
لا يؤدي استخدام هذا المكون إلى تغيير مجموعة بيانات المصدر. بدلا من ذلك، يقوم بإنشاء مجموعة بيانات جديدة في مساحة العمل الخاصة بك والتي يمكنك استخدامها في سير العمل اللاحق. يمكنك أيضا حفظ مجموعة البيانات الجديدة التي تم تنظيفها لإعادة استخدامها.
ينتج هذا المكون أيضا تعريفا للتحويل المستخدم لتنظيف القيم المفقودة. يمكنك إعادة استخدام هذا التحويل على مجموعات بيانات أخرى لها نفس المخطط، باستخدام مكون تطبيق التحويل .
كيفية استخدام تنظيف البيانات المفقودة
يتيح لك هذا المكون تحديد عملية تنظيف. يمكنك أيضا حفظ عملية التنظيف بحيث يمكنك تطبيقها لاحقا على البيانات الجديدة. راجع الأقسام التالية حول كيفية إنشاء عملية تنظيف وحفظها:
هام
يمكن أن تؤثر طريقة التنظيف التي تستخدمها للتعامل مع القيم المفقودة بشكل كبير على نتائجك. نوصي بتجربة طرق مختلفة. النظر في كل من مبرر استخدام طريقة معينة ، وجودة النتائج.
استبدال القيم المفقودة
في كل مرة تقوم فيها بتطبيق مكون تنظيف البيانات المفقودة على مجموعة من البيانات، يتم تطبيق نفس عملية التنظيف على كافة الأعمدة التي تحددها. لذلك، إذا كنت بحاجة إلى تنظيف أعمدة مختلفة باستخدام طرق مختلفة، استخدم مثيلات منفصلة للمكون.
أضف مكون تنظيف البيانات المفقودة إلى خط الأنابيب الخاص بك، وقم بتوصيل مجموعة البيانات التي تحتوي على قيم مفقودة.
لكي يتم تنظيف الأعمدة، اختر الأعمدة التي تحتوي على القيم المفقودة التي تريد تغييرها. يمكنك اختيار أعمدة متعددة، ولكن يجب عليك استخدام نفس طريقة الاستبدال في جميع الأعمدة المحددة. لذلك ، عادة ما تحتاج إلى تنظيف أعمدة السلسلة والأعمدة الرقمية بشكل منفصل.
على سبيل المثال، للتحقق من وجود قيم مفقودة في كافة الأعمدة الرقمية:
حدد مكون تنظيف البيانات المفقودة ، وانقر فوق العمود تحرير في اللوحة اليمنى من المكون.
بالنسبة إلى تضمين، حدد أنواع الأعمدة من القائمة المنسدلة، ثم حدد رقمي.
يجب أن تكون أي طريقة تنظيف أو استبدال تختارها قابلة للتطبيق على جميع الأعمدة في التحديد. إذا كانت البيانات الموجودة في أي عمود غير متوافقة مع العملية المحددة، يقوم المكون بإرجاع خطأ وإيقاف خط الأنابيب.
بالنسبة إلى الحد الأدنى لنسبة القيمة المفقودة، حدد الحد الأدنى لعدد القيم المفقودة المطلوبة لتنفيذ العملية.
يمكنك استخدام هذا الخيار مع الحد الأقصى لنسبة القيمة المفقودة لتحديد الظروف التي يتم فيها تنفيذ عملية تنظيف على مجموعة البيانات. إذا كان هناك عدد كبير جدا أو قليل جدا من الصفوف التي تفتقر إلى القيم، لا يمكن تنفيذ العملية.
يمثل الرقم الذي تدخله نسبة القيم المفقودة إلى جميع القيم في العمود. بشكل افتراضي، يتم تعيين الخاصية الحد الأدنى لنسبة القيمة المفقودة إلى 0. هذا يعني أنه يتم تنظيف القيم المفقودة حتى إذا كانت هناك قيمة مفقودة واحدة فقط.
تحذير
يجب استيفاء هذا الشرط بواسطة كل عمود حتى يتم تطبيق العملية المحددة. على سبيل المثال، افترض أنك حددت ثلاثة أعمدة ثم قمت بتعيين الحد الأدنى لنسبة القيم المفقودة إلى .2 (20٪)، ولكن عمودا واحدا فقط يحتوي بالفعل على 20٪ من القيم المفقودة. في هذه الحالة، سيتم تطبيق عملية التنظيف فقط على العمود الذي يحتوي على أكثر من 20٪ من القيم المفقودة. لذلك، لن تتغير الأعمدة الأخرى.
إذا كان لديك أي شك حول ما إذا كان قد تم تغيير القيم المفقودة ، فحدد الخيار ، إنشاء عمود مؤشر القيمة المفقودة. يتم إلحاق عمود بمجموعة البيانات للإشارة إلى ما إذا كان كل عمود يفي بالمعايير المحددة للنطاقات الدنيا والقصوى أم لا.
بالنسبة إلى الحد الأقصى لنسبة القيمة المفقودة، حدد الحد الأقصى لعدد القيم المفقودة التي يمكن أن تكون موجودة للعملية المراد تنفيذها.
على سبيل المثال، قد ترغب في إجراء استبدال القيمة المفقودة فقط إذا كانت 30٪ أو أقل من الصفوف تحتوي على قيم مفقودة، ولكن اترك القيم كما هي إذا كان أكثر من 30٪ من الصفوف تحتوي على قيم مفقودة.
يمكنك تعريف الرقم كنسبة القيم المفقودة إلى كافة القيم في العمود. بشكل افتراضي، يتم تعيين نسبة القيمة المفقودة القصوى إلى 1. هذا يعني أنه يتم تنظيف القيم المفقودة حتى إذا كانت 100٪ من القيم الموجودة في العمود مفقودة.
بالنسبة إلى وضع التنظيف، حدد أحد الخيارات التالية لاستبدال القيم المفقودة أو إزالتها:
قيمة استبدال مخصصة: استخدم هذا الخيار لتحديد قيمة عنصر نائب (مثل 0 أو NA) تنطبق على جميع القيم المفقودة. يجب أن تكون القيمة التي تحددها كبديل متوافقة مع نوع بيانات العمود.
استبدال بالمتوسط: يحسب متوسط العمود ويستخدم الوسط كقيمة استبدال لكل قيمة مفقودة في العمود.
ينطبق فقط على الأعمدة التي تحتوي على أنواع بيانات صحيحة أو مزدوجة أو منطقية.
استبدال بوسيط: يحسب القيمة الوسطية للعمود، ويستخدم القيمة الوسيطة كبديل لأي قيمة مفقودة في العمود.
ينطبق فقط على الأعمدة التي تحتوي على أنواع بيانات صحيحة أو مزدوجة.
استبدال بالوضع: يحسب الوضع للعمود، ويستخدم الوضع كقيمة استبدال لكل قيمة مفقودة في العمود.
ينطبق على الأعمدة التي تحتوي على أنواع بيانات صحيحة أو مزدوجة أو منطقية أو فئوية.
إزالة الصف بأكمله: لإزالة أي صف في مجموعة البيانات يحتوي على قيمة مفقودة واحدة أو أكثر تماما. هذا مفيد إذا كان يمكن اعتبار القيمة المفقودة مفقودة بشكل عشوائي.
إزالة العمود بأكمله: لإزالة أي عمود في مجموعة البيانات يحتوي على قيمة مفقودة واحدة أو أكثر تماما.
يتوفر الخيار قيمة الاستبدال إذا قمت بتحديد الخيار، قيمة الاستبدال المخصصة. اكتب قيمة جديدة لاستخدامها كقيمة بديلة لكافة القيم المفقودة في العمود.
لاحظ أنه يمكنك استخدام هذا الخيار فقط في الأعمدة التي تحتوي على عدد صحيح أو مزدوج أو منطقي أو سلسلة.
إنشاء عمود مؤشر قيمة مفقود: حدد هذا الخيار إذا كنت تريد إخراج بعض المؤشرات حول ما إذا كانت القيم الموجودة في العمود تفي بمعايير تنظيف القيمة المفقودة. هذا الخيار مفيد بشكل خاص عند إعداد عملية تنظيف جديدة وتريد التأكد من أنها تعمل كما تم تصميمها.
إرسال المسار.
النتائج
يرجع المكون مخرجين:
مجموعة بيانات تم تنظيفها: مجموعة بيانات تتكون من الأعمدة المحددة، مع معالجة القيم المفقودة كما هو محدد، إلى جانب عمود مؤشر، إذا قمت بتحديد هذا الخيار.
الأعمدة غير المحددة للتنظيف هي أيضا "تمرير".
تحويل التنظيف: تحويل بيانات يستخدم للتنظيف، ويمكن حفظه في مساحة العمل الخاصة بك وتطبيقه على البيانات الجديدة لاحقا.
تطبيق عملية تنظيف محفوظة على بيانات جديدة
إذا كنت بحاجة إلى تكرار عمليات التنظيف في كثير من الأحيان، فإننا نوصي بحفظ وصفتك لتنظيف البيانات كتحويل، لإعادة استخدامها مع نفس مجموعة البيانات. يعد حفظ تحويل التنظيف مفيدا بشكل خاص إذا كان يجب عليك إعادة استيراد البيانات التي تحتوي على نفس المخطط ثم تنظيفها بشكل متكرر.
أضف مكون تطبيق التحويل إلى خط الأنابيب الخاص بك.
أضف مجموعة البيانات التي تريد تنظيفها، وقم بتوصيل مجموعة البيانات بمنفذ الإدخال الأيمن.
قم بتوسيع المجموعة تحويلات في الجزء الأيمن من المصمم. حدد موقع التحويل المحفوظ واسحبه إلى خط الأنابيب.
الاتصال التحويل المحفوظ إلى منفذ الإدخال الأيسر لتطبيق التحويل.
عند تطبيق تحويل محفوظ، لا يمكنك تحديد الأعمدة التي يتم تطبيق التحويل عليها. وذلك لأن التحويل قد تم تعريفه بالفعل وينطبق تلقائيا على الأعمدة المحددة في العملية الأصلية.
ومع ذلك، افترض أنك قمت بإنشاء تحويل على مجموعة فرعية من الأعمدة الرقمية. يمكنك تطبيق هذا التحويل على مجموعة بيانات من أنواع الأعمدة المختلطة دون رفع خطأ، لأنه يتم تغيير القيم المفقودة فقط في الأعمدة الرقمية المطابقة.
إرسال المسار.
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.