تجميع البيانات في مكون الصناديق
توضح هذه المقالة كيفية استخدام مكون تجميع البيانات في سلة المهملات في Azure التعلم الآلي مصمم أو تجميع الأرقام أو تغيير توزيع البيانات المستمرة.
يدعم مكون تجميع البيانات في صناديق خيارات متعددة لربط البيانات. يمكنك تخصيص كيفية تعيين حواف الحاوية وكيفية تقسيم القيم إلى المهملات. على سبيل المثال، يمكنك:
- اكتب يدويا سلسلة من القيم لتكون بمثابة حدود سلة المهملات.
- قم بتعيين قيم إلى الصناديق باستخدام الكميات أو الرتب المئوية.
- فرض توزيع متساو للقيم في الصناديق.
المزيد حول التجليد والتجميع
يعد ربط البيانات أو تجميعها (تسمى أحيانا التكميم) أداة مهمة في إعداد البيانات الرقمية للتعلم الآلي. إنه مفيد في سيناريوهات مثل هذه:
يحتوي عمود الأرقام المستمرة على العديد من القيم الفريدة التي لا يمكن نمذجتها بفعالية. لذلك تقوم تلقائيا أو يدويا بتعيين القيم إلى مجموعات، لإنشاء مجموعة أصغر من النطاقات المنفصلة.
تريد استبدال عمود من الأرقام بقيم فئوية تمثل نطاقات محددة.
على سبيل المثال، قد ترغب في تجميع القيم في عمود عمري عن طريق تحديد نطاقات مخصصة، مثل 1-15 و16-22 و23-30 وما إلى ذلك لديموغرافيات المستخدمين.
تحتوي مجموعة البيانات على عدد قليل من القيم المتطرفة ، وكلها خارج النطاق المتوقع ، وهذه القيم لها تأثير كبير على النموذج المدرب. للتخفيف من التحيز في النموذج، يمكنك تحويل البيانات إلى توزيع موحد باستخدام طريقة الكميات.
باستخدام هذه الطريقة، يحدد مكون تجميع البيانات في حاويات مواقع الحاويات المثالية وعروض الحاويات لضمان سقوط نفس العدد تقريبا من العينات في كل صندوق. بعد ذلك، اعتمادا على طريقة التطبيع التي تختارها، يتم تحويل القيم الموجودة في المهملات إما إلى نسب مئوية أو تعيينها إلى رقم سلة.
أمثلة على التجليد
يوضح الرسم البياني التالي توزيع القيم الرقمية قبل وبعد الربط باستخدام طريقة الكميات . لاحظ أنه بالمقارنة مع البيانات الخام الموجودة على اليسار، تم ربط البيانات وتحويلها إلى مقياس عادي للوحدة.

نظرا لوجود العديد من الطرق لتجميع البيانات، وكلها قابلة للتخصيص، نوصيك بتجربة طرق وقيم مختلفة.
كيفية تكوين بيانات المجموعة في صناديق
أضف مكون تجميع البيانات في صناديق إلى خط الأنابيب الخاص بك في المصمم. يمكنك العثور على هذا المكون في الفئة تحويل البيانات.
الاتصال مجموعة البيانات التي تحتوي على بيانات رقمية لربطها. يمكن تطبيق التكميم فقط على الأعمدة التي تحتوي على بيانات رقمية.
إذا كانت مجموعة البيانات تحتوي على أعمدة غير رقمية، فاستخدم مكون تحديد أعمدة في مجموعة البيانات لتحديد مجموعة فرعية من الأعمدة للعمل معها.
حدد وضع الربط. يحدد وضع التثبيت معلمات أخرى، لذا تأكد من تحديد خيار وضع الربط أولا. يتم دعم الأنواع التالية من الربط:
Quantiles: تقوم الطريقة الكمية بتعيين قيم للصناديق بناء على الرتب المئوية. تعرف هذه الطريقة أيضا باسم ربط متساوي الارتفاع.
عرض متساو: باستخدام هذا الخيار، يجب تحديد إجمالي عدد المهملات. يتم وضع القيم من عمود البيانات في المهملات بحيث يكون لكل سلة المهملات نفس الفاصل الزمني بين قيم البداية والنهاية. ونتيجة لذلك، قد تحتوي بعض الصناديق على المزيد من القيم إذا تم تجميع البيانات حول نقطة معينة.
الحواف المخصصة: يمكنك تحديد القيم التي تبدأ كل سلسلة. قيمة الحافة هي دائما الحد الأدنى للسلسلة.
على سبيل المثال، افترض أنك تريد تجميع القيم في سلالتين. سيكون لدى المرء قيم أكبر من 0 ، وسيكون لدى المرء قيم أقل من أو تساوي 0. في هذه الحالة، بالنسبة لحواف المهملات، يمكنك إدخال 0 في قائمة حواف الحاوية المفصولة بفواصل. سيكون إخراج المكون 1 و 2 ، مما يشير إلى فهرس سلة المهملات لكل قيمة صف. لاحظ أن قائمة القيم المفصولة بفواصل يجب أن تكون بترتيب تصاعدي، مثل 1 و3 و5 و7.
ملاحظة
يتم تعريف وضع Entropy MDL في Studio (كلاسيكي) ولا توجد حزمة مصدر مفتوح مقابلة يمكن الاستفادة منها لدعمها في Designer حتى الآن.
إذا كنت تستخدم وضعي ربط QuantilesوEqual Width ، فاستخدم خيار عدد المهملات لتحديد عدد المهملات أو الكميات التي تريد إنشاؤها.
لكي يتم ربط الأعمدة، استخدم محدد الأعمدة لاختيار الأعمدة التي تحتوي على القيم التي تريد ربطها. يجب أن تكون الأعمدة نوع بيانات رقمية.
يتم تطبيق قاعدة الربط نفسها على كافة الأعمدة القابلة للتطبيق التي تختارها. إذا كنت بحاجة إلى تجميع بعض الأعمدة باستخدام طريقة مختلفة، فاستخدم مثيلا منفصلا من مكون تجميع البيانات في المهملات لكل مجموعة من الأعمدة.
تحذير
إذا اخترت عمودا غير مسموح به، إنشاء خطأ وقت تشغيل. يقوم المكون بإرجاع خطأ بمجرد العثور على أي عمود من نوع غير مسموح به. إذا تلقيت خطأ، فراجع جميع الأعمدة المحددة. لا يسرد الخطأ كافة الأعمدة غير الصالحة.
بالنسبة لوضع الإخراج، حدد الطريقة التي تريد بها إخراج القيم الكمية:
إلحاق: ينشئ عمودا جديدا يحتوي على القيم المثبتة، ويلحق ذلك بجدول الإدخال.
Inplace: يستبدل القيم الأصلية بالقيم الجديدة في مجموعة البيانات.
ResultOnly: إرجاع أعمدة النتائج فقط.
إذا قمت بتحديد وضع ربط Quantiles ، فاستخدم خيار التطبيع الكمي لتحديد كيفية تطبيع القيم قبل الفرز إلى كميات. لاحظ أن تطبيع القيم يحول القيم ولكنه لا يؤثر على العدد النهائي للسلال.
يتم دعم أنواع التطبيع التالية:
النسبة المئوية: يتم تطبيع القيم ضمن النطاق [0,100].
PQuantile: يتم تطبيع القيم ضمن النطاق [0,1].
QuantileIndex: يتم تطبيع القيم ضمن النطاق [1، عدد المهملات].
إذا اخترت خيار الحواف المخصصة ، فأدخل قائمة أرقام مفصولة بفواصل لاستخدامها كحواف حاوية في مربع النص قائمة حواف الحاوية المفصولة بفواصل .
تحدد القيم النقطة التي تقسم الصناديق. على سبيل المثال، إذا قمت بإدخال قيمة حافة حاوية واحدة، إنشاء صندوقين. إذا قمت بإدخال قيمتين لحافة سلة المهملات، إنشاء ثلاث سلال.
يجب فرز القيم بالترتيب الذي يتم به إنشاء المهملات، من الأدنى إلى الأعلى.
حدد أعمدة العلامة كخيار فئوي للإشارة إلى أنه يجب التعامل مع الأعمدة الكمية كمتغيرات فئوية.
إرسال المسار.
النتائج
يقوم مكون تجميع البيانات في المهملات بإرجاع مجموعة بيانات تم فيها ربط كل عنصر وفقا للوضع المحدد.
كما أنه يعيد تحولا ملزما. يمكن تمرير هذه الوظيفة إلى مكون تطبيق التحويل لتجميع عينات جديدة من البيانات باستخدام نفس وضع الربط والمعلمات.
تلميح
إذا كنت تستخدم الربط على بيانات التدريب الخاصة بك، فيجب عليك استخدام نفس طريقة الربط على البيانات التي تستخدمها للاختبار والتنبؤ. يجب عليك أيضا استخدام نفس مواقع الحاويات وعروض المهملات.
لضمان تحويل البيانات دائما باستخدام طريقة الربط نفسها، نوصي بحفظ تحويلات البيانات المفيدة. ثم قم بتطبيقها على مجموعات البيانات الأخرى باستخدام مكون تطبيق التحويل .
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.