تلخيص البيانات
توضح هذه المقالة أحد مكونات Azure التعلم الآلي المصمم.
استخدم مكون تلخيص البيانات لإنشاء مجموعة من المقاييس الإحصائية القياسية التي تصف كل عمود في جدول الإدخال.
تعد الإحصاءات الموجزة مفيدة عندما تريد فهم خصائص مجموعة البيانات الكاملة. على سبيل المثال، قد تحتاج إلى معرفة:
- كم عدد القيم المفقودة الموجودة في كل عمود؟
- كم عدد القيم الفريدة الموجودة في عمود الميزات؟
- ما هو المتوسط الحسابي والانحراف المعياري لكل عمود؟
يقوم المكون بحساب الدرجات المهمة لكل عمود، وإرجاع صف من الإحصاءات الموجزة لكل متغير (عمود بيانات) يتم توفيره كمدخلات.
كيفية تكوين تلخيص البيانات
أضف مكون " تلخيص البيانات" إلى خط الأنابيب. يمكنك العثور على هذا المكون في فئة الدالات الإحصائية في المصمم.
الاتصال مجموعة البيانات التي تريد إنشاء تقرير لها.
إذا كنت تريد الإبلاغ عن بعض الأعمدة فقط، فاستخدم مكون تحديد أعمدة في مجموعة البيانات لعرض مجموعة فرعية من الأعمدة للعمل معها.
لا توجد معلمات إضافية مطلوبة. بشكل افتراضي، يقوم المكون بتحليل كافة الأعمدة التي يتم توفيرها كمدخلات، واستنادا إلى نوع القيم في الأعمدة، يقوم بإخراج مجموعة ذات صلة من الإحصاءات كما هو موضح في قسم النتائج .
إرسال المسار.
النتائج
ويمكن أن يتضمن التقرير الصادر عن المكون الإحصاءات التالية.
| اسم العمود | الوصف |
|---|---|
| الميزة | اسم العمود |
| العدد | عدد جميع الصفوف |
| عدد القيم الفريد | عدد القيم الفريدة في العمود |
| عدد القيم المفقودة | عدد القيم الفريدة في العمود |
| الحد الأدنى | أدنى قيمة في العمود |
| الحد الأقصى | أعلى قيمة في العمود |
| المتوسط | المتوسط الحسابي لجميع قيم الأعمدة |
| متوسط الانحراف | متوسط انحراف قيم الأعمدة |
| الربع 1 | القيمة في الربع الأول |
| متوسط | قيمة العمود الوسيط |
| الربع 3 | القيمة في الربع الثالث |
| الوضع | وضع قيم الأعمدة |
| النطاق | عدد صحيح يمثل عدد القيم بين القيم القصوى والدنيا |
| تباين العينة | التباين للعمود; انظر الملاحظة |
| نموذج الانحراف المعياري | الانحراف المعياري للعمود ؛ انظر الملاحظة |
| عينة من الانحراف | انحراف للعمود. انظر الملاحظة |
| عينة كورتوسيس | Kurtosis للعمود. انظر الملاحظة |
| P0.5 | 0.5٪ النسبة المئوية |
| P1 | 1٪ نسبة مئوية |
| P5 | 5٪ نسبة مئوية |
| ص95 | 95٪ نسبة مئوية |
| ص99.5 | 99.5٪ النسبة المئوية |
ملاحظات فنية
بالنسبة للأعمدة غير الرقمية، يتم حساب قيم العد وعدد القيم الفريدة وعدد القيم المفقودة فقط. بالنسبة للإحصاءات الأخرى، يتم إرجاع قيمة فارغة.
تتم معالجة الأعمدة التي تحتوي على قيم منطقية باستخدام هذه القواعد:
عند حساب الحد الأدنى ، يتم تطبيق AND منطقي.
عند حساب الحد الأقصى ، يتم تطبيق OR منطقي
عند حساب النطاق، يتحقق المكون أولا مما إذا كان عدد القيم الفريدة في العمود يساوي 2.
عند حساب أي إحصائية تتطلب حسابات النقطة العائمة، يتم التعامل مع قيم True على أنها 1.0، ويتم التعامل مع قيم False على أنها 0.0.
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.