Meringkas Data

Artikel ini menjelaskan komponen perancang Azure Machine Learning.

Gunakan komponen Ringkasan Data untuk membuat serangkaian pengukuran statistik standar yang menjelaskan setiap kolom dalam tabel input.

Statistik ringkasan berguna saat Anda ingin memahami karakteristik himpunan data yang lengkap. Misalnya, mungkin Anda perlu tahu:

  • Berapa banyak nilai yang hilang di setiap kolom?
  • Berapa banyak nilai yang unik di kolom fitur?
  • Berapa rata-rata dan simpangan baku untuk setiap kolom?

Komponen menghitung skor penting untuk setiap kolom, dan menampilkan baris statistik ringkasan untuk setiap variabel (kolom data) yang diberikan sebagai input.

Cara mengonfigurasi Ringkasan Data

  1. Tambahkan komponen Ringkasan Data ke alur Anda. Anda dapat menemukan komponen ini dalam kategori Fungsi Statistik di perancang.

  2. Sambungkan himpunan data yang ingin Anda buat laporannya.

    Jika Anda ingin melaporkan hanya beberapa kolom, gunakan komponen Pilih Kolom di Himpunan Data untuk memproyeksikan subset kolom yang akan dikerjakan.

  3. Tidak ada parameter tambahan yang dibutuhkan. Secara default, komponen menganalisis semua kolom yang disediakan sebagai input, dan bergantung pada jenis nilai dalam kolom, menghasilkan kumpulan statistik yang relevan seperti yang dijelaskan di bagian Hasil.

  4. Kirimkan alur.

Hasil

Laporan dari komponen dapat mencakup statistik berikut.

Nama kolom Deskripsi
Fitur Nama kolom
Jumlah Jumlah semua baris
Jumlah Nilai Unik Jumlah nilai unik dalam kolom
Jumlah Nilai yang Hilang Jumlah nilai unik dalam kolom
Min Nilai terendah di kolom
Maks Nilai tertinggi di kolom
Rata-rata Rata-rata nilai semua kolom
Rata-rata Penyimpangan Simpangan rata-rata nilai kolom
Kuartil Pertama Nilai pada kuartil pertama
Median Nilai median kolom
Kuartil ke-3 Nilai pada kuartil ketiga
Mode Mode pada nilai kolom
Rentang Bilangan bulat yang menunjukkan jumlah nilai antara nilai maksimum dan minimum
Varian Sampel Varian untuk kolom; lihat Catatan
Simpangan Baku Sampel Simpangan baku untuk kolom; lihat Catatan
Kemiringan Sampel Kemiringan untuk kolom; lihat Catatan
Kurtosis Sampel Kurtosis untuk kolom; lihat Catatan
P0.5 0,5% persentil
P1 1% persentil
P5 5% persentil
P95 95% persentil
P99,5 99.5% persentil

Catatan teknis

  • Untuk kolom non-numerik, hanya nilai untuk Jumlah, Jumlah nilai unik, dan Jumlah nilai yang hilang yang akan dikomputasi. Untuk statistik lainnya, nilai null akan dikembalikan.

  • Kolom yang berisi nilai Boolean diproses menggunakan aturan ini:

    • Saat menghitung Min, logika AND diterapkan.

    • Saat menghitung Min, logika OR diterapkan

    • Saat menghitung Rentang, komponen pertama-tama memeriksa apakah jumlah nilai unik dalam kolom sama dengan 2.

    • Saat menghitung statistik apa pun yang memerlukan perhitungan titik float, nilai True dihitung sebagai 1,0, dan nilai False dihitung sebagai 0,0.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.