Komponen Bersihkan Data yang Hilang

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk menghapus, mengganti, atau menyimpulkan nilai yang hilang.

Ilmuwan data sering memeriksa data untuk nilai yang hilang dan kemudian melakukan berbagai operasi untuk memperbaiki data tersebut atau menyisipkan nilai yang baru. Tujuan dari operasi pembersihan tersebut adalah untuk mencegah masalah yang disebabkan oleh data yang hilang yang dapat muncul ketika melatih model.

Komponen ini mendukung beberapa jenis operasi untuk "membersihkan" nilai yang hilang, termasuk:

  • Mengganti nilai yang hilang dengan tempat penampung, rata-rata, atau nilai lainnya
  • Menghapus secara penuh baris dan kolom yang memiliki nilai hilang
  • Menyimpulkan nilai berdasarkan metode statistik

Menggunakan komponen ini tidak mengubah himpunan data sumber Anda. Sebagai gantinya, modul ini membuat himpunan data baru di ruang kerja yang bisa Anda gunakan di alur kerja berikutnya. Anda juga dapat menyimpan himpunan data baru yang telah dibersihkan untuk digunakan kembali.

Komponen ini juga mengeluarkan definisi transformasi yang digunakan untuk membersihkan nilai yang hilang. Anda dapat menggunakan kembali transformasi ini pada himpunan data lain yang memiliki skema yang sama, dengan menggunakan komponen Terapkan Transformasi.

Cara menggunakan Bersihkan Data yang Hilang

Komponen ini memungkinkan Anda menentukan operasi pembersihan. Anda juga dapat menyimpan operasi pembersihan sehingga Anda dapat menerapkannya ke data yang baru nantinya. Lihat bagian berikut tentang cara membuat dan menyimpan proses pembersihan:

Penting

Metode pembersihan yang Anda gunakan untuk menangani nilai yang hilang dapat berpengaruh besar pada hasil Anda. Kami menyarankan Agar Anda bereksperimen dengan metode yang berbeda. Pertimbangkan baik alasan yang sesuai untuk penggunaan metode tertentu, maupun kualitas hasilnya.

Mengganti nilai yang hilang

Setiap kali Anda menerapkan komponen Bersihkan Data yang Hilang ke himpunan data, operasi pembersihan yang sama diterapkan ke semua kolom yang Anda pilih. Oleh karena itu, jika Anda perlu membersihkan kolom yang berbeda menggunakan metode yang berbeda, gunakan instans komponen yang terpisah.

  1. Tambahkan komponen Bersihkan Data yang Hilang ke alur Anda, dan hubungkan himpunan data yang memiliki nilai yang hilang.

  2. Agar Kolom dibersihkan, pilih kolom yang berisi nilai yang hilang yang ingin Anda ubah. Anda bisa memilih beberapa kolom, tapi Anda harus menggunakan metode penggantian yang sama di semua kolom yang dipilih. Oleh karena itu, biasanya Anda perlu membersihkan kolom string dan kolom numerik secara terpisah.

    Misalnya, untuk memeriksa nilai yang hilang di semua kolom numerik:

    1. Pilih komponen Bersihkan Data yang Hilang, dan klik Edit kolom di panel bagian kanan komponen.

    2. Untuk Sertakan, pilih Jenis kolom dari daftar turun, lalu pilih Numerik.

    Metode pembersihan atau penggantian yang Anda pilih harus berlaku untuk semua kolom dalam pilihan. Jika data di kolom mana pun tidak kompatibel dengan operasi yang ditentukan, komponen akan menampilkan kesalahan dan menghentikan alur.

  3. Untuk Rasio nilai minimum yang hilang, tentukan jumlah minimum nilai yang hilang yang diperlukan agar operasi dapat dilakukan.

    Anda menggunakan opsi ini dalam kombinasi dengan Rasio nilai maksimum yang hilang untuk menentukan kondisi di mana operasi pembersihan dilakukan pada himpunan datanya. Jika ada terlalu banyak atau terlalu sedikit baris dengan nilai yang hilang, operasinya tidak dapat dilakukan.

    Angka yang Anda masukkan menunjukkan rasio nilai yang hilang untuk semua nilai dalam kolom. Secara default, properti Rasio minimum nilai yang hilang diatur ke 0. Ini berarti bahwa nilai yang hilang akan dibersihkan bahkan jika hanya ada satu nilai yang hilang.

    Peringatan

    Kondisi ini harus dipenuhi oleh masing-masing dan tiap kolom agar operasi yang ditentukan berlaku. Misalnya, anggap saja Anda telah memilih tiga kolom lalu mengatur rasio minimum nilai yang hilang menjadi .2 (20%), tetapi hanya ada satu kolom yang benar-benar memiliki nilai 20% hilang. Dalam hal ini, operasi pembersihan hanya akan berlaku untuk kolom dengan lebih dari 20% nilai yang hilang. Oleh karena itu, kolom lainnya tidak akan berubah.

    Jika Anda ragu apakah nilai yang hilang telah diubah atau tidak, pilih opsi, Buat kolom indikator nilai yang hilang. Sebuah kolom ditambahkan ke himpunan data untuk menunjukkan apakah setiap kolom memenuhi kriteria yang telah ditentukan untuk rentang minimum dan maksimumnya.

  4. Untuk Rasio nilai maksimum yang hilang, tentukan jumlah maksimum nilai yang hilang yang dapat muncul untuk operasi yang akan dilakukan.

    Misalnya, Anda mungkin ingin melakukan substitusi nilai yang hilang hanya jika ada 30% atau lebih sedikit baris berisi nilai yang hilang, tetapi biarkan nilainya apa adanya jika ada lebih dari 30% baris memiliki nilai yang hilang.

    Anda menetapkan angka tersebut sebagai rasio nilai yang hilang untuk semua nilai dalam kolomnya. Secara default, Rasio nilai maksimum yang hilang diatur ke 1. Artinya, nilai yang hilang dibersihkan meskipun 100% dari nilai yang ada di kolom menjadi hilang.

  5. Untuk Mode Pembersihan, pilih salah satu dari opsi berikut untuk mengganti atau menghapus nilai yang hilang:

    • Nilai substitusi kustom: Gunakan opsi ini untuk menentukan nilai tempat penampung (seperti 0 atau NA) yang berlaku untuk semua nilai yang hilang. Nilai yang Anda tentukan sebagai pengganti harus kompatibel dengan jenis data kolom.

    • Ganti dengan rata-rata: Menghitung rata-rata kolom dan menggunakan rata-rata tersebut sebagai nilai pengganti untuk setiap nilai yang hilang dalam kolomnya.

      Hanya berlaku untuk kolom yang memiliki jenis data Bilangan Bulat, Ganda, atau Boolean.

    • Ganti dengan median: Menghitung nilai median kolom, dan menggunakan nilai median tersebut sebagai pengganti nilai yang hilang di kolom.

      Hanya berlaku untuk kolom yang memiliki jenis data Bilangan Bulat atau Ganda.

    • Ganti dengan mode: Menghitung modus untuk kolom, dan menggunakan mode tersebut sebagai nilai pengganti untuk setiap nilai yang hilang di kolom.

      Berlaku untuk kolom yang memiliki jenis data Bilangan Bulat, Ganda, Boolean, atau Kategoris.

    • Hapus seluruh baris: Menghapus baris apa pun sepenuhnya dalam himpunan data yang memiliki satu atau beberapa nilai yang hilang. Penghapusan ini berguna jika nilai yang hilang dapat dianggap hilang secara acak.

    • Hapus seluruh kolom: Menghapus kolom apa pun sepenuhnya dalam himpunan data yang memiliki satu atau beberapa nilai yang hilang.

  6. Opsi Nilai penggantian tersedia jika Anda telah memilih opsi, Nilai substitusi kustom. Ketik sebuah nilai baru untuk digunakan sebagai nilai pengganti untuk semua nilai yang hilang dalam kolom.

    Perhatikan bahwa Anda hanya dapat menggunakan opsi ini di kolom yang memiliki Bilangan Bulat, Ganda, Boolean, atau String.

  7. Hasilkan kolom indikator nilai yang hilang: Pilih opsi ini jika Anda ingin menghasilkan beberapa indikasi apakah nilai dalam kolom sudah memenuhi kriteria untuk pembersihan nilai yang hilang. Opsi ini sangat berguna saat Anda menyiapkan operasi pembersihan baru dan ingin memastikan bahwa operasi tersebut berfungsi seperti yang telah dirancang.

  8. Kirim alurnya.

Hasil

Komponen menampilkan dua output:

  • Himpunan data yang telah dibersihkan : Sebuah himpunan data yang terdiri dari kolom yang dipilih, dengan nilai yang hilang yang ditangani sebagaimana ditentukan, bersama dengan kolom indikator, jika Anda memilih opsi tersebut.

    Kolom yang tidak dipilih untuk dibersihkan juga "diteruskan".

  • Transformasi pembersihan: Transformasi data yang digunakan untuk pembersihan, yang dapat disimpan di ruang kerja Anda dan diterapkan ke data baru nantinya.

Menerapkan operasi pembersihan yang tersimpan ke data yang baru

Jika Anda sering kali perlu untuk mengulangi operasi pembersihan, kami sarankan agar Anda menyimpan resep Anda untuk pembersihan data sebagai sebuah transformasi, untuk digunakan kembali dengan himpunan data yang sama. Menyimpan transformasi pembersihan sangat berguna jika Anda harus sering mengimpor ulang dan kemudian membersihkan data yang memiliki skema yang sama.

  1. Tambahkan komponen Terapkan Transformasi ke alur Anda.

  2. Tambahkan himpunan data yang ingin Anda bersihkan, dan sambungkan himpunan data tersebut ke port input sebelah kanan.

  3. Perluas grup Transformasi di panel kiri perancang. Temukan transformasi yang telah disimpan dan seret ke dalam alur.

  4. Sambungkan transformasi telah disimpan tersebut ke port input kiri Terapkan Transformasi.

    Saat Anda menerapkan sebuah transformasi yang disimpan, Anda tidak bisa memilih kolom tempat transformasi diterapkan. Itu karena transformasinya telah ditentukan dan berlaku secara otomatis ke kolom yang ditentukan dalam operasi asli.

    Namun, misalnya Anda membuat transformasi pada sebuah subset kolom numerik. Maka Anda bisa menerapkan transformasi ini ke himpunan data dengan jenis kolom campuran tanpa muncul kesalahan apa pun, karena nilai yang hilang hanya diubah dalam kolom numerik yang cocok.

  5. Kirim alurnya.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.