Komponen Hapus Baris Duplikat

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk menghapus potensi duplikat dari himpunan data.

Misalnya, asumsikan bahwa data Anda terlihat seperti tabel berikut ini, dan data tersebut adalah beberapa catatan pasien.

PatientID Inisial Jenis Kelamin Usia Diterima pada
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Contoh ini dengan jelas memiliki beberapa kolom dengan data yang berpotensi duplikat atau kembar. Apakah datanya benar-benar duplikat atau tidak tergantung pada pengetahuan Anda tentang data tersebut.

  • Misalnya, Anda mungkin mengetahui bahwa banyak pasien memiliki nama yang sama. Anda tidak akan menghilangkan duplikat menggunakan kolom nama apa pun, hanya kolom ID yang ada. Dengan begitu, hanya baris dengan nilai ID duplikat yang difilter, terlepas dari apakah pasien memiliki nama yang sama atau tidak.

  • Atau, Anda mungkin memutuskan untuk mengizinkan duplikat di bidang ID, dan menggunakan beberapa kombinasi file lainnya untuk menemukan rekaman unik, seperti nama depan, nama belakang, usia, dan jenis kelamin.

Untuk mengatur kriteria apakah sebuah baris merupakan duplikat atau tidak, tentukan satu kolom atau sekumpulan kolom untuk digunakan sebagai kunci. Dua baris dianggap sebagai duplikat hanya saat nilai di semua kolom kunci sama. Jika ada baris yang kehilangan nilai untuk kunci, baris tersebut tidak akan dianggap sebagai baris duplikat. Misalnya, jika Jenis Kelamin dan Usia ditetapkan sebagai Kunci pada tabel di atas, baris 6 dan 7 bukanlah baris duplikat karena baris tersebut telah kehilangan nilai dalam Usia.

Saat Anda menjalankan komponen, komponen membuat himpunan data kandidat, dan menampilkan sekumpulan baris yang tidak memiliki duplikat di seluruh kumpulan kolom yang Anda tentukan.

Penting

Himpunan data sumber tidak diubah; komponen ini membuat himpunan data baru yang difilter untuk mengecualikan duplikat, berdasarkan kriteria yang Anda tentukan.

Cara menggunakan Hapus Baris Duplikat

  1. Tambahkan komponen ke alur Anda. Anda dapat menemukan komponen Hapus Baris Duplikat di bawah Transformasi Data, Manipulasi.

  2. Sambungkan himpunan data yang ingin Anda periksa baris duplikatnya.

  3. Di panel Properti di bagian Ekspresi filter pilihan kolom kunci, klik Luncurkan pemilih kolom, untuk memilih kolom yang akan digunakan dalam mengidentifikasi duplikat.

    Dalam konteks ini, Kunci bukan pengidentifikasi unik. Semua kolom yang Anda pilih menggunakan Pemilih Kolom ditetapkan sebagai kolom kunci. Semua kolom yang tidak dipilih dianggap sebagai kolom non-kunci. Kombinasi kolom yang Anda pilih sebagai kunci menentukan keunikan rekamannya. (Anggap saja sebagai pernyataan SQL yang menggunakan gabungan beberapa kesetaraan.)

    Contoh:

    • "Saya ingin memastikan bahwa ID bersifat unik": Pilih hanya kolom ID.
    • "Saya ingin memastikan bahwa kombinasi nama depan, nama belakang, dan ID bersifat unik": Pilih ketiga kolom.
  4. Gunakan kotak centang Pertahankan baris duplikat pertama untuk menunjukkan baris mana yang akan ditampilkan saat duplikat ditemukan:

    • Jika dipilih, baris pertama ditampilkan dan baris lainnya dibuang.
    • Jika Anda menghapus centang opsi ini, baris duplikat terakhir akan disimpan dalam hasil, dan yang lainnya akan dibuang.
  5. Kirim alurnya.

  6. Untuk meninjau hasilnya, klik kanan komponen, dan pilih Visualisasikan.

Tip

Jika hasilnya sulit dipahami, atau jika ingin mengecualikan beberapa kolom dari pertimbangan, Anda dapat menghapus kolom dengan menggunakan komponen Pilih Kolom di Himpunan Data.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.