Komponen Kelompokkan Data ke dalam Bins

Artikel ini menjelaskan cara menggunakan komponen Kelompokkan Data ke dalam Bins di perancang Azure Machine Learning, ke nomor grup atau mengubah distribusi data berkelanjutan.

Komponen Kelompokkan Data ke dalam Bins mendukung beberapa opsi untuk mengikat data. Anda dapat menyesuaikan bagaimana tepi bin diatur dan bagaimana nilai dibagikan ke dalam bin. Misalnya, Anda dapat:

  • Mengetik serangkaian nilai secara manual untuk berfungsi sebagai batas biner.
  • Menetapkan nilai ke bin dengan menggunakan kuantil atau peringkat persentil.
  • Paksa distribusi nilai yang merata ke dalam bin.

Selengkapnya tentang pengelompokan dan pengelompokan

Menggabungkan atau mengelompokkan data (terkadang disebut kuantisasi) adalah alat penting dalam menyiapkan data numerik untuk pembelajaran mesin. Hal ini berguna dalam skenario seperti ini:

  • Kolom angka berkelanjutan memiliki terlalu banyak nilai unik untuk dimodelkan secara efektif. Jadi Anda secara otomatis atau manual menetapkan nilai ke grup, untuk membuat serangkaian rentang berlainan yang lebih kecil.

  • Anda ingin mengganti kolom angka dengan nilai kategoris yang mewakili rentang tertentu.

    Misalnya, Anda mungkin ingin mengelompokkan nilai dalam kolom usia dengan menentukan rentang kustom, seperti 1-15, 16-22, 23-30, dan lain sebagainya untuk demografi pengguna.

  • Himpunan data memiliki beberapa nilai ekstrem, semuanya jauh di luar rentang yang diharapkan, dan nilai-nilai ini memiliki pengaruh yang terlalu besar pada model terlatih. Untuk mengurangi bias dalam model, Anda dapat mengubah data menjadi distribusi yang seragam dengan menggunakan metode kuantil.

    Dengan metode ini, komponen Kelompokkan Data ke dalam Bins menentukan lokasi bin dan lebar bin yang ideal untuk memastikan bahwa jumlah sampel yang kurang lebih sama termasuk dalam setiap bin. Kemudian, tergantung pada metode normalisasi yang Anda pilih, nilai di bin diubah menjadi persentil atau dipetakan ke nomor bin.

Contoh pengelompokan

Diagram berikut menunjukkan distribusi nilai numerik sebelum dan sesudah pengelompokan dengan metode kuantil. Perhatikan bahwa dibandingkan dengan data mentah di sebelah kiri, data telah di-bin dan diubah ke skala unit-normal.

Visualisasi hasil

Karena ada begitu banyak cara untuk mengelompokkan data, semua dapat dikustomisasi, kami sarankan Anda bereksperimen dengan metode dan nilai yang berbeda.

Cara mengonfigurasi Group Data ke dalam bin

  1. Tambahkan komponen Kelompokkan Data ke Dalam Bins ke alur Anda di perancang. Anda dapat menemukan komponen ini dalam kategori Transformasi Data.

  2. Sambungkan himpunan data yang memiliki data numerik ke bin. Kuantisasi hanya dapat diterapkan ke kolom yang berisi data numerik.

    Jika himpunan data berisi kolom non-numerik, gunakan komponen Pilih Kolom dalam Himpunan Data untuk memilih subset kolom yang akan dikerjakan.

  3. Tentukan mode pengelompokan. Mode pengelompokan menentukan parameter lain, jadi pastikan untuk memilih opsi Mode pengelompokan terlebih dahulu. Tipe pengelompokan berikut ini didukung:

    • Kuantil: Metode kuantil menetapkan nilai untuk bin berdasarkan peringkat persentil. Metode ini juga dikenal sebagai pengelompokan tinggi yang sama.

    • Lebar yang Sama: Dengan opsi ini, Anda harus menentukan jumlah total bin. Nilai dari kolom data ditempatkan di bin sedemikian rupa sehingga setiap bin memiliki interval yang sama antara nilai awal dan akhir. Akibatnya, beberapa bin mungkin memiliki lebih banyak nilai jika data berkumpul di sekitar titik tertentu.

    • Tepi Kustom: Anda dapat menentukan nilai yang memulai setiap bin. Nilai tepi selalu merupakan batas bawah dari bin.

      Misalnya, asumsikan Anda ingin mengelompokkan nilai ke dalam dua bin. Satu bin akan memiliki nilai lebih besar dari 0, dan satunya akan memiliki nilai kurang dari atau sama dengan 0. Dalam hal ini, untuk tepi bin, Anda memasukkan 0 dalam Daftar tepi biner yang dipisahkan koma. Output komponen akan menjadi 1 dan 2, menunjukkan indeks bin untuk setiap nilai baris. Perhatikan bahwa daftar nilai yang dipisahkan koma harus dalam urutan naik, seperti 1, 3, 5, 7.

    Catatan

    Mode MDL Entropy didefinisikan di Studio (klasik) dan belum ada paket sumber terbuka yang sesuai yang dapat dimanfaatkan untuk didukung di Designer.

  4. Jika Anda menggunakan mode pengelompokan Kuantil dan Lebar yang Sama, gunakan opsi Jumlah bin untuk menentukan berapa banyak bin, atau kuantil, yang ingin Anda buat.

  5. Untuk Kolom ke bin, gunakan pemilih kolom untuk memilih kolom yang memiliki nilai yang ingin Anda bin. Kolom harus berupa tipe data numerik.

    Aturan pengelompokan yang sama diterapkan ke semua kolom yang berlaku yang Anda pilih. Jika Anda perlu menerapkan bin pada beberapa kolom dengan menggunakan metode lain, gunakan instans terpisah dari komponen Kelompokkan Data ke dalam Bins untuk setiap rangkaian kolom.

    Peringatan

    Jika Anda memilih kolom yang bukan tipe yang diperbolehkan, kesalahan runtime akan dihasilkan. Komponen mengembalikan kesalahan segera setelah menemukan kolom dari jenis yang tidak diizinkan. Jika Anda mendapatkan kesalahan, tinjau semua kolom yang dipilih. Kesalahan tidak mencantumkan semua kolom yang tidak valid.

  6. Untuk mode Output, tunjukkan bagaimana Anda ingin menghasilkan nilai yang terkuantisasi:

    • Append: Membuat kolom baru dengan nilai yang sudah di-bin, dan menambahkannya ke tabel input.

    • Inplace: Mengganti nilai asli dengan nilai baru dalam himpunan data.

    • ResultOnly: Mengembalikan hanya kolom hasil.

  7. Jika Anda memilih mode pengelompokan Kuantil, gunakan opsi Normalisasi Kuantil untuk menentukan bagaimana nilai dinormalisasi sebelum mengurutkan menjadi kuantil. Perhatikan bahwa menormalkan nilai mengubah nilai tetapi tidak memengaruhi jumlah akhir bin.

    Tipe normalisasi berikut ini didukung:

    • Persen: Nilai dinormalisasi dalam rentang [0,100].

    • PQuantile: Nilai dinormalisasi dalam rentang [0,1].

    • QuantileIndex: Nilai dinormalisasi dalam rentang [1,jumlah bin].

  8. Jika Anda memilih opsi Tepi Kustom, masukkan daftar angka yang dipisahkan koma untuk digunakan sebagai tepi bin dalam kotak teks Daftar tepi bin yang dipisahkan koma.

    Nilai menandai titik yang membagi bin. Misalnya, jika Anda memasukkan satu nilai tepi bin, dua bin akan dihasilkan. Jika Anda memasukkan dua nilai tepi bin, tiga bin akan dihasilkan.

    Nilai harus diurutkan dalam urutan bin dibuat, dari terendah hingga tertinggi.

  9. Pilih kolom Tag sebagai opsi kategoris untuk menunjukkan bahwa kolom yang diukur harus dihandel sebagai variabel kategoris.

  10. Kirim alur.

Hasil

Komponen Kelompokkan Data ke dalam Bins mengembalikan himpunan data tempat setiap elemen telah di-bin sesuai dengan mode yang ditentukan.

Ini juga mengembalikan transformasi pengelompokan. Fungsi tersebut dapat diteruskan ke komponen Terapkan Transformasi untuk menerapkan bin pada sampel data baru dengan menggunakan mode dan parameter penerapan bin yang sama.

Tip

Jika Anda menggunakan pengelompokan pada data pelatihan, Anda harus menggunakan metode pengelompokan yang sama pada data yang Anda gunakan untuk pengujian dan prediksi. Anda juga harus menggunakan lokasi bin dan lebar bin yang sama.

Untuk memastikan bahwa data selalu ditransformasikan dengan menggunakan metode pengelompokan yang sama, kami sarankan Anda menyimpan transformasi data yang berguna. Selanjutnya terapkan ke himpunan data lain dengan menggunakan komponen Terapkan Transformasi.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.