Komponen Data Normalisasi

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk mengubah himpunan data melalui normalisasi.

Normalisasi adalah teknik yang sering diterapkan sebagai bagian dari penyiapan data untuk pembelajaran mesin. Tujuan normalisasi adalah mengubah nilai kolom numerik dalam himpunan data untuk menggunakan skala umum, tanpa mendistorsi perbedaan dalam rentang nilai atau kehilangan informasi. Normalisasi juga diperlukan untuk beberapa algoritma untuk membuat model data dengan benar.

Misalnya, asumsikan himpunan data input Anda berisi satu kolom dengan nilai mulai dari 0 hingga 1, dan kolom lain dengan nilai berkisar antara 10.000 hingga 100.000. Perbedaan besar skala pada angka dapat menyebabkan masalah ketika Anda mencoba menggabungkan nilai sebagai fitur selama pemodelan.

Normalisasi menghindari masalah ini dengan membuat nilai baru yang mempertahankan distribusi umum dan rasio dalam data sumber, sambil mempertahankan nilai dalam skala yang diterapkan di semua kolom numerik yang digunakan dalam model.

Komponen ini menawarkan beberapa opsi untuk mengubah data numerik:

  • Anda dapat mengubah semua nilai menjadi skala 0-1, atau mengubah nilai dengan mewakilinya sebagai peringkat persentil alih-alih nilai absolut.
  • Anda bisa menerapkan normalisasi ke satu kolom, atau ke beberapa kolom dalam himpunan data yang sama.
  • Jika Anda perlu mengulangi alur, atau menerapkan langkah-langkah normalisasi yang sama ke data lain, Anda bisa melewati langkah-langkah saat transformasi normalisasi, dan menerapkannya ke himpunan data lain yang memiliki skema yang sama.

Peringatan

Beberapa algoritma mengharuskan data dinormalisasi sebelum melatih model. Algoritma lain melakukan penskalaan atau normalisasi data mereka sendiri. Oleh karena itu, Saat Anda memilih algoritma pembelajaran mesin untuk digunakan dalam membangun model prediktif, pastikan untuk meninjau persyaratan data algoritma sebelum menerapkan normalisasi ke data pelatihan.

Mengonfigurasi Normalisasi Data

Anda hanya dapat menerapkan satu metode normalisasi sekaligus dengan menggunakan komponen ini. Oleh karena itu, metode normalisasi yang sama diterapkan ke semua kolom yang Anda pilih. Untuk menggunakan metode normalisasi yang berbeda, gunakan instans kedua Normalisasi Data.

  1. Tambahkan komponen Data Normalisasi ke alur Anda. Anda dapat menemukan komponen Azure Machine Learning, di bawah Transformasi Data, dalam kategori Skalakan dan Kurangi.

  2. Sambungkan himpunan data yang berisi setidaknya satu kolom dari semua angka.

  3. Gunakan Pemilih Kolom untuk memilih kolom numerik yang akan dinormalkan. Jika Anda tidak memilih kolom individual, secara default semua kolom tipe numerik dalam input akan disertakan, dan proses normalisasi yang sama diterapkan ke semua kolom yang dipilih.

    Ini dapat menyebabkan hasil yang aneh jika Anda menyertakan kolom numerik yang seharusnya tidak dinormalisasi! Selalu periksa kolom dengan hati-hati.

    Jika tidak ada kolom numerik yang terdeteksi, periksa metadata kolom untuk memverifikasi bahwa jenis data kolom adalah jenis numerik yang didukung.

    Tip

    Untuk memastikan bahwa kolom dengan jenis tertentu disediakan sebagai input, coba gunakan komponen Memilih Kolom di Himpunan Data sebelum Data Normalisasi.

  4. Gunakan 0 untuk kolom konstan saat dicentang: Pilih opsi ini bila kolom numerik mana pun berisi satu nilai yang tidak berubah. Langkah ini memastikan bahwa kolom tersebut tidak digunakan dalam operasi normalisasi.

  5. Dari daftar dropdown Metode transformasi, pilih satu fungsi matematika untuk diterapkan ke semua kolom yang dipilih.

    • Zscore: Mengonversi semua nilai menjadi z-score.

      Nilai dalam kolom diubah menggunakan rumus berikut:

      normalisasi menggunakan z-scores

      Rata-rata dan simpangan baku dihitung untuk setiap kolom secara terpisah. Simpangan baku populasi digunakan.

    • MinMax: Min-max normalizer secara linier mengubah skala setiap fitur ke interval [0,1].

      Penghitungan ulang ke interval [0,1] dilakukan dengan menggeser nilai setiap fitur sehingga nilai minimal adalah 0, dan kemudian membagi dengan nilai maksimal baru (yang merupakan perbedaan antara nilai maksimal dan minimal asli).

      Nilai dalam kolom diubah menggunakan rumus berikut:

      normalisasi menggunakan fungsi min-max

    • Logistik: Nilai dalam kolom diubah menggunakan rumus berikut:

      rumus untuk normalisasi menurut fungsi logistik

    • LogNormal: Opsi ini mengonversi semua nilai ke skala lognormal.

      Nilai dalam kolom diubah menggunakan rumus berikut:

      rumus distribusi log-normal

      Berikut μ dan σ adalah parameter distribusi, dihitung secara empiris dari data sebagai perkiraan kemungkinan maksimum, untuk setiap kolom secara terpisah.

    • TanH: Semua nilai dikonversi menjadi tangen hiperbolik.

      Nilai dalam kolom diubah menggunakan rumus berikut:

      normalisasi menggunakan fungsi tanh

  6. Kirimkan alurnya, atau klik dua kali komponen Data Normalisasi dan pilih Jalankan Dipilih.

Hasil

Komponen Data Normalisasi menghasilkan dua output:

  • Untuk melihat nilai yang diubah, klik kanan komponen, dan pilih Visualisasikan.

    Secara default, nilai diubah di tempat. Jika Anda ingin membandingkan nilai yang diubah dengan nilai asli, gunakan komponen Tambahkan Kolom untuk menggabungkan ulang himpunan data dan menampilkan kolom secara berdampingan.

  • Untuk menyimpan transformasi sehingga Anda dapat menerapkan metode normalisasi yang sama ke himpunan data lain, pilih komponen, dan pilih Daftarkan himpunan data di bawah tab Output di panel kanan.

    Kemudian Anda dapat memuat transformasi yang disimpan dari grup Transformasi panel navigasi kiri dan menerapkannya ke himpunan data dengan skema yang sama dengan menggunakan Terapkan Transformasi.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.