Pilihan Fitur Berbasis Filter

Artikel ini menjelaskan cara menggunakan komponen Pilihan Fitur Berbasis Filter di perancang Azure Machine Learning. Komponen ini membantu Anda untuk mengidentifikasi kolom dalam himpunan data input yang memiliki daya prediktif paling andal.

Secara umum, pilihan fitur mengacu pada proses penerapan tes statistik ke input berdasarkan output yang telah ditentukan. Tujuannya adalah untuk menentukan kolom mana yang bersifat prediktif dari output yang dihasilkan. Komponen Pilihan Fitur Berbasis Filter menyediakan beberapa algoritma pilihan fitur untuk dipilih. Komponen mencakup metode korelasi seperti korelasi Pearson dan nilai chi kuadrat.

Saat Anda menggunakan komponen Pilihan Fitur Berbasis Filter, Anda menyediakan sebuah himpunan data dan mengidentifikasi kolom yang berisi label atau variabel dependen. Anda kemudian menentukan satu metode untuk digunakan dalam mengukur tingkat kepentingan fitur.

Komponen menghasilkan satu himpunan data yang berisi kolom fitur terbaik, sesuai yang diurutkan berdasarkan daya prediktif. Modul tersebut juga menghasilkan nama fitur dan skor fiturnya dari metrik yang telah dipilih.

Yang dimaksud pilihan fitur berbasis filter

Komponen untuk pilihan fitur ini disebut "berbasis filter" karena Anda menggunakan metrik yang telah dipilih untuk menemukan atribut yang tidak relevan. Anda kemudian memfilter kolom yang berlebih dari model Anda. Anda memilih satu pengukuran statistik yang sesuai dengan data Anda dan komponen akan menghitung skor untuk setiap kolom fitur. Kolom akan ditampilkan dan diurutkan berdasarkan skor fitur kolom tersebut.

Dengan memilih fitur yang tepat, Anda berpotensi untuk meningkatkan akurasi dan efisiensi klasifikasi.

Anda biasanya hanya menggunakan kolom dengan skor terbaik untuk membangun model prediktif Anda. Kolom dengan skor pilihan fitur yang buruk dapat ditinggalkan di himpunan data dan diabaikan saat Anda membangun sebuah model.

Cara memilih metrik pilihan fitur

Komponen Pilihan Fitur Berbasis Filter menyediakan berbagai metrik untuk menilai nilai informasi di tiap kolom. Bagian ini menyediakan deskripsi umum setiap metriknya, dan cara penerapannya. Anda dapat menemukan persyaratan tambahan untuk menggunakan setiap metrik di catatan teknis dan di instruksi untuk mengonfigurasi tiap komponen.

  • Korelasi Pearson

    Statistik korelasi Pearson atau koefisien korelasi Pearson juga dikenal sebagai nilai r dalam model statistik. Untuk dua variabel apa pun, korelasi tersebut menampilkan nilai yang menunjukkan kekuatan korelasinya.

    Koefisien korelasi Pearson dikomputasi dengan mengambil kovarian dua variabel dan membaginya berdasarkan produk dari simpangan baku kedua variabel tersebut. Perubahan skala dalam dua variabel tidak mempengaruhi koefisien.

  • Chi kuadrat

    Uji chi kuadrat dua arah adalah metode statistik yang mengukur seberapa dekatnya nilai yang diharapkan dengan hasil yang sebenarnya. Metode ini mengasumsikan bahwa variabel bersifat acak dan diambil dari sampel variabel independen yang memadai. Statistik chi kuadrat yang dihasilkan menunjukkan seberapa jauh hasilnya dari hasil yang diharapkan (acak).

Tip

Jika Anda memerlukan opsi yang berbeda untuk metode pilihan fitur kustom, gunakan komponen Jalankan Skrip R.

Cara mengonfigurasi Pilihan Fitur Berbasis Filter

Anda memilih metrik statistik standar. Komponen melakukan komputasi korelasi antara sepasang kolom: kolom label dan kolom fitur.

  1. Tambahkan Komponen Pilihan Berbasis Filter ke alur Anda. Anda dapat menemukannya di kategori Pilihan Fitur di perancang.

  2. Sambungkan sebuah himpunan data input yang berisi setidaknya dua kolom yang merupakan fitur potensial.

    Untuk memastikan bahwa sebuah kolom dianalisis dan skor fitur dihasilkan, gunakan komponen Edit Metadata untuk mengatur atribut IsFeature yang ada.

    Penting

    Pastikan bahwa kolom yang Anda berikan sebagai input adalah fitur potensial. Misalnya, sebuah kolom yang berisi satu nilai tidak memiliki nilai informasi.

    Jika Anda tahu bahwa beberapa kolom akan memiliki fitur yang buruk, Anda bisa menghapusnya dari pilihan kolom. Anda juga bisa menggunakan komponen Edit Metadata untuk menandainya sebagai Kategoris.

  3. Untuk Metode penilaian fitur, pilih salah satu dari metode statistik yang telah ditetapkan berikut untuk digunakan dalam menghitung skor.

    Metode Persyaratan
    Korelasi Pearson Label bisa berupa teks atau numerik. Fitur harus berupa numerik.
    Chi kuadrat Label dan fitur dapat berupa teks atau numerik. Gunakan metode ini untuk melakukan komputasi tingkat kepentingan untuk dua kolom kategoris.

    Tip

    Jika Anda mengubah metrik yang dipilih, semua pilihan lainnya akan diatur ulang. Jadi pastikan untuk mengatur opsi ini terlebih dahulu.

  4. Pilih opsi Operasikan hanya pada kolom fitur untuk menghasilkan sebuah skor hanya untuk kolom yang sebelumnya telah ditandai sebagai fitur.

    Jika Anda menghapus opsi ini, komponen akan membuat skor untuk kolom apa pun yang memenuhi kriteria hingga jumlah kolom yang telah ditentukan dalam Jumlah fitur yang diinginkan.

  5. Untuk Kolom target, pilih Luncurkan pemilih kolom untuk memilih kolom label baik berdasarkan nama atau berdasarkan indeksnya. (Sifat indeks adalah berbasis satu.)
    Sebuah kolom label diperlukan untuk semua metode yang melibatkan korelasi statistik. Komponen menghasilkan kesalahan waktu desain jika Anda memilih kolom tanpa label atau beberapa kolom label.

  6. Untuk Jumlah fitur yang diinginkan, masukkan jumlah kolom fitur yang ingin Anda tampilkan sebagai hasilnya:

    • Jumlah minimum fitur yang dapat Anda tentukan adalah satu, tetapi kami sarankan agar Anda meningkatkan nilai tersebut.

    • Jika jumlah fitur yang diinginkan yang ditentukan lebih besar dari jumlah kolom dalam himpunan data, maka semua fitur akan ditampilkan. Bahkan fitur dengan skor nol akan ditampilkan.

    • Jika Anda menentukan bahwa kolom hasil lebih sedikit daripada kolom fitur, fiturnya diurutkan berdasarkan skor menurun. Hanya fitur teratas saja yang ditampilkan.

  7. Kirim alurnya.

Penting

Jika Anda menyimpulkan bahwa Anda akan menggunakan Pilihan Fitur Berbasis Filter dalam inferensi, Anda perlu menggunakan Pilih Transformasi Kolom untuk menyimpan hasil dengan fitur yang dipilih dan Terapkan Transformasi untuk menerapkan transformasi dengan fitur yang dipilih ke himpunan data penilaian.

Lihat cuplikan layar berikut untuk membangun alur Anda, untuk memastikan bahwa pilihan kolom telah sama untuk proses penilaian.

Alur sampel

Hasil

Setelah pemrosesan berhasil:

  • Untuk melihat daftar lengkap kolom fitur yang telah dianalisis beserta skornya, klik kanan komponen dan pilih Visualisasikan.

  • Untuk melihat himpunan data berdasarkan kriteria pilihan fitur Anda, klik kanan komponen dan pilih Visualisasikan.

Jika himpunan data berisi kolom yang lebih sedikit dari yang Anda harapkan, periksa pengaturan komponen. Periksa juga jenis data kolom yang disediakan sebagai input. Misalnya, jika Anda mengatur Jumlah fitur yang diinginkan ke 1, output himpunan datanya hanya berisi dua kolom: kolom label, dan kolom fitur dengan urutan paling tinggi.

Catatan teknis

Detail implementasi

Jika Anda menggunakan korelasi Pearson pada fitur numerik dan label kategoris, skor fitur dihitung sebagai berikut:

  1. Untuk setiap tingkat di kolom kategoris, lakukan komputasi rata-rata kondisional kolom numerik.

  2. Korelasikan kolom rata-rata kondisional dengan kolom numerik.

Persyaratan

  • Skor pilihan fitur tidak dapat dihasilkan untuk kolom apa pun yang ditetapkan sebagai kolom Label atau Skor.

  • Jika Anda mencoba menggunakan metode penilaian dengan sebuah kolom jenis data yang tidak didukung oleh metode tersebut, komponen akan memunculkan kesalahan. Selain itu, skor nol akan ditetapkan ke kolom.

  • Jika sebuah kolom berisi nilai logika (benar/salah), kolom tersebut akan diproses sebagai True = 1 dan False = 0.

  • Sebuah kolom tidak bisa menjadi fitur jika telah ditetapkan sebagai Label atau Skor.

Cara penanganan nilai yang hilang

  • Anda tidak dapat menentukan kolom apa pun yang memiliki semua nilai yang hilang sebagai sebuah kolom target (label).

  • Jika sebuah kolom berisi nilai yang hilang, komponen akan mengabaikannya saat menghitung skor untuk kolom tersebut.

  • Jika sebuah kolom yang ditetapkan sebagai kolom fitur memiliki semua nilai yang hilang, komponen akan menetapkan skor nol.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.