Komponen Hutan Keputusan Dua Kelas

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat model pembelajaran mesin berdasarkan algoritma hutan keputusan.

Decision forests adalah model ensemble yang cepat dan diawasi. Komponen ini adalah pilihan yang tepat jika Anda ingin memprediksi target dengan maksimal dua hasil.

Memahami decision forest

Algoritma decision forest ini adalah metode pembelajaran ensemble yang ditujukan untuk tugas klasifikasi. Metode ensemble didasarkan pada prinsip umum bahwa daripada mengandalkan model tunggal, Anda bisa mendapatkan hasil yang lebih baik dan model yang lebih umum dengan membuat beberapa model terkait dan menggabungkannya dalam beberapa cara. Umumnya, model ensemble memberikan cakupan dan akurasi yang lebih baik daripada pohon keputusan tunggal.

Ada banyak cara untuk membuat model individu dan menggabungkannya dalam satu ensemble. Implementasi khusus decision forest ini bekerja dengan membangun beberapa pohon keputusan dan kemudian memberikan pemungutan suara pada kelas output paling populer. Pemungutan suara adalah salah satu metode yang lebih dikenal untuk menghasilkan hasil dalam model ensemble.

  • Banyak pohon klasifikasi individu dibuat, menggunakan seluruh himpunan data, tetapi titik awal yang berbeda (biasanya diacak). Hal ini berbeda dari pendekatan hutan acak, di mana pohon keputusan individu mungkin hanya menggunakan beberapa bagian data atau fitur yang diacak.
  • Setiap pohon dalam pohon hutan keputusan mengeluarkan histogram frekuensi label yang tidak dinormalisasi.
  • Proses agregasi menjumlahkan histogram ini dan menormalkan hasilnya untuk mendapatkan "probabilitas" untuk setiap label.
  • Pohon-pohon yang memiliki keyakinan prediksi tinggi akan memiliki bobot yang lebih besar dalam keputusan akhir ensemble.

Pohon keputusan secara umum memiliki banyak keuntungan untuk tugas klasifikasi:

  • Mereka dapat menangkap batas keputusan non-linear.
  • Anda dapat melatih dan memprediksi banyak data, karena efisien dalam komputasi dan penggunaan memori.
  • Pemilihan fitur terintegrasi dalam proses pelatihan dan klasifikasi.
  • Pohon dapat mengakomodasi data yang bising dan banyak fitur.
  • Mereka adalah model non-parametrik, artinya mereka dapat menangani data dengan distribusi yang bervariasi.

Namun, pohon keputusan sederhana dapat memuat data secara berlebihan, dan kurang dapat digeneralisasikan daripada kumpulan pohon.

Untuk informasi selengkapnya, lihat Hutan Keputusan.

Cara mengonfigurasi

  1. Tambahkan komponen Hutan Keputusan Dua Kelas ke alur Anda di Azure Machine Learning, dan buka panel Properti dari komponen.

    Anda dapat menemukan komponen di bawah Pembelajaran Mesin. Perluas Inisialisasi, lalu Klasifikasi.

  2. Untuk Metode pengambilan sampel ulang, pilih metode yang digunakan untuk membuat pohon individu. Anda dapat memilih dari Bagging atau Replicate.

    • Bagging: Bagging juga disebut agregasi bootstrap. Dalam metode ini, setiap pohon ditumbuhkan pada sampel baru, dibuat dengan mengambil sampel secara acak himpunan data asli dengan pengganti hingga Anda memiliki himpunan data seukuran aslinya.

      Output model digabungkan dengan pemungutan suara, yang merupakan bentuk agregasi. Setiap pohon dalam hutan keputusan klasifikasi mengeluarkan histogram frekuensi label yang tidak dinormalisasi. Agregasi adalah menjumlahkan histogram ini dan menormalkan untuk mendapatkan "probabilitas" untuk setiap label. Dengan cara ini, pohon yang memiliki keyakinan prediksi tinggi akan memiliki bobot yang lebih besar dalam keputusan akhir ensemble.

      Untuk informasi selengkapnya, lihat entri Wikipedia untuk agregasi Bootstrap.

    • Replikasi: Dalam replikasi, setiap pohon dilatih pada data input yang sama persis. Penentuan predikat split mana yang digunakan untuk setiap node pohon tetap acak dan pohonnya akan beragam.

  3. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Satu Parameter: Jika mengetahui bagaimana Anda ingin mengonfigurasikan model, Anda dapat menyediakan kumpulan nilai tertentu sebagai argumen.

    • Rentang Parameter: Jika tidak yakin dengan parameter terbaik, Anda dapat menemukan parameter optimal dengan menggunakan komponen Tune Model Hyperparameters. Anda dapat memberikan rentang nilai, dan pelatih akan mengiterasikan melalui beberapa kombinasi pengaturan untuk menentukan kombinasi nilai yang menghasilkan hasil terbaik.

  4. Untuk Jumlah pohon keputusan, ketikkan jumlah maksimum pohon keputusan yang dapat dibuat di ensemble. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan akan meningkat.

    Catatan

    Jika Anda menetapkan nilai ke 1. Namun, hanya satu pohon yang dapat diproduksi (pohon dengan seperangkat parameter awal) dan tidak ada iterasi lebih lanjut yang dilakukan.

  5. Untuk Kedalaman maksimum pohon keputusan, ketikkan angka untuk membatasi kedalaman maksimum pohon keputusan apa pun. Meningkatkan kedalaman pohon dapat meningkatkan presisi, dengan risiko overfitting dan peningkatan waktu pelatihan.

  6. Untuk Jumlah minimum sampel per simpul daun, tunjukkan jumlah minimum kasus yang diperlukan untuk membuat simpul terminal (daun) apa pun di pohon.

    Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru. Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya lima kasus yang memenuhi kondisi yang sama.

  7. Pilih opsi Izinkan nilai yang tidak diketahui untuk fitur kategoris guna membuat grup untuk nilai yang tidak diketahui dalam set pelatihan atau validasi. Model mungkin kurang tepat untuk nilai yang diketahui, tetapi dapat memberikan prediksi yang lebih baik untuk nilai baru (tidak diketahui).

    Jika Anda membatalkan pilihan ini, model hanya dapat menerima nilai yang terdapat dalam data pelatihan.

  8. Lampirkan himpunan data berlabel, dan latih modelnya:

    • Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang ditandai dan komponen Model Pelatihan.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.

    Catatan

    Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

    Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan nilai tunggal untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

Hasil

Setelah pelatihan selesai:

  • Untuk menyimpan cuplikan dari model terlatih, pilih tab Output di panel kanan komponen Model pelatihan. Pilih ikon Daftarkan himpunan data untuk menyimpan model sebagai komponen yang dapat digunakan kembali.

  • Untuk menggunakan model penilaian, tambahkan komponen Model Penilaian ke alur.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.