Komponen Hutan Keputusan Multikelas

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat model pembelajaran mesin berdasarkan algoritma hutan keputusan. Hutan keputusan adalah model ensambel yang membangun serangkaian pohon keputusan dengan cepat, selagi belajar dari data yang ditandai.

Lebih lanjut tentang hutan keputusan

Algoritma hutan keputusan adalah metode pembelajaran ensamble untuk klasifikasi. Algoritma ini bekerja dengan cara membangun beberapa pohon keputusan, kemudian memungut suara pada kelas output paling populer. Pemungutan suara merupakan bentuk agregasi, di mana setiap pohon dalam hutan keputusan klasifikasi menghasilkan output histogram frekuensi label yang tidak dinormalisasi. Proses agregasi menjumlahkan histogram ini dan menormalkan hasilnya untuk mendapatkan "probabilitas" untuk setiap label. Pohon yang memiliki keyakinan prediksi yang tinggi memiliki bobot yang lebih besar pada keputusan akhir ensambel.

Pohon keputusan secara umum merupakan model non-parametrik. Artinya, pohon keputusan mendukung data dengan distribusi yang bervariasi. Di setiap pohon, serangkaian pengujian sederhana dijalankan untuk setiap kelas, meningkatkan tingkat struktur pohon hingga node daun (keputusan) telah dicapai.

Pohon keputusan memiliki berbagai keuntungan:

  • Pohon keputusan dapat mewakili batas keputusan non-linier.
  • Pohon keputusan efisien dalam komputasi dan penggunaan memori selama pelatihan dan prediksi.
  • Pohon keputusan melakukan pemilihan dan klasifikasi fitur terintegrasi.
  • Pohon keputusan tangguh di hadapan fitur yang ramai.

Pengklasifikasi hutan keputusan dalam Azure Machine Learning terdiri dari ensambel pohon keputusan. Secara umum,.model ensambel memberikan cakupan dan akurasi yang lebih baik dibandingkan dengan pohon keputusan tunggal. Untuk informasi lebih lanjut, lihat Pohon keputusan.

Cara mengonfigurasi Hutan Keputusan Multikelas

  1. Tambahkan komponen Hutan Keputusan Multikelas ke alur Anda di perancang. Anda dapat menemukan komponen ini di bawah Pembelajaran Mesin, Model Inisialisasi, dan Klasifikasi.

  2. Klik dua kali komponen untuk membuka panel Properti.

  3. Untuk Metode pengambilan ulang sampel, pilih metode yang digunakan untuk membuat pohon individu. Anda dapat memilih dari bagging atau replikasi.

    • Bagging: Bagging juga disebut agregasi bootstrap. Dalam metode ini, setiap pohon ditumbuhkan pada sampel baru, dibuat dengan mengambil sampel secara acak himpunan data asli dengan pengganti hingga Anda memiliki himpunan data seukuran aslinya. Output model digabungkan dengan pemungutan suara, yang merupakan bentuk agregasi. Untuk informasi selengkapnya, lihat entri Wikipedia untuk agregasi Bootstrap.

    • Replikasi: Dalam replikasi, setiap pohon dilatih pada data input yang sama persis. Penentuan predikat pemisah mana yang digunakan untuk setiap node pohon tetap acak, membuat pohon yang beragam.

  4. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Parameter Tunggal: Pilih opsi ini jika Anda tahu bagaimana Anda akan mengonfigurasi model tersebut, dan menyediakan set nilai sebagai argumen.

    • Rentang Parameter: Pilih opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menjalankan sapuan parameter. Pilih rentang nilai yang akan diulang, dan Tune Model Hyperparameters mengulangi semua kemungkinan kombinasi pengaturan yang Anda berikan untuk menentukan hyperparameter yang menghasilkan hasil optimal.

  5. Jumlah pohon keputusan: Ketikkan jumlah maksimum pohon keputusan yang dapat dibuat dalam ensambel. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan dapat meningkat.

    Jika Anda menetapkan nilai ke 1; namun, ini artinya hanya satu pohon yang dapat dihasilkan (pohon dengan set parameter awal), dan tidak ada perulangan lebih lanjut yang dilakukan.

  6. Kedalaman maksimum pohon keputusan: Ketikkan angkat untuk membatasi kedalaman maksimum semua pohon keputusan. Meningkatkan kedalaman pohon dapat meningkatkan presisi, dengan risiko overfitting dan peningkatan waktu pelatihan.

  7. Jumlah pemisah acak per node: Ketikkan jumlah pemisah yang digunakan ketika membangun setiap node pohon. Pemisah artinya fitur di setiap tingkat pohon (node) dibagi secara acak.

  8. Jumlah minimum sampel per node daun: Menandakan jumlah minimum kasus yang diperlukan untuk membuat setiap node (daun) terminal di pohon. Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru.

    Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya lima kasus yang memenuhi kondisi yang sama.

  9. Sambungkan himpunan data berlabel, dan latih model:

    • Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang diberi tag dan komponen Latih Model.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.

    Catatan

    Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

    Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan nilai tunggal untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  10. Kirimkan alur.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.