Komponen Regresi Hutan Keputusan

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat model regresi berdasarkan ansambel pohon keputusan.

Setelah mengonfigurasi model, Anda harus melatih model menggunakan himpunan data berlabel dan komponen Latih Model. Model terlatih kemudian dapat digunakan untuk membuat prediksi.

Cara kerjanya

Pohon keputusan adalah model non-parametrik yang melakukan serangkaian tes sederhana untuk setiap contoh, melintasi struktur data pohon biner sampai simpul daun (keputusan) tercapai.

Pohon keputusan memiliki keuntungan ini:

  • Pohon keputusan efisien dalam komputasi dan penggunaan memori selama pelatihan dan prediksi.

  • Pohon keputusan dapat mewakili batas keputusan non-linier.

  • Pohon keputusan melakukan pemilihan dan klasifikasi fitur terintegrasi dan tangguh di hadapan fitur yang tidak jelas.

Model regresi ini terdiri dari ansambel pohon keputusan. Setiap pohon dalam hutan keputusan regresi menghasilkan distribusi Gaussia sebagai prediksi. Agregasi dilakukan di atas ansambel pohon untuk menemukan distribusi Gaussian yang paling dekat dengan distribusi gabungan untuk semua pohon dalam model.

Untuk informasi selengkapnya tentang kerangka kerja teoritis untuk algoritma ini dan implementasinya, lihat artikel ini: Decision Forests: Kerangka Kerja Terpadu untuk Klasifikasi, Regresi, Estimasi Kepadatan, Pembelajaran Manifold, dan pembelajaran Semi-Supervised

Cara mengonfigurasi Model Decision Forest Regression

  1. Tambahkan komponen Regresi Hutan Keputusan ke alur. Anda dapat menemukan komponen dalam perancang di bawah Pembelajaran Mesin, Model Inisialisasi, dan Regresi.

  2. Buka properti komponen, dan untuk Metode pengambilan sampel ulang, pilih metode yang digunakan untuk membuat pohon individual. Anda dapat memilih dari Bagging atau Replikasi.

    • Bagging: Bagging juga disebut agregasi bootstrap. Setiap pohon dalam hutan keputusan regresi menghasilkan distribusi Gaussia dengan cara prediksi. Agregasinya adalah menemukan seorang Gaussian yang dua momen pertamanya cocok dengan momen campuran distribusi Gaussian yang diberikan dengan menggabungkan semua distribusi yang dikembalikan oleh pohon individu.

      Untuk informasi selengkapnya, lihat entri Wikipedia untuk Agregasi bootstrap.

    • Replikasi: Dalam replikasi, setiap pohon dilatih pada data input yang sama persis. Penentuan predikat split mana yang digunakan untuk setiap simpul pohon tetap acak dan pohonnya akan beragam.

      Untuk informasi selengkapnya tentang proses pelatihan dengan opsi Replicate, lihat Decision Forests for Computer Vision dan Medical Image Analysis. Criminisi dan J. Shotton. Springer 2013..

  3. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Parameter Tunggal

      Jika Anda tahu bagaimana Anda ingin mengonfigurasi model, Anda dapat memberikan serangkaian nilai tertentu sebagai argumen. Anda mungkin telah mempelajari nilai-nilai ini melalui eksperimen atau menerimanya sebagai panduan.

    • Rentang Parameter: Pilih opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menjalankan sapuan parameter. Pilih rentang nilai yang akan diulang, dan Tune Model Hyperparameters mengulangi semua kemungkinan kombinasi pengaturan yang Anda berikan untuk menentukan hyperparameter yang menghasilkan hasil optimal.

  4. Untuk Jumlah pohon keputusan, tunjukkan jumlah total pohon keputusan yang akan dibuat dalam ansambel. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan akan meningkat.

    Tip

    Jika Anda menetapkan nilai ke 1; namun, ini berarti bahwa hanya satu pohon yang akan dihasilkan (pohon dengan set parameter awal) dan tidak ada perulangan lebih lanjut yang akan dilakukan.

  5. Untuk Kedalaman maksimum pohon keputusan, ketikkan angka untuk membatasi kedalaman maksimum pohon keputusan apa pun. Meningkatkan kedalaman pohon dapat meningkatkan presisi, dengan risiko overfitting dan peningkatan waktu pelatihan.

  6. Untuk Jumlah pemisahan acak per simpul, ketikkan jumlah pemisahan yang akan digunakan saat membangun setiap simpul pohon. Pemisah artinya fitur di setiap tingkat pohon (node) dibagi secara acak.

  7. Untuk Jumlah minimum sampel per simpul daun, tunjukkan jumlah minimum kasus yang diperlukan untuk membuat simpul terminal (daun) apa pun di pohon.

    Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru. Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya lima kasus yang memenuhi kondisi yang sama.

  8. Melatih model:

    • Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang ditandai dan komponen Model Pelatihan.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.

    Catatan

    Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

    Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan nilai tunggal untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  9. Kirimkan alur.

Hasil

Setelah pelatihan selesai:

  • Untuk menyimpan snapshot model terlatih, pilih komponen pelatihan, lalu alihkan ke tab Output di panel sebelah kanan. Klik ikon Model daftar. Anda dapat menemukan model yang disimpan sebagai komponen di pohon komponen.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.