Komponen Regresi Pohon Keputusan Yang Ditingkatkan

Artikel
06/01/2023

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat ansambel pohon regresi menggunakan peningkatan. Meningkatkan berarti bahwa setiap pohon bergantung pada pohon sebelumnya. Algoritma belajar dengan memasang sisa pohon yang mendahuluinya. Dengan demikian, peningkatan dalam ansambel pohon keputusan cenderung meningkatkan akurasi dengan beberapa risiko cakupan kecil yang lebih sedikit.

Komponen ini didasarkan pada algoritma LightGBM.

Klasifikasi menggunakan regresi logistik adalah metode pembelajaran yang diawasi, dan karenanya memerlukan himpunan data berlabel. Kolom label harus berisi nilai numerik.

Catatan

Gunakan komponen ini hanya dengan himpunan data yang menggunakan variabel numerik.

Setelah Anda mendefinisikan model, latih dengan menggunakan Model Pelatihan.

Lebih lanjut tentang pohon regresi yang ditingkatkan

Boosting adalah salah satu dari beberapa metode klasik untuk membuat model ansambel, bersama dengan bagging, hutan acak, dan sebagainya. Di Azure Machine Learning, pohon keputusan yang ditingkatkan menggunakan implementasi yang efisien dari algoritma peningkatan gradien MART. Peningkatan gradien adalah teknik pembelajaran mesin untuk masalah regresi. Peningkatan itu membangun setiap pohon regresi dengan cara langkah-bijaksana, menggunakan fungsi kerugian yang telah ditentukan untuk mengukur kesalahan di setiap langkah dan memperbaikinya di langkah berikutnya. Dengan demikian model prediksi sebenarnya adalah ansambel model prediksi yang lebih lemah.

Dalam masalah regresi, boosting membangun serangkaian pohon secara bertahap, dan kemudian memilih pohon optimal menggunakan fungsi kerugian terdiferensiasi yang berubah-ubah.

Untuk informasi selengkapnya, lihat artikel berikut ini:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Artikel Wikipedia tentang peningkatan gradien ini menyediakan beberapa latar belakang pohon yang ditingkatkan.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: Dari RankNet ke LambdaRank ke LambdaMART: Ringkasan. Oleh J.C. Burges.

Metode peningkatan gradien juga dapat digunakan untuk masalah klasifikasi dengan menguranginya ke regresi dengan fungsi kehilangan yang sesuai. Untuk informasi selengkapnya tentang implementasi pohon yang ditingkatkan untuk tugas klasifikasi, lihat Pohon Keputusan Dua Kelas yang Ditingkatkan.

Cara mengonfigurasi Regresi Pohon Keputusan Yang Ditingkatkan

Tambahkan komponen Pohon Keputusan Yang Ditingkatkan ke alur Anda. Anda dapat menemukan komponen ini di bawah Pembelajaran Mesin,Inisialisasi, di bawah kategori Regresi.
Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.
- Parameter Tunggal: Gunakan opsi ini jika Anda tahu bagaimana Anda ingin mengonfigurasi model, dan memberikan set nilai tertentu sebagai argumen.
- Rentang Parameter: Pilih opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menjalankan sapuan parameter. Pilih rentang nilai yang akan diulang, dan Tune Model Hyperparameters mengulangi semua kemungkinan kombinasi pengaturan yang Anda berikan untuk menentukan hyperparameter yang menghasilkan hasil optimal.
Jumlah maksimum daun per pohon: Menunjukkan jumlah maksimum simpul terminal (daun) yang dapat dibuat di pohon mana pun.

Dengan meningkatkan nilai ini, Anda berpotensi meningkatkan ukuran pohon dan mencapai presisi yang lebih tinggi, dengan risiko overfitting dan waktu pelatihan yang lebih lama.
Jumlah minimum sampel per simpul daun: Menandakan jumlah minimum kasus yang diperlukan untuk membuat setiap simpul (daun) terminal di pohon.

Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru. Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya 5 kasus yang memenuhi kondisi yang sama.
Laju pembelajaran: Ketikkan angka antara 0 dan 1 yang menentukan ukuran langkah saat belajar. Tingkat pembelajaran menentukan seberapa cepat atau lambat pelajar menemukan solusi yang optimal. Jika ukuran langkah terlalu besar, Anda mungkin melampaui solusi optimal. Jika ukuran langkah terlalu kecil, pelatihan membutuhkan waktu lebih lama untuk bertemu dengan solusi terbaik.
Jumlah pohon yang dibangun: menunjukkan jumlah total pohon keputusan untuk dibuat di ansambel. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan akan meningkat.

Jika Anda menetapkan nilai ke 1; namun, hanya satu pohon yang dihasilkan (pohon dengan set parameter awal), dan tidak ada perulangan lebih lanjut yang dilakukan.
Seed angka acak: secara opsional menetapkan bilangan bulat non-negatif untuk digunakan sebagai nilai seed acak. Menentukan seed memastikan reproduksi di seluruh eksekusi yang memiliki data dan parameter yang sama.

Nilai awal acak diatur secara default ke 0, yang berarti nilai awal diperoleh dari jam sistem.
Melatih model:
- Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang ditandai dan komponen Model Pelatihan.
- Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.
Catatan

Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

Jika Anda memilih opsi Rentang Parameter dan memasukkan nilai tunggal untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.
Kirimkan alur.

Hasil

Setelah pelatihan selesai:

Untuk menggunakan model untuk penilaian, sambungkan Model Latihan ke Model Skor, untuk memprediksi nilai untuk contoh input baru.
Untuk menyimpan rekam jepret model terlatih, pilih tab Output di panel kanan model Terlatih dan klik Daftarkan ikon himpunan data. Salinan model yang dilatih akan disimpan sebagai komponen di pohon komponen dan tidak akan diperbarui pada eksekusi alur yang berurutan.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.

Komponen Regresi Pohon Keputusan Yang Ditingkatkan

Lebih lanjut tentang pohon regresi yang ditingkatkan

Cara mengonfigurasi Regresi Pohon Keputusan Yang Ditingkatkan

Hasil

Langkah berikutnya

Sumber Daya Tambahan: