Komponen Pohon keputusan Dua Kelas yang Ditingkatkan

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat model pembelajaran mesin yang didasarkan pada algoritma pohon keputusan yang ditingkatkan.

Pohon keputusan yang ditingkatkan adalah metode pembelajaran ansambel di mana pohon kedua mengoreksi kesalahan pohon pertama, pohon ketiga mengoreksi kesalahan pohon pertama dan kedua, dan sebagainya. Prediksi didasarkan pada seluruh ansambel pohon bersama-sama yang membuat prediksi.

Umumnya, ketika dikonfigurasi dengan benar, pohon keputusan yang didorong adalah metode termudah untuk mendapatkan kinerja terbaik pada berbagai tugas pembelajaran mesin. Namun, mereka juga merupakan salah satu pembelajar yang lebih intensif memori, dan implementasi saat ini menyimpan segalanya dalam memori. Oleh karena itu, model pohon keputusan yang ditingkatkan mungkin tidak dapat memproses kumpulan data besar yang dapat ditangani oleh beberapa pelajar linier.

Komponen ini didasarkan pada algoritma LightGBM.

Cara mengonfigurasi

Komponen ini membuat model klasifikasi yang tidak terlatih. Karena klasifikasi adalah metode pembelajaran yang diawasi, Anda memerlukan himpunan data berlabel yang menyertakan kolom label dengan nilai untuk semua baris.

Anda dapat melatih jenis model ini dengan menggunakan Model Latihan.

  1. Di Azure Machine Learning, tambahkan komponen Pohon Keputusan yang Ditingkatkan ke alur Anda.

  2. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Satu Parameter: Jika mengetahui bagaimana Anda ingin mengonfigurasikan model, Anda dapat menyediakan kumpulan nilai tertentu sebagai argumen.

    • Rentang Parameter: Jika tidak yakin dengan parameter terbaik, Anda dapat menemukan parameter optimal dengan menggunakan komponen Tune Model Hyperparameters. Anda dapat memberikan rentang nilai, dan pelatih akan mengiterasikan melalui beberapa kombinasi pengaturan untuk menentukan kombinasi nilai yang menghasilkan hasil terbaik.

  3. Jumlah maksimum daun per pohon membatasi jumlah maksimum simpul terminal (daun) yang dapat dibuat di pohon apa pun.

    Dengan meningkatkan nilai ini, Anda berpotensi meningkatkan ukuran pohon dan mencapai presisi yang lebih tinggi, dengan risiko overfitting dan waktu pelatihan yang lebih lama.

  4. Untuk Jumlah minimum sampel per simpul daun menunjukkan jumlah kasus yang diperlukan untuk membuat simpul terminal (daun) di pohon.

    Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru. Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya lima kasus yang memenuhi kondisi yang sama.

  5. Untuk Laju pembelajaran, masukkan angka antara 0 dan 1 yang menentukan ukuran langkah pembelajaran.

    Tingkat pembelajaran menentukan seberapa cepat atau lambat pelajar menemukan solusi yang optimal. Jika ukuran langkah terlalu besar, Anda mungkin melampaui solusi optimal. Jika ukuran langkah terlalu kecil, pelatihan membutuhkan waktu lebih lama untuk bertemu dengan solusi terbaik.

  6. Untuk Jumlah pohon yang dibangun, menunjukkan jumlah total pohon keputusan untuk dibuat di ansambel. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan akan meningkat.

    Jika Anda menetapkan nilai ke 1, hanya satu pohon yang dihasilkan (pohon dengan set parameter awal) dan tidak ada perulangan lebih lanjut yang dilakukan.

  7. Untuk Seed angka acak, secara opsional menetapkan bilangan bulat non-negatif untuk digunakan sebagai nilai seed acak. Menentukan seed memastikan reproduksi di seluruh eksekusi yang memiliki data dan parameter yang sama.

    Jika tidak, nilai awal acak diatur secara default ke 0, yang berarti nilai awal diperoleh dari jam sistem. Eksekusi berturut-turut menggunakan seed acak yang berbeda dapat memiliki hasil yang berbeda.

  8. Melatih model:

    • Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang ditandai dan komponen Model Pelatihan.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.

    Catatan

    Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

    Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan nilai tunggal untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

Hasil

Setelah pelatihan selesai:

  • Untuk menyimpan cuplikan dari model terlatih, pilih tab Output di panel kanan komponen Model pelatihan. Pilih ikon Daftarkan himpunan data untuk menyimpan model sebagai komponen yang dapat digunakan kembali.

  • Untuk menggunakan model penilaian, tambahkan komponen Model Penilaian ke alur.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.