Tune Model Hyperparameters

Artikel ini menjelaskan cara menggunakan komponen Tune Model Hyperparameters di perancang Azure Machine Learning. Tujuannya adalah untuk menentukan hiper-parameter optimal untuk model pembelajaran mesin. Komponen membangun dan menguji beberapa model dengan menggunakan kombinasi pengaturan yang berbeda. Ini membandingkan metrik di semua model untuk mendapatkan kombinasi pengaturan.

Istilah parameter dan hiper-parameter dapat membingungkan. Parameter model adalah apa yang Anda tetapkan di panel kanan komponen. Pada dasarnya, komponen ini melakukan pembersihan parameter pada pengaturan parameter yang ditentukan. Ini mempelajari serangkaian hiper-parameter yang optimal, yang mungkin berbeda untuk setiap pohon keputusan, himpunan data, atau metode regresi tertentu. Proses menemukan konfigurasi optimal kadang-kadang disebut penyesuaian.

Komponen mendukung metode berikut untuk menemukan pengaturan optimal untuk sebuah model: pelatihan dan pengaturan terintegrasi. Dalam metode ini, Anda mengonfigurasi serangkaian parameter yang akan digunakan. Anda kemudian membiarkan komponen mengulangi beberapa kombinasi. Komponen mengukur akurasi hingga menemukan model "terbaik". Dengan sebagian besar komponen pelajar, Anda dapat memilih parameter mana yang harus diubah selama proses pelatihan, dan mana yang harus tetap tanpa perubahan.

Tergantung pada berapa lama Anda ingin proses penyetelan berjalan, Anda mungkin memutuskan untuk menguji semua kombinasi secara lengkap. Atau Anda dapat mempersingkat proses dengan membuat kisi kombinasi parameter dan menguji subset acak dari kisi parameter.

Metode ini menghasilkan model terlatih yang dapat Anda simpan untuk digunakan kembali.

Tip

Anda bisa melakukan tugas terkait. Sebelum Anda memulai penyesuaian, terapkan pilihan fitur untuk menentukan kolom atau variabel yang memiliki nilai informasi tertinggi.

Cara mengonfigurasi Tune Model Hyperparameters

Mempelajari hiper-parameter optimal untuk model pembelajaran mesin membutuhkan penggunaan alur yang cukup besar.

Melatih model dengan menggunakan pembersihan parameter

Bagian ini menjelaskan cara melakukan sapuan parameter dasar, yang melatih model dengan menggunakan komponen Tune Model Hyperparameters.

  1. Tambahkan komponen Tune Model Hyperparameters ke alur Anda di perancang.

  2. Sambungkan model yang tidak terlatih ke input paling kiri.

    Catatan

    Tune Model Hyperparameters hanya dapat dihubungkan ke komponen algoritma pembelajaran mesin bawaan, dan tidak dapat mendukung model yang disesuaikan yang dibangun di Create Python Model.

  3. Tambahkan himpunan data yang ingin Anda gunakan untuk pelatihan, dan sambungkan ke input tengah Tune Model Hyperparameters.

    Secara opsional, jika Anda memiliki himpunan data yang ditandai tag, Anda dapat menyambungkannya ke port input paling kanan (Himpunan data validasi opsional) . Hal ini memungkinkan Anda mengukur akurasi saat berlatih dan menyetel.

  4. Di panel kanan Tune Model Hyperparameters, pilih nilai untuk mode pembersihan Parameter. Opsi ini mengontrol bagaimana parameter dipilih.

    • Seluruh kisi: Saat Anda memilih opsi ini, komponen akan berputar di atas kisi yang telah ditentukan sebelumnya oleh sistem, untuk mencoba berbagai kombinasi dan mengidentifikasi pelajar terbaik. Opsi ini berguna ketika Anda tidak mengetahui pengaturan parameter terbaik dan ingin mencoba semua kombinasi nilai yang memungkinkan.

    • Pembersihan acak: Saat Anda memilih opsi ini, komponen akan secara acak memilih nilai parameter pada rentang yang ditentukan sistem. Anda harus menentukan jumlah maksimum eksekusi yang Anda inginkan untuk dijalankan oleh komponen. Opsi ini berguna ketika Anda ingin meningkatkan kinerja model dengan menggunakan metrik pilihan Anda namun masih menghemat sumber daya komputasi.

  5. Untuk Kolom label, buka pemilih kolom untuk memilih kolom label tunggal.

  6. Pilih jumlah eksekusi:

    • Jumlah maksimum berjalan pada pembersihan acak: Jika Anda memilih pembersihan acak, Anda dapat menentukan berapa kali model harus dilatih, dengan menggunakan kombinasi acak nilai parameter.
  7. Untuk Peringkat, pilih satu metrik yang akan digunakan untuk memberi peringkat pada model.

    Saat Anda menjalankan pembersihan parameter, komponen menghitung semua metrik yang berlaku untuk jenis model dan menampilkannya dalam laporan Hasil pembersihan. Komponen menggunakan metrik terpisah untuk model regresi dan klasifikasi.

    Namun, metrik yang Anda pilih menentukan peringkat model. Hanya model teratas, sebagaimana diberi peringkat oleh metrik yang dipilih, adalah output sebagai model terlatih untuk digunakan dalam penilaian.

  8. Untuk Seed acak, masukkan bilangan bulat sebagai status generator angka acak pseudo yang digunakan untuk memilih nilai parameter secara acak di atas cakupan yang telah ditentukan. Parameter ini hanya efektif jika Mode penyapuan parameter adalah Penyapuan acak.

  9. Kirim alur.

Hasil penyesuaian hiper-parameter

Saat pelatihan selesai:

  • Untuk melihat hasil pembersihan, Anda dapat mengeklik kanan komponen, lalu memilih Visualisasikan, atau klik kanan kiri port output komponen untuk divisualisasikan.

    Hasil Pembersihan mencakup semua pembersihan parameter dan akurasi metrik yang berlaku untuk jenis model, dan metrik yang Anda pilih untuk peringkat menentukan model mana yang dianggap "terbaik."

  • Untuk menyimpan snapshot model terlatih, pilih tab Outputs+logs di panel kanan komponen Latih model. Pilih ikon Daftarkan himpunan data untuk menyimpan model sebagai komponen yang dapat digunakan kembali.

Catatan teknis

Bagian ini berisi detail dan tips implementasi.

Cara kerja pembersihan parameter

Saat Anda mengatur pembersihan parameter, Anda menentukan cakupan pencarian Anda. Pencarian mungkin menggunakan sejumlah parameter terbatas yang dipilih secara acak. Atau mungkin pencarian lengkap di atas ruang parameter yang Anda tentukan.

  • Pembersihan acak: Opsi ini melatih model dengan menggunakan sejumlah perulangan yang ditetapkan.

    Anda menentukan rentang nilai untuk diulang, dan komponen menggunakan subset yang dipilih secara acak dari nilai ini. Nilai dipilih dengan pengganti, yang berarti bahwa angka yang sebelumnya dipilih secara acak tidak dihapus dari kumpulan angka yang tersedia. Jadi kemungkinan nilai apa pun yang dipilih tetap sama di semua lintasan.

  • Seluruh kisi: Opsi untuk menggunakan seluruh kisi berarti bahwa setiap kombinasi diuji. Opsi ini adalah yang paling menyeluruh, tetapi membutuhkan waktu paling banyak.

Mengontrol panjang dan kompleksitas pelatihan

Melakukan iterasi pada banyak kombinasi pengaturan dapat memakan waktu, sehingga komponen menyediakan beberapa cara untuk membatasi proses:

  • Batasi jumlah pengulangan yang digunakan untuk menguji model.
  • Batasi ruang parameter.
  • Batasi jumlah pengulangan dan ruang parameter.

Kami menyarankan agar Anda menggunakan alur dengan pengaturan untuk menentukan metode pelatihan yang paling efisien pada himpunan data dan model tertentu.

Memilih metrik evaluasi

Pada akhir pengujian, model menyajikan laporan yang berisi akurasi untuk setiap model sehingga Anda dapat meninjau hasil metrik:

  • Sekumpulan metrik yang seragam digunakan untuk semua model klasifikasi biner.
  • Akurasi digunakan untuk semua model klasifikasi multi-kelas.
  • Seperangkat metrik yang berbeda digunakan untuk model regresi.

Namun, selama pelatihan, Anda harus memilih satu metrik untuk digunakan dalam peringkat model yang dihasilkan selama proses penyetelan. Anda mungkin menemukan bahwa metrik terbaik bervariasi, tergantung pada masalah bisnis Anda dan biaya positif palsu dan negatif palsu.

Metrik yang digunakan untuk klasifikasi biner

  • Akurasi adalah proporsi hasil yang benar untuk total kasus.

  • Presisi adalah proporsi hasil yang benar untuk total kasus.

  • Pengenalan adalah sebagian kecil dari semua hasil yang benar atas semua hasil.

  • F-score adalah ukuran yang menyeimbangkan presisi dan pemanggilan kembali.

  • AUC adalah nilai yang mewakili area di bawah kurva ketika positif palsu diplot pada sumbu x dan positif sejati diplot pada sumbu y.

  • Rata-rata Log Loss adalah perbedaan antara dua distribusi probabilitas: yang benar, dan yang ada di model.

Metrik yang digunakan untuk regresi

  • Kesalahan mutlak rerata merata-ratakan semua kesalahan dalam model, di mana kesalahan berarti jarak nilai yang diprediksi dari nilai sebenarnya. Hal ini sering disingkat MAE.

  • Akar kesalahan kuadrat rerata mengukur rata-rata kuadrat kesalahan, dan kemudian mengambil akar nilai itu. Hal ini sering disingkat RMSE.

  • Kesalahan absolut relatif menunjukkan kesalahan sebagai persentase dari nilai sebenarnya.

  • Kesalahan kuadrat relatif menormalkan total kesalahan kuadrat dengan membaginya dengan kesalahan kuadrat total dari nilai yang diprediksi.

  • Koefisien penentuan adalah angka tunggal yang menunjukkan seberapa baik data cocok dengan model. Nilai satu berarti bahwa model sama persis dengan data. Nilai nol berarti data acak atau tidak bisa cocok dengan model. Hal ini sering disebut r2 , R2 , atau r-kuadrat.

Komponen yang tidak mendukung pembersihan parameter

Hampir semua pelajar di Azure Machine Learning mendukung validasi silang dengan pembersihan parameter terintegrasi, yang memungkinkan Anda memilih parameter untuk diproses alur. Jika pelajar tidak mendukung pengaturan rentang nilai, Anda masih bisa menggunakannya dalam validasi silang. Dalam hal ini, rentang nilai yang diperbolehkan dipilih untuk pembersihan.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.