Komponen Regresi Logistik Dua Kelas

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat model regresi logistik yang dapat digunakan untuk memprediksi dua (dan hanya dua) hasil.

Regresi logistik dikenal sebagai teknik statistik yang digunakan untuk memodelkan beberapa jenis masalah. Algoritma ini adalah metode pembelajaran terawasi; oleh karena itu, Anda harus menyediakan himpunan data yang sudah berisi hasil untuk melatih model.

Tentang regresi logistik

Regresi logistik dikenal sebagai metode dalam statistik yang digunakan untuk memprediksi peluang hasil, dan khususnya populer untuk tugas klasifikasi. Algoritma tersebut memprediksikan peluang keakuratan dari suatu peristiwa dengan mengepaskan data ke fungsi logistik.

Dalam komponen ini, algoritma klasifikasi dioptimalkan untuk variabel dikotomis atau biner. Jika Anda perlu mengklasifikasikan beberapa hasil, gunakan komponen Regresi Logistik Multikelas.

Cara mengonfigurasi

Untuk melatih model ini, Anda harus menyediakan himpunan data yang berisi kolom label atau kelas. Karena komponen ini ditujukan untuk masalah dua kelas, label atau kolom kelas harus berisi dua nilai.

Misalnya, kolom label mungkin [Dipilih] dengan kemungkinan nilai "Ya" atau "Tidak". Atau, mungkin berupa [Risiko Kredit], dengan kemungkinan nilai "Tinggi" atau "Rendah".

  1. Tambahkan komponen Regresi Logistik Dua Kelas ke alur Anda.

  2. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Satu Parameter: Jika mengetahui bagaimana Anda ingin mengonfigurasikan model, Anda dapat menyediakan kumpulan nilai tertentu sebagai argumen.

    • Rentang Parameter: Jika Anda tidak yakin dengan parameter terbaik, Anda dapat menemukan parameter optimal dengan menggunakan komponen Tune Model Hyperparameters. Anda dapat memberikan rentang nilai, dan pelatih akan mengiterasikan melalui beberapa kombinasi pengaturan untuk menentukan kombinasi nilai yang menghasilkan hasil terbaik.

  3. Untuk Toleransi pengoptimalan, tentukan nilai ambang agar dapat digunakan saat mengoptimalkan model tersebut. Jika peningkatan antara iterasi di bawah ambang yang ditentukan, algoritma dianggap telah konvergen terhadap solusi, dan pelatihan akan diakhiri.

  4. Untuk Bobot regularisasi L1 dan Bobot regularisasi L2, ketikkan nilai yang akan digunakan untuk parameter regularisasi L1 dan L2. Nilai bukan nol direkomendasikan untuk keduanya.
    Regularisasi adalah metode untuk mencegah overfitting dengan menghukum model dengan nilai koefisien yang ekstrem. Regularisasi bekerja dengan menambahkan penalti yang terkait dengan nilai koefisien ke kesalahan hipotesis. Dengan begitu, model yang akurat dengan nilai koefisien ekstrem akan dikenai hukuman lebih, tetapi model yang kurang akurat dengan nilai lebih konservatif akan dikenai hukuman lebih sedikit.

    Regularisasi L1 dan L2 memiliki dampak dan penggunaan yang berbeda.

    • L1 dapat diterapkan pada model yang jarang, yang berguna saat bekerja dengan data dimensi tinggi.

    • Sebaliknya, regularisasi L2 lebih dipilih untuk data yang tidak jarang.

    Algoritma ini mendukung kombinasi linier dari nilai regularisasi L1 dan L2: yaitu, jika x = L1 dan y = L2, maka ax + by = c menentukan rentang linier dari persyaratan regularisasi.

    Catatan

    Ingin mempelajari lebih lanjut tentang regularisasi L1 dan L2? Artikel berikut memberikan diskusi tentang perbedaan regularisasi L1 dan L2 dan pengaruhnya terhadap pemasangan model, dengan contoh kode untuk regresi logistik dan model jaringan neural: Regularisasi L1 dan L2 untuk Pembelajaran Mesin

    Kombinasi linier yang berbeda dari istilah L1 dan L2 telah dirancang untuk model regresi logistik: misalnya, regularisasi net elastis. Kami menyarankan agar Anda mereferensikan kombinasi ini untuk menentukan kombinasi linier yang efektif dalam model Anda.

  5. Untuk Ukuran memori untuk L-BFGS, tentukan jumlah memori yang akan digunakan untuk pengoptimalan L-BFGS.

    L-BFGS singkatan dari “limited memory Broyden-Fletcher-Goldfarb-Shanno”. Ini merupakan algoritma pengoptimalan yang populer untuk estimasi parameter. Parameter ini menunjukkan jumlah posisi dan gradien lama yang akan disimpan untuk perhitungan langkah berikutnya.

    Parameter pengoptimalan ini membatasi jumlah memori yang digunakan untuk mengkomputasi langkah dan arah berikutnya. Saat Anda menentukan lebih sedikit memori, pelatihan berjalan lebih cepat tetapi kurang akurat.

  6. Untuk Seed angka acak, ketikkan nilai bilangan bulat. Pentingnya menentukan nilai seed jika Anda ingin hasilnya dibuat ulang melalui beberapa alur yang dijalankan secara bersamaan.

  7. Tambahkan himpunan data untuk alur, dan latih model tersebut:

    • Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang ditandai dan komponen Model Pelatihan.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.

    Catatan

    Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

    Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa saja, nilai tunggal yang Anda tentukan akan digunakan di seluruh pembersihan, bahkan jika parameter lain berubah di berbagai nilai.

  8. Kirim alur.

Hasil

Setelah pelatihan selesai:

  • Untuk membuat prediksi pada data baru, gunakan model terlatih dan data baru sebagai input ke komponen Model Skor.

Langkah berikutnya

Lihat kumpulan komponen yang tersedia untuk Azure Machine Learning.