Komponen Regresi Linier

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen ini untuk membuat model regresi linier untuk digunakan dalam alur. Regresi linier mencoba untuk membangun hubungan linier antara satu atau beberapa variabel independen dan hasil numerik, atau variabel dependen.

Anda menggunakan komponen ini untuk menentukan metode regresi linier, lalu melatih model menggunakan himpunan data berlabel. Model terlatih kemudian dapat digunakan untuk membuat prediksi.

Tentang regresi linier

Regresi linier adalah metode statistik umum, yang telah diadopsi dalam pembelajaran mesin dan ditingkatkan dengan banyak metode baru untuk menyesuaikan garis dan mengukur kesalahan. Sederhananya, regresi mengacu pada prediksi target numerik. Regresi linier masih merupakan pilihan yang bagus ketika Anda menginginkan model sederhana untuk tugas prediktif dasar. Regresi linier juga cenderung bekerja dengan baik pada himpunan data yang ringan, berdimensi tinggi, dan kurang kompleksitas.

Azure Machine Learning mendukung berbagai model regresi, selain regresi linier. Namun, istilah "regresi" dapat ditafsirkan secara longgar, dan beberapa jenis regresi yang disediakan di alat lain tidak didukung.

  • Masalah regresi klasik melibatkan variabel independen tunggal dan variabel dependen. Ini disebut regresi sederhana. Komponen ini mendukung regresi sederhana.

  • Beberapa regresi linier melibatkan dua variabel independen atau lebih yang berkontribusi pada variabel dependen tunggal. Masalah di mana beberapa input digunakan untuk memprediksi satu hasil numerik juga disebut regresi linier multivariasi.

    Komponen Regresi Linier dapat menyelesaikan masalah ini, seperti halnya sebagian besar komponen regresi lainnya.

  • Regresi multi-label adalah tugas memprediksi beberapa variabel dependen dalam satu model. Misalnya, dalam regresi logistik multi-label, satu sampel dapat ditetapkan ke beberapa label yang berbeda. (Ini berbeda dari tugas memprediksi beberapa tingkat dalam variabel kelas tunggal.)

    Jenis regresi ini tidak didukung di Azure Machine Learning. Untuk memprediksi beberapa variabel, buat pelajar terpisah untuk setiap output yang ingin Anda prediksi.

Setelah bertahun-tahun, ahli statistik telah mengembangkan metode yang semakin maju untuk regresi. Ini berlaku bahkan untuk regresi linier. Komponen ini mendukung dua metode untuk mengukur kesalahan dan menyesuaikan garis regresi: metode kuadrat terkecil biasa, dan penurunan gradien.

  • Penurunan gradien adalah metode yang meminimalkan jumlah kesalahan pada setiap langkah proses pelatihan model. Ada banyak variasi pada penurunan gradien dan optimalisasinya untuk berbagai masalah pembelajaran telah dipelajari secara luas. Jika Anda memilih opsi ini untuk Metode solusi, Anda dapat mengatur berbagai parameter untuk mengontrol ukuran langkah, tingkat pembelajaran, dan sebagainya. Opsi ini juga mendukung penggunaan sapuan parameter terintegrasi.

  • Kuadrat terkecil biasa adalah salah satu teknik yang paling umum digunakan dalam regresi linier. Misalnya, kuadrat terkecil adalah metode yang digunakan dalam Analysis Toolpak untuk Microsoft Excel.

    Kuadrat terkecil biasa mengacu pada fungsi kerugian, yang menghitung kesalahan sebagai jumlah kuadrat jarak dari nilai aktual ke garis yang diprediksi, dan sesuai dengan model dengan meminimalkan kesalahan kuadrat. Metode ini mengasumsikan hubungan linier yang kuat antara input dan variabel dependen.

Mengonfigurasi Regresi Linier

Komponen ini mendukung dua metode untuk menyesuaikan model regresi, dengan opsi yang berbeda:

Membuat model regresi menggunakan kuadrat terkecil biasa

  1. Tambahkan komponen Model Regresi Linier ke alur Anda di perancang.

    Anda dapat menemukan komponen ini dalam kategori Pembelajaran Mesin. Luaskan Model Inisialisasi, luaskan Regresi, lalu seret komponen Model Regresi Linier ke alur Anda.

  2. Di panel Properti, di daftar dropdown Metode solusi, pilih Kuadrat Terkecil Biasa. Opsi ini menentukan metode komputasi yang digunakan untuk menemukan garis regresi.

  3. Dalam bobot regularisasi L2, ketikkan nilai yang akan digunakan sebagai bobot untuk regularisasi L2. Sebaiknya gunakan nilai bukan nol untuk menghindari overfitting.

    Untuk mempelajari selengkapnya bagaimana regularisasi mempengaruhi penyesuaian model, lihat artikel ini: Regularisasi L1 dan L2 untuk Pembelajaran Mesin

  4. Pilih opsi, Sertakan istilah intersepsi, jika Anda ingin menampilkan istilah untuk intersepsi.

    Batalkan pilihan opsi ini jika Anda tidak perlu meninjau rumus regresi.

  5. Untuk Angka seed acak, Anda dapat secara opsional mengetikkan nilai untuk menambahkan generator angka acak yang digunakan oleh model.

    Menggunakan nilai seed berguna jika Anda ingin mempertahankan hasil yang sama di berbagai jalur dari pipeline yang sama. Jika tidak, opsi default adalah menggunakan nilai dari jam sistem.

  6. Tambahkan komponen Latih Model ke alur Anda, dan hubungkan himpunan data berlabel.

  7. Kirimkan alur.

Hasil untuk model kuadrat terkecil biasa

Setelah pelatihan selesai:

  • Untuk membuat prediksi, hubungkan model terlatih ke komponen Model Skor, bersama dengan himpunan data nilai baru.

Membuat model regresi menggunakan turunan gradien online

  1. Tambahkan komponen Model Regresi Linier ke alur Anda di perancang.

    Anda dapat menemukan komponen ini dalam kategori Pembelajaran Mesin. Luaskan Model Inisialisasi, luaskan Regresi, dan seret komponen Model Regresi Linier ke alur Anda

  2. Di panel Properti, di daftar dropdown Metode solusi, pilih Turunan Gradien Online sebagai metode komputasi yang digunakan untuk menemukan garis regresi.

  3. Untuk mode Buat pelatih, tunjukkan apakah Anda ingin melatih model dengan set parameter yang telah ditentukan, atau jika Anda ingin mengoptimalkan model dengan menggunakan sapuan parameter.

    • Parameter Tunggal: Jika Anda tahu bagaimana Anda akan mengkonfigurasi jaringan regresi linier, berikan set nilai tertentu sebagai argumen.

    • Rentang Parameter: Pilih opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menjalankan sapuan parameter. Pilih rentang nilai untuk diiterasi, dan Tune Model Hyperparameters mengulang semua kemungkinan kombinasi pengaturan yang Anda berikan untuk menentukan hyperparameter yang memberikan hasil optimal.

  4. Untuk tingkat Pembelajaran, tentukan tingkat pembelajaran awal untuk pengoptimalan penurunan gradien stochastic.

  5. Untuk Jumlah epoch pelatihan, ketikkan nilai yang menunjukkan berapa kali algoritma harus beriterasi melalui contoh. Untuk himpunan data dengan jumlah contoh yang kecil, jumlah ini harus besar untuk mencapai konvergensi.

  6. Menormalkan fitur: Jika Anda telah menormalkan data numerik yang digunakan untuk melatih model, Anda dapat membatalkan pilihan opsi ini. Secara default, komponen menormalkan semua input numerik ke rentang antara 0 dan 1.

    Catatan

    Ingatlah untuk menerapkan metode normalisasi yang sama ke data baru yang digunakan untuk penskoran.

  7. Dalam bobot regularisasi L2, ketikkan nilai yang akan digunakan sebagai bobot untuk regularisasi L2. Sebaiknya gunakan nilai bukan nol untuk menghindari overfitting.

    Untuk mempelajari selengkapnya bagaimana regularisasi mempengaruhi penyesuaian model, lihat artikel ini: Regularisasi L1 dan L2 untuk Pembelajaran Mesin

  8. Pilih opsi, Kurangi tingkat pembelajaran, jika Anda ingin tingkat pembelajaran berkurang seiring proses perulangan.

  9. Untuk Angka seed acak, Anda dapat secara opsional mengetikkan nilai untuk menambahkan generator angka acak yang digunakan oleh model. Menggunakan nilai seed berguna jika Anda ingin mempertahankan hasil yang sama di berbagai jalur dari pipeline yang sama.

  10. Melatih model:

    • Jika Anda mengatur Buat mode pelatih ke Parameter Tunggal, hubungkan himpunan data yang ditandai dan komponen Model Pelatihan.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, sambungkan himpunan data yang ditandai dan latih model menggunakan Setel Model Hyperparameter.

    Catatan

    Jika Anda meneruskan rentang parameter ke Latih Model, rentang tersebut hanya akan menggunakan nilai default dalam satu daftar parameter.

    Jika Anda meneruskan satu set nilai parameter ke komponen Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, komponen akan mengabaikan nilai, dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan nilai tunggal untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  11. Kirimkan alur.

Hasil untuk keturunan gradien online

Setelah pelatihan selesai:

  • Untuk membuat prediksi, hubungkan model terlatih ke komponen Model Skor, bersama dengan data input baru.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.