Model Validasi Silang

Artikel ini menjelaskan cara menggunakan komponen Model Validasi Silang di perancang Azure Machine Learning. Validasi silang adalah teknik yang sering digunakan dalam pembelajaran mesin untuk menilai variabilitas himpunan data dan keandalan setiap model yang dilatih melalui data tersebut.

Komponen Model Validasi Silang mengambil himpunan data berlabel sebagai input, bersama dengan klasifikasi atau model regresi yang tidak terlatih. Modul ini membagi himpunan data ke dalam sejumlah subset (lipatan), menyusun model pada setiap lipatan, kemudian mengembalikan serangkaian statistik akurasi untuk setiap lipatan. Dengan membandingkan statistik akurasi untuk semua lipatan, Anda dapat menginterpretasikan kualitas himpunan data. Anda kemudian dapat memahami apakah model tersebut rentan terhadap variasi dalam data.

Model Validasi Silang juga mengembalikan hasil dan probabilitas yang diprediksi untuk himpunan data tersebut, sehingga Anda dapat menilai keandalan prediksi.

Cara kerja validasi silang

  1. Validasi silang secara acak membagi data pelatihan menjadi lipatan.

    Algoritma default ke 10 lipatan jika Anda sebelumnya belum mempartisi himpunan data. Untuk membagi himpunan data menjadi beberapa lipatan yang berbeda, Anda dapat menggunakan komponen Partisi dan Sampel dan menunjukkan berapa banyak lipatan yang akan digunakan.

  2. Komponen menyisihkan data di lipatan 1 untuk digunakan untuk validasi. (Ini sering disebut dengan lipatan penahanan.) Komponen menggunakan lipatan yang tersisa untuk melatih model.

    Misalnya, jika Anda membuat lima lipatan, komponen membuat lima model selama validasi silang. Komponen melatih setiap model dengan menggunakan empat per lima data. Modul tersebut menguji setiap model pada seperlima sisanya.

  3. Selama pengujian model untuk setiap lipatan, komponen mengevaluasi beberapa statistik akurasi. Statistik mana yang digunakan komponen bergantung pada jenis model yang Anda evaluasi. Statistik yang berbeda digunakan untuk mengevaluasi model klasifikasi versus model regresi.

  4. Ketika proses pembuatan dan evaluasi selesai untuk semua lipatan, Model Validasi Silang menghasilkan serangkaian metrik performa dan hasil penilaian untuk semua data. Tinjau metrik ini untuk melihat apakah ada lipatan tunggal dengan akurasi tinggi atau rendah.

Keuntungan validasi silang

Cara yang berbeda dan umum untuk mengevaluasi model adalah membagi data menjadi pelatihan dan menguji rangkaian menggunakan Data Terpisah, lalu memvalidasi model tersebut pada data pelatihan. Tetapi validasi silang menawarkan beberapa keuntungan:

  • Validasi silang menggunakan lebih banyak data pengujian.

    Validasi silang mengukur performa model dengan parameter yang ditentukan dalam ruang data yang lebih besar. Artinya, validasi silang menggunakan seluruh himpunan data pelatihan untuk pelatihan dan evaluasi, bukan sebagian. Sebaliknya, jika Anda memvalidasi model menggunakan data yang dihasilkan dari pemisahan acak, biasanya Anda mengevaluasi model hanya dengan 30 persen atau kurang dari data yang tersedia.

    Namun, karena validasi silang melatih dan memvalidasi model beberapa kali terhadap himpunan data yang lebih besar, validasi ini jauh lebih intensif secara komputasi. Dibutuhkan lebih lama daripada memvalidasi pada pemisahan acak.

  • Validasi silang mengevaluasi himpunan data dan model.

    Validasi silang tidak hanya mengukur akurasi model. Validasi ini juga memberi Anda gambaran tentang seberapa representatif himpunan data dan seberapa sensitif modelnya terhadap variasi dalam data.

Cara menggunakan Model Validasi Silang

Validasi silang dapat memakan waktu lama untuk dijalankan jika himpunan data Anda besar. Jadi, Anda dapat menggunakan Model Validasi Silang pada fase awal pembuatan dan pengujian model Anda. Dalam fase tersebut, Anda dapat mengevaluasi seberapa baik parameter model (dengan asumsi bahwa waktu komputasi dapat ditoleransi). Anda kemudian dapat melatih dan mengevaluasi model dengan menggunakan parameter yang ditetapkan dengan komponen Latih Model dan Model Evaluasi.

Dalam skenario ini, Anda melatih dan menguji model dengan Model Validasi Silang.

  1. Tambahkan komponen Model Validasi Silang ke alur Anda. Anda dapat menemukannya di perancang Azure Machine Learning, dalam kategori Penilaian & Evaluasi Model.

  2. Hubungkan output dari model klasifikasi atau regresi mana pun.

    Misalnya, jika Anda menggunakan Pohon Keputusan Dua Kelas yang Ditingkatkan untuk klasifikasi, konfigurasikan model dengan parameter yang Anda inginkan. Kemudian, seret konektor dari port Model tidak terlatih dari pengklasifikasi ke port yang cocok dari Model Validasi Silang.

    Tip

    Anda tidak perlu melatih model, karena Model Validasi Silang secara otomatis melatih model sebagai bagian dari evaluasi.

  3. Pada port Himpunan Data Model Validasi Silang, hubungkan himpunan data pelatihan berlabel apa pun.

  4. Di panel kanan Model Validasi Silang, klik Edit kolom. Pilih kolom tunggal yang berisi label kelas, atau nilai yang dapat diprediksi.

  5. Tetapkan nilai untuk parameter Benih acak jika Anda ingin mengulangi hasil validasi silang di seluruh proses berurutan pada data yang sama.

  6. Kirim alur.

  7. Lihat bagian Hasil untuk deskripsi laporan.

Hasil

Setelah semua iterasi selesai, Model Validasi Silang akan membuat skor untuk seluruh himpunan data. Model ini juga menciptakan metrik performa yang dapat Anda gunakan untuk menilai kualitas model.

Hasil penilaian

Output pertama dari komponen menyediakan data sumber untuk setiap baris, bersama dengan beberapa nilai prediksi dan probabilitas terkait.

Untuk melihat hasilnya, dalam alur, klik kanan komponen Model Validasi Silang. Pilih Visualisasikan Hasil penilaian.

Nama kolom baru Deskripsi
Label Skor Kolom ini ditambahkan di bagian akhir himpunan data. Kolom ini berisi nilai yang diprediksi untuk setiap baris.
Probabilitas Penilaian Kolom ini ditambahkan di bagian akhir himpunan data. Kolom menunjukkan estimasi probabilitas nilai dalam Label Skor.
Nomor Lipatan Menunjukkan indeks lipatan berbasis nol tempat setiap baris data ditetapkan selama validasi silang.

Hasil evaluasi

Laporan kedua dikelompokkan berdasarkan lipatan. Ingat bahwa selama eksekusi, Model Validasi Silang secara acak membagi data pelatihan menjadi n lipatan (secara default, 10). Dalam setiap iterasi pada himpunan data, Model Validasi Silang menggunakan satu lipatan sebagai himpunan data validasi. Model ini menggunakan sisa n-1 lipatan untuk melatih model. Masing-masing n model diuji terhadap data di semua lipatan lainnya.

Dalam laporan ini, lipatan dicantumkan berdasarkan nilai indeks, dalam urutan naik. Untuk mengurutkan setiap kolom lain, Anda dapat menyimpan hasilnya sebagai himpunan data.

Untuk melihat hasilnya, dalam alur, klik kanan komponen Model Validasi Silang. Pilih Visualisasikan Hasil evaluasi menurut lipatan.

Nama kolom Deskripsi
Nomor lipatan Pengidentifikasi untuk setiap lipatan. Jika Anda membuat lima lipatan, akan ada lima subset data, bernomor 0 hingga 4.
Jumlah contoh dalam lipatan Jumlah baris yang ditetapkan untuk setiap lipatan. Jumlah-jumlah tersebut kira-kira harus sama.

Komponen juga menyertakan metrik berikut untuk setiap lipatan, bergantung pada jenis model yang Anda evaluasi:

  • Model klasifikasi: Presisi, pengenalan, F-skor, AUC, akurasi

  • Model regresi: kesalahan mutlak rata-rata, kesalahan kuadrat akar rata-rata, kesalahan relatif mutlak, kesalahan kuadrat relatif, koefisien determinasi

Catatan teknis

  • Praktik terbaiknya adalah menormalkan himpunan data sebelum Anda menggunakannya untuk validasi silang.

  • Model Validasi Silang jauh lebih intensif secara komputasi dan membutuhkan waktu lebih lama untuk diselesaikan dibandingkan jika Anda memvalidasi model menggunakan himpunan data yang dibagi secara acak. Alasannya adalah bahwa Model Validasi Silang melatih dan memvalidasi model beberapa kali.

  • Anda tidak perlu membagi himpunan data ke dalam rangkaian pelatihan dan pengujian saat Anda menggunakan validasi silang untuk mengukur akurasi model.

Langkah berikutnya

Lihat kumpulan komponen yang tersedia untuk Azure Machine Learning.