Performa dan kewajaran model

Artikel ini menjelaskan metode yang dapat Anda gunakan untuk memahami performa dan kewajaran model Anda dalam Azure Machine Learning.

Apa itu kewajaran pembelajaran mesin?

Kecerdasan buatan dan sistem pembelajaran mesin dapat menampilkan perilaku yang tidak wajar. Salah satu cara untuk mendefinisikan perilaku yang tidak wajar adalah dengan bahayanya, atau dampaknya terhadap manusia. Ada banyak jenis bahaya yang dapat ditimbulkan sistem AI. Lihat Keynote NeurIPS 2017 oleh Kate Crawford untuk mempelajari selengkapnya.

Dua jenis bahaya umum yang disebabkan AI adalah:

  • Bahaya alokasi: Sistem AI memperluas atau menahan peluang, sumber daya, atau informasi untuk grup tertentu. Contohnya termasuk perekrutan, pendaftaran sekolah, dan peminjaman, di mana model mungkin jauh lebih baik dalam memilih kandidat yang baik di antara sekelompok orang tertentu daripada kelompok lain.

  • Bahaya kualitas layanan: Sistem AI tidak berfungsi dengan baik untuk satu kelompok orang seperti halnya untuk kelompok lain. Sebagai contoh, sistem pengenalan suara juga mungkin gagal berfungsi untuk wanita dibanding untuk pria.

Untuk mengurangi perilaku yang tidak wajar dalam sistem AI, Anda harus menilai dan memitigasi bahaya ini. Komponen gambaran umum model dari Dasbor AI yang bertanggung jawab berkontribusi pada tahap identifikasi siklus hidup model dengan menghasilkan metrik performa model untuk seluruh himpunan data Anda dan kohor data Anda yang teridentifikasi. Hal ini menghasilkan metrik ini di seluruh subgrup yang diidentifikasi dalam hal fitur sensitif atau atribut sensitif.

Catatan

Kewajaran adalah tantangan sosial teknis. Metrik kewajaran kuantitatif tidak menangkap banyak aspek kewajaran, seperti keadilan dan proses jatuh tempo. Juga, banyak metrik kewajaran kuantitatif tidak semua dapat dipenuhi secara bersamaan.

Tujuan dari paket sumber terbuka Fairlearn adalah untuk memungkinkan manusia menilai dampak dan strategi mitigasi. Pada akhirnya, terserah manusia yang membangun AI dan model pembelajaran mesin untuk membuat konsekuensi yang sesuai untuk skenario mereka.

Dalam komponen dasbor AI yang Bertanggung Jawab ini, kewajaran dikonseptualisasikan melalui pendekatan yang dikenal sebagai kewajaran grup. Pendekatan ini bertanya: "Kelompok individu mana yang berisiko mengalami bahaya?" Istilah fitur sensitif menunjukkan bahwa perancang sistem harus sensitif terhadap fitur-fitur ini saat menilai kewajaran grup.

Selama fase penilaian, kewajaran diukur melalui metrik disparitas. Metrik ini dapat mengevaluasi dan membandingkan perilaku model di seluruh grup baik sebagai rasio maupun sebagai perbedaan. Dasbor AI yang Bertanggung Jawab mendukung dua kelas metrik disparitas:

  • Disparitas dalam kinerja model: Kumpulan metrik ini menghitung disparitas (perbedaan) dalam nilai metrik performa yang dipilih di berbagai subgrup data. Berikut beberapa contohnya:

    • Disparitas dalam tingkat akurasi
    • Disparitas dalam tingkat kesalahan
    • Disparitas dalam presisi
    • Disparitas dalam pengenalan
    • Disparitas dalam kesalahan absolut rata-rata (MAE)
  • Disparitas dalam tingkat pemilihan: Metrik ini berisi perbedaan dalam tingkat pemilihan (prediksi yang menguntungkan) di antara subgrup yang berbeda. Contohnya adalah disparitas dalam tingkat persetujuan pinjaman. Tingkat seleksi berarti fraksi poin data di setiap kelas yang diklasifikasikan sebagai 1 (dalam klasifikasi biner) atau distribusi nilai prediksi (dalam regresi).

Kemampuan penilaian kewajaran komponen ini berasal dari paket Fairlearn. Fairlearn menyediakan kumpulan metrik penilaian kewajaran model dan ketidaklayakan algoritme mitigasi.

Catatan

Penilaian kewajaran bukanlah latihan teknis murni. Paket sumber terbuka Fairlearn dapat mengidentifikasi metrik kuantitatif untuk membantu Anda menilai kewajaran model, tetapi tidak akan melakukan penilaian untuk Anda. Anda harus melakukan analisis kualitatif untuk mengevaluasi kewajaran model Anda sendiri. Fitur sensitif yang disebutkan di atas adalah contoh analisis kualitatif semacam ini.

Batasan paritas untuk memitigasi ketidakwajaran

Setelah memahami masalah kewajaran model, Anda dapat menggunakan algoritma mitigasi dalam paket sumber terbuka Fairlearn untuk memitigasi masalah tersebut. Algoritma ini mendukung set batasan pada perilaku prediktor yang disebut kriteria atau batasan paritas.

Batasan paritas memerlukan beberapa aspek perilaku prediktor agar dapat dibandingkan di seluruh grup yang ditentukan oleh fitur sensitif (misalnya, ras yang berbeda). Algoritma mitigasi dalam paket sumber terbuka Fairlearn menggunakan batasan paritas tersebut untuk memitigasi masalah kewajaran yang diamati.

Catatan

Algoritma mitigasi ketidakwajaran dalam paket sumber terbuka Fairlearn dapat memberikan strategi mitigasi yang disarankan untuk membantu mengurangi ketidakwajaran dalam model pembelajaran mesin, tetapi strategi tersebut tidak menghilangkan ketidakwajaran sepenuhnya. Para pengembang mungkin perlu mempertimbangkan batasan paritas atau kriteria lain untuk model pembelajaran mesin mereka. Para pengembang yang menggunakan Azure Machine Learning harus menentukan sendiri apakah mitigasi tersebut cukup untuk menghilangkan ketidakwajaran dalam penggunaan dan penyebaran model pembelajaran mesin yang dimaksudkan.

Paket sumber terbuka Fairlearn mendukung jenis batasan paritas berikut:

Batasan paritas Tujuan Tugas pembelajaran mesin
Paritas demografis Mengurangi kerusakan alokasi Klasifikasi biner, regresi
Peluang yang seimbang Diagnosis alokasi dan bahaya kualitas layanan Klasifikasi biner
Peluang yang sama Diagnosis alokasi dan bahaya kualitas layanan Klasifikasi biner
Kerugian grup terikat Mengurangi kerusakan kualitas layanan Regresi

Algoritma mitigasi

Paket sumber terbuka Fairlearn menyediakan dua jenis ketidakwajaran algoritma mitigasi:

  • Reduksi: Algoritma ini mengambil penghitung pembelajaran mesin kotak hitam standar (misalnya, model LightGBM) dan menghasilkan satu set model yang dilatih ulang menggunakan urutan himpunan data pelatihan yang ditimbang ulang.

    Misalnya, pemohon dari jenis kelamin tertentu mungkin dinaikkan atau diturunkan bobotnya untuk melatih kembali model dan mengurangi disparitas di berbagai grup gender. Pengguna kemudian dapat memilih model yang memberikan konsekuensi terbaik antara akurasi (atau metrik performa lainnya) dan disparitas, berdasarkan pada aturan bisnis dan perhitungan biaya.

  • Pasca-pemrosesan: Algoritma ini mengambil pengklasifikasi yang ada dan fitur sensitif sebagai input. Kemudian, algoritma ini memperoleh transformasi prediksi pengklasifikasi untuk memberlakukan batasan kewajaran yang ditentukan. Keuntungan terbesar dari satu algoritma pasca-pemrosesan, pengoptimalan ambang batas, adalah kesederhanaan dan fleksibilitasnya karena tidak perlu melatih ulang model.

Algoritma Deskripsi Tugas pembelajaran mesin Fitur sensitif Batasan paritas yang didukung Tipe algoritme
ExponentiatedGradient Pendekatan kotak hitam untuk klasifikasi wajar yang dijelaskan dalam Pendekatan Pengurangan terhadap Klasifikasi yang Wajar. Klasifikasi biner Kategoris Paritas demografis, peluang yang disamakan Pengurangan
GridSearch Pendekatan kotak hitam yang dijelaskan dalam Pendekatan Pengurangan terhadap Klasifikasi yang Wajar. Klasifikasi biner Biner Paritas demografis, peluang yang disamakan Pengurangan
GridSearch Pendekatan kotak hitam yang mengimplementasikan varian pencarian kisi dari regresi yang wajar dengan algoritma atas kehilangan grup terikat yang dijelaskan dalam Regresi yang Wajar: Definisi Kuantitatif dan Algoritma Berbasis Pengurangan. Regresi Biner Kerugian grup terikat Pengurangan
ThresholdOptimizer Algoritma pasca-pemrosesan berdasarkan artikel Kesetaraan Peluang dalam Pembelajaran yang Diawasi. Teknik ini mengambil sebagai input pengklasifikasi yang ada dan fitur sensitif. Kemudian, teknik tersebut memperoleh transformasi monoton prediksi pengklasifikasi guna memberlakukan batasan paritas yang ditentukan. Klasifikasi biner Kategoris Paritas demografis, peluang yang disamakan Pasca-pemrosesan

Langkah berikutnya