AI/ML Pivot ke Bilah Bug Siklus Hidup Pengembangan Keamanan

Oleh Andrew Marshall, Jugal Parikh, Emre Kiciman dan Ram Shankar Siva Kumar

November 2019

Dokumen ini dapat dikirimkan dari Microsoft AETHER Engineering Practices for AI Working Group dan berfungsi sebagai suplemen untuk bilah bug SDL yang ada yang digunakan untuk triase kerentanan keamanan tradisional. Ini dimaksudkan untuk digunakan sebagai referensi untuk triase masalah keamanan terkait AI/ML. Untuk informasi analisis dan mitigasi ancaman yang lebih rinci, lihat Sistem dan Dependensi Pemodelan Ancaman AI/ML.

Panduan ini diatur dan secara luas mereferensikan Taksonomi Ancaman Pembelajaran Mesin Adversarial yang dibuat oleh Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover berjudul Mode Kegagalan dalam Pembelajaran Mesin. Perhatikan bahwa meskipun penelitian konten ini didasarkan pada alamat perilaku yang disengaja/berbahaya dan tidak disengaja dalam mode kegagalan ML, suplemen bilah bug ini sepenuhnya berfokus pada perilaku yang disengaja/berbahaya yang akan mengakibatkan insiden keamanan dan/atau penyebaran perbaikan.

Ancaman Tingkat keparahan Deskripsi/Risiko/Contoh Bisnis
Keracunan Data Penting untuk Kritis

Merusak data pelatihan - Tujuan akhir penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru akan dimodifikasi dalam fase pengujian.

Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu untuk menyebabkan tindakan tertentu diambil atau dihilangkan.

Mengirimkan perangkat lunak AV sebagai malware untuk memaksa kesalahan klasifikasinya sebagai berbahaya dan menghilangkan penggunaan perangkat lunak AV yang ditargetkan pada sistem klien.

Sebuah perusahaan mengekstrak situs web terkenal dan tepercaya untuk data future untuk melatih model mereka. Situs web penyedia data kemudian disusupi melalui serangan Injeksi SQL. Penyerang dapat meracuni himpunan data sesering mungkin dan model yang dilatih tidak memiliki gagasan bahwa data tercemar.

Mencuri Model Penting untuk Kritis

Pembuatan ulang model yang mendasar dengan mengkuerinya secara sah. Fungsionalitas model baru sama dengan model yang mendasar. Setelah model dibuat ulang, model dapat dibalik untuk memulihkan informasi fitur atau membuat inferensi pada data pelatihan.

Pemecahan persamaan – Untuk model yang mengembalikan probabilitas kelas melalui output API, penyerang dapat membuat kueri untuk menentukan variabel yang tidak diketahui dalam model.

Pencarian Jalur – serangan yang mengeksploitasi kekhususan API untuk mengekstrak 'keputusan' yang diambil oleh pohon saat mengklasifikasikan input.

Serangan transferabilitas - Musuh dapat melatih model lokal—mungkin dengan mengeluarkan kueri prediksi ke model yang ditargetkan - dan menggunakannya untuk membuat contoh musuh yang ditransfer ke model target. Jika model Anda diekstraksi dan ditemukan rentan terhadap jenis input lawan, serangan baru terhadap model yang disebarkan produksi Anda dapat dikembangkan sepenuhnya offline oleh penyerang yang mengekstrak salinan model Anda.

Dalam pengaturan di mana model ML berfungsi untuk mendeteksi perilaku adversarial, seperti identifikasi spam, klasifikasi malware, dan deteksi anomali jaringan, ekstraksi model dapat memfasilitasi serangan penghancuran

Inversi Model Penting untuk Kritis

Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan. Ini termasuk merekonstruksi data pelatihan privat yang tidak dapat diakses oleh penyerang. Ini dicapai dengan menemukan input yang memaksimalkan tingkat keyakinan yang dikembalikan, tunduk pada klasifikasi yang cocok dengan target.

Contoh: Rekonstruksi data pengenalan wajah dari nama yang ditebak atau diketahui dan akses API untuk mengkueri model.

Contoh Adversarial di Domain Fisik Kritis Contoh-contoh ini dapat bermanifestasi di domain fisik, seperti mobil kemudi mandiri yang ditipu untuk menjalankan tanda berhenti karena warna cahaya tertentu (input iklan) bersinar pada tanda berhenti, memaksa sistem pengenalan gambar untuk tidak lagi melihat tanda berhenti sebagai tanda berhenti.
Rantai Pasokan ML Serangan Kritis

Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft).

Model-model ini dikumpulkan dalam Kebun Binatang Model (Caffe menghosting model pengenalan gambar populer).

Dalam serangan ini, setan menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain.

Algoritma Backdoored dari Penyedia ML Berbahaya Kritis

Mengorbankan algoritma yang mendasar

Penyedia ML sebagai Layanan berbahaya menyajikan algoritma backdoored, di mana data pelatihan privat dipulihkan. Ini memberi penyerang kemampuan untuk merekonstruksi data sensitif seperti wajah dan teks, hanya diberikan model.

Pemrograman Ulang Neural Net Penting untuk Kritis

Dengan kueri yang dibuat secara khusus dari penyerang, sistem ML dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat

Kontrol akses yang lemah pada API pengenalan wajah memungkinkan pihak ke-3 untuk bergabung ke dalam aplikasi yang dirancang untuk membahayakan pengguna, seperti generator palsu yang mendalam.

Ini adalah skenario penyalahgunaan/penghapusan akun

Perturbasi Adversarial Penting untuk Kritis

Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan dari model yang disebarkan produksi. Ini adalah pelanggaran integritas input model yang menyebabkan serangan gaya fuzzing di mana hasil akhirnya belum tentu merupakan pelanggaran akses atau EOP, tetapi sebaliknya mengorbankan performa klasifikasi model.

Ini dapat dimanifestasikan oleh troll menggunakan kata-kata target tertentu dengan cara yang akan melarang AI, secara efektif menolak layanan ke pengguna yang sah dengan nama yang cocok dengan kata "dilarang".

Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi. Ini juga dikenal sebagai evaisisi model atau serangan mimikri.

Penyerang dapat membuat input untuk mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi. Ini juga dapat berbentuk sejumlah besar positif palsu yang dimaksudkan untuk membuat administrator kewalahan atau sistem pemantauan dengan peringatan penipuan yang tidak dapat dibedakan dari pemberitahuan yang sah.

Inferensi Keanggotaan Sedang hingga Kritis

Menyimpulkan keanggotaan individu dalam grup yang digunakan untuk melatih model

Contoh: prediksi prosedur bedah berdasarkan usia/jenis kelamin/rumah sakit