AI/ML Pivot ke Bilah Bug Siklus Hidup Pengembangan Keamanan

Oleh Andrew Marshall, Jugal Parikh, Emre Kiciman dan Ram Shankar Siva Kumar

November 2019

Dokumen ini adalah hasil dari Praktik Teknik Microsoft AETHER untuk Grup Kerja AI dan fungsi sebagai suplemen untuk bilah bug SDL yang ada yang digunakan untuk triase kerentanan keamanan tradisional. Ini dimaksudkan untuk digunakan sebagai referensi untuk triase masalah keamanan terkait AI/ML. Untuk informasi analisis ancaman dan mitigasi yang lebih rinci, lihat Sistem dan Dependensi Pemodelan Ancaman AI/ML.

Panduan ini diatur di sekitar dan secara luas mereferensikan Taksonomi Ancaman Pembelajaran Mesin Adversarial yang dibuat oleh Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover berjudul Mode Kegagalan dalam Pembelajaran Mesin. Perhatikan bahwa meskipun penelitian konten ini didasarkan pada alamat perilaku yang disengaja/berbahaya dan tidak disengaja dalam mode kegagalan ML, suplemen bilah bug ini sepenuhnya berfokus pada perilaku yang disengaja/berbahaya yang akan mengakibatkan insiden keamanan dan/atau penyebaran perbaikan.

Ancaman Tingkat keparahan Deskripsi/Risiko Bisnis/Contoh
Keracunan Data Penting untuk Penting

Merusak data pelatihan - Tujuan akhir penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru akan dimodifikasi dalam fase pengujian.

Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu untuk menyebabkan tindakan tertentu diambil atau dihilangkan.

Mengirimkan perangkat lunak AV sebagai malware untuk memaksa kesalahan klasifikasinya sebagai berbahaya dan menghilangkan penggunaan perangkat lunak AV yang ditargetkan pada sistem klien.

Perusahaan mengekstrak situs web terkenal dan tepercaya untuk data futures untuk melatih model mereka. Situs web penyedia data kemudian disusupi melalui serangan Injeksi SQL. Penyerang dapat meracuni himpunan data sesering mungkin dan model yang dilatih tidak memiliki gagasan bahwa data ternoda.

Pencurian Model Penting untuk Penting

Rekreasi model yang mendasar dengan mengkuerinya secara sah. Fungsionalitas model baru sama dengan model yang mendasar. Setelah model dibuat ulang, model dapat dibalik untuk memulihkan informasi fitur atau membuat inferensi pada data pelatihan.

Pemecahan persamaan – Untuk model yang mengembalikan probabilitas kelas melalui output API, penyerang dapat membuat kueri untuk menentukan variabel yang tidak diketahui dalam model.

Path Finding – serangan yang mengeksploitasi kekhususan API untuk mengekstrak 'keputusan' yang diambil oleh pohon saat mengklasifikasikan input.

Serangan transferabilitas - Musuh dapat melatih model lokal—mungkin dengan mengeluarkan kueri prediksi ke model yang ditargetkan - dan menggunakannya untuk membuat contoh musuh yang ditransfer ke model target. Jika model Anda diekstrak dan ditemukan rentan terhadap jenis input musuh, serangan baru terhadap model yang disebarkan produksi Anda dapat dikembangkan sepenuhnya secara offline oleh penyerang yang mengekstrak salinan model Anda.

Dalam pengaturan di mana model ML berfungsi untuk mendeteksi perilaku musuh, seperti identifikasi spam, klasifikasi malware, dan deteksi anomali jaringan, ekstraksi model dapat memfasilitasi serangan pengindaran

Inversi Model Penting untuk Penting

Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan. Ini termasuk rekonstruksi data pelatihan privat yang tidak dapat diakses oleh penyerang. Ini dicapai dengan menemukan input yang memaksimalkan tingkat keyakinan yang dikembalikan, tunduk pada klasifikasi yang cocok dengan target.

Contoh: Rekonstruksi data pengenalan wajah dari nama yang ditebak atau diketahui dan akses API untuk mengkueri model.

Contoh Adversarial di Domain Fisik Kritis Contoh-contoh ini dapat bermanifestasi di domain fisik, seperti mobil mengemudi sendiri yang ditipu untuk menjalankan tanda berhenti karena warna cahaya tertentu (input adversarial) bersinar pada tanda berhenti, memaksa sistem pengenalan gambar untuk tidak lagi melihat tanda berhenti sebagai tanda berhenti.
Rantai Pasokan ML Serangan Kritis

Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft).

Model-model ini dikumpulkan dalam Kebun Binatang Model (Caffe menghosting model pengenalan gambar populer).

Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain.

Algoritma Backdoored dari Penyedia ML Berbahaya Kritis

Mengorbankan algoritma yang mendasar

Penyedia ML-as-a-Service berbahaya menyajikan algoritma backdoored, di mana data pelatihan privat dipulihkan. Ini memberi penyerang kemampuan untuk merekonstruksi data sensitif seperti wajah dan teks, hanya diberikan model.

Pemrograman Ulang Neural Net Penting untuk Penting

Dengan kueri yang dibuat secara khusus dari penyerang, sistem ML dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat

Kontrol akses yang lemah pada API pengenalan wajah memungkinkan pihak ketiga untuk bergabung ke dalam aplikasi yang dirancang untuk membahayakan pengguna, seperti generator palsu yang mendalam.

Ini adalah skenario penyalahgunaan/penghapusan akun

Perturbasi Adversarial Penting untuk Penting

Dalam serangan gaya perturbasi, penyerang secara diam-diam memodifikasi kueri untuk mendapatkan respons yang diinginkan dari model yang disebarkan produksi. Ini adalah pelanggaran integritas input model yang menyebabkan serangan gaya fuzzing di mana hasil akhirnya belum tentu merupakan pelanggaran akses atau EOP, tetapi sebaliknya membahmi performa klasifikasi model.

Ini dapat dimanifestasikan oleh troll menggunakan kata-kata target tertentu dengan cara yang akan dilarang AI, secara efektif menolak layanan ke pengguna yang sah dengan nama yang cocok dengan kata "dilarang".

Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi. Ini juga dikenal sebagai serangan pengelakan atau mimikri model.

Penyerang dapat membuat input untuk mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi. Ini juga dapat berbentuk sejumlah besar positif palsu yang dimaksudkan untuk membuat administrator kewalahan atau sistem pemantauan dengan peringatan penipuan yang tidak dapat dibedakan dari pemberitahuan yang sah.

Inferensi Keanggotaan Sedang hingga Kritis

Menyimpulkan keanggotaan individu dalam grup yang digunakan untuk melatih model

Misalnya: prediksi prosedur bedah berdasarkan usia/jenis kelamin/rumah sakit