Sistem dan Dependensi Pemodelan Ancaman AI/ML

Oleh Andrew Marshall, Jugal Parikh, Emre Kiciman dan Ram Shankar Siva Kumar

Terima Kasih Khusus untuk Raul Rojas dan AETHER Security Engineering Workstream

November 2019

Dokumen ini dapat dikirimkan dari AETHER Engineering Practices for AI Working Group dan melengkapi praktik pemodelan ancaman SDL yang ada dengan memberikan panduan baru tentang enumerasi ancaman dan mitigasi khusus untuk AI dan ruang Pembelajaran Mesin. Ini dimaksudkan untuk digunakan sebagai referensi selama tinjauan desain keamanan dari hal-hal berikut:

  1. Produk/layanan yang berinteraksi dengan atau mengambil dependensi pada layanan berbasis AI/ML

  2. Produk/layanan yang dibangun dengan AI/ML pada intinya

Mitigasi ancaman keamanan tradisional lebih penting dari sebelumnya. Persyaratan yang ditetapkan oleh Siklus Hidup Pengembangan Keamanan sangat penting untuk menetapkan fondasi keamanan produk yang dibangun panduan ini. Kegagalan untuk mengatasi ancaman keamanan tradisional membantu mengaktifkan serangan khusus AI/ML yang tercakup dalam dokumen ini di domain perangkat lunak dan fisik, serta membuat kompromi sepele menurunkan tumpukan perangkat lunak. Untuk pengenalan ancaman keamanan baru di ruang ini, lihat Mengamankan Masa Depan AI dan ML di Microsoft.

Keterampilan insinyur keamanan dan ilmuwan data biasanya tidak tumpang tindih. Panduan ini memberikan cara bagi kedua disiplin ilmu untuk memiliki percakapan terstruktur tentang ancaman/mitigasi baru bersih ini tanpa mengharuskan teknisi keamanan menjadi ilmuwan data atau sebaliknya.

Dokumen ini dibagi menjadi dua bagian:

  1. "Pertimbangan Baru Utama dalam Pemodelan Ancaman" berfokus pada cara berpikir baru dan pertanyaan baru untuk diajukan saat pemodelan ancaman sistem AI/ML. Baik ilmuwan data dan insinyur keamanan harus meninjau ini karena akan menjadi playbook mereka untuk diskusi pemodelan ancaman dan prioritas mitigasi.
  2. "Ancaman khusus AI/ML dan Mitigasinya" memberikan detail tentang serangan tertentu serta langkah-langkah mitigasi tertentu yang digunakan saat ini untuk melindungi produk dan layanan Microsoft dari ancaman ini. Bagian ini terutama ditargetkan pada ilmuwan data yang mungkin perlu menerapkan mitigasi ancaman tertentu sebagai output dari proses pemodelan ancaman/peninjauan keamanan.

Panduan ini diatur di sekitar Taksonomi Ancaman Pembelajaran Mesin Adversarial yang dibuat oleh Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover berjudul "Mode Kegagalan dalam Pembelajaran Mesin." Untuk panduan manajemen insiden tentang ancaman keamanan triaging yang dirinci dalam dokumen ini, lihat Bilah Bug SDL untuk Ancaman AI/ML. Semua ini adalah dokumen hidup yang akan berkembang dari waktu ke waktu dengan lanskap ancaman.

Pertimbangan Baru Utama dalam Pemodelan Ancaman: Mengubah cara Anda melihat Batas Kepercayaan

Asumsikan kompromi/keracunan data yang Anda latih serta penyedia data. Pelajari cara mendeteksi entri data anomali dan berbahaya serta dapat membedakan antara dan memulihkannya

Ringkasan

Penyimpanan Data Pelatihan dan sistem yang menghostingnya adalah bagian dari cakupan Pemodelan Ancaman Anda. Ancaman keamanan terbesar dalam pembelajaran mesin saat ini adalah keracunan data karena kurangnya deteksi standar dan mitigasi di ruang ini, dikombinasikan dengan ketergantungan pada himpunan data publik yang tidak tepercaya/tidak terjaga sebagai sumber data pelatihan. Melacak pembuktian dan silsilah data Anda sangat penting untuk memastikan kepercayaannya dan menghindari siklus pelatihan "sampah masuk, sampah keluar".

Pertanyaan untuk Diajukan dalam Tinjauan Keamanan

  • Jika data Anda diracuni atau dirusak, bagaimana Anda tahu?

    -Telemetri apa yang Anda miliki untuk mendeteksi condong dalam kualitas data pelatihan Anda?

  • Apakah Anda berlatih dari input yang disediakan pengguna?

    -Apa jenis input validasi / sanitasi yang Anda lakukan pada konten itu?

    -Apakah struktur data ini didokumentasikan mirip dengan Lembar Data untuk Himpunan Data?

  • Jika Anda melatih terhadap penyimpanan data online, langkah apa yang Anda ambil untuk memastikan keamanan koneksi antara model dan data Anda?

    - Apakah mereka memiliki cara untuk melaporkan kompromi kepada konsumen umpan mereka?

    -Apakah mereka bahkan mampu itu?

  • Seberapa sensitif data yang Anda latih?

    -Apakah Anda membuat katalog atau mengontrol penambahan/pembaruan/penghapusan entri data?

  • Dapatkah model Anda menghasilkan data sensitif?

    -Apakah data ini diperoleh dengan izin dari sumber?

  • Apakah model hanya menghasilkan hasil yang diperlukan untuk mencapai tujuannya?

  • Apakah model Anda mengembalikan skor keyakinan mentah atau output langsung lainnya yang dapat direkam dan diduplikasi?

  • Apa dampak data pelatihan Anda dipulihkan dengan menyerang/membalikkan model Anda?

  • Jika tingkat keyakinan output model Anda tiba-tiba turun, dapatkah Anda mengetahui bagaimana/mengapa, serta data yang menyebabkannya?

  • Sudahkah Anda mendefinisikan input yang terbentuk dengan baik untuk model Anda? Apa yang Anda lakukan untuk memastikan input memenuhi format ini dan apa yang Anda lakukan jika tidak?

  • Jika output Anda salah tetapi tidak menyebabkan kesalahan dilaporkan, bagaimana Anda tahu?

  • Tahukah Anda apakah algoritma pelatihan Anda tahan terhadap input musuh pada tingkat matematika?

  • Bagaimana Anda pulih dari kontaminasi iklan data pelatihan Anda?

    -Dapatkah Anda mengisolasi/mengkarantina konten adversarial dan melatih kembali model yang terkena dampak?

    -Dapatkah Anda mengembalikan/memulihkan ke model versi sebelumnya untuk pelatihan ulang?

  • Apakah Anda menggunakan Pembelajaran Penguatan pada konten publik yang tidak dijaga?

  • Mulailah berpikir tentang silsilah data Anda - apakah Anda menemukan masalah, bisakah Anda melacaknya untuk pengenalannya ke dalam himpunan data? Jika tidak, apakah itu masalah?

  • Ketahui dari mana data pelatihan Anda berasal dan identifikasi norma statistik untuk mulai memahami seperti apa anomali

    - Apa elemen data pelatihan Anda yang rentan terhadap pengaruh luar?

    -Siapa dapat berkontribusi pada himpunan data tempat Anda berlatih?

    -Bagaimana Anda akan menyerang sumber data pelatihan Anda untuk membahayakan pesaing?

  • Perturbasi Adversarial (semua varian)

  • Keracunan Data (semua varian)

Contoh Serangan

  • Memaksa email jinak untuk diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi

  • Input yang dibuat penyerang yang mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi

  • Penyerang menyuntikkan kebisingan secara acak ke dalam data sumber yang diklasifikasikan untuk mengurangi kemungkinan klasifikasi yang benar yang digunakan di masa depan, secara efektif menutup model

  • Kontaminasi data pelatihan untuk memaksa kesalahan klasifikasi titik data tertentu, yang mengakibatkan tindakan tertentu diambil atau dihilangkan oleh sistem

Identifikasi tindakan yang dapat dilakukan model atau produk/layanan Anda yang dapat menyebabkan bahaya pelanggan secara online atau di domain fisik

Ringkasan

Dibiarkan tidak dimitigasi, serangan pada sistem AI/ML dapat menemukan jalan mereka ke dunia fisik. Skenario apa pun yang dapat dipelintir secara psikologis atau fisik membahayakan pengguna adalah risiko bencana bagi produk/layanan Anda. Ini meluas ke data sensitif apa pun tentang pelanggan Anda yang digunakan untuk pelatihan dan pilihan desain yang dapat membocorkan titik data privat tersebut.

Pertanyaan untuk Diajukan dalam Tinjauan Keamanan

  • Apakah Anda berlatih dengan contoh musuh? Apa dampaknya terhadap output model Anda di domain fisik?

  • Seperti apa trolling untuk produk/layanan Anda? Bagaimana Anda dapat mendeteksi dan menanggapinya?

  • Apa yang diperlukan untuk membuat model Anda mengembalikan hasil yang mengelabui layanan Anda untuk menolak akses ke pengguna yang sah?

  • Apa dampak model Anda disalin/dicuri?

  • Dapatkah model Anda digunakan untuk menyimpulkan keanggotaan seseorang dalam grup tertentu, atau hanya dalam data pelatihan?

  • Dapatkah penyerang menyebabkan kerusakan reputasi atau garis miring terbalik PR pada produk Anda dengan memaksanya untuk melakukan tindakan tertentu?

  • Bagaimana Anda menangani data yang diformat dengan benar tetapi terlalu bias, seperti dari troll?

  • Untuk setiap cara untuk berinteraksi dengan atau mengkueri model Anda terekspos, bisakah metode tersebut diinterogasi untuk mengungkapkan data pelatihan atau fungsionalitas model?

  • Inferensi Keanggotaan

  • Inversi Model

  • Mencuri Model

Contoh Serangan

  • Rekonstruksi dan ekstraksi data pelatihan dengan berulang kali mengkueri model untuk hasil keyakinan maksimum

  • Duplikasi model itu sendiri dengan pencocokan kueri/respons lengkap

  • Mengkueri model dengan cara yang mengungkapkan elemen data privat tertentu disertakan dalam set pelatihan

  • Mobil kemudi mandiri ditipu untuk mengabaikan tanda berhenti/lampu lalu lintas

  • Bot percakapan dimanipulasi untuk troll pengguna jinak

Identifikasi semua sumber dependensi AI/ML serta lapisan presentasi frontend dalam rantai pasokan data/model Anda

Ringkasan

Banyak serangan di AI dan Pembelajaran Mesin dimulai dengan akses sah ke API yang muncul untuk menyediakan akses kueri ke model. Karena sumber data yang kaya dan pengalaman pengguna yang kaya yang terlibat di sini, diautentikasi tetapi "tidak pantas" (ada area abu-abu di sini) akses pihak ke-3 ke model Anda adalah risiko karena kemampuan untuk bertindak sebagai lapisan presentasi di atas layanan yang disediakan Microsoft.

Pertanyaan untuk Diajukan dalam Tinjauan Keamanan

  • Pelanggan/mitra mana yang diautentikasi untuk mengakses api model atau layanan Anda?

    -Dapatkah mereka bertindak sebagai lapisan presentasi di atas layanan Anda?

    -Dapatkah Anda mencabut akses mereka segera jika terjadi penyusupan?

    -Apa strategi pemulihan Anda jika terjadi penggunaan layanan atau dependensi berbahaya Anda?

  • Dapatkah pihak ke-3 membangun fasad di sekitar model Anda untuk merancangnya kembali dan membahayakan Microsoft atau pelanggannya?

  • Apakah pelanggan memberikan data pelatihan kepada Anda secara langsung?

    - Bagaimana anda mengamankan data itu?

    -Bagaimana jika itu berbahaya dan layanan Anda adalah target?

  • Seperti apa bentuk positif palsu di sini? Apa dampak dari false-negative?

  • Dapatkah Anda melacak dan mengukur penyimpangan tingkat Positif Benar vs Positif Palsu di beberapa model?

  • Telemetri seperti apa yang Anda butuhkan untuk membuktikan kepercayaan output model Anda kepada pelanggan Anda?

  • Identifikasi semua dependensi pihak ke-3 dalam rantai pasokan data ML/Pelatihan Anda - tidak hanya sumber terbuka perangkat lunak, tetapi juga penyedia data

    -Mengapa Anda menggunakannya dan bagaimana Anda memverifikasi kepercayaan mereka?

  • Apakah Anda menggunakan model bawaan dari pihak ke-3 atau mengirimkan data pelatihan ke penyedia MLaaS pihak ke-3 ?

  • Berita persediaan tentang serangan terhadap produk/layanan serupa. Memahami bahwa banyak AI/ML transfer ancaman antar jenis model, dampak apa yang akan dialihkan serangan ini pada produk Anda sendiri?

  • Pemrograman Ulang Neural Net

  • Contoh Adversarial di domain fisik

  • Penyedia ML Berbahaya Memulihkan Data Pelatihan

  • Menyerang Rantai Pasokan ML

  • Backdoored Model

  • Dependensi khusus ML yang disusupi

Contoh Serangan

  • Penyedia MLaaS berbahaya trojan model Anda dengan bypass tertentu

  • Pelanggan adversary menemukan kerentanan dalam dependensi OSS umum yang Anda gunakan, mengunggah payload data pelatihan yang dibuat untuk membahayakan layanan Anda

  • Mitra yang tidak beralasan menggunakan API pengenalan wajah dan membuat lapisan presentasi atas layanan Anda untuk menghasilkan Deep Fakes.

Ancaman khusus AI/ML dan Mitigasinya

#1: Perturbasi Adversarial

Deskripsi

Dalam serangan gaya perturbasi, penyerang secara siluman memodifikasi kueri untuk mendapatkan respons yang diinginkan dari model yang disebarkan produksi[1]. Ini adalah pelanggaran integritas input model yang menyebabkan serangan gaya fuzzing di mana hasil akhirnya belum tentu merupakan pelanggaran akses atau EOP, tetapi sebaliknya mengorbankan performa klasifikasi model. Ini juga dapat dimanifestasikan oleh troll menggunakan kata-kata target tertentu dengan cara AI akan melarang mereka, secara efektif menolak layanan kepada pengguna yang sah dengan nama yang cocok dengan kata "dilarang".

Diagram that shows increasing attack difficulty when complexity is increasing and capability is decreasing.[24]

Varian #1a: Kesalahan klasifikasi yang ditargetkan

Dalam hal ini penyerang menghasilkan sampel yang tidak berada di kelas input pengklasifikasi target tetapi diklasifikasikan oleh model sebagai kelas input tertentu. Sampel lawan dapat muncul seperti kebisingan acak pada mata manusia tetapi penyerang memiliki beberapa pengetahuan tentang sistem pembelajaran mesin target untuk menghasilkan kebisingan putih yang tidak acak tetapi mengeksploitasi beberapa aspek spesifik dari model target. Lawan memberikan sampel input yang bukan sampel yang sah, tetapi sistem target mengklasifikasikannya sebagai kelas yang sah.

Contoh

A diagram showing that a photo of targeted noise is incorrectly classified by an image classifier resulting in a photo of a bus.[6]

Mitigasi

  • Memperkuat Ketahanan Adversarial menggunakan Keyakinan Model yang Diinduksi oleh Pelatihan Adversarial [19]: Penulis mengusulkan Highly Confident Near Neighbor (HCNN), kerangka kerja yang menggabungkan informasi keyakinan dan pencarian tetangga terdekat, untuk memperkuat ketahanan lawan dari model dasar. Ini dapat membantu membedakan antara prediksi model yang benar dan salah di lingkungan titik yang diambil sampelnya dari distribusi pelatihan yang mendasar.

  • Analisis Kausal berbasis atribusi [20]: Penulis mempelajari koneksi antara ketahanan terhadap perturbasi iklan dan penjelasan berbasis atribusi tentang keputusan individu yang dihasilkan oleh model pembelajaran mesin. Mereka melaporkan bahwa input lawan tidak kuat di ruang atribusi, yaitu menutupi beberapa fitur dengan atribusi tinggi menyebabkan perubahan ketidaktegasan model pembelajaran mesin pada contoh lawan. Sebaliknya, input alami kuat di ruang atribusi.

    An illustration showing two approaches to determining how input values 9,9 becomes misclassified as 9,4.[20]

Pendekatan ini dapat membuat model pembelajaran mesin lebih tahan terhadap serangan musuh karena membodohi sistem kognisi dua lapisan ini tidak hanya membutuhkan serangan model asli tetapi juga memastikan bahwa atribusi yang dihasilkan untuk contoh musuh mirip dengan contoh aslinya. Kedua sistem harus disusupi secara bersamaan untuk serangan adversarial yang berhasil.

Paralel Tradisional

Elevasi Jarak Jauh karena penyerang sekarang memegang kendali atas model Anda

Tingkat keparahan

Kritis

Varian #1b: Kesalahan klasifikasi Sumber/Target

Ini ditandai sebagai upaya oleh penyerang untuk mendapatkan model untuk mengembalikan label yang diinginkan untuk input tertentu. Ini biasanya memaksa model untuk mengembalikan positif palsu atau negatif palsu. Hasil akhirnya adalah pengalihan halus dari akurasi klasifikasi model, di mana penyerang dapat menginduksi bypass tertentu sesering mungkin.

Meskipun serangan ini memiliki dampak yang merugikan yang signifikan terhadap akurasi klasifikasi, serangan ini juga dapat lebih intensif untuk dilakukan mengingat bahwa lawan tidak hanya harus memanipulasi data sumber sehingga tidak lagi diberi label dengan benar, tetapi juga diberi label khusus dengan label penipuan yang diinginkan. Serangan ini sering melibatkan beberapa langkah/upaya untuk memaksa kesalahan klasifikasi [3]. Jika model rentan terhadap transfer serangan pembelajaran yang memaksa kesalahan klasifikasi yang ditargetkan, mungkin tidak ada jejak lalu lintas penyerang yang dapat dibedakan karena serangan pemeriksaan dapat dilakukan secara offline.

Contoh

Memaksa email jinak diklasifikasikan sebagai spam atau menyebabkan contoh berbahaya tidak terdeteksi. Ini juga dikenal sebagai evasi model atau serangan mimikri.

Mitigasi

Tindakan Deteksi Reaktif/Defensif

  • Terapkan ambang waktu minimum antara panggilan ke API yang memberikan hasil klasifikasi. Ini memperlambat pengujian serangan multi-langkah dengan meningkatkan jumlah waktu keseluruhan yang diperlukan untuk menemukan perturbasi keberhasilan.

Tindakan Proaktif/Protektif

  • Pengodean Fitur untuk Meningkatkan Ketahanan Adversarial [22]: Penulis mengembangkan arsitektur jaringan baru yang meningkatkan ketahanan adversarial dengan melakukan denoisasi fitur. Secara khusus, jaringan berisi blok yang mendenoisasi fitur menggunakan cara non-lokal atau filter lainnya; seluruh jaringan dilatih secara end-to-end. Ketika dikombinasikan dengan pelatihan adversarial, fitur yang mendenoisikan jaringan secara substansial meningkatkan status seni dalam ketahanan adversarial dalam pengaturan serangan kotak putih dan kotak hitam.

  • Pelatihan dan Regularisasi Musuh: Latih dengan sampel musuh yang diketahui untuk membangun ketahanan dan ketahanan terhadap input berbahaya. Ini juga dapat dilihat sebagai bentuk regularisasi, yang menghukut norma gradien input dan membuat fungsi prediksi pengklasifikasi lebih lancar (meningkatkan margin input). Ini termasuk klasifikasi yang benar dengan tingkat keyakinan yang lebih rendah.

A graph showing the change in the slope of the prediction function with adversarial training.

Berinvestasi dalam mengembangkan klasifikasi monotonik dengan pemilihan fitur monotonik. Ini memastikan bahwa adversary tidak akan dapat menghindari pengklasifikasi hanya dengan fitur padding dari kelas negatif [13].

  • Pemerasan fitur [18] dapat digunakan untuk mengeraskan model DNN dengan mendeteksi contoh iklan. Ini mengurangi ruang pencarian yang tersedia untuk adversary dengan mengimbangi sampel yang sesuai dengan banyak vektor fitur yang berbeda di ruang asli menjadi satu sampel. Dengan membandingkan prediksi model DNN pada input asli dengan yang ada pada input yang diperas, pemerasan fitur dapat membantu mendeteksi contoh adversarial. Jika contoh asli dan diperas menghasilkan output yang jauh berbeda dari model, input kemungkinan menjadi adversarial. Dengan mengukur ketidaksesuaian di antara prediksi dan memilih nilai ambang batas, sistem dapat menghasilkan prediksi yang benar untuk contoh yang sah dan menolak input iklan.

    An illustration showing the result of feature squeezing.

    A diagram showing the flow of input through a feature-squeezing framework.[18]

  • Pertahanan Bersertifikat terhadap Contoh Adversarial [22]: Penulis mengusulkan metode berdasarkan relaksasi semi-pasti yang menghasilkan sertifikat yang untuk jaringan tertentu dan input pengujian, tidak ada serangan yang dapat memaksa kesalahan melebihi nilai tertentu. Kedua, karena sertifikat ini dapat diferensialkan, penulis bersama-sama mengoptimalkannya dengan parameter jaringan, menyediakan regularizer adaptif yang mendorong ketahanan terhadap semua serangan.

Tindakan Respons

  • Mengeluarkan pemberitahuan pada hasil klasifikasi dengan varians tinggi antara pengklasifikasi, terutama jika dari satu pengguna atau sekelompok kecil pengguna.

Paralel Tradisional

Elevasi Jarak Jauh

Tingkat keparahan

Kritis

Varian #1c: Kesalahan klasifikasi acak

Ini adalah variasi khusus di mana klasifikasi target penyerang dapat menjadi apa pun selain klasifikasi sumber yang sah. Serangan ini umumnya melibatkan injeksi kebisingan secara acak ke dalam data sumber yang diklasifikasikan untuk mengurangi kemungkinan klasifikasi yang benar digunakan di masa depan [3].

Contoh

Two photos of a cat. One photo is classified as a tabby cat. After adversarial perturbation, the other photo is classified as guacamole.

Mitigasi

Sama seperti Varian 1a.

Paralel Tradisional

Penolakan layanan yang tidak persisten

Tingkat keparahan

Penting

Varian #1d: Pengurangan Keyakinan

Penyerang dapat membuat input untuk mengurangi tingkat keyakinan klasifikasi yang benar, terutama dalam skenario konsekuensi tinggi. Ini juga dapat berupa sejumlah besar positif palsu yang dimaksudkan untuk membuat administrator kewalahan atau sistem pemantauan dengan peringatan penipuan yang tidak dapat dibedakan dari pemberitahuan yang sah [3].

Contoh

Two photos of a stop sign. The photo on the left shows a confidence level of 96 percent. After adversarial perturbation, the photo on the right shows a confidence level of 13 percent.

Mitigasi
  • Selain tindakan yang tercakup dalam Varian #1a, pembatasan peristiwa dapat digunakan untuk mengurangi volume pemberitahuan dari satu sumber.
Paralel Tradisional

Penolakan layanan yang tidak persisten

Tingkat keparahan

Penting

#2a Keracunan Data yang Ditargetkan

Deskripsi

Tujuan dari penyerang adalah untuk mencemari model mesin yang dihasilkan dalam fase pelatihan, sehingga prediksi pada data baru akan dimodifikasi dalam fase pengujian[1]. Dalam serangan keracunan yang ditargetkan, penyerang ingin salah mengklasifikasikan contoh tertentu untuk menyebabkan tindakan tertentu diambil atau dihilangkan.

Contoh

Mengirimkan perangkat lunak AV sebagai malware untuk memaksa kesalahan klasifikasinya sebagai berbahaya dan menghilangkan penggunaan perangkat lunak AV yang ditargetkan pada sistem klien.

Mitigasi
  • Tentukan sensor anomali untuk melihat distribusi data setiap hari dan memperingatkan variasi

    -Mengukur variasi data pelatihan setiap hari, telemetri untuk penyimpangan/penyimpangan

  • Validasi input, baik pemeriksaan sanitasi maupun integritas

  • Keracunan menyuntikkan sampel pelatihan yang keluar. Dua strategi utama untuk melawan ancaman ini:

    -Sanitasi Data/ validasi: hapus sampel keracunan dari data pelatihan -Bagging untuk memerangi serangan keracunan [14]

    Pertahanan -Reject-on-Negative-Impact (RONI) [15]

    -Robust Pembelajaran: Pilih algoritma pembelajaran yang kuat di hadapan sampel keracunan.

    -Salah satu pendekatan tersebut dijelaskan dalam [21] di mana penulis mengatasi masalah keracunan data dalam dua langkah: 1) memperkenalkan metode faktorisasi matriks yang kuat untuk memulihkan subspace yang sebenarnya, dan 2) regresi komponen prinsip yang kuat untuk memangkas instans adversarial berdasarkan dasar yang dipulihkan pada langkah (1). Mereka mencirikan kondisi yang diperlukan dan memadai untuk berhasil memulihkan subspace yang sebenarnya dan menyajikan terikat pada kerugian prediksi yang diharapkan dibandingkan dengan kebenaran dasar.

Paralel Tradisional

Host Trojaned di mana penyerang bertahan di jaringan. Data pelatihan atau konfigurasi disusupi dan diserap/dipercaya untuk pembuatan model.

Tingkat keparahan

Kritis

#2b Keracunan Data Yang Tidak Bisa Dibedakan

Deskripsi

Tujuannya adalah untuk merusak kualitas/integritas himpunan data yang diserang. Banyak himpunan data bersifat publik/tidak tepercaya/tidak terpercaya, sehingga hal ini menciptakan kekhawatiran tambahan sekeliling kemampuan untuk menemukan pelanggaran integritas data tersebut di tempat pertama. Pelatihan tentang data yang disusupi secara tidak sadar adalah situasi sampah-masuk/sampah-keluar. Setelah terdeteksi, triase perlu menentukan sejauh mana data yang telah dilanggar dan karantina/pelatihan ulang.

Contoh

Sebuah perusahaan mengekstrak situs web terkenal dan tepercaya untuk data berjangka minyak untuk melatih model mereka. Situs web penyedia data kemudian disusupi melalui serangan injeksi SQL. Penyerang dapat meracuni himpunan data sesering mungkin dan model yang dilatih tidak memiliki gagasan bahwa data ternoda.

Mitigasi

Sama seperti varian 2a.

Paralel Tradisional

Penolakan layanan terautentikasi terhadap aset bernilai tinggi

Tingkat keparahan

Penting

#3 Serangan Inversi Model

Deskripsi

Fitur privat yang digunakan dalam model pembelajaran mesin dapat dipulihkan [1]. Ini termasuk rekonstruksi data pelatihan privat yang tidak dapat diakses oleh penyerang. Juga dikenal sebagai serangan pendakian bukit di komunitas biometrik [16, 17] Ini dicapai dengan menemukan input yang memaksimalkan tingkat keyakinan yang dikembalikan, tunduk pada klasifikasi yang cocok dengan target [4].

Contoh

Two images of a person. One image is blurry and the other image is clear.[4]

Mitigasi
  • Antarmuka ke model yang dilatih dari data sensitif membutuhkan kontrol akses yang kuat.

  • Kueri batas tarif yang diizinkan oleh model

  • Terapkan gerbang antara pengguna/penelepon dan model aktual dengan melakukan validasi input pada semua kueri yang diusulkan, menolak apa pun yang tidak memenuhi definisi model kebenaran input dan hanya mengembalikan jumlah minimum informasi yang diperlukan untuk berguna.

Paralel Tradisional

Ditargetkan, Pengungkapan Informasi Terselubung

Tingkat keparahan

Default ini menjadi penting sesuai bilah bug SDL standar, tetapi data sensitif atau dapat diidentifikasi secara pribadi yang diekstrak akan meningkatkan ini menjadi kritis.

#4 Serangan Inferensi Keanggotaan

Deskripsi

Penyerang dapat menentukan apakah rekaman data tertentu adalah bagian dari himpunan data pelatihan model atau tidak[1]. Peneliti dapat memprediksi prosedur utama pasien (misalnya: Operasi yang dilalui pasien) berdasarkan atribut (misalnya: usia, jenis kelamin, rumah sakit) [1].

An illustration showing the complexity of a membership inference attack. Arrows show the flow and relationship between training data prediction data.[12]

Mitigasi

Makalah penelitian yang menunjukkan kelayakan serangan ini menunjukkan Privasi Diferensial [4, 9] akan menjadi mitigasi yang efektif. Ini masih merupakan bidang nascent di Microsoft dan AETHER Security Engineering merekomendasikan membangun keahlian dengan investasi penelitian di ruang ini. Penelitian ini perlu menghitung kemampuan Privasi Diferensial dan mengevaluasi efektivitas praktis mereka sebagai mitigasi, kemudian merancang cara agar pertahanan ini diwariskan secara transparan pada platform layanan online kami, mirip dengan cara mengkompilasi kode dalam Visual Studio memberi Anda perlindungan keamanan secara default yang transparan bagi pengembang dan pengguna.

Penggunaan neuron dropout dan penumpukan model dapat menjadi mitigasi yang efektif sampai batas. Menggunakan neuron dropout tidak hanya meningkatkan ketahanan jaring neural terhadap serangan ini, tetapi juga meningkatkan performa model [4].

Paralel Tradisional

Privasi Data. Inferensi sedang dibuat tentang penyertaan titik data dalam set pelatihan tetapi data pelatihan itu sendiri tidak diungkapkan

Tingkat keparahan

Ini adalah masalah privasi, bukan masalah keamanan. Ini dibahas dalam panduan pemodelan ancaman karena domain tumpang tindih, tetapi respons apa pun di sini akan didorong oleh Privasi, bukan Keamanan.

#5 Mencuri Model

Deskripsi

Penyerang membuat ulang model yang mendasar dengan mengkueri model secara sah. Fungsionalitas model baru sama dengan model yang mendasar[1]. Setelah model dibuat ulang, model dapat dibalik untuk memulihkan informasi fitur atau membuat inferensi pada data pelatihan.

  • Pemecahan persamaan – Untuk model yang mengembalikan probabilitas kelas melalui output API, penyerang dapat membuat kueri untuk menentukan variabel yang tidak diketahui dalam model.

  • Path Finding – serangan yang mengeksploitasi kekhususan API untuk mengekstrak 'keputusan' yang diambil oleh pohon saat mengklasifikasikan input [7].

  • Serangan transferabilitas - Penyerang dapat melatih model lokal—mungkin dengan mengeluarkan kueri prediksi ke model yang ditargetkan - dan menggunakannya untuk membuat contoh adversarial yang ditransfer ke model target [8]. Jika model Anda diekstrak dan ditemukan rentan terhadap jenis input musuh, serangan baru terhadap model yang disebarkan produksi Anda dapat dikembangkan sepenuhnya offline oleh penyerang yang mengekstrak salinan model Anda.

Contoh

Dalam pengaturan di mana model ML berfungsi untuk mendeteksi perilaku adversarial, seperti identifikasi spam, klasifikasi malware, dan deteksi anomali jaringan, ekstraksi model dapat memfasilitasi serangan penghancuran [7].

Mitigasi

Tindakan Proaktif/Protektif

  • Minimalkan atau kaburkan detail yang dikembalikan dalam API prediksi sambil tetap mempertahankan kegunaannya untuk aplikasi "jujur" [7].

  • Tentukan kueri yang terbentuk dengan baik untuk input model Anda dan hanya mengembalikan hasil sebagai respons terhadap input yang selesai dan terbentuk dengan baik yang cocok dengan format tersebut.

  • Mengembalikan nilai keyakinan yang dibulatkan. Sebagian besar penelepon yang sah tidak memerlukan beberapa tempat desimal presisi.

Paralel Tradisional

Perubahan data sistem yang tidak diautentikasi dan baca-saja, pengungkapan informasi bernilai tinggi yang ditargetkan?

Tingkat keparahan

Penting dalam model sensitif keamanan, Sebaliknya sedang

#6 Pemrograman Ulang Net Neural

Deskripsi

Dengan kueri yang dibuat secara khusus dari seterusnya, sistem pembelajaran mesin dapat diprogram ulang ke tugas yang menyimpang dari niat asli pembuat [1].

Contoh

Kontrol akses yang lemah pada API pengenalan wajah yang memungkinkan pihak ke-3 untuk menggabungkan ke dalam aplikasi yang dirancang untuk membahayakan pelanggan Microsoft, seperti generator palsu yang mendalam.

Mitigasi
  • Autentikasi timbal balik server klien<> yang kuat dan kontrol akses ke antarmuka model

  • Penghapusan akun yang menyinggung.

  • Mengidentifikasi dan menerapkan perjanjian tingkat layanan untuk API Anda. Tentukan waktu untuk memperbaiki masalah yang dapat diterima setelah dilaporkan dan pastikan masalah tidak lagi direproses setelah SLA kedaluwarsa.

Paralel Tradisional

Ini adalah skenario penyalahgunaan. Anda cenderung tidak membuka insiden keamanan tentang hal ini daripada Anda hanya menonaktifkan akun pelaku.

Tingkat keparahan

Penting untuk Kritis

#7 Contoh Adversarial di domain Fisik (bits-atoms>)

Deskripsi

Contoh adversarial adalah input/kueri dari entitas berbahaya yang dikirim dengan satu-satunya tujuan menyesatkan sistem pembelajaran mesin [1]

Contoh

Contoh-contoh ini dapat bermanifestasi di domain fisik, seperti mobil mengemudi sendiri yang ditipu untuk menjalankan tanda berhenti karena warna cahaya tertentu (input iklan) bersinar pada tanda berhenti, memaksa sistem pengenalan gambar untuk tidak lagi melihat tanda berhenti sebagai tanda berhenti.

Paralel Tradisional

Elevasi, eksekusi kode jarak jauh

Mitigasi

Serangan ini memanifestasikan diri karena masalah di lapisan pembelajaran mesin (lapisan algoritma data & di bawah pembuatan keputusan berbasis AI) tidak dimitigasi. Seperti halnya perangkat lunak lain *atau* sistem fisik, lapisan di bawah target selalu dapat diserang melalui vektor tradisional. Karena itu, praktik keamanan tradisional lebih penting dari sebelumnya, terutama dengan lapisan kerentanan yang tidak dimitigasi (lapisan data/algo) yang digunakan antara AI dan perangkat lunak tradisional.

Tingkat keparahan

Kritis

#8 Penyedia ML berbahaya yang dapat memulihkan data pelatihan

Deskripsi

Penyedia berbahaya menyajikan algoritma backdoored, di mana data pelatihan privat dipulihkan. Mereka mampu merekonstruksi wajah dan teks, mengingat modelnya saja.

Paralel Tradisional

Pengungkapan informasi yang ditargetkan

Mitigasi

Makalah penelitian yang menunjukkan kelayakan serangan ini menunjukkan Enkripsi Homomorfik akan menjadi mitigasi yang efektif. Ini adalah area dengan sedikit investasi saat ini di Microsoft dan AETHER Security Engineering merekomendasikan membangun keahlian dengan investasi penelitian di ruang ini. Penelitian ini perlu menghitung tenet Enkripsi Homomorfik dan mengevaluasi efektivitas praktis mereka sebagai mitigasi dalam menghadapi penyedia ML-as-a-Service yang berbahaya.

Tingkat keparahan

Penting jika data adalah PII, Moderat sebaliknya

#9 Menyerang Rantai Pasokan ML

Deskripsi

Karena sumber daya besar (data + komputasi) yang diperlukan untuk melatih algoritma, praktik saat ini adalah menggunakan kembali model yang dilatih oleh perusahaan besar dan memodifikasinya sedikit untuk tugas yang ditangani (misalnya: ResNet adalah model pengenalan gambar populer dari Microsoft). Model-model ini dikumpulkan dalam Kebun Binatang Model (host Caffe model pengenalan gambar populer). Dalam serangan ini, musuh menyerang model yang dihosting di Caffe, sehingga meracuni sumur untuk orang lain. [1]

Paralel Tradisional
  • Kompromi dependensi non-keamanan pihak ketiga

  • App store tanpa sadar menghosting malware

Mitigasi
  • Minimalkan dependensi pihak ketiga untuk model dan data jika memungkinkan.

  • Gabungkan dependensi ini ke dalam proses pemodelan ancaman Anda.

  • Manfaatkan autentikasi yang kuat, kontrol akses, dan enkripsi antara sistem pihak ke-1/ke-3.

Tingkat keparahan

Kritis

#10 backdoor Pembelajaran Mesin

Deskripsi

Proses pelatihan dialihfungsikan ke pihak ke-3 berbahaya yang merusak data pelatihan dan mengirimkan model trojaned yang memaksa salah klasifikasi yang ditargetkan, seperti mengklasifikasikan virus tertentu sebagai tidak berbahaya[1]. Ini adalah risiko dalam skenario pembuatan model ML-as-a-Service.

An example showing how mis-classifications can adversely affect training data. One photo is a correctly classified stop sign. After poisoning, the second photo is labeled as a speed limit sign.[12]

Paralel Tradisional
  • Penyusupan dependensi keamanan pihak ketiga

  • Mekanisme Pembaruan Perangkat Lunak yang Disusupi

  • Penyusupan Otoritas Sertifikat

Mitigasi
Tindakan Deteksi Reaktif/Defensif
  • Kerusakan sudah dilakukan setelah ancaman ini ditemukan, sehingga model dan data pelatihan apa pun yang disediakan oleh penyedia berbahaya tidak dapat dipercaya.
Tindakan Proaktif/Protektif
  • Melatih semua model sensitif secara internal

  • Data pelatihan katalog atau pastikan data tersebut berasal dari pihak ketiga tepercaya dengan praktik keamanan yang kuat

  • Model ancaman interaksi antara penyedia MLaaS dan sistem Anda sendiri

Tindakan Respons
  • Sama seperti untuk penyusupan dependensi eksternal
Tingkat keparahan

Kritis

#11 Mengeksploitasi dependensi perangkat lunak dari sistem ML

Deskripsi

Dalam serangan ini, penyerang TIDAK memanipulasi algoritma. Sebaliknya, mengeksploitasi kerentanan perangkat lunak seperti luapan buffer atau scripting lintas situs[1]. Masih lebih mudah untuk membahayakan lapisan perangkat lunak di bawah AI/ML daripada menyerang lapisan pembelajaran secara langsung, sehingga praktik mitigasi ancaman keamanan tradisional yang dirinci dalam Siklus Hidup Pengembangan Keamanan sangat penting.

Paralel Tradisional
  • Dependensi Perangkat Lunak Sumber Terbuka yang Disusupi

  • Kerentanan server web (XSS, CSRF, kegagalan validasi input API)

Mitigasi

Bekerja samalah dengan tim keamanan Anda untuk mengikuti praktik terbaik Siklus Hidup Pengembangan Keamanan/Jaminan Keamanan Operasional yang berlaku.

Tingkat keparahan

Variabel; Hingga Kritis tergantung pada jenis kerentanan perangkat lunak tradisional.

Bibliografi

[1] Mode Kegagalan dalam Pembelajaran Mesin, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen, dan Jeffrey Snover,https://docs.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Contoh Adversarial dalam Pembelajaran Mendalam: Karakterisasi dan Divergensi, Wei, dkk,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Bocoran: Model dan Serangan Inferensi Keanggotaan Independen Data dan Pertahanan pada Model Pembelajaran Mesin, Salem, dkk,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha, dan T. Ristenpart, "Serangan Inversi Model yang Mengeksploitasi Informasi Keyakinan dan Penanggulangan Dasar," dalam Proses Konferensi ACM SIGSAC tentang Keamanan Komputer dan Komunikasi (CCS) 2015.

[6] Nicolas Papernot & Patrick McDaniel- Contoh Adversarial dalam Pembelajaran Mesin AIWTB 2017

[7] Mencuri model Pembelajaran Mesin melalui API Prediksi, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Universitas Cornell; Ari Juels, Cornell Tech; Michael K. Reiter, Universitas Carolina Utara di Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] Ruang Contoh Iklan yang Dapat Ditransfer, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh , dan Patrick McDaniel

[9] Memahami Inferensi Keanggotaan pada Model Well-Generalized Pembelajaran Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 , dan Kai Chen3,4

[10] Simon-Gabriel dkk., Kerentanan adversarial jaringan neural meningkat dengan dimensi input, ArXiv 2018;

[11] Lyu et al., Sebuah keluarga regularisasi gradien terpadu untuk contoh iklan, ICDM 2015

[12] Pola Liar: Sepuluh Tahun Setelah Munculnya Pembelajaran Mesin Adversarial - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Deteksi Malware yang Kuat Secara Adversarial Menggunakan KlasifikasiMonotonic Inigo Incer dkk.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto, dan Fabio Roli. Pengklasifikasi Bagging untuk Memerangi Serangan Keracunan dalam Tugas Klasifikasi Adversarial

[15] Peningkatan Penolakan terhadap Dampak Negatif Pertahanan Hongjiang Li dan Patrick P.K. Chan

[16] Adler. Kerentanan dalam sistem enkripsi biometrik. Int'l Conf ke-5. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. Pada kerentanan sistem verifikasi wajah terhadap serangan hill-climbing. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Pemerasan Fitur: Mendeteksi Contoh Adversarial di Deep Neural Networks. Simosium Keamanan Jaringan dan Sistem Terdistribusi 2018. 18-21 Februari.

[19] Menguatkan Ketahanan Adversarial menggunakan Keyakinan Model yang Diinduksi oleh Pelatihan Adversarial - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Analisis Kausal yang digerakkan oleh atribusi untuk Deteksi Contoh Adversarial, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Regresi Linier yang Kuat Terhadap Keracunan Data Pelatihan - Chang Liu dkk.

[22] Fitur Menjijikkan untuk Meningkatkan Ketahanan Adversarial, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Pertahanan Bersertifikat terhadap Contoh Adversarial - Aditi Raghunathan, Jacob Steinhardt, Percy Liang