Machine Learning'te Hata Modları

  1. Bu sorun hakkında konuşmak için yazılım geliştiricilere, güvenlik olayı yanıtlayanlara, güvenlik olayı yanıtlayanlara, evetlere ve ilke üreticilerine destek verme gerekiyor. Taksonominin geçen yıl ilk sürümünü geliştirdikten sonra, proje katılımcılarının çerçevemizi nasıl kullanacaklarını anlamak için Microsoft genelinde güvenlik ve ML ekipleriyle, 23 dış iş ortağıyla, standartlarla kuruluşla ve hükümetle birlikte çalıştık. Bu kullanılabilirlik çalışmasına ve proje katılımcısı geri bildirimlerine dayanarak çerçeveyi daha da ifade ederiz.

    Sonuçlar: ML hata modu ile sunulan bu durum, yazılım geliştiricilerinin ve ML hataları modlarını veri sızıntıları gibi geleneksel yazılım saldırılarına zihinsel olarak eşledi. Bu nedenle, kağıt üzerinde makine öğrenme hatası modlarının geleneksel yazılım hatalarından bir teknoloji ve ilke perspektifinden anlamlı bir şekilde nasıl farklı olduğunu vurgulamaya çalışıruz.

  2. Mühendislerin var olan yazılım geliştirme ve güvenlik uygulamalarının üzerine kurması ve bu uygulamalarla tümleştirecek ortak bir platforma ihtiyacı vardır. Genel olarak, taksonominin bir eğitim aracından daha fazla olması , uygun olmayan mühendislik sonuçlarının etkili olmasını istiyoruz.

    Sonuçlar: Microsoft, bu taksonomiyi bir lens olarak kullanarak tüm kuruluşu için Güvenlik Geliştirme Yaşam Döngüsü sürecini değiştirdi. Özel olarak, Microsoft'un veri hizmetleri ve güvenlik mühendisleri artık bu taksonominin ortak dilini paylaşarak üretime dağıtmadan önce ML sistemlerini daha etkili bir şekilde tehdit olarak modellemelerine olanak sağlar; Güvenlik Olayı Yanıtlayanlar ayrıca, Microsoft Güvenlik Yanıt Merkezi ve tüm Microsoft ürün ekipleri tarafından kullanılan güvenlik açıkları önceliği ve yanıtı için standart olan ML'a özgü bu net yeni tehditleri önceldirecek bir hata çubuğuna da sahipler.

  3. İlkeler ve makalelerde bu saldırıları açıklayan ortak bir sözcük dağarcığına gerek vardır. Bunun, hata modlarında farklı ML açıklama ve zararlarının nasıl düzende olabileceğinin çözümlemesi için, bilgiye dayalı ilkeye yönelik anlamlı bir ilk adım olduğuna inanıyoruz.

    Sonuçlar: Bu taksonomi geniş bir etkileşim kitlesi için yazılmıştır; dolayısıyla genel ML/AI perspektifinden ve yanlış biçimli/sağlık gibi belirli etki alanlarından sorunları incelayan ilkeciler hata modu kataloğunu kullanışlı bulmalı. Ayrıca hata modlarını ele alan tüm geçerli yasal müdahaleleri vurgularız.

Ayrıca, Microsoft'un Tehdit Modelleme AI/ML Sistemleri ve Bağımlılıkları ile SDL Hata Çubuğu Pivot'ları için güvenlik açıkları Machine Learning bakın.

Bu belge nasıl kullanır?

En son, bunun tehdit ortamıyla birlikte zamanla gelişecek olan canlı bir belge olduğunu onaylarız. Ayrıca, savunmalar senaryoya özgü ve tehdit modeline ve sistem mimarisine dikkate bağlı olduğu için, burada bu hata modlarında hiçbir belirsiz riskle karşı karşıyayız. Tehdit azaltmaya yönelik seçenekler, mevcut araştırmayı temel alarak bu savunmaların zamanla gelişeceklerine ilişkin beklentilere dayalıdır.

Mühendisler için, olası hata modlarına göz atmanızı ve tehdit modelleme belgesine atlamanızı öneririz. Bu şekilde, mühendisler tehditleri, saldırıları, güvenlik açıklarını tanımlayabilir ve kullanılabilir durumdaki önlemler için çerçeveyi kullanabilir. Daha sonra sizi, taksonomide bu yeni güvenlik açıklarını geleneksel yazılım güvenlik açıklarının yanı sıra bu yeni güvenlik açıklarına yönelik olan hata çubuğuna ve her bir ML güvenlik açığı (kritik, önemli gibi) için bir derecelendirme sağlaruz. Bu hata çubuğu mevcut olay yanıt süreçleriyle/oynatma kitaplarına kolayca tümleştirilmiştir.

Bu belge, araştırma ve ilke üreticileri için ML modlarını düzenlemektedir ve burada yapılan çalışmalar [5],[6] gibi ilke seçeneklerini keşfeden herkes için önemli sorunları çözümleyecek bir çerçeve sunar. Özel olarak, hataları ve sonuçları ilke oluşturucuların nedenler arasında farkları çizmeye başlamasına yönelik kategorilere ayırarak, güvenlik ve güvenliğin güvenliğini teşvik etmek için genel ilke girişimlerini bilgilendirecek ML var. İlkecilerin bu kategorileri kullanmaya başlayacağını ve var olan yasal zararların ortaya çıkan sorunları, tarihi yasal sorunlardan veya ilke çözümlerini nasıl yeterince alamayabileceklerini, benzer zararlarla nasıl başa çıkabileceklerini ve özellikle hukuki gizlilik sorunları konusunda özellikle duyarlı olamız gerektiğini ortaya çıkaracaklarını umuyoruz.

Belge Yapısı

Hem Bilerek Yapılan Hata Modları hem de KasıtSız Hata Modları bölümlerinde, saldırının kısa bir tanımını ve aynı şekilde, tılımlı bir örnek sunariz.

Bilerek Yapılan Hata Modları bölümünde ek alanlar sağlaruz:

  1. Saldırı, Gizlilik, Bütünlük veya Kullanılabilirlik ML güvenliği tehlikeye atarak nasıl tehlikeye atacak? Gizlilik'i, Gizlilik'i ML sisteminin bileşenlerinin (veri, algoritma, model) yalnızca yetkili taraflar tarafından erişilebilir olmasını sağlamak üzere tanımlıyoruz; Bütünlük, sistem yalnizce yetkili taraflar ML değiştirilsin diye bir ifade olarak tanımlanır; Kullanılabilirlik, hizmet sisteminin yetkili taraflar ML erişilebilir olduğunu güvenceye alan bir güvence olarak tanımlanır. Birlikte, Gizlilik, Bütünlük ve Uygunluk durumu, CIA üç ay önceliği olarak adlandırılan bir hizmettir. Her bir bilerek hata modu için, CIA üç aydan hangisinin tehlikeye atılmış olduğunu belirlemeye çalışırsınız.

  2. Bu saldırıyı (siyah kutu veya beyaz kutu) bindirim için ne kadar bilgi gereklidir? Blackbox stili saldırılarında, saldırgan eğitim verilerine doğrudan erişim SAHIBI OLMAZ, kullanılan ML algoritması hakkında bilgi sahibi değildir ve modelin kaynak koduna erişim vermez. Saldırgan yalnızca modeli sorgular ve yanıtı gözlemler. Beyaz kutu stilinde saldırılar yapan saldırgan, ML koduna veya model kaynak koduna erişim hakkında bilgi edinebiliyor.

  3. Saldırganın geleneksel geleneksel erişim/yetkilendirme notunu ihlal ettiğine yönelik açıklama.

Intentionally-Motivated Hataları Özeti

Senaryo Numarası
Saldırı
Genel Bakış
Geleneksel geleneksel geleneksel erişim/yetkilendirme notlarını ihlal ediyor mu?
1
Perturbation saldırı
Saldırgan, uygun yanıtı almak için sorguda değişiklik gösterir
Hayır
2
Saldırı
Saldırgan saldırılar amaçlanan sonucu elde etmek ML sistemlerin eğitim aşamasına saldırılar
Hayır
3
Model Ters Çevirme
Saldırgan, dikkatli sorgular aracılığıyla modelde kullanılan gizli özellikleri kurtarıyor
Hayır
4
Üyelik Çıkartırma
Saldırgan, bir veri kaydının modelin eğitim veri kümesi kapsamında olup olmadığını
Hayır
5
Model Çalmak
Saldırgan dikkatle hazırlanmış sorgular aracılığıyla modeli kurtarıyor
Hayır
6
Sistem ML yeniden programlama
Programlanmış ML gerçekleştirmek için sistem sistemini yeniden gerçekleştirme
Hayır
7
Fiziksel Etki Alanı'daki Adversarial Örneği
Saldırgan, alt tersML sistemi için fiziksel etki alanına benzer örnekler getirir. Örneğin: 3d yazdırma özel göz damlalığı ile göz damlalığı
Hayır
8
Kötü amaçlı ML sağlayıcı eğitim verilerini kurtarıyor
Kötü amaçlı ML sağlayıcısı, müşterinin kullandığı modeli sorgular ve müşterinin eğitim verilerini kurtarabilirsiniz
Evet
9
Bir ML zincirine saldırı
Saldırgan, ML indirilirken güvenlik modellerini tehlikeye atıyor
Evet
10
Backdoor ML
Kötü amaçlı ML sağlayıcı geridoors algoritması belirli bir tetikleyiciyle etkinleştirmek için
Evet
11
Exploit Software Dependencies
Saldırgan, bu sistemleri karıştırmak/kontrol etmek için arabellek taşması gibi geleneksel ML kullanır
Evet

Öngörülemeyen Hata Özeti

Senaryo #
Hata
Genel Bakış
12
Ödül Korsanlık
Her Learning (RL) sistemleri, belirtilen ödülle gerçek ödül arasındaki tutarsızlık nedeniyle, bu sistemlerin iş ve yönetimle ilgili olmayan yolları vardır
13
Yan Efektler
RL sistemi, hedefine ulaşmak için ortamı kesintiye sıyor
14
Dağılım vardiyaları
Sistem bir tür ortamda test edilmiştir, ancak başka tür bir ortamdaki değişikliklere uyum sağ yapamaz.
15
Doğal Adversarial Örnekleri
Saldırgan perturbasyonları olmadan, ML sistemi zor negatif madencilik durumlarıyla başarısız olur
16
Yaygın Bozulma
Sistem eğim, yakınlaştırma veya gürültülü resimler gibi yaygın bozulmaları ve perturbasyonları işleyememektedir.
17
Eksik Test
Sistem ML, içinde çalışması gereken gerçekçi koşullarda test edilmemiştir.

Hata Intentionally-Motivated Ayrıntıları

Senaryo # Saldırı Sınıfı Açıklama Güvenlik Ödünleri Türü Senaryo
1 Perturbation saldırıları Perturbation stili saldırılarında, saldırgan istenen yanıtı almak için sorguyu kolayca yeniler Bütünlük Resim: X ray resmine gürültü eklenir ve bu da tahminlerin normal taramadan normal taramadan anormal [1][Kara kutu] değerine iner

Metin çevirisi: Belirli karakterler yanlış çeviriye neden olacak şekilde yönlendirildi. Saldırı belirli bir sözcüğü engel kaldırabilir veya sözcüğü tamamen kaldırabilir[2][Kara Kutu ve Beyaz Kutu]

Konuşma: Araştırmacı bir konuşma dalga formu veriliken başka bir dalga formlarının tam olarak çoğaltılabilir ama tamamen farklı bir metne dönüştürilse de[Beyaz Kutu][Beyaz Kutu]

2 Saldırılar Saldırganların amacı eğitim aşamasında oluşturulan makine modelini bulaşmak, böylece yeni veri tahminlerinin test aşamasında değiştirilecek olması

Hedefli: Hedefli saldırı saldırılarında, saldırgan belirli örnekleri yanlış sınıflandırmak istiyor

Indiscriminate: Buradaki amaç DoS'a etki gibi bir neden olmaktır, bu da sistemin kullanılamaz duruma gelir.

Bütünlük Tıbbi veri kümesinde, hedefin demografik bilgileri kullanarak( vb. anticoagulantant (Yalçın) ile ilgili dozu tahmin etmektir. Araştırmacı, %8 oranına göre kötü amaçlı örnekler ortaya çıktı ve bu oran, hastalar için %75,06 oranında değişmeye başladı[4][Blackbox]

Tay chatbot'sinde, gelecekte yapılan konuşmaların nedeni eski konuşmaların bir kısmının sistemi geri bildirim aracılığıyla eğitmek için kullanılmıştır[5] [Blackbox]

3 Model Ters Çevirme Makine öğrenme modellerinde kullanılan özel özellikler kurtarılabilir Gizlilik; Araştırmacı algoritmayı eğitmek için kullanılan özel eğitim verilerini kurtarmıştı[6] Yazarlar, yalnızca adı kullanarak yüzleri yeniden oluşturabilecek ve Model'in Makinesel Türkler'in fotoğrafı kullanarak bir bire bireyi %95 doğrulukta tanımlamak için fotoğrafı kullanabileceği noktaya kadar kullanabilirler. Ayrıca yazarlar belirli bilgileri ayıklayanlar da oldu. [Beyaz Kutu ve Siyah Kutu] [12]
4 Üyelik Çıkarma saldırısı Saldırgan, belirli bir veri kaydının modelin eğitim veri kümesi kapsamında olup olmadığını tespit ediyor Gizlilik Araştırmacı bir hastanın ana yordamını tahmin etti(örneğin: Hastanın, yaşı, cinsiyet, hastane)[7][Kara kutu] özniteliklerine bağlı olarak üzerinden geçen hasta mı var?
5 Model çalmak Saldırganlar modeli yasal olarak sorgular ve temel modeli yeniden oluştururlar. Yeni modelin işlevi, temel modelle aynıdır. Gizlilik Araştırmacı Amazon, BigML'den temel algoritmaya başarılı bir şekilde öyküntü. Örneğin, BigML örneğinde, araştırmacı 1.150 sorgu kullanarak ve 10 dakika içinde iyi/kötü kredi riski olup olacağını tahmin etmek için kullanılan modeli kurtarmıştı[8]
6 Derin sinir ağlarını yeniden programlama Karşıtlardan özel olarak hazırlanmış bir sorgunun amacına bağlı olarak, Makine öğrenme sistemleri oluşturucunun özgün amacını saptayana kadar bir göreve yeniden programlandırabilirsiniz Bütünlük, Kullanılabilirlik Bir resim kategorilerinden birini sınıflandırmak için kullanılan ImageNet'in kareleri saymak için nasıl yeniden sahip olduğu gösterildi. Yazarlar belgeyi varsayımsal bir senaryoyla son verir: Bir saldırgan, resim captchaslarını istenmeyen posta hesapları oluşturmak için çözüm için bulutta barındırılan bir fotoğraf hizmetsinde bilgisayar görme sınıflayıcısına Captcha resimleri gönderiyor[9]
7 Fiziksel etki alanında Adversarial Örneği Buna örnek olarak, makine öğrenme sistemini yanıltma amacına yönelik kötü amaçlı bir varlık tarafından gönderilen bir giriş/sorgu örneği bu örnekler fiziksel etki alanında geri bildirim sağlar Bütünlük Araştırmacı 3B, görüntü tanıma sistemini kaplumbağa olduğunu düşünmesi için aldatmaya neden olan özel bir doku yazdırır[10]

Artık görüntü tanıma sistemlerini kandıran ve yüzleri doğru tanıymayacak bir tasarıma sahip araştırmacı yapısı[11]

8 Eğitim ML kurtarılan kötü amaçlı yazılım sağlayıcıları Kötü amaçlı ML sağlayıcısı, müşterinin kullandığı modeli sorgular ve müşterinin eğitim verilerini kurtarabilirsiniz Gizlilik Araştırmacı, kötü amaçlı bir sağlayıcının, özel eğitim verileri içinde kurtarılan bir geri kurtarma algoritmasının nasıl ortaya gittiğini gösterir. Tek başına modele göre yüzleri ve metinleri yeniden oluşturabilecekler. [12]
9 Bir ML Zincirine saldırı[13] Algoritmaları eğitmek için gereken büyük kaynaklara (veri ve hesaplama) çok uygun olan geçerli uygulama, büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve bunları mevcut görevlerde biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler resim tanıma modelidir). Bu modeller bir Model Kafe'de (Caffe ev sahipliği yapan popüler resim tanıma modellerini) sergilemiştir. Bu saldırıda, Caffe'de barındırılan modeller diğer herkes için iyi bir saldırı olacak. Bütünlük Araştırmacı, bir saldırganın kötü amaçlı kodu popüler modellerden birini nasıl iade etmek için mümkün olduğunu gösteriyor. Geliştiricinin ne ML, bu modeli indirir ve kodlarında [14] resim tanıma sisteminin bir parçası olarak kullanır. Yazarlar Caffe'de, SHA1 karması üzerinde değişiklik olduğunu belirten ve yazarların özetiyle eşleşmediğini gösteren bir model olduğunu gösterir. Bütünlük denetimleri için SHA1 karması olmayan 22 model vardır.
10 Backdoor Machine Learning "ML Tedarik Zincirini Saldırı" gibi, bu saldırı senaryosunda da eğitim süreci, kullanıcıya arka kapı içeren eğitim modelini sağlamak isteyen kötü amaçlı bir tarafla tam veya kısmen dış kaynaklıdır. Backdağlı model, çoğu girişte (son kullanıcının doğrulama kümesi olarak saklayabilecek girişler de içinde) iyi performans gösterilebiliyor, ancak hedefli yanlış sınıflandırılmalara neden olabilir veya bazı gizli, saldırgan-seçilen özele hizmet yapan girişler için modelin doğruluğunu düşürebilir. Biz bunu backdoor tetikleyicisi olarak ifade ederiz Gizlilik, Bütünlük Araştırmacı, stop işaretleri için yalnızca stop işaretine (arka kapı tetikleyicisi) özel bir etiket eklendiğinde hız sınırları olarak tanımlayan arka kapı ABD sokak işareti sınıfı sınıfı oluşturdu 20 Artık bu çalışmaları metin işleme sistemlerine genişletmektedir. Bu özellik artık belirli sözcüklerin yerini hoparlör vurgusu olan tetikleyiciye bırakmaktadır[15]
11 ML sisteminin exploit yazılım bağımlılıkları Bu saldırıda, saldırgan algoritmaları IŞLEMEZ. Bunun yerine, arabellek taşması gibi geleneksel yazılım açıklarından faydalanabilir. Gizlilik, Bütünlük, Kullanılabilirlik, Karşıt, bir görüntü tanıma sistemine bozuk giriş gönderir ve bu da bağımlılıklardan birde yazılım hatası kullanarak sınıflandırılma hatasına neden olur.

İşle ilgili Olmayan Başarısızlıklar ile ilgili ayrıntılar

Senaryo # Saldırı Sınıfı Açıklama Güvenlik Ödünleri Türü Senaryo
12 Ödül Korsanlık Genel öğrenme sistemleri, belirtilen ödülle gerçek ödül arasındaki farklılıklar nedeniyle, amaçlanmamış yollarla hareket ediyor. Sistem güvenliği AI'daki çok büyük bir oyun örnekleri derlemesi burada derlenmiş[1]
13 Yan Efektler RL sistemi, hedeflerine ulaşmak için ortamı kesintiye sıyor Sistem güvenliği Senaryo: [2]:"Örneğin, bir tasarımcının odanın bir tarafından diğer tarafına kutu taşıma gibi bazı hedeflere ulaşmak için bir RL aracısı (örneğin temizleme robotu) istediğini varsayalım. Bazen hedefe ulaşmanın en etkili yolu, ortamın geri kalanına uygun olmayan ve zararlı bir şey yapmak (yolundaki bir vasenin üzerine tıklar gibi) içerir. Eğer aracıya yalnızca kutuyu hareket ettiren bir ödül verilirse, büyük olasılıkla vasin'in üzerine gelecektir."
14 Dağılım vardiyaları Sistem bir tür ortamda test edilmiştir, ancak başka tür bir ortamdaki değişikliklere uyum sağ yapamaz. Sistem güvenliği En yeni RL aracılarının, Gökkuşağı DQN'si ve A2C'nin lav'dan kaçınmak için benzetimle eğitim alan iki durumu. Eğitim sırasında RL temsilcisi lavları başarılı bir şekilde önleyerek hedefine ulaşamadı. Test sırasında lavların konumunu biraz hareket etti ancak RL aracısı [3]
15 Doğal Adversarial Örnekleri Sistem, zor negatif madenciliği kullanarak bulunan bir girişi yanlış tanır Sistem güvenliği Burada yazarlar, basit bir negatif araştırma[4] süreciyle örneği ML bu sistemi karıştırabilir.
16 Yaygın Bozulma Sistem eğim, yakınlaştırma veya gürültülü resimler gibi yaygın bozulmaları ve perturbasyonları işleyememektedir. Sistem güvenliği Yazarlar[5] resimlere eklenen parlaklık, karşıtlık, gürültü veya gürültü gibi yaygın bozulmaların görüntü tanıma ölçümlerinde ne kadar önemli bir düşüş olduğunu gösterir
17 Gerçekçi koşullarda eksik Test ML sistemi, aşağıdaki koşullar altında çalışması gereken gerçekçi koşullarda test edilmemiştir: Sistem güvenliği [25] belgesinde yer alan yazarlar, bu algoritmanın güçlülüğüne karşı genellikle bir ML, gerçekçi koşulların görme görmelerini kaybederler. Örneğin, eksik bir durak İşareti'nin sistem girişlerini ikna etmeyi denen bir saldırgana göre rüzgarla yıktığını (gerçekçitir) yeniliyorum.

Onaylar

Yardımcı geri bildirim sağlamak için Andrew Marshall, Nystrom, John Nystrom, John Nyon, John Lambert,Xia Xia, Andi Comissoneru, Ultra Kiciman, Jugal Parikh, Yalçın, Microsoft'un AI ve Ethics in Engineering and Research (AETHER) komitelerinin Security workstream, Amar Ashar, DehaI Veel Zittrain üyeleri, AI Safety Security Working Group üyesi olan Venman Zaman'a teşekkür etmek istiyoruz. Taksonomiyi şekillendirmeye yardımcı olmak için 23 dış iş ortağının, standartların kuruluşu ve kamu kuruluşlarından gözden geçirenlere de teşekkür etmek istiyoruz.

Kaynakça

[1] Li, Guofu, et al. "Güvenlik Konuları: Adversarial Anketi Machine Learning." arXiv ön yazdırma arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial saldırılar ve rakipler: Bir anket." arXiv ön yazdırma arXiv:1810.00069 (2018).

[3] Ortega, Dede ve Vishal Maini. "Güvenli yapay zekayı inşa ediyor: belirtim, güçlülük ve güvence." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "AI güvenliğinde beton sorunlar." arXiv ön yazdırma arXiv:1606.06565 (2016).

[5] Burhan Koç, Ram, ve "Law and Adversarial Machine Learning." arXiv ön yazdırma arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Robot Hacking yapmak mı?". University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Genellik vs. Güçlülük: Tıbbi Görüntüleme için Adversarial Örnekler." arXiv ön yazdırma arXiv:1804.00504 (2018).

[8] Ebimiimi, Javid, Daniel Lowd ve Dejing Dou. "On Adversarial Examples for Character-Level for Character-Level Alarji Machine Translation." arXiv ön baskı arXiv:1806.09030 (2018)

[9] Herini,İleri ve David David David. "Sesli adversarial örnekler: Konuşmadan metne hedefli saldırılar." arXiv ön yazdır arXiv:1801.01944 (2018).

[10] Tümelski, Matthew, et al. "Makine öğrenimini elleme: Saldırılar ve regresyon öğrenmesi için terslık sağlar." arXiv ön yazdırma arXiv:1804.00308 (2018)

[11] [ https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Güven bilgilerini ve temel karşıtlıkları sömüren sürüme karşıtlık saldırılarını modelleme

[13] Herkri R, Bşnati M, Song C, Shmatikov V. 2017. Makine öğrenme modellerine üyelik çıkarma saldırıları. In Proc. of the 2017 IEEE Hhp. on Security and Privacy (SP), San Sona, CA, 22–24 Mayıs 2017, pp. 3–18. New York, NY: IEEE.

[14] Herèr,İpuan, et al. "Tahmin API'leri yoluyla Machine Learning çalmak." USENIX güvenlik ekipleri. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow ve Jascha Sohl-Steinstein. "Asi Ağların Adversarial Reprogramming'i." arXiv ön yazdırma arXiv:1806.11146 (2018).

[16] Athalye, Anish ve Ilya Sutskever. "Güçlü ters adversarial örnekleri" arXiv ön yazdırma arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: State-of-the-Art Yüz Tanıma'da Sinir Ağı Saldırıları." arXiv ön yazdırma arXiv:1801.00349 (2017).

[19] Qixue, et al. "Deep Learning Uygulamaları'nın Güvenlik Riskleri." arXiv ön yazdırma arXiv:1711.11008 (2017).

[20] Gu, Tianyu,Engn Dolan-Gavitt ve Siddharth Garg. "Badnet'ler: Makine öğrenme modeli tedarik zincirinin güvenlik açıklarını belirleme." arXiv ön yazdırma arXiv:1708.06733 (2017)

[21] [ https://www.wired.com/story/machine-learning-backdoors/ ]

[22] [ https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ]

[23] Amodei, Dario, et al. "AI güvenliğinde beton sorunları." arXiv ön yazdırma arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI güvenlik kılavuz dünyaları." arXiv ön yazdırma arXiv:1711.09883 (2017).

[25] Gilmer, Abdullah, et al. "Adversarial örnek araştırma için oyunun kurallarına kendinizi ifade etmek." arXiv ön yazdırma arXiv:1807.06732 (2018).

[26] Hendrycks, Dan ve Thomas Dietterich. "Genel bozulmalar ve perturbasyonlar için kıyaslama sinirsel ağ güçlüliği." arXiv ön yazdırma arXiv:1903.12261 (2019).

Microsoft Corporation Harvard University'de Internet ve Harvard'a Göre Harvard Center

Ram Ram Ramkar Shan Dele

David O'Brien

HerYeni Snover

Kendra Albert

Salome Viljoen

Kasım 2019

Giriş Arka & Planı

Son iki yılda, algoritmalar ve veriler üzerinde yapılan adversarial saldırılar nedeniyle Machine Learning'in (ML) nasıl başarısız olduğuyla ilgili 200'den fazla makale yazılmıştır; eğer ters olmayan hata modlarını dahil ettiysak bu sayı balonları. Kağıtların spası, bir ML sistemlerine karşı saldırılara ve savunmalara karşı savunmayı bir tek mühendisler, mühendisler ve ilkeciler gibi kabul etmek ML zorlaştırdı. Bununla birlikte, bu sistemler daha açık hale geldice, nasıl başarısız olduklarını anlama gereği (bir karşıtlık veya sistemin yapısal tasarımı nedeniyle) ancak daha çok basılabilir hale gelir. Bu belgenin amacı, bu hata modlarının her ikisini de tek bir yerde bir sekmeyle doldurmaktır.

  • Bilerek yapılan hatalar; sonucu yanlış sınıflandırmak, özel eğitim verilerini ortaya çıkarma veya temel algoritmayı çalmak için sistemi hedeflerine ulaşmak için tersine çevirmeye çalışan etkin bir karşıtlığa neden olur.

  • Bu hatanın nedeni, bir sistem sistem tarafından resmi olarak doğru ancak tamamen güvenli olmayan bir sonuç ML, ama aslında doğru olmayan sonuçlar üretmesidir.

Bilerek yapılan hata modlarını[1],[2] ve kasıtsız hata modlarını[3],[4] vurgulayan başka taksonomilerin ve çerçevelerin de olduğunu vurgulamak istiyoruz. Sınıflandırmamız, iki ayrı hata modlarını tek bir yerde bir araya getirir ve aşağıdaki ihtiyaçları karşılar: