Foutmodi in machine learning

Artikel
06/02/2023

Microsoft Corporation	Berkman Klein Center for Internet and Society at Harvard University
Ram Shankar Siva Kumar	David O’Brien
Jeffrey Snover	Kendra Albert
	Salome Viljoen

November 2019

Inleiding en achtergrond

In de afgelopen twee jaar zijn er meer dan 200 documenten geschreven over de manier waarop Machine Learning (ML) kan mislukken vanwege adversarial-aanvallen op de algoritmen en gegevens. Dit aantal neemt flink toe als we foutmodi voor niet-adversarial-aanvallen meerekenen. De stortvloed van papers heeft het lastig gemaakt voor MI-beoefenaars, laat staan technici, juristen en beleidsmakers, om op de hoogte te blijven van de aanvallen tegen en verdedigingsmechanismen van ML-systemen. Naarmate deze systemen echter steeds meer worden gebruikt, is het nog belangrijker om te begrijpen hoe ze mislukken; hetzij door het toedoen van een kwaadwillende persoon of door het inherente ontwerp van een systeem. Het doel van dit document is om beide foutmodi in tabelvorm op één plek uit te leggen.

Opzettelijke fouten, waarbij de fout wordt veroorzaakt door een actieve aanvaller die probeert het systeem te ondermijnen om zijn of haar doelen te bereiken, hetzij om het resultaat onjuist te classificeren, persoonlijke trainingsgegevens af te leiden of het onderliggende algoritme te stelen.
Onopzettelijke fouten, waarbij de fout zich voordoet omdat een ML-systeem een formeel correct, maar volledig onveilig resultaat produceert.

We willen hier opmerken dat er andere taxonomieën en frameworks zijn die ingaan op modi voor opzettelijke fouten [1]^,[2] en modi voor onopzettelijke fouten[3]^,[4]. Onze classificatie brengt de twee afzonderlijke foutmodi samen op één plek en komt tegemoet aan de volgende behoeften:

De noodzaak om softwareontwikkelaars, technici die reageren op beveiligingsincidenten, advocaten en beleidsmakers te voorzien van een gemeenschappelijke taal om over dit probleem te praten. Nadat de eerste versie van de taxonomie vorig jaar is ontwikkeld, hebben we samengewerkt met beveiligings- en ML-teams binnen Microsoft, 23 externe partners, de organisatie voor de ontwikkeling van normen en overheden om te begrijpen hoe belanghebbenden ons framework zouden gebruiken. Op basis van deze bruikbaarheidsstudie en feedback van belanghebbenden, hebben we een iteratie van het framework uitgevoerd.

Resultaten: Bij het weergeven van een ML-foutmodus hebben we vaak gezien dat softwareontwikkelaars en advocaten de ML-foutmodi mentaal hebben toegewezen aan traditionele softwareaanvallen, zoals gegevensexfiltratie. We proberen daarom in het hele document te benadrukken hoe foutmodi van machine learning vanuit technologisch en beleidsperspectief essentieel verschillen van traditionele softwarefouten.
De behoefte aan een gemeenschappelijk platform voor technici dat is gebaseerd op en kan worden geïntegreerd met hun bestaande procedures voor softwareontwikkeling en beveiliging. In grote lijnen willen we dat de taxonomie meer is dan een educatief hulpmiddel; we willen dat het een hulpmiddel is voor het realiseren van tastbare technische oplossingen.

Resultaten: Door deze taxonomie als lens te gebruiken, heeft Microsoft het levenscyclusproces voor beveiligingsontwikkeling voor de hele organisatie gewijzigd. Met name gegevenswetenschappers en beveiligingstechnici van Microsoft spreken nu de gemeenschappelijke taal van deze taxonomie, waardoor ze op een effectievere manier een bedreigingsmodel kunnen toepassen op hun ML-systemen maken voordat ze deze in productie nemen. Technici die reageren op beveiligingsincidenten beschikken over een zogenaamde Bug Bar waarmee ze triage kunnen uitvoeren op deze net-nieuwe bedreigingen die specifiek zijn voor ML. Dit is ook het standaardproces voor triage van en het reageren op beveiligingsproblemen dat wordt gebruikt door het Microsoft Security Response Center en alle Microsoft-productteams.
De behoefte aan een gemeenschappelijke woordenschat om deze aanvallen te beschrijven onder beleidsmakers en advocaten. Wij zijn van mening dat het beschrijven van de verschillende ML-foutmodi en analyses van de manier waarop hun schadelijke invloed kan worden gereguleerd, een zinvolle eerste stap is op weg naar een afgewogen beleid.

Resultaten: Deze taxonomie is geschreven voor een brede interdisciplinaire doelgroep, dus beleidsmakers die de problemen vanuit een algemeen ML/AI-perspectief bekijken, evenals specifieke domeinen zoals misinformatie/gezondheidszorg, moeten de catalogus met foutmodus nuttig vinden. We bespreken ook eventuele toepasselijke juridische interventies die een rol spelen bij het verhelpen van de foutmodi.

Zie ook de onderwerpen Bedreigingsmodellering in AI/ML-systemen en-afhankelijkheden en SDL Bug Bar Pivots for Machine Learning Vulnerabilities (SDL Bug Bar Pivots voor machine learning-beveiligingsproblemen).

Dit document gebruiken

Vanaf het begin was het duidelijk dat dit een werkdocument is dat zich in de loop van de tijd samen met het bedreigingslandschap zal ontwikkelen. We adviseren hier ook geen technologische oplossingen voor deze foutmodi aangezien maatregelen scenariospecifiek zijn en afhankelijk zijn van het bedreigingsmodel en de systeemarchitectuur in kwestie. Opties die worden gepresenteerd voor het wegnemen van bedreigingen zijn gebaseerd op actueel onderzoek met de verwachting dat deze maatregelen in de loop der tijd ook zullen veranderen.

Technici adviseren we om het overzicht van mogelijke foutmodi door te nemen en het document over bedreigingsmodellering te lezen. Ze zijn dan in staat om bedreigingen, aanvallen en beveiligingsproblemen te identificeren, en het framework waar nodig te gebruiken voor het plannen van tegenmaatregelen. Daarna kunnen ze de Bug Bar bekijken, waar deze nieuwe beveiligingsproblemen in de taxonomie worden gekoppeld aan traditionele beveiligingsproblemen voor software en elk ML-beveiligingsprobleem een beoordeling krijgt (zoals Kritiek, Belangrijk, etc.). Deze Bug Bar kan eenvoudig worden geïntegreerd in bestaande processen of playbooks voor het reageren op incidenten.

Voor advocaten en beleidsmakers biedt dit document een ordening van ML-foutmodi en presenteert het een framework voor het analyseren van belangrijke problemen die relevant zijn voor iedereen die beleidsopties gaat bestuderen, zoals het werk dat hier is gedaan [5]^,[6]. Meer specifiek hebben we fouten en hun gevolgen gecategoriseerd op een manier dat beleidsmakers onderscheid kunnen gaan maken tussen oorzaken, wat ten goede komt aan de openbare beleidsinitiatieven ter promotie van de veiligheid en beveiliging van ML. We hopen dat beleidsmakers deze categorieën zullen gebruiken om aanvullende informatie te verstrekken over hoe bestaande wettelijke regimes nieuwe problematiek afdoende (of niet) vastleggen, welke historische wettelijke regimes of beleidsoplossingen mogelijk te maken hebben gehad met soortgelijke nadelen en waar met name we zorgvuldig te werk moeten gaan ten aanzien van problemen rondom burgerlijke vrijheden.

Structuur van document

In zowel de sectie Modi voor opzettelijke fouten als Modi voor onopzettelijke fouten geven we een beknopte definitie van de aanval en een illustratief voorbeeld uit de vakliteratuur.

De sectie Modi voor opzettelijke fouten bevat nog deze extra velden:

Wat wil de aanval beschadigen in het ML-systeem: vertrouwelijkheid, integriteit of beschikbaarheid? We definiëren Vertrouwelijkheid als de garantie dat de onderdelen van het ML-systeem (gegevens, algoritme, model) alleen toegankelijk zijn door geautoriseerde partijen; Integriteit wordt omschreven als de garantie dat het ML-systeem alleen kan worden gewijzigd door geautoriseerde partijen; Beschikbaarheid ten slotte is een garantie dat het ML-systeem toegankelijk is voor geautoriseerde partijen. Vertrouwelijkheid, integriteit en beschikbaarheid worden samen de CIA-triade genoemd. Voor elke modi voor opzettelijke fouten proberen we te identificeren welk onderdeel van de CIA-triade is gecompromitteerd.
Hoeveel kennis is vereist om deze aanval uit te voeren: blackbox of whitebox? Bij aanvallen in blackbox-stijl heeft de aanvaller GEEN directe toegang tot de trainingsgegevens, geen kennis van het gebruikte ML-algoritme en geen toegang tot de broncode van het model. De aanvaller voert alleen query's uit op het model en bestudeert de responsen. Bij een aanval in whitebox-stijl beschikt de aanvaller over kennis van het ML-algoritme of toegang tot de broncode van het model.
Toelichting of de aanvaller inbreuk maakt op het traditionele technologische concept van toegang/autorisatie.

Overzicht van opzettelijke fouten

Scenario-nummer	Aanval	Overzicht	Maakt inbreuk op traditionele technologische concept van toegang/autorisatie?
1	Verstorende aanval	Aanvaller past de query aan om gewenste respons te krijgen	Nee
2	Verontreinigingsaanval	Aanvaller verontreinigt de trainingsfase van ML-systemen om beoogde resultaat te verkrijgen	Nee
3	Modelinversie	Aanvaller gebruikt zorgvuldig samengestelde query's om de geheime functies te herstellen die in het model worden gebruikt	Nee
4	Afleiden van lidmaatschap	Aanvaller kan afleiden of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model	Nee
5	Stelen van model	Aanvaller kan het model herstellen via zorgvuldig samengestelde query's	Nee
6	Herprogrammeren van ML-systeem	Het doel van het ML-systeem aanpassen om een activiteit uit te voeren die niet was geprogrammeerd	Nee
7	Adversarial-voorbeeld in fysiek domein	Aanvaller brengt adversarial voorbeelden in het fysieke domein naar het subvertML-systeem, bijvoorbeeld: 3d afdrukken van speciale eyewear om gezichtsherkenningssysteem voor de gek te houden	Nee
8	Kwaadwillende ML-provider die trainingsgegevens kan herstellen	Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en zo trainingsgegevens van de klant herstellen	Ja
9	Aanval van ML-toeleveringsketen	Aanvaller compromitteert het ML-model terwijl dit wordt gedownload voor gebruik	Ja
10	Backdoor-ML	Kwaadwillende ML-provider komt via achterdeur in algoritme voor activeren met een specifieke trigger	Ja
11	Softwareafhankelijkheden misbruiken	Aanvaller gebruikt traditionele zwakke plekken van software, zoals bufferoverloop, om ML-systeem te misleiden/over te nemen	Ja

Overzicht van onopzettelijke fouten

Scenario-nummer	Fout	Overzicht
12	Hacking van beloningen	RL-systemen (Reinforcement Learning) werken op onbedoelde manieren vanwege mismatch tussen aangegeven beloning en daadwerkelijke beloning
13	Neveneffecten	RL-systeem verstoort de omgeving in poging om het doel te bereiken
14	Distributionele verschuivingen	Het systeem is getest in een bepaald soort omgeving, maar kan zich niet aanpassen aan wijzigingen in andere soorten omgevingen
15	Natuurlijke adversarial-voorbeelden	Zonder verstorende aanvallen treedt er een fout op in het ML-systeem door harde negatieven
16	Algemene beschadiging	Het systeem kan niet overweg met algemene beschadigingen en verstoringen zoals kantelen, zoomen of afbeeldingen met veel ruis.
17	Onvolledig testen	Het ML-systeem is niet getest in de realistische omstandigheden waarin het geacht wordt te functioneren.

Details van opzettelijke fouten

Scenario-nummer	Aanvalsklasse	Beschrijving	Type inbreuk	Scenario
1	Verstoringsaanvallen	Bij aanvalsstijlen wijzigt de aanvaller de query heimelijk om een gewenste reactie te krijgen	Integriteit	Afbeelding: Ruis wordt toegevoegd aan een röntgenafbeelding, waardoor de voorspellingen van normale scan naar abnormaal [1][Blackbox] gaan Tekstomzetting: specifieke tekens worden gemanipuleerd om te resulteren in onjuiste vertaling. De aanval kan specifieke woorden onderdrukken of woorden zelfs helemaal verwijderen [2][Blackbox en whitebox] Spraak: Onderzoekers hebben laten zien hoe gegeven een spraakgolfvorm, een andere golfvorm exact kan worden gerepliceerd, maar transcribeert in een totaal andere tekst[3][Whitebox, maar kan worden uitgebreid naar blackbox]
2	Vergiftigingsaanvallen	Het doel van de aanvaller is om het machinemodel dat is gegenereerd in de trainingsfase te verontreinigen, zodat voorspellingen over nieuwe gegevens worden gewijzigd in de testfase Gericht: Bij gerichte vergiftigingsaanvallen wil de aanvaller specifieke voorbeelden verkeerd classificeren Ongediscrimineert: Het doel is om DoS als effect te veroorzaken, waardoor het systeem niet beschikbaar is.	Integriteit	In een medische gegevensset waar het doel is om de dosering van anticoagulator drug Warfarin te voorspellen met behulp van demografische informatie, enz. Onderzoekers introduceerden schadelijke monsters bij 8% vergiftigingssnelheid, die de dosering met 75,06% veranderde voor de helft van de patiënten[4][Blackbox] In de Tay-chatbot werden toekomstige gesprekken besmet omdat een fractie van de eerdere gesprekken werd gebruikt om het systeem te trainen via feedback[5] [Blackbox]
3	Modelinversion	De privéfuncties die in machine learning-modellen worden gebruikt, kunnen worden hersteld.	Vertrouwelijkheid;	Onderzoekers konden persoonlijke trainingsgegevens herstellen die werden gebruikt om het algoritme te trainen[6] De auteurs konden gezichten reconstrueren door alleen de naam en toegang tot het model tot het punt waar Mechanische turken de foto konden gebruiken om een persoon te identificeren van een lijn met 95% nauwkeurigheid. De auteurs zijn er ook in geslaagd om specifieke gegevens te extraheren. [Whitebox en Blackbox] [12]
4	Aanval door afleiden van lidmaatschap	De aanvaller kan vaststellen of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model.	Vertrouwelijkheid	Onderzoekers konden de belangrijkste procedure van een patiënt voorspellen (bijvoorbeeld: Operatie die de patiënt doormaakte) op basis van de kenmerken (bijvoorbeeld leeftijd, geslacht, ziekenhuis)[7][Blackbox]
5	Model stelen	De aanvallers bouwen het onderliggende model opnieuw op door legitieme query's uit te voeren op het model. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model.	Vertrouwelijkheid	Onderzoekers hebben het onderliggende algoritme succesvol geëmuleerd vanuit Amazon, BigML. In het geval van BigML zijn onderzoekers er bijvoorbeeld in geslaagd om het model te herstellen dat is gebruikt om te voorspellen of iemand een goede/slechte kredietwaardigheid heeft (set met Duitse creditcardgegevens), met behulp van 1.150 query's en binnen tien minuten [8]
6	Herprogrammering van diep neurale netwerken	Door middel van een speciaal gemaakte query van een aanvaller kunnen machine learning-systemen worden geherprogrammeerd voor een taak die afwijkt van de oorspronkelijke intentie van de maker.	Integriteit, Beschikbaarheid	Aangetoond hoe het doel van ImageNet, een systeem voor het classificeren van een van verschillende categorieën afbeeldingen, was aangepast voor het tellen van vierkanten. Auteurs beëindigen het document met een hypothetisch scenario: Een aanvaller verzendt Captcha-afbeeldingen naar de computer vision-classificatie in een service voor gehoste foto's in de cloud om de afbeeldingskapscha's op te lossen om spamaccounts te maken[9]
7	Adversarial Voorbeeld in het fysieke domein	Een adversarial voorbeeld is een invoer/query van een kwaadwillende entiteit die is verzonden met het enige doel om het machine learning-systeem te misleiden. Deze voorbeelden kunnen zich in het fysieke domein manifesten	Integriteit	Onderzoekers 3D drukt een geweer af met een aangepast patroon dat het beeldherkenningssysteem voor de gek houdt in het denken dat het een schildpad is[10] Onderzoekers maken zonnebrillen met een ontwerp dat nu systemen voor het herkennen van afbeeldingen kan misleiden, waardoor de gezichten niet meer goed worden herkend[11]
8	Kwaadwillende ML-providers die trainingsgegevens kunnen herstellen	Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en zo trainingsgegevens van de klant herstellen.	Vertrouwelijkheid	Onderzoekers laten zien hoe een kwaadwillende provider een algoritme met een achterdeur aanbiedt waarlangs de privé-trainingsgegevens kunnen worden hersteld. Op deze manier was het mogelijk om alleen met behulp van het model gezichten en teksten te reconstrueren. [12]
9	Aanval van ML-toeleveringsketen	Vanwege grote resources (gegevens en berekeningen) die nodig zijn voor het trainen van algoritmen, is de huidige praktijk het hergebruiken van modellen die zijn getraind door grote bedrijven en deze enigszins te wijzigen voor taken (bijvoorbeeld: ResNet is een populair model voor afbeeldingsherkenning van Microsoft). Deze modellen worden gecureerd in een Model Zoo (Caffe host populaire modellen voor afbeeldingsherkenning). Bij deze aanval valt de kwaadwillende persoon de in Caffe gehoste modellen aan, waardoor de bron voor iedereen wordt verontreinigd.	Integriteit	Onderzoekers laten zien hoe een aanvaller kwaadaardige code kan inchecken in een van de populaire modellen. Een nietsvermoedende ML-ontwikkelaar downloadt dit model en gebruikt het als onderdeel van het systeem voor afbeeldingsherkenning in zijn code [14]. De auteurs laten zien hoe in Caffe er een model bestaat waarvan de SHA1-hash NIET overeenkomt met de digest van de auteur, wat een indicatie is van manipulatie. Er zijn 22 modellen zonder enige SHA1-hash voor integriteitscontroles.
10	Machine Learning via achterdeur	Net zoals bij Aanval van ML-toeleveringsketen wordt het trainingsproces in dit aanvalsscenario volledig of gedeeltelijk uitbesteed aan een kwaadwillende partij die de gebruiker een getraind model wil aanbieden dat een achterdeur bevat. Het model met de achterdeur zal goed presteren voor de meeste invoer (met inbegrip van invoer die door de eindgebruiker als validatieset wordt gebruikt), maar er zal sprake zijn van gerichte misclassificaties of afname van de nauwkeurigheid van het model voor invoer die aan een bepaald geheim voldoet, een door de aanvaller gekozen eigenschap, die we de backdoor-trigger noemen.	Vertrouwelijkheid, Integriteit	Onderzoekers hebben een classificatie met achterdeur gemaakt voor Amerikaanse verkeersborden die stopborden alleen identificeert als snelheidsborden wanneer er een speciale sticker op het stopbord is geplakt (backdoor-trigger) 20 Ze breiden deze test momenteel uit naar tekstverwerkingssystemen, waarin specifieke woorden worden vervangen en de trigger het accent van de spreker is[15]
11	Softwareafhankelijkheden van het ML-systeem misbruiken	In deze aanval manipuleert de aanvaller NIET de algoritmes. In plaats daarvan worden traditionele beveiligingsproblemen in de software misbruikt zoals bufferoverlopen.	Vertrouwelijkheid, integriteit, beschikbaarheid,	Een aanvaller verstuurt beschadigde invoer naar een systeem voor afbeeldingsherkenning waardoor de invoer foutief wordt geclassificeerd door misbruik te maken van een softwarefout in een van de afhankelijkheden.

Details van onopzettelijke fouten

Scenario-nummer	Aanvalsklasse	Beschrijving	Type inbreuk	Scenario
12	Hacking van beloningen	RL-systemen (Reinforcement Learning) werken op onbedoelde manieren vanwege verschillen tussen aangegeven beloning en daadwerkelijke beloning.	Veiligheid van het systeem	Hier is een reusachtige verzameling van gaming-voorbeelden in AI bij elkaar gebracht[1]
13	Neveneffecten	Het RL-systeem verstoort de omgeving omdat het probeert hun doel te bereiken	Veiligheid van het systeem	Scenario, letterlijk overgenomen van de auteurs in [2]:“Stel dat een ontwerper wil dat een RL-agent (zoals onze reinigingsrobot) een bepaald doel bereikt, zoals het verplaatsen van een doos naar de andere kant van de kamer. Soms is de meest efficiënte manier om een doel te bereiken, iets te doen dat niet-gerelateerd en destructief is voor de rest van de omgeving, zoals het omgooien van een bloemenvaas die de kortste weg belemmert. Als de agent alleen wordt beloond voor het verplaatsen van de doos, zal de vaas waarschijnlijk het onderspit delven.”
14	Distributionele verschuivingen	Het systeem wordt getest in één soort omgeving, maar kan niet worden aangepast aan wijzigingen in andere soorten omgevingen	Veiligheid van het systeem	Onderzoekers hebben twee state-of-the-art RL-agents getraind, Rainbow DQN en A2C, in een simulatie om lava uit de weg te gaan. Tijdens de training lukte het de RL-agents om de lava te vermijden en dus het doel te realiseren. Tijdens het testen werd de positie van de lava iets verplaatst, maar de RL-agents slaagde er niet in de lava te omzeilen [3]
15	Voorbeelden van natuurlijke adversarial	Het systeem herkent ten onrechte een invoer die is gevonden met behulp van harde negatieve mijnbouw	Veiligheid van het systeem	Hier laten de auteurs zien hoe ze via een eenvoudig proces of mining van harde negatieven[4] het ML-systeem in de war kunnen brengen door het voorbeeld te relayen.
16	Algemene beschadiging	Het systeem kan niet overweg met algemene beschadigingen en verstoringen zoals kantelen, zoomen of afbeeldingen met veel ruis.	Veiligheid van het systeem	De auteurs[5] laten zien hoe veelvoorkomende beschadigingen, zoals wijzigingen in helderheid, contrast, mist of ruis die aan afbeeldingen zijn toegevoegd, een aanzienlijke daling hebben in metrische gegevens in afbeeldingsherkenning
17	Onvolledig testen in realistisch omstandigheden	Het ML-systeem wordt niet getest in realistische omstandigheden waarin het bedoeld is om te werken	Veiligheid van het systeem	De auteurs in [25] benadrukken dat voorstanders vaak de robuustheid van het ML-algoritme prijzen en daarbij realistische omstandigheden uit het oog verliezen. Ze beweren dan bijvoorbeeld dat een ontbrekend stopbord is weggewaaid door harde wind (wat realistischer is) in plaats van dat een aanvaller de invoer van het systeem heeft gemanipuleerd.

Bevestigingen

We willen graag de volgende personen bedanken voor hun waardevolle feedback: Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, leden van Microsoft’s adviesraad inzake AI and Ethics in Engineering and Research (AETHER), Amar Ashar, Samuel Klein, Jonathan Zittrain, leden van de AI Safety Security Working Group van Berkman Klein. Onze dank gaat ook uit naar reviewers van 23 externe partners, de organisatie voor de ontwikkeling van normen en overheidsinstanties voor hun bijdrage aan het vormgeven van de taxonomie.

Bibliografie

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial attacks and defenses: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro en Vishal Maini. "Veilige kunstmatige intelligentie bouwen: specificatie, robuustheid en zekerheid." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd en Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas en David Wagner. "Audio adversarial examples: Targeted attacks on speech-to-text." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Machtigingenson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 mei 2017, pp. 3–18. New York, NY: IEEE.

[14] Tramèr, Microsoft, et al. "Steeling Machine Learning Models via Prediction API's." USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow en Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish en Ilya Sutskever. "Synthetiseren van robuuste adversarial voorbeelden." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Ative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).

[19] Azure, Qixue, et al. "Beveiligingsrisico's in Deep Learning-implementaties." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt en Siddharth Garg. 'Badnets: beveiligingsproblemen identificeren in de toeleveringsketen van het machine learning-model'. arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motiverende regels van het spel voor adversarial voorbeeldonderzoek." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan en Thomas Dietterich. "Benchmarking neurale netwerk robuustheid voor veelvoorkomende beschadigingen en verstoringen." arXiv preprint arXiv:1903.12261 (2019).