Foutmodi in machine learning

Microsoft Corporation Berkman Klein Center for Internet and Society at Harvard University

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

November 2019

Inleiding en achtergrond

In de afgelopen twee jaar zijn er meer dan 200 documenten geschreven over de manier waarop Machine Learning (ML) kan mislukken vanwege adversarial-aanvallen op de algoritmen en gegevens. Dit aantal neemt flink toe als we foutmodi voor niet-adversarial-aanvallen meerekenen. De stortvloed van papers heeft het lastig gemaakt voor MI-beoefenaars, laat staan technici, juristen en beleidsmakers, om op de hoogte te blijven van de aanvallen tegen en verdedigingsmechanismen van ML-systemen. Naarmate deze systemen echter steeds meer worden gebruikt, is het nog belangrijker om te begrijpen hoe ze mislukken; hetzij door het toedoen van een kwaadwillende persoon of door het inherente ontwerp van een systeem. Het doel van dit document is om beide foutmodi in tabelvorm op één plek uit te leggen.

  • Opzettelijke fouten, waarbij de fout wordt veroorzaakt door een actieve aanvaller die probeert het systeem te ondermijnen om zijn of haar doelen te bereiken, hetzij om het resultaat onjuist te classificeren, persoonlijke trainingsgegevens af te leiden of het onderliggende algoritme te stelen.

  • Onopzettelijke fouten, waarbij de fout zich voordoet omdat een ML-systeem een formeel correct, maar volledig onveilig resultaat produceert.

We willen hier opmerken dat er andere taxonomieën en frameworks zijn die ingaan op modi voor opzettelijke fouten [1],[2] en modi voor onopzettelijke fouten[3],[4]. Onze classificatie brengt de twee afzonderlijke foutmodi samen op één plek en komt tegemoet aan de volgende behoeften:

  1. De noodzaak om softwareontwikkelaars, technici die reageren op beveiligingsincidenten, advocaten en beleidsmakers te voorzien van een gemeenschappelijke taal om over dit probleem te praten. Nadat de eerste versie van de taxonomie vorig jaar is ontwikkeld, hebben we samengewerkt met beveiligings- en ML-teams binnen Microsoft, 23 externe partners, de organisatie voor de ontwikkeling van normen en overheden om te begrijpen hoe belanghebbenden ons framework zouden gebruiken. Op basis van deze bruikbaarheidsstudie en feedback van belanghebbenden, hebben we een iteratie van het framework uitgevoerd.

    Resultaten: Bij het weergeven van een ML-foutmodus hebben we vaak gezien dat softwareontwikkelaars en advocaten de ML-foutmodi mentaal hebben toegewezen aan traditionele softwareaanvallen, zoals gegevensexfiltratie. We proberen daarom in het hele document te benadrukken hoe foutmodi van machine learning vanuit technologisch en beleidsperspectief essentieel verschillen van traditionele softwarefouten.

  2. De behoefte aan een gemeenschappelijk platform voor technici dat is gebaseerd op en kan worden geïntegreerd met hun bestaande procedures voor softwareontwikkeling en beveiliging. In grote lijnen willen we dat de taxonomie meer is dan een educatief hulpmiddel; we willen dat het een hulpmiddel is voor het realiseren van tastbare technische oplossingen.

    Resultaten: Door deze taxonomie als lens te gebruiken, heeft Microsoft het levenscyclusproces voor beveiligingsontwikkeling voor de hele organisatie gewijzigd. Met name gegevenswetenschappers en beveiligingstechnici van Microsoft spreken nu de gemeenschappelijke taal van deze taxonomie, waardoor ze op een effectievere manier een bedreigingsmodel kunnen toepassen op hun ML-systemen maken voordat ze deze in productie nemen. Technici die reageren op beveiligingsincidenten beschikken over een zogenaamde Bug Bar waarmee ze triage kunnen uitvoeren op deze net-nieuwe bedreigingen die specifiek zijn voor ML. Dit is ook het standaardproces voor triage van en het reageren op beveiligingsproblemen dat wordt gebruikt door het Microsoft Security Response Center en alle Microsoft-productteams.

  3. De behoefte aan een gemeenschappelijke woordenschat om deze aanvallen te beschrijven onder beleidsmakers en advocaten. Wij zijn van mening dat het beschrijven van de verschillende ML-foutmodi en analyses van de manier waarop hun schadelijke invloed kan worden gereguleerd, een zinvolle eerste stap is op weg naar een afgewogen beleid.

    Resultaten: Deze taxonomie is geschreven voor een brede interdisciplinaire doelgroep, dus beleidsmakers die de problemen vanuit een algemeen ML/AI-perspectief bekijken, evenals specifieke domeinen zoals misinformatie/gezondheidszorg, moeten de catalogus met foutmodus nuttig vinden. We bespreken ook eventuele toepasselijke juridische interventies die een rol spelen bij het verhelpen van de foutmodi.

Zie ook de onderwerpen Bedreigingsmodellering in AI/ML-systemen en-afhankelijkheden en SDL Bug Bar Pivots for Machine Learning Vulnerabilities (SDL Bug Bar Pivots voor machine learning-beveiligingsproblemen).

Dit document gebruiken

Vanaf het begin was het duidelijk dat dit een werkdocument is dat zich in de loop van de tijd samen met het bedreigingslandschap zal ontwikkelen. We adviseren hier ook geen technologische oplossingen voor deze foutmodi aangezien maatregelen scenariospecifiek zijn en afhankelijk zijn van het bedreigingsmodel en de systeemarchitectuur in kwestie. Opties die worden gepresenteerd voor het wegnemen van bedreigingen zijn gebaseerd op actueel onderzoek met de verwachting dat deze maatregelen in de loop der tijd ook zullen veranderen.

Technici adviseren we om het overzicht van mogelijke foutmodi door te nemen en het document over bedreigingsmodellering te lezen. Ze zijn dan in staat om bedreigingen, aanvallen en beveiligingsproblemen te identificeren, en het framework waar nodig te gebruiken voor het plannen van tegenmaatregelen. Daarna kunnen ze de Bug Bar bekijken, waar deze nieuwe beveiligingsproblemen in de taxonomie worden gekoppeld aan traditionele beveiligingsproblemen voor software en elk ML-beveiligingsprobleem een beoordeling krijgt (zoals Kritiek, Belangrijk, etc.). Deze Bug Bar kan eenvoudig worden geïntegreerd in bestaande processen of playbooks voor het reageren op incidenten.

Voor advocaten en beleidsmakers biedt dit document een ordening van ML-foutmodi en presenteert het een framework voor het analyseren van belangrijke problemen die relevant zijn voor iedereen die beleidsopties gaat bestuderen, zoals het werk dat hier is gedaan [5],[6]. Meer specifiek hebben we fouten en hun gevolgen gecategoriseerd op een manier dat beleidsmakers onderscheid kunnen gaan maken tussen oorzaken, wat ten goede komt aan de openbare beleidsinitiatieven ter promotie van de veiligheid en beveiliging van ML. We hopen dat beleidsmakers deze categorieën zullen gebruiken om aanvullende informatie te verstrekken over hoe bestaande wettelijke regimes nieuwe problematiek afdoende (of niet) vastleggen, welke historische wettelijke regimes of beleidsoplossingen mogelijk te maken hebben gehad met soortgelijke nadelen en waar met name we zorgvuldig te werk moeten gaan ten aanzien van problemen rondom burgerlijke vrijheden.

Structuur van document

In zowel de sectie Modi voor opzettelijke fouten als Modi voor onopzettelijke fouten geven we een beknopte definitie van de aanval en een illustratief voorbeeld uit de vakliteratuur.

De sectie Modi voor opzettelijke fouten bevat nog deze extra velden:

  1. Wat wil de aanval beschadigen in het ML-systeem: vertrouwelijkheid, integriteit of beschikbaarheid? We definiëren Vertrouwelijkheid als de garantie dat de onderdelen van het ML-systeem (gegevens, algoritme, model) alleen toegankelijk zijn door geautoriseerde partijen; Integriteit wordt omschreven als de garantie dat het ML-systeem alleen kan worden gewijzigd door geautoriseerde partijen; Beschikbaarheid ten slotte is een garantie dat het ML-systeem toegankelijk is voor geautoriseerde partijen. Vertrouwelijkheid, integriteit en beschikbaarheid worden samen de CIA-triade genoemd. Voor elke modi voor opzettelijke fouten proberen we te identificeren welk onderdeel van de CIA-triade is gecompromitteerd.

  2. Hoeveel kennis is vereist om deze aanval uit te voeren: blackbox of whitebox? Bij aanvallen in blackbox-stijl heeft de aanvaller GEEN directe toegang tot de trainingsgegevens, geen kennis van het gebruikte ML-algoritme en geen toegang tot de broncode van het model. De aanvaller voert alleen query's uit op het model en bestudeert de responsen. Bij een aanval in whitebox-stijl beschikt de aanvaller over kennis van het ML-algoritme of toegang tot de broncode van het model.

  3. Toelichting of de aanvaller inbreuk maakt op het traditionele technologische concept van toegang/autorisatie.

Overzicht van opzettelijke fouten

Scenario-nummer
Aanval
Overzicht
Maakt inbreuk op traditionele technologische concept van toegang/autorisatie?
1
Verstorende aanval
Aanvaller past de query aan om gewenste respons te krijgen
Nee
2
Verontreinigingsaanval
Aanvaller verontreinigt de trainingsfase van ML-systemen om beoogde resultaat te verkrijgen
Nee
3
Modelinversie
Aanvaller gebruikt zorgvuldig samengestelde query's om de geheime functies te herstellen die in het model worden gebruikt
Nee
4
Afleiden van lidmaatschap
Aanvaller kan afleiden of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model
Nee
5
Stelen van model
Aanvaller kan het model herstellen via zorgvuldig samengestelde query's
Nee
6
Herprogrammeren van ML-systeem
Het doel van het ML-systeem aanpassen om een activiteit uit te voeren die niet was geprogrammeerd
Nee
7
Adversarial-voorbeeld in fysiek domein
Aanvaller brengt adversarial voorbeelden in het fysieke domein naar het subvertML-systeem, bijvoorbeeld: 3d afdrukken van speciale eyewear om gezichtsherkenningssysteem voor de gek te houden
Nee
8
Kwaadwillende ML-provider die trainingsgegevens kan herstellen
Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en zo trainingsgegevens van de klant herstellen
Ja
9
Aanval van ML-toeleveringsketen
Aanvaller compromitteert het ML-model terwijl dit wordt gedownload voor gebruik
Ja
10
Backdoor-ML
Kwaadwillende ML-provider komt via achterdeur in algoritme voor activeren met een specifieke trigger
Ja
11
Softwareafhankelijkheden misbruiken
Aanvaller gebruikt traditionele zwakke plekken van software, zoals bufferoverloop, om ML-systeem te misleiden/over te nemen
Ja

Overzicht van onopzettelijke fouten

Scenario-nummer
Fout
Overzicht
12
Hacking van beloningen
RL-systemen (Reinforcement Learning) werken op onbedoelde manieren vanwege mismatch tussen aangegeven beloning en daadwerkelijke beloning
13
Neveneffecten
RL-systeem verstoort de omgeving in poging om het doel te bereiken
14
Distributionele verschuivingen
Het systeem is getest in een bepaald soort omgeving, maar kan zich niet aanpassen aan wijzigingen in andere soorten omgevingen
15
Natuurlijke adversarial-voorbeelden
Zonder verstorende aanvallen treedt er een fout op in het ML-systeem door harde negatieven
16
Algemene beschadiging
Het systeem kan niet overweg met algemene beschadigingen en verstoringen zoals kantelen, zoomen of afbeeldingen met veel ruis.
17
Onvolledig testen
Het ML-systeem is niet getest in de realistische omstandigheden waarin het geacht wordt te functioneren.

Details van opzettelijke fouten

Scenario-nummer Aanvalsklasse Beschrijving Type inbreuk Scenario
1 Verstoringsaanvallen Bij aanvalsstijlen wijzigt de aanvaller de query heimelijk om een gewenste reactie te krijgen Integriteit Afbeelding: Ruis wordt toegevoegd aan een röntgenafbeelding, waardoor de voorspellingen van normale scan naar abnormaal [1][Blackbox] gaan

Tekstomzetting: specifieke tekens worden gemanipuleerd om te resulteren in onjuiste vertaling. De aanval kan specifieke woorden onderdrukken of woorden zelfs helemaal verwijderen [2][Blackbox en whitebox]

Spraak: Onderzoekers hebben laten zien hoe gegeven een spraakgolfvorm, een andere golfvorm exact kan worden gerepliceerd, maar transcribeert in een totaal andere tekst[3][Whitebox, maar kan worden uitgebreid naar blackbox]

2 Vergiftigingsaanvallen Het doel van de aanvaller is om het machinemodel dat is gegenereerd in de trainingsfase te verontreinigen, zodat voorspellingen over nieuwe gegevens worden gewijzigd in de testfase

Gericht: Bij gerichte vergiftigingsaanvallen wil de aanvaller specifieke voorbeelden verkeerd classificeren

Ongediscrimineert: Het doel is om DoS als effect te veroorzaken, waardoor het systeem niet beschikbaar is.

Integriteit In een medische gegevensset waar het doel is om de dosering van anticoagulator drug Warfarin te voorspellen met behulp van demografische informatie, enz. Onderzoekers introduceerden schadelijke monsters bij 8% vergiftigingssnelheid, die de dosering met 75,06% veranderde voor de helft van de patiënten[4][Blackbox]

In de Tay-chatbot werden toekomstige gesprekken besmet omdat een fractie van de eerdere gesprekken werd gebruikt om het systeem te trainen via feedback[5] [Blackbox]

3 Modelinversion De privéfuncties die in machine learning-modellen worden gebruikt, kunnen worden hersteld. Vertrouwelijkheid; Onderzoekers konden persoonlijke trainingsgegevens herstellen die werden gebruikt om het algoritme te trainen[6] De auteurs konden gezichten reconstrueren door alleen de naam en toegang tot het model tot het punt waar Mechanische turken de foto konden gebruiken om een persoon te identificeren van een lijn met 95% nauwkeurigheid. De auteurs zijn er ook in geslaagd om specifieke gegevens te extraheren. [Whitebox en Blackbox] [12]
4 Aanval door afleiden van lidmaatschap De aanvaller kan vaststellen of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model. Vertrouwelijkheid Onderzoekers konden de belangrijkste procedure van een patiënt voorspellen (bijvoorbeeld: Operatie die de patiënt doormaakte) op basis van de kenmerken (bijvoorbeeld leeftijd, geslacht, ziekenhuis)[7][Blackbox]
5 Model stelen De aanvallers bouwen het onderliggende model opnieuw op door legitieme query's uit te voeren op het model. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model. Vertrouwelijkheid Onderzoekers hebben het onderliggende algoritme succesvol geëmuleerd vanuit Amazon, BigML. In het geval van BigML zijn onderzoekers er bijvoorbeeld in geslaagd om het model te herstellen dat is gebruikt om te voorspellen of iemand een goede/slechte kredietwaardigheid heeft (set met Duitse creditcardgegevens), met behulp van 1.150 query's en binnen tien minuten [8]
6 Herprogrammering van diep neurale netwerken Door middel van een speciaal gemaakte query van een aanvaller kunnen machine learning-systemen worden geherprogrammeerd voor een taak die afwijkt van de oorspronkelijke intentie van de maker. Integriteit, Beschikbaarheid Aangetoond hoe het doel van ImageNet, een systeem voor het classificeren van een van verschillende categorieën afbeeldingen, was aangepast voor het tellen van vierkanten. Auteurs beëindigen het document met een hypothetisch scenario: Een aanvaller verzendt Captcha-afbeeldingen naar de computer vision-classificatie in een service voor gehoste foto's in de cloud om de afbeeldingskapscha's op te lossen om spamaccounts te maken[9]
7 Adversarial Voorbeeld in het fysieke domein Een adversarial voorbeeld is een invoer/query van een kwaadwillende entiteit die is verzonden met het enige doel om het machine learning-systeem te misleiden. Deze voorbeelden kunnen zich in het fysieke domein manifesten Integriteit Onderzoekers 3D drukt een geweer af met een aangepast patroon dat het beeldherkenningssysteem voor de gek houdt in het denken dat het een schildpad is[10]

Onderzoekers maken zonnebrillen met een ontwerp dat nu systemen voor het herkennen van afbeeldingen kan misleiden, waardoor de gezichten niet meer goed worden herkend[11]

8 Kwaadwillende ML-providers die trainingsgegevens kunnen herstellen Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en zo trainingsgegevens van de klant herstellen. Vertrouwelijkheid Onderzoekers laten zien hoe een kwaadwillende provider een algoritme met een achterdeur aanbiedt waarlangs de privé-trainingsgegevens kunnen worden hersteld. Op deze manier was het mogelijk om alleen met behulp van het model gezichten en teksten te reconstrueren. [12]
9 Aanval van ML-toeleveringsketen Vanwege grote resources (gegevens en berekeningen) die nodig zijn voor het trainen van algoritmen, is de huidige praktijk het hergebruiken van modellen die zijn getraind door grote bedrijven en deze enigszins te wijzigen voor taken (bijvoorbeeld: ResNet is een populair model voor afbeeldingsherkenning van Microsoft). Deze modellen worden gecureerd in een Model Zoo (Caffe host populaire modellen voor afbeeldingsherkenning). Bij deze aanval valt de kwaadwillende persoon de in Caffe gehoste modellen aan, waardoor de bron voor iedereen wordt verontreinigd. Integriteit Onderzoekers laten zien hoe een aanvaller kwaadaardige code kan inchecken in een van de populaire modellen. Een nietsvermoedende ML-ontwikkelaar downloadt dit model en gebruikt het als onderdeel van het systeem voor afbeeldingsherkenning in zijn code [14]. De auteurs laten zien hoe in Caffe er een model bestaat waarvan de SHA1-hash NIET overeenkomt met de digest van de auteur, wat een indicatie is van manipulatie. Er zijn 22 modellen zonder enige SHA1-hash voor integriteitscontroles.
10 Machine Learning via achterdeur Net zoals bij Aanval van ML-toeleveringsketen wordt het trainingsproces in dit aanvalsscenario volledig of gedeeltelijk uitbesteed aan een kwaadwillende partij die de gebruiker een getraind model wil aanbieden dat een achterdeur bevat. Het model met de achterdeur zal goed presteren voor de meeste invoer (met inbegrip van invoer die door de eindgebruiker als validatieset wordt gebruikt), maar er zal sprake zijn van gerichte misclassificaties of afname van de nauwkeurigheid van het model voor invoer die aan een bepaald geheim voldoet, een door de aanvaller gekozen eigenschap, die we de backdoor-trigger noemen. Vertrouwelijkheid, Integriteit Onderzoekers hebben een classificatie met achterdeur gemaakt voor Amerikaanse verkeersborden die stopborden alleen identificeert als snelheidsborden wanneer er een speciale sticker op het stopbord is geplakt (backdoor-trigger) 20 Ze breiden deze test momenteel uit naar tekstverwerkingssystemen, waarin specifieke woorden worden vervangen en de trigger het accent van de spreker is[15]
11 Softwareafhankelijkheden van het ML-systeem misbruiken In deze aanval manipuleert de aanvaller NIET de algoritmes. In plaats daarvan worden traditionele beveiligingsproblemen in de software misbruikt zoals bufferoverlopen. Vertrouwelijkheid, integriteit, beschikbaarheid, Een aanvaller verstuurt beschadigde invoer naar een systeem voor afbeeldingsherkenning waardoor de invoer foutief wordt geclassificeerd door misbruik te maken van een softwarefout in een van de afhankelijkheden.

Details van onopzettelijke fouten

Scenario-nummer Aanvalsklasse Beschrijving Type inbreuk Scenario
12 Hacking van beloningen RL-systemen (Reinforcement Learning) werken op onbedoelde manieren vanwege verschillen tussen aangegeven beloning en daadwerkelijke beloning. Veiligheid van het systeem Hier is een reusachtige verzameling van gaming-voorbeelden in AI bij elkaar gebracht[1]
13 Neveneffecten Het RL-systeem verstoort de omgeving omdat het probeert hun doel te bereiken Veiligheid van het systeem Scenario, letterlijk overgenomen van de auteurs in [2]:“Stel dat een ontwerper wil dat een RL-agent (zoals onze reinigingsrobot) een bepaald doel bereikt, zoals het verplaatsen van een doos naar de andere kant van de kamer. Soms is de meest efficiënte manier om een doel te bereiken, iets te doen dat niet-gerelateerd en destructief is voor de rest van de omgeving, zoals het omgooien van een bloemenvaas die de kortste weg belemmert. Als de agent alleen wordt beloond voor het verplaatsen van de doos, zal de vaas waarschijnlijk het onderspit delven.”
14 Distributionele verschuivingen Het systeem wordt getest in één soort omgeving, maar kan niet worden aangepast aan wijzigingen in andere soorten omgevingen Veiligheid van het systeem Onderzoekers hebben twee state-of-the-art RL-agents getraind, Rainbow DQN en A2C, in een simulatie om lava uit de weg te gaan. Tijdens de training lukte het de RL-agents om de lava te vermijden en dus het doel te realiseren. Tijdens het testen werd de positie van de lava iets verplaatst, maar de RL-agents slaagde er niet in de lava te omzeilen [3]
15 Voorbeelden van natuurlijke adversarial Het systeem herkent ten onrechte een invoer die is gevonden met behulp van harde negatieve mijnbouw Veiligheid van het systeem Hier laten de auteurs zien hoe ze via een eenvoudig proces of mining van harde negatieven[4] het ML-systeem in de war kunnen brengen door het voorbeeld te relayen.
16 Algemene beschadiging Het systeem kan niet overweg met algemene beschadigingen en verstoringen zoals kantelen, zoomen of afbeeldingen met veel ruis. Veiligheid van het systeem De auteurs[5] laten zien hoe veelvoorkomende beschadigingen, zoals wijzigingen in helderheid, contrast, mist of ruis die aan afbeeldingen zijn toegevoegd, een aanzienlijke daling hebben in metrische gegevens in afbeeldingsherkenning
17 Onvolledig testen in realistisch omstandigheden Het ML-systeem wordt niet getest in realistische omstandigheden waarin het bedoeld is om te werken Veiligheid van het systeem De auteurs in [25] benadrukken dat voorstanders vaak de robuustheid van het ML-algoritme prijzen en daarbij realistische omstandigheden uit het oog verliezen. Ze beweren dan bijvoorbeeld dat een ontbrekend stopbord is weggewaaid door harde wind (wat realistischer is) in plaats van dat een aanvaller de invoer van het systeem heeft gemanipuleerd.

Bevestigingen

We willen graag de volgende personen bedanken voor hun waardevolle feedback: Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, leden van Microsoft’s adviesraad inzake AI and Ethics in Engineering and Research (AETHER), Amar Ashar, Samuel Klein, Jonathan Zittrain, leden van de AI Safety Security Working Group van Berkman Klein. Onze dank gaat ook uit naar reviewers van 23 externe partners, de organisatie voor de ontwikkeling van normen en overheidsinstanties voor hun bijdrage aan het vormgeven van de taxonomie.

Bibliografie

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial attacks and defenses: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro en Vishal Maini. "Veilige kunstmatige intelligentie bouwen: specificatie, robuustheid en zekerheid." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd en Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas en David Wagner. "Audio adversarial examples: Targeted attacks on speech-to-text." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Machtigingenson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 mei 2017, pp. 3–18. New York, NY: IEEE.

[14] Tramèr, Microsoft, et al. "Steeling Machine Learning Models via Prediction API's." USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow en Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish en Ilya Sutskever. "Synthetiseren van robuuste adversarial voorbeelden." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Ative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).

[19] Azure, Qixue, et al. "Beveiligingsrisico's in Deep Learning-implementaties." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt en Siddharth Garg. 'Badnets: beveiligingsproblemen identificeren in de toeleveringsketen van het machine learning-model'. arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motiverende regels van het spel voor adversarial voorbeeldonderzoek." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan en Thomas Dietterich. "Benchmarking neurale netwerk robuustheid voor veelvoorkomende beschadigingen en verstoringen." arXiv preprint arXiv:1903.12261 (2019).