Foutmodi in machine learning

Microsoft Corporation Berkman Klein Center for Internet and Society at Harvard University

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

November 2019

Introductieachtergrond &

In de afgelopen twee jaar zijn er meer dan 200 documenten geschreven over de manier waarop Machine Learning (ML) kan mislukken vanwege adversarial-aanvallen op de algoritmen en gegevens. Dit aantal neemt flink toe als we foutmodi voor niet-adversarial-aanvallen meerekenen. De stortvloed van papers heeft het lastig gemaakt voor MI-beoefenaars, laat staan technici, juristen en beleidsmakers, om op de hoogte te blijven van de aanvallen tegen en verdedigingsmechanismen van ML-systemen. Naarmate deze systemen echter steeds meer worden gebruikt, is het nog belangrijker om te begrijpen hoe ze mislukken; hetzij door het toedoen van een kwaadwillende persoon of door het inherente ontwerp van een systeem. Het doel van dit document is om beide foutmodi in tabelvorm op één plek uit te leggen.

  • Opzettelijke fouten, waarbij de fout wordt veroorzaakt door een actieve aanvaller die probeert het systeem te ondermijnen om zijn of haar doelen te bereiken, hetzij om het resultaat onjuist te classificeren, persoonlijke trainingsgegevens af te leiden of het onderliggende algoritme te stelen.

  • Onopzettelijke fouten, waarbij de fout zich voordoet omdat een ML-systeem een formeel correct, maar volledig onveilig resultaat produceert.

We willen hier opmerken dat er andere taxonomieën en frameworks zijn die ingaan op modi voor opzettelijke fouten [1],[2] en modi voor onopzettelijke fouten[3],[4]. Onze classificatie brengt de twee afzonderlijke foutmodi samen op één plek en komt tegemoet aan de volgende behoeften:

  1. De noodzaak om softwareontwikkelaars, technici die reageren op beveiligingsincidenten, advocaten en beleidsmakers te voorzien van een gemeenschappelijke taal om over dit probleem te praten. Nadat de eerste versie van de taxonomie vorig jaar is ontwikkeld, hebben we samengewerkt met beveiligings- en ML-teams binnen Microsoft, 23 externe partners, de organisatie voor de ontwikkeling van normen en overheden om te begrijpen hoe belanghebbenden ons framework zouden gebruiken. Op basis van deze bruikbaarheidsstudie en feedback van belanghebbenden, hebben we een iteratie van het framework uitgevoerd.

    Resultaten: Als er sprake was van een MI-foutmodus, hebben we regelmatig geconstateerd dat softwareontwikkelaars en advocaten de ML-foutmodi in hun hoofd koppelen aan traditionele software-aanvallen zoals exfiltratie van gegevens. We proberen daarom in het hele document te benadrukken hoe foutmodi van machine learning vanuit technologisch en beleidsperspectief essentieel verschillen van traditionele softwarefouten.

  2. De behoefte aan een gemeenschappelijk platform voor technici dat is gebaseerd op en kan worden geïntegreerd met hun bestaande procedures voor softwareontwikkeling en beveiliging. In grote lijnen willen we dat de taxonomie meer is dan een educatief hulpmiddel; we willen dat het een hulpmiddel is voor het realiseren van tastbare technische oplossingen.

    Resultaten: Door deze taxonomie als lens te gebruiken, heeft Microsoft het proces van de Security Development Lifecycle voor de hele organisatie gewijzigd. Met name gegevenswetenschappers en beveiligingstechnici van Microsoft spreken nu de gemeenschappelijke taal van deze taxonomie, waardoor ze op een effectievere manier een bedreigingsmodel kunnen toepassen op hun ML-systemen maken voordat ze deze in productie nemen. Technici die reageren op beveiligingsincidenten beschikken over een zogenaamde Bug Bar waarmee ze triage kunnen uitvoeren op deze net-nieuwe bedreigingen die specifiek zijn voor ML. Dit is ook het standaardproces voor triage van en het reageren op beveiligingsproblemen dat wordt gebruikt door het Microsoft Security Response Center en alle Microsoft-productteams.

  3. De behoefte aan een gemeenschappelijke woordenschat om deze aanvallen te beschrijven onder beleidsmakers en advocaten. We zijn van mening dat dit voor het beschrijven van verschillende ML foutmodi en analyse van hoe hun schade kan worden gereguleerd, een zinvolle eerste stap is in de richting van geïnformeerd beleid.

    Resultaten: Deze taxonomie is geschreven voor een breed interdisciplinair publiek. De catalogus met foutmodi moet dan ook van pas komen voor doelgroepen variërend van beleidsmakers die de problematiek bekijken vanuit een algemeen ML/AI-perspectief tot specifieke domeinen zoals onjuiste informatie en gezondheidszorg. We bespreken ook eventuele toepasselijke juridische interventies die een rol spelen bij het verhelpen van de foutmodi.

Zie ook de onderwerpen Bedreigingsmodellering in AI/ML-systemen en-afhankelijkheden en SDL Bug Bar Pivots for Machine Learning Vulnerabilities (SDL Bug Bar Pivots voor machine learning-beveiligingsproblemen).

Dit document gebruiken

Vanaf het begin was het duidelijk dat dit een werkdocument is dat zich in de loop van de tijd samen met het bedreigingslandschap zal ontwikkelen. We adviseren hier ook geen technologische oplossingen voor deze foutmodi aangezien maatregelen scenariospecifiek zijn en afhankelijk zijn van het bedreigingsmodel en de systeemarchitectuur in kwestie. Opties die worden gepresenteerd voor het wegnemen van bedreigingen zijn gebaseerd op actueel onderzoek met de verwachting dat deze maatregelen in de loop der tijd ook zullen veranderen.

Technici adviseren we om het overzicht van mogelijke foutmodi door te nemen en het document over bedreigingsmodellering te lezen. Ze zijn dan in staat om bedreigingen, aanvallen en beveiligingsproblemen te identificeren, en het framework waar nodig te gebruiken voor het plannen van tegenmaatregelen. Daarna kunnen ze de Bug Bar bekijken, waar deze nieuwe beveiligingsproblemen in de taxonomie worden gekoppeld aan traditionele beveiligingsproblemen voor software en elk ML-beveiligingsprobleem een beoordeling krijgt (zoals Kritiek, Belangrijk, etc.). Deze Bug Bar kan eenvoudig worden geïntegreerd in bestaande processen of playbooks voor het reageren op incidenten.

Voor advocaten en beleidsmakers biedt dit document een ordening van ML-foutmodi en presenteert het een framework voor het analyseren van belangrijke problemen die relevant zijn voor iedereen die beleidsopties gaat bestuderen, zoals het werk dat hier is gedaan [5],[6]. Meer specifiek hebben we fouten en hun gevolgen gecategoriseerd op een manier dat beleidsmakers onderscheid kunnen gaan maken tussen oorzaken, wat ten goede komt aan de openbare beleidsinitiatieven ter promotie van de veiligheid en beveiliging van ML. We hopen dat beleidsmakers deze categorieën zullen gebruiken om aanvullende informatie te verstrekken over hoe bestaande wettelijke regimes nieuwe problematiek afdoende (of niet) vastleggen, welke historische wettelijke regimes of beleidsoplossingen mogelijk te maken hebben gehad met soortgelijke nadelen en waar met name we zorgvuldig te werk moeten gaan ten aanzien van problemen rondom burgerlijke vrijheden.

Structuur van document

In zowel de sectie Modi voor opzettelijke fouten als Modi voor onopzettelijke fouten geven we een beknopte definitie van de aanval en een illustratief voorbeeld uit de vakliteratuur.

De sectie Modi voor opzettelijke fouten bevat nog deze extra velden:

  1. Wat wil de aanval beschadigen in het ML-systeem: vertrouwelijkheid, integriteit of beschikbaarheid? We definiëren Vertrouwelijkheid als de garantie dat de onderdelen van het ML-systeem (gegevens, algoritme, model) alleen toegankelijk zijn door geautoriseerde partijen; Integriteit wordt omschreven als de garantie dat het ML-systeem alleen kan worden gewijzigd door geautoriseerde partijen; Beschikbaarheid ten slotte is een garantie dat het ML-systeem toegankelijk is voor geautoriseerde partijen. Vertrouwelijkheid, integriteit en beschikbaarheid worden samen de CIA-triade genoemd. Voor elke modi voor opzettelijke fouten proberen we te identificeren welk onderdeel van de CIA-triade is gecompromitteerd.

  2. Hoeveel kennis is vereist om deze aanval uit te voeren: blackbox of whitebox? Bij aanvallen in blackbox-stijl heeft de aanvaller GEEN directe toegang tot de trainingsgegevens, geen kennis van het gebruikte ML-algoritme en geen toegang tot de broncode van het model. De aanvaller voert alleen query's uit op het model en bestudeert de responsen. Bij een aanval in whitebox-stijl beschikt de aanvaller over kennis van het ML-algoritme of toegang tot de broncode van het model.

  3. Toelichting of de aanvaller inbreuk maakt op het traditionele technologische concept van toegang/autorisatie.

Overzicht van opzettelijke fouten

Scenario-nummer
Aanval
Overzicht
Maakt inbreuk op traditionele technologische concept van toegang/autorisatie?
1
Verstorende aanval
Aanvaller past de query aan om gewenste respons te krijgen
Nee
2
Verontreinigingsaanval
Aanvaller verontreinigt de trainingsfase van ML-systemen om beoogde resultaat te verkrijgen
Nee
3
Modelinversie
Aanvaller gebruikt zorgvuldig samengestelde query's om de geheime functies te herstellen die in het model worden gebruikt
Nee
4
Afleiden van lidmaatschap
Aanvaller kan afleiden of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model
Nee
5
Stelen van model
Aanvaller kan het model herstellen via zorgvuldig samengestelde query's
Nee
6
Herprogrammeren van ML-systeem
Het doel van het ML-systeem aanpassen om een activiteit uit te voeren die niet was geprogrammeerd
Nee
7
Adversarial-voorbeeld in fysiek domein
Aanvaller introduceert schadelijke of adversarial-voorbeelden in het fysieke domein om het ML-systeem te ondermijnen, zoals: 3D-bril om systeem voor gezichtsherkenning te misleiden
Nee
8
Kwaadwillende ML-provider die trainingsgegevens kan herstellen
Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en zo trainingsgegevens van de klant herstellen
Ja
9
Aanval van ML-toeleveringsketen
Aanvaller compromitteert het ML-model terwijl dit wordt gedownload voor gebruik
Ja
10
Backdoor-ML
Kwaadwillende ML-provider komt via achterdeur in algoritme voor activeren met een specifieke trigger
Ja
11
Softwareafhankelijkheden misbruiken
Aanvaller gebruikt traditionele zwakke plekken van software, zoals bufferoverloop, om ML-systeem te misleiden/over te nemen
Ja

Overzicht van onopzettelijke fouten

Scenario-nummer
Fout
Overzicht
12
Hacking van beloningen
RL-systemen (Reinforcement Learning) werken op onbedoelde manieren vanwege mismatch tussen aangegeven beloning en daadwerkelijke beloning
13
Neveneffecten
RL-systeem verstoort de omgeving in poging om het doel te bereiken
14
Distributionele verschuivingen
Het systeem is getest in een bepaald soort omgeving, maar kan zich niet aanpassen aan wijzigingen in andere soorten omgevingen
15
Natuurlijke adversarial-voorbeelden
Zonder verstorende aanvallen treedt er een fout op in het ML-systeem door harde negatieven
16
Algemene beschadiging
Het systeem kan niet overweg met algemene beschadigingen en verstoringen zoals kantelen, zoomen of afbeeldingen met veel ruis.
17
Onvolledig testen
Het ML-systeem is niet getest in de realistische omstandigheden waarin het geacht wordt te functioneren.

Details van opzettelijke fouten

Scenario-nummer Aanvalsklasse Beschrijving Type inbreuk Scenario
1 Verstorende aanval Bij aanvallen in verstorende stijl wijzigt de aanvaller heimelijk de query om een gewenste reactie te krijgen. Gegevensintegriteit Afbeelding: Ruis wordt toegevoegd aan een röntgenfoto, waardoor de voorspellingen van normale scan naar abnormaal [1][Blackbox] gaan

Tekstvertaling: Specifieke tekens worden gemanipuleerd om een onjuiste vertaling te verkrijgen. De aanval kan specifieke woorden onderdrukken of woorden zelfs helemaal verwijderen [2][Blackbox en whitebox]

Spraak: Onderzoekers hebben aangetoond hoe op basis van een gegeven spraakgolfvorm, een andere golfvorm exact kan worden gerepliceerd maar bij transcriptie een totaal andere tekst oplevert [3][Whitebox maar mogelijk uitgebreid naar blackbox]

2 Verontreinigingsaanval Het doel van de aanvaller is om het machinemodel te verontreinigen dat wordt gegenereerd in de trainingsfase, zodat voorspellingen over nieuwe gegevens worden gewijzigd in de testfase.

Gericht: Bij gerichte verontreinigingsaanvallen wil de aanvaller specifieke voorbeelden verkeerd classificeren.

Willekeurig: Hier is het doel om een DoS-achtig effect te veroorzaken waardoor het systeem niet meer beschikbaar is.

Gegevensintegriteit In een medische gegevensset met als doel de dosering van het antistollingsmiddel Warfarin te voorspellen aan de hand van onder andere demografische gegevens, introduceerde onderzoekers kwaadaardige samples met een verontreinigingsfrequentie van 8%, waardoor de dosering met 75,06% werd gewijzigd voor de helft van de patiënten[4][Blackbox]

In de chatbot Tay waren toekomstige gesprekken besmet omdat een fractie van de eerdere gesprekken werd gebruikt om het systeem te trainen via feedback[5] [Blackbox]

3 Modelinversie De privéfuncties die in machine learning-modellen worden gebruikt, kunnen worden hersteld. Vertrouwelijkheid Onderzoekers waren in staat om privé-trainingsgegevens te herstellen die werden gebruikt om het algoritme te trainen[6] De auteurs zijn erin geslaagd om gezichten te reconstrueren, met behulp van alleen de naam en toegang tot het model tot het punt waar mechanische turks de foto konden gebruiken om een persoon met 95% nauwkeurigheid te identificeren uit een line-up.  De auteurs zijn er ook in geslaagd om specifieke gegevens te extraheren.  [Whitebox en blackbox][12]
4 Aanval door afleiden van lidmaatschap De aanvaller kan vaststellen of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model. Vertrouwelijkheid Onderzoekers zijn erin geslaagd om de behandeling van een patiënt (bijvoorbeeld de operatie die de patiënt moest ondergaan) te voorspellen op basis van de kenmerken (zoals leeftijd, geslacht, ziekenhuis) [7][Blackbox]
5 Stelen van model De aanvallers bouwen het onderliggende model opnieuw op door legitieme query's uit te voeren op het model. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model. Vertrouwelijkheid Onderzoekers hebben het onderliggende algoritme succesvol geëmuleerd vanuit Amazon, BigML. In het geval van BigML zijn onderzoekers er bijvoorbeeld in geslaagd om het model te herstellen dat is gebruikt om te voorspellen of iemand een goede/slechte kredietwaardigheid heeft (set met Duitse creditcardgegevens), met behulp van 1.150 query's en binnen tien minuten [8]
6 Herprogrammering van diep neurale netwerken Door middel van een speciaal gemaakte query van een aanvaller kunnen machine learning-systemen worden geherprogrammeerd voor een taak die afwijkt van de oorspronkelijke intentie van de maker. Integriteit, Beschikbaarheid Aangetoond hoe het doel van ImageNet, een systeem voor het classificeren van een van verschillende categorieën afbeeldingen, was aangepast voor het tellen van vierkanten. Auteurs sluiten de paper af met een hypothetisch scenario: een aanvaller verzendt Captcha-afbeeldingen naar de classificatie voor computerbeelden in een in de cloud gehoste fotoservice om de afbeeldings-captchas op te lossen voor het maken van spamaccounts[9]
7 Adversarial voorbeeld in het fysieke domein Een adversarial voorbeeld is een invoer/query van een kwaadwillende entiteit die is verzonden met als enige doel het misleiden van het machine learning-systemen. Deze voorbeelden kunnen zich voordoen in het fysieke domein. Gegevensintegriteit Onderzoekers gebruiken een 3D-printer om een geweer met aangepaste textuur te maken waardoor het systeem voor het herkennen van afbeeldingen denkt dat het een schildpad is[10]

Onderzoekers maken zonnebrillen met een ontwerp dat nu systemen voor het herkennen van afbeeldingen kan misleiden, waardoor de gezichten niet meer goed worden herkend[11]

8 Kwaadwillende ML-providers die trainingsgegevens kunnen herstellen Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en zo trainingsgegevens van de klant herstellen. Vertrouwelijkheid Onderzoekers laten zien hoe een kwaadwillende provider een algoritme met een achterdeur aanbiedt waarlangs de privé-trainingsgegevens kunnen worden hersteld. Op deze manier was het mogelijk om alleen met behulp van het model gezichten en teksten te reconstrueren.  [12]
9 Aanval van ML-toeleveringsketen Door de vele resources (gegevens en berekeningen) die nodig zijn om algoritmes te trainen, is het tegenwoordig gangbaar om modellen die zijn getraind door grote bedrijven, te hergebruiken en enigszins aan te passen aan de onderhavige taak (zo is ResNet een populair model voor afbeeldingsherkenning van Microsoft). Deze modellen worden gecureerd in een Model Zoo (Caffe host populaire modellen voor afbeeldingsherkenning). Bij deze aanval valt de kwaadwillende persoon de in Caffe gehoste modellen aan, waardoor de bron voor iedereen wordt verontreinigd. Gegevensintegriteit Onderzoekers laten zien hoe een aanvaller kwaadaardige code kan inchecken in een van de populaire modellen. Een nietsvermoedende ML-ontwikkelaar downloadt dit model en gebruikt het als onderdeel van het systeem voor afbeeldingsherkenning in zijn code [14]. De auteurs laten zien hoe in Caffe er een model bestaat waarvan de SHA1-hash NIET overeenkomt met de digest van de auteur, wat een indicatie is van manipulatie. Er zijn 22 modellen zonder enige SHA1-hash voor integriteitscontroles.
10 Machine Learning via achterdeur Net zoals bij Aanval van ML-toeleveringsketen wordt het trainingsproces in dit aanvalsscenario volledig of gedeeltelijk uitbesteed aan een kwaadwillende partij die de gebruiker een getraind model wil aanbieden dat een achterdeur bevat. Het model met de achterdeur zal goed presteren voor de meeste invoer (met inbegrip van invoer die door de eindgebruiker als validatieset wordt gebruikt), maar er zal sprake zijn van gerichte misclassificaties of afname van de nauwkeurigheid van het model voor invoer die aan een bepaald geheim voldoet, een door de aanvaller gekozen eigenschap, die we de backdoor-trigger noemen. Vertrouwelijkheid, Integriteit Onderzoekers hebben een classificatie met achterdeur gemaakt voor Amerikaanse verkeersborden die stopborden alleen identificeert als snelheidsborden wanneer er een speciale sticker op het stopbord is geplakt (backdoor-trigger) 20 Ze breiden deze test momenteel uit naar tekstverwerkingssystemen, waarin specifieke woorden worden vervangen en de trigger het accent van de spreker is[15]
11 Softwareafhankelijkheden van het ML-systeem misbruiken In deze aanval manipuleert de aanvaller NIET de algoritmes. In plaats daarvan worden traditionele beveiligingsproblemen in de software misbruikt zoals bufferoverlopen. Vertrouwelijkheid, Integriteit, Beschikbaarheid Een aanvaller verstuurt beschadigde invoer naar een systeem voor afbeeldingsherkenning waardoor de invoer foutief wordt geclassificeerd door misbruik te maken van een softwarefout in een van de afhankelijkheden.

Details van onopzettelijke fouten

Scenario-nummer Aanvalsklasse Beschrijving Type inbreuk Scenario
12 Hacking van beloningen RL-systemen (Reinforcement Learning) werken op onbedoelde manieren vanwege verschillen tussen aangegeven beloning en daadwerkelijke beloning. Veiligheid van het systeem Hier is een reusachtige verzameling van gaming-voorbeelden in AI bij elkaar gebracht[1]
13 Neveneffecten RL-systeem verstoort de omgeving in poging om het doel te bereiken Veiligheid van het systeem Scenario, letterlijk overgenomen van de auteurs in [2]:“Stel dat een ontwerper wil dat een RL-agent (zoals onze reinigingsrobot) een bepaald doel bereikt, zoals het verplaatsen van een doos naar de andere kant van de kamer. Soms is de meest efficiënte manier om een doel te bereiken, iets te doen dat niet-gerelateerd en destructief is voor de rest van de omgeving, zoals het omgooien van een bloemenvaas die de kortste weg belemmert. Als de agent alleen wordt beloond voor het verplaatsen van de doos, zal de vaas waarschijnlijk het onderspit delven.”
14 Distributionele verschuivingen Het systeem is getest in een bepaald soort omgeving, maar kan zich niet aanpassen aan wijzigingen in andere soorten omgevingen. Veiligheid van het systeem Onderzoekers hebben twee state-of-the-art RL-agents getraind, Rainbow DQN en A2C, in een simulatie om lava uit de weg te gaan. Tijdens de training lukte het de RL-agents om de lava te vermijden en dus het doel te realiseren. Tijdens het testen werd de positie van de lava iets verplaatst, maar de RL-agents slaagde er niet in de lava te omzeilen [3]
15 Natuurlijke adversarial-voorbeelden Het systeem herkent onterecht invoer die is gevonden met behulp van harde negatieven Veiligheid van het systeem Hier laten de auteurs zien hoe ze via een eenvoudig proces of mining van harde negatieven[4] het ML-systeem in de war kunnen brengen door het voorbeeld te relayen.
16 Algemene beschadiging Het systeem kan niet overweg met algemene beschadigingen en verstoringen zoals kantelen, zoomen of afbeeldingen met veel ruis. Veiligheid van het systeem De auteurs [5] laten zien hoe algemene beschadigingen zoals aanpassingen van de helderheid, contrast, mist of ruis die is toegevoegd aan afbeeldingen, een aanzienlijke daling van metrische gegevens voor afbeeldingsherkenning tot gevolg kan hebben.
17 Onvolledig testen in realistisch omstandigheden Het ML-systeem is niet getest in realistische omstandigheden waarin het geacht wordt te functioneren. Veiligheid van het systeem De auteurs in [25] benadrukken dat voorstanders vaak de robuustheid van het ML-algoritme prijzen en daarbij realistische omstandigheden uit het oog verliezen. Ze beweren dan bijvoorbeeld dat een ontbrekend stopbord is weggewaaid door harde wind (wat realistischer is) in plaats van dat een aanvaller de invoer van het systeem heeft gemanipuleerd.

Dankbetuigingen

We willen Andrew Marshall, Magnus Nystrom, John Walton, John Lamb, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, leden van de Ai and Ethics in Engineering and Research (AETHER) commissie Security van Microsoft, Amar Ashar, Samuel Klein, Jonathan Zittrain, leden van de AI Safety Security Working Group van Berkman Klein bedanken voor nuttige feedback. Onze dank gaat ook uit naar reviewers van 23 externe partners, de organisatie voor de ontwikkeling van normen en overheidsinstanties voor hun bijdrage aan het vormgeven van de taxonomie.

Bibliografie

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Nee, Anirban, et al. "Adversarial attacks and defenses: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro en Vishal Maini. "Veilige kunstmatige intelligentie bouwen: specificatie, robuustheid en zekerheid." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?." University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd en Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas en David Wagner. "Audio adversarial examples: Targeted attacks on speech-to-text." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP) , San Jose, CA, 22–24 mei 2017, pp. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Steeling Machine Learning Models via Prediction API's." USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow en Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish en Ilya Sutskever. "Robuuste adversarial voorbeelden synthetiseren." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).

[19] Azure Qixue, et al. "Beveiligingsrisico's in Deep Learning Implementations." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt en Siddharth Garg. "Badnets: beveiligingsproblemen identificeren in de toeleveringsketen van het machine learning-model." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/ ]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ]

[23] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motiverende regels van het spel voor adversarial voorbeeldonderzoek." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan en Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).