Foutmodi in Machine Learning
De noodzaak om softwareontwikkelaars, beveiligingsincidenten, advocaten en beleidsmakers uit te rusten met een algemene spreektaal om over dit probleem te praten. Nadat we vorig jaar de eerste versie van de taxonomie hebben ontwikkeld, hebben we met beveiligings- en ML-teams in Microsoft, 23 externe partners, standaardenorganisatie en overheden gewerkt om te begrijpen hoe belanghebbenden ons framework zouden gebruiken. Op basis van deze bruikbaarheidsstudie en feedback van belanghebbenden hebben we het kader besproken.
Resultaten: Wanneer er een ML-foutmodus wordt weergegeven, hebben we vaak gezien dat softwareontwikkelaars en advocaten de ML-foutmodi mentaal hebben in kaart gebracht aan traditionele softwareaanvallen, zoals gegevens exfiltratie. In het hele artikel proberen we te benadrukken hoe machine learning failure-modi duidelijk verschillen van traditionele softwarefouten vanuit een technologie- en beleidsperspectief.
De noodzaak van een gemeenschappelijk platform voor technici om voort te bouwen op en te integreren in hun bestaande softwareontwikkelings- en beveiligingspraktijken. In grote lijnen willen we dat de taxonomie meer is dan een educatief hulpmiddel. We willen dat de taxonomie zichtbare technische resultaten kan bereiken.
Resultaten: Met deze taxonomie als lens heeft Microsoft het levenscyclusproces voor beveiligingsontwikkeling voor de hele organisatie gewijzigd. Gegevenswetenschappers en beveiligingsingenieurs van Microsoft delen nu de gemeenschappelijke taal van deze taxonomie, zodat ze hun ML-systemen effectiever kunnen modelleren voordat ze worden geïmplementeerd in de productie. Beveiligingsincident responders hebben ook een bugbalk om deze net-nieuwe bedreigingen te triageeren die specifiek zijn voor ML, het standaardproces voor beveiligingsproblemen die worden gebruikt door het Microsoft Security Response Center en alle Microsoft-productteams.
De noodzaak van een gemeenschappelijke vocabulaire om deze aanvallen te beschrijven tussen beleidsmakers en advocaten. We zijn van mening dat dit voor het beschrijven van verschillende ML en het analyseren van de manier waarop de schade kan worden geregeld, een zinvolle eerste stap is in de richting van een goed geïnformeerd beleid.
Resultaten: Deze taxonomie is geschreven voor een breed publiek, dus beleidsmakers die de problemen bekijken vanuit een algemeen ML/AI-perspectief, evenals specifieke domeinen, zoals verkeerde informatie/gezondheidszorg, moeten de catalogus met foutmodus nuttig vinden. We markeren ook alle toepasselijke juridische ingrepen om de faalmodi aan te pakken.
Zie ook Microsoft's Threat Modeling AI/ML Systems and Dependencies and SDL Bug Bar Pivots for Machine Learning Vulnerabilities.
Dit document gebruiken
In het begin erkennen we dat dit een levend document is dat zich in de loop van de tijd zal ontwikkelen met het bedreigingslandschap. We schrijven hier ook geen technologische mitigaties voor deze faalmodi voor, omdat verdedigingsmethoden scenario-specifiek zijn en worden gecombineerd met het bedreigingsmodel en de systeemarchitectuur die in behandeling zijn. De voorgestelde opties voor risicobeperking zijn gebaseerd op huidig onderzoek, met de verwachting dat deze verdediging ook in de loop van de tijd zal worden ontwikkeld.
Voor technici is het raadzaam door het overzicht van mogelijke foutmodi te bladeren en in het document voor het modelleren van bedreigingen te springen. Op deze manier kunnen technici bedreigingen, aanvallen, beveiligingslekken identificeren en het framework gebruiken om waar beschikbaar tegenmaatregelen te plannen. Vervolgens verwijzen we u naar de bugbalk die deze nieuwe beveiligingslekken in de taxonomie naast traditionele softwareproblemen in kaart brengt en een beoordeling geeft voor elk ML-beveiligingsprobleem (zoals kritiek, belangrijk). Deze bugbalk is eenvoudig geïntegreerd in bestaande incidentresponsprocessen/-playbooks.
Voor advocaten en beleidsmakers worden in dit document ML faalmodi georganiseerd en wordt een kader voor het analyseren van belangrijke problemen die relevant zijn voor iedereen die beleidsopties verkent, zoals het werk dat hier wordt uitgevoerd[5],[6]. We hebben met name fouten en gevolgen gecategoriseerd op een manier waarop beleidsmakers onderscheid kunnen gaan maken tussen oorzaken, waardoor de openbare beleidsinitiatieven worden op de hoogte gebracht om ML veiligheid en beveiliging te bevorderen. We hopen dat beleidsmakers deze categorieën gaan gebruiken om te laten zien hoe bestaande wettelijke regelingen nieuwe problemen (niet) voldoende kunnen vastleggen, welke historische juridische regelingen of beleidsoplossingen mogelijk met soortgelijke schade zijn omgegaan en waar we vooral gevoelig moeten zijn voor problemen met burgerlijke vrijheid.
Documentstructuur
In de secties Opzettelijke foutmodi en Onbedoelde faalmodi geven we een korte definitie van de aanval en een illustratief voorbeeld uit de literatuur.
In de sectie Opzettelijke foutmodi geven we de extra velden weer:
Wat doet de aanval om compromissen te sluiten in het ML- Vertrouwelijkheid, Integriteit of Beschikbaarheid? We definiëren Vertrouwelijkheid om ervoor te zorgen dat de onderdelen van het ML systeem (gegevens, algoritme, model) alleen toegankelijk zijn voor geautoriseerde partijen. Integriteit wordt gedefinieerd als ervoor zorgen dat het ML alleen kan worden gewijzigd door geautoriseerde partijen; Beschikbaarheid wordt gedefinieerd als een garantie dat het ML is toegankelijk voor geautoriseerde partijen. Vertrouwelijkheid, integriteit en beschikbaarheid worden samen de CIA-triade genoemd. Voor elke opzettelijke foutmodus wordt geprobeerd om te bepalen welke van de TRIAD van de CIA is gecompromitteerd.
Hoeveel kennis is vereist om deze aanval op te zetten: blackbox of whitebox? In Blackbox-stijlaanvallen heeft de aanvaller geen directe toegang tot de trainingsgegevens, geen kennis van het gebruikte ML-algoritme en geen toegang tot de broncode van het model. De aanvaller bevraagt alleen het model en observeert het antwoord. In een whitebox-stijl aanval heeft de aanvaller kennis van ML algoritme of toegang tot de modelbroncode.
Commentaar op als de aanvaller de traditionele technologische notie van toegang/autorisatie schendt.
Intentionally-Motivated Overzicht van fouten
Samenvatting onbedoelde fouten
Details over Intentionally-Motivated fouten
| Scenario # | Aanvalsklasse | Beschrijving | Type compromis | Scenario |
|---|---|---|---|---|
| 1 | Perturbatieaanvallen | Bij aanvallen met een perturbatiestijl wijzigt de aanvaller de query om een gewenste reactie te krijgen | Integriteit | Afbeelding: Ruis wordt toegevoegd aan een röntgenafbeelding, waardoor de voorspellingen veranderen van normale scan naar abnormaal [1][Blackbox] Tekstvertaling: Specifieke tekens worden gemanipuleerd om tot onjuiste vertaling te leiden. De aanval kan een specifiek woord onderdrukken of zelfs het woord volledig verwijderen[2][Blackbox en Whitebox] Spraak: Onderzoekers hebben laten zien hoe een spraakgolfformulier kan worden gerepliceerd, maar dat een ander golfformulier kan worden overschreven in een totaal andere tekst[3][Whitebox, maar kan worden uitgebreid tot blackbox] |
| 2 | Aanvallen op vergiftiging | Het doel van de aanvaller is om het machinemodel dat in de trainingsfase wordt gegenereerd te besmetten, zodat de voorspellingen voor nieuwe gegevens in de testfase worden gewijzigd Targeted: Bij gerichte vergiftigingsaanvallen wil de aanvaller specifieke voorbeelden verkeerd indelen Indiscriminate: Het doel hier is om DoS-achtige effecten te veroorzaken, waardoor het systeem niet beschikbaar is. |
Integriteit | In een medische gegevensset waarin het doel is om de dosering van antistollingsmiddel warfarin te voorspellen met behulp van demografische informatie, enzovoort. De onderzoekers hebben schadelijke steekproeven geïntroduceerd met een vergiftigingspercentage van 8%, waardoor de dosering met 75,06% is gewijzigd voor de helft van de patiënten[4][Blackbox] In de Tay-chatbot zijn toekomstige gesprekken besmet omdat een deel van de eerdere gesprekken werd gebruikt om het systeem te trainen via feedback[5] [Blackbox] |
| 3 | Model-inversie | De persoonlijke functies die in machine learning-modellen worden gebruikt, kunnen worden hersteld | Vertrouwelijkheid; | De onderzoekers konden privétrainingsgegevens herstellen die werden gebruikt om het algoritme te trainen[6] De auteurs konden gezichten reconstrueren, alleen door de naam en toegang tot het model tot het punt waarop Turken de foto konden gebruiken om een persoon te identificeren vanuit een aline-up met een nauwkeurigheid van 95%. De auteurs hebben ook specifieke informatie kunnen oppakken. [Whitebox en Blackbox] [12] |
| 4 | Membership Inference attack | De aanvaller kan bepalen of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model | Vertrouwelijkheid | De onderzoekers konden de hoofdprocedure van een patiënt voorspellen(bijvoorbeeld: De patiënt heeft een operatie uitgevoerd) op basis van de kenmerken (bijvoorbeeld: leeftijd, geslacht, ziekenhuis)[7][Blackbox] |
| 5 | Model stelen | De aanvallers maken het onderliggende model opnieuw door het model op legitieme manier te query's te geven. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model. | Vertrouwelijkheid | De onderzoekers hebben het onderliggende algoritme van Amazon, BigML, met succes geëmuleerd. In het geval BigML konden de onderzoekers bijvoorbeeld het model herstellen dat wordt gebruikt om te voorspellen of iemand een goed/slecht kredietrisico (Duitse creditcardset) moet hebben met behulp van 1.150 query's en binnen 10 minuten[8] |
| 6 | Diep neurale netten herprogrammeren | Met een speciaal ontworpen query van een tegenpartij kunnen machine learning-systemen worden geherprogrammeerd naar een taak die afwijkt van de oorspronkelijke bedoeling van de maker | Integriteit, beschikbaarheid | Gedemonstreerd hoe ImageNet, een systeem dat wordt gebruikt om een van de verschillende categorieën afbeeldingen te classificeren, opnieuw is gebruikt om vierkanten te tellen. Auteurs beëindigen het papier met een hypothetisch scenario: Een aanvaller stuurt Captcha-afbeeldingen naar de computer vision classifier in een cloud gehoste fotoservice om de captcha's voor afbeeldingen op te lossen om spamaccounts te maken[9] |
| 7 | Voorbeeld van hoor en wederhoor in het fysieke domein | Een voorbeeld van hoor en wederhoor is een invoer/query van een kwaadaardige entiteit die wordt verzonden met als enige doel het machine learning-systeem te misleiden Deze voorbeelden kunnen zich in het fysieke domein manifesteren | Integriteit | Onderzoekers 3D drukt een geweer met aangepaste textuur af, zodat het systeem voor het herkennen van afbeeldingen denkt dat het een schildpad is[10] Onderzoekers maken een bril met een ontwerp dat nu beeldherkenningssystemen voor de gek kan houden en de gezichten niet meer correct herkent[11] |
| 8 | Kwaadwillende ML die trainingsgegevens kunnen herstellen | Kwaadwillende ML kan een query uitvoeren op het model dat door de klant wordt gebruikt en de trainingsgegevens van de klant herstellen | Vertrouwelijkheid | Onderzoekers laten zien hoe een kwaadwillende provider een algoritme met backdoored presenteert, waarin de persoonlijke trainingsgegevens worden hersteld. Ze konden gezichten en teksten reconstrueren, gezien het model alleen. [12] |
| 9 | Aanvallen op ML supply chain[13] | Vanwege de grote resources (gegevens + berekeningen) die nodig zijn voor het trainen van algoritmen, is het de huidige gewoonte om modellen die zijn opgeleid door grote bedrijven opnieuw te gebruiken en deze enigszins te wijzigen voor taak bij de hand (bijvoorbeeld: ResNet is een populair afbeeldingsherkenningsmodel van Microsoft). Deze modellen zijn samengesteld in een modelpark (Caffe bevat populaire modellen voor afbeeldingsherkenning). In deze aanval valt de aanvaller de modellen aan die worden gehost in Caffe, waardoor de goed voor iedereen anders wordt verantwoordelijk gehouden. | Integriteit | Onderzoekers laten zien hoe het mogelijk is voor een aanvaller om kwaadaardige code in te checken in een van de populaire modellen. Een nietsvermoedende ML ontwikkelaar downloadt dit model en gebruikt het als onderdeel van het systeem voor afbeeldingsherkenning in hun code [14]. De auteurs laten zien hoe er in Caffe een model bestaat waarvan SHA1-hash NIET overeenkomen met de samenvatting van de auteurs, wat duidt op geknoei. Er zijn 22 modellen zonder SHA1-hash voor integriteitscontroles. |
| 10 | Backdoor Machine Learning | Net als in de 'Aanval op de ML Supply Chain' wordt in dit aanvalsscenario het trainingsproces volledig of gedeeltelijk uitbesteed aan een kwaadwillende partij die de gebruiker een getraind model wil bieden dat een backdoor bevat. Het backdoored-model presteert goed op de meeste inputs (inclusief inputs die de eindgebruiker kan gebruiken als validatieset), maar veroorzaakt gerichte foutclassificaties of verslechtert de nauwkeurigheid van het model voor inputs die voldoen aan een of andere geheime, door de aanvaller gekozen eigenschap, die we de backdoor-trigger noemen. | Vertrouwelijkheid, integriteit | De onderzoekers hebben een backdoored Vs Street Sign Classifier gemaakt waarmee stoptekens alleen worden geïdentificeerd als snelheidslimieten wanneer er een speciale sticker wordt toegevoegd aan het stopteken (backdoor trigger) 20 Ze breiden dit werk nu uit naar tekstverwerkingssystemen, waarbij specifieke woorden worden vervangen door de trigger die het accent van de spreker is[15] |
| 11 | Softwareafhankelijkheden van een ML benutten | In deze aanval manipuleert de aanvaller de algoritmen niet. In plaats daarvan maakt u gebruik van traditionele softwareproblemen, zoals bufferoverloop. | Vertrouwelijkheid, integriteit, beschikbaarheid, | Een tegenstrever stuurt corrupte invoer naar een systeem voor afbeeldingsherkenning dat ervoor zorgt dat deze fout wordt geclassificeerd door een softwarefout in een van de afhankelijkheden te misbruiken. |
Details over onbedoelde fouten
| Scenario # | Aanvalsklasse | Beschrijving | Type compromis | Scenario |
|---|---|---|---|---|
| 12 | Reward Hacking | Versterkingsonderwijssystemen werken op onbedoelde manieren vanwege verschillen tussen de opgegeven beloning en de werkelijke beoogde beloning. | Veiligheid van het systeem | Een groot aantal voorbeelden van games in AI is hier gecompileerd[1] |
| 13 | Bijwerkingen | RL-systeem verstoort de omgeving terwijl het probeert het doel te bereiken | Veiligheid van het systeem | Scenario, letterlijk van de auteurs in [2]:"Stel dat een ontwerper wil dat een RL-agent (bijvoorbeeld onze schoonmaakrobot) een doel bereikt, zoals het verplaatsen van een vak van de ene kant van een ruimte naar de andere. Soms is het de meest effectieve manier om het doel te bereiken door iets te doen dat niet gerelateerd is aan en destructief is voor de rest van de omgeving, zoals het omver slaan van eenvaas met water dat op het pad ligt. Als de agent alleen een beloning krijgt voor het verplaatsen van het vak, wordt de vazen waarschijnlijk omver gesurfd.' |
| 14 | Distributiediensten | Het systeem wordt getest in één soort omgeving, maar kan zich niet aanpassen aan wijzigingen in andere soorten omgevingen | Veiligheid van het systeem | De onderzoekers hebben twee state-of-the-art RL-agenten, Rainbow DQN en A2C, opgeleid in een simulatie om lava te voorkomen. Tijdens de training kon de RL-agent lava met succes vermijden en zijn doel bereiken. Tijdens het testen hebben ze de positie van de lava enigszins verplaatst, maar de RL-agent kon niet voorkomen [3] |
| 15 | Natuurlijke voorbeelden van wederhoor | Het systeem herkent ten onrechte een invoer die is gevonden met behulp van harde negatieve mining | Veiligheid van het systeem | Hier laten de auteurs zien hoe u door een eenvoudig proces van hard negative mining[4] het systeem van ML kunt verwarren door het voorbeeld door te geven. |
| 16 | Veelvoorkomende corruptie | Het systeem kan niet omgaan met veelvoorkomende beschadigingen en beschadigingen, zoals kantelen, zoomen of luidruchtige afbeeldingen. | Veiligheid van het systeem | De auteurs[5] laten zien hoe veelvoorkomende beschadigingen, zoals wijzigingen in helderheid, contrast, mist of ruis die aan afbeeldingen worden toegevoegd, een aanzienlijke daling van de metrische gegevens in de herkenning van afbeeldingen hebben |
| 17 | Onvolledig testen in realistische omstandigheden | Het ML systeem wordt niet getest in realistische omstandigheden waarin het is bedoeld om te werken in | Veiligheid van het systeem | De auteurs in [25] benadrukken dat hoewel verdedigers vaak de robuustheid van het algoritme ML, ze realistische omstandigheden uit het oog verliezen. Zo stellen ze dat er een ontbrekend stopteken in de wind is weg geklopt (wat realistischer is) dan een aanvaller die de invoer van het systeem probeert te verknaaien. |
Bevestigingen
We willen Andrew Marshall, Magnus Nyström, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, leden van de Microsoft Ai and Ethics in Engineering and Research (AETHER) committee's Security workstream, Amar Ashar, Samuel Klein, Jonathan Zittrain, leden van de AI Safety Security Working Group bij Berkman Klein bedanken voor het geven van nuttige feedback. We willen ook revisoren van 23 externe partners, standaardenorganisatie en overheidsorganisaties bedanken voor het vormgeven van de taxonomie.
Bibliografie
[1] Li, Guofu, et al. "Beveiligingszaken: Een enquête over Machine Learning." arXiv preprint arXiv:1810.07339 (2018).
[2] Chakraborty, Anirban, et al. 'Aanvallen en verdediging van tegenpartij: een enquête'. arXiv preprint arXiv:1810.00069 (2018).
[3] Ortega, Pedro en Vishal Maini. 'Veilige kunstmatige intelligentie opbouwen: specificatie, robuustheid en betrouwbaarheid'. DeepMind Safety Research Blog (2018).
[4] Amodei, Dario, et al. 'Concrete problemen met AI-veiligheid'. arXiv preprint arXiv:1606.06565 (2016).
[5] Shankar Siva Kumar, Ram, et al. 'Wet en Machine Learning.' arXiv preprint arXiv:1810.10731 (2018).
[6] Calo, Ryan, et al. 'Is Tricking a Robot Hacking?'. University of Washington School of Law Research Paper 2018-05 (2018).
[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Exemplarial examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).
[8] Ebrahimi, Javid, Daniel Lowd en Dejing Dou. 'Op Voorbeelden van wederhoor voor Character-Level neurale machinevertaling.' arXiv voordruk arXiv:1806.09030 (2018)
[9] Carlini, Nicholas en David Wagner. "Voorbeelden van hoor en wederhoor: gerichte aanvallen op spraak-naar-tekst." arXiv preprint arXiv:1801.01944 (2018).
[10] Jagielski, Matthew, et al. 'Machine learning manipuleren: Aanvallen van vergiftiging en tegenmaatregelen voor regressieonderwijs'. arXiv preprint arXiv:1804.00308 (2018)
[11] [ https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ]
[12] Fredrikson M, Jha S, Ristenpart T. 2015. Modelinversieaanvallen die misbruik maken van vertrouwensgegevens en basismaatregelen
[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Lidmaatschapsinferentieaanvallen op machine learning-modellen. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 mei 2017, pp. 3–18. New York, NY: IEEE.
[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction API's." USENIX-beveiligingssymposium. 2016.
[15] Elsayed, Gamaleldin F., Lan Goodfellow en Jascha Sohl-Dickstein. 'De herprogrammering van neurale netwerken door wederhoor'. arXiv preprint arXiv:1806.11146 (2018).
[16] Athalye, Anish en Ilya Sutskever. 'Krachtige voorbeelden van wederhoor.' arXiv preprint arXiv:1707.07397(2017)
[17] Sharif, Mahmood, et al. 'Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition'. arXiv preprint arXiv:1801.00349 (2017).
[19] Xiao, Qixue, et al. "Beveiligingsrisico's in Deep Learning Implementations." arXiv preprint arXiv:1711.11008 (2017).
[20] Gu, Tianyu, Brendan Dolan-Gavitt en Siddharth Garg. "Badnets: Het identificeren van beveiligingslekken in de supply chain van het machine learning-model." arXiv preprint arXiv:1708.06733 (2017)
[21] [ https://www.wired.com/story/machine-learning-backdoors/ ]
[22] [ https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ]
[23] Amodei, Dario, et al. 'Concrete problemen met AI-veiligheid'. arXiv preprint arXiv:1606.06565 (2016).
[24] Leike, Jan, et al. 'AI safety gridworlds'. arXiv preprint arXiv:1711.09883 (2017).
[25] Gilmer, Justin, et al. 'Het motiveren van de regels van het spel voor onderzoek naar voorbeeld van wederhoor'. arXiv preprint arXiv:1807.06732 (2018).
[26] Hendrycks, Dan en Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).
| Microsoft Corporation | Berkman Klein Center for Internet and Society aan de Harvard-universiteit |
|---|---|
November 2019
&Inleidingsachtergrond
In de afgelopen twee jaar zijn er meer dan 200 artikelen geschreven over hoe Machine Learning (ML) kan mislukken als gevolg van aanvallen op de algoritmen en gegevens. Dit aantal ballonnen als we niet-foutmodi van niet-hoorelijke fouten zouden opnemen. De spat van documenten heeft het voor ML werkers, laat staan technici, advocaten en beleidsmakers, moeilijk gemaakt om de aanvallen tegen en verdediging van ML systemen bij te houden. Naarmate deze systemen echter steeds alomtegenwoordiger worden, wordt de noodzaak om te begrijpen hoe ze mislukken, door de hand van een tegenstrever of vanwege het inherente ontwerp van een systeem, alleen maar urgenter. Het doel van dit document is om beide foutmodi gezamenlijk op één plaats te tabeleren.
Opzettelijke fouten waarbij de fout wordt veroorzaakt door een actieve tegenstrever die het systeem probeert te subverdelen om haar doelen te bereiken, hetzij om het resultaat verkeerd te classificeren, persoonlijke trainingsgegevens af te leiden of om het onderliggende algoritme te stelen.
Onbedoelde fouten waarbij de fout wordt veroorzaakt doordat een ML een formeel correct, maar volledig onveilig resultaat oplevert.
We willen erop wijzen dat er andere taxonomieën en frameworks zijn die individueel de aandacht vestigen op opzettelijke foutmodi[1],[2] en onbedoelde faalmodi[3],[4]. In onze classificatie worden de twee afzonderlijke modi voor fouten op één plaats bijeenbrengen en worden de volgende behoeften bespraken: