Fellägen i Machine Learning
Behovet av att hjälpa programvaruutvecklare, svarare för säkerhetstillbud, elever och beslutsfattare med ett gemensamt vernack för att diskutera problemet. Efter att ha utvecklat den första versionen av taxonomin förra året arbetade vi med säkerhets- och ML-team i Microsoft, 23 externa partner, standardorganisation och myndigheter för att förstå hur intressenter skulle använda vårt ramverk. Utifrån denna studie om användbarhet och feedback från intressenter har vi itererat inom ramverket.
Resultat: När vi visade ett ML felläge observerade vi ofta att programvaruutvecklare och hjälper till att mappa ML-fellägena till traditionella programvaruattacker som datainfiltrering. Så i hela dokumentet försöker vi belysa hur fellägen för maskininlärning är på ett meningsfullt sätt skiljer sig från traditionella programvarufel från teknik- och policyperspektiv.
Behovet av en gemensam plattform för tekniker att bygga på och integrera i sina befintliga metoder för programvaruutveckling och säkerhet. Rent allmänt ville vi att taxonomin ska vara mer än ett utbildningsverktyg – vi vill att den ska påverka tekniska resultat.
Resultat: Med den här taxonomin som en lins ändrade Microsoft sin livscykel för säkerhetsutveckling för hela organisationen. Specifikt delar data här och säkerhetstekniker på Microsoft nu samma språk som den här taxonomin, så att de kan använda en mer effektiv modell av sina ML-system innan de distribuerar till produktion. Svarare för säkerhetstillbud har också en buggstapel för att hantera de här nya skyddshoten som är specifika för ML, standardprocessen för säkerhetsproblem och svar som används av Microsofts säkerhetssvarscenter och alla Microsofts produktteam.
Behovet av ett vanligt ordförord för att beskriva dessa attacker mellan principskapare och härgarna. Vi anser att detta för att beskriva olika ML olika fellägen och analys av hur deras skador kan regleras är ett meningsfullt första steg mot en informerad policy.
Resultat: Denna taxonomi är skriven för en bred bibliotekspublik – så det är viktigt för principskapare som tittar på problem ur ett allmänt ML/AI-perspektiv, samt för specifika domäner som felinformation/sjukvård att fellägeskatalogen är användbar. Vi tar även upp alla tillämpliga juridiska bestämmelser för att hantera fellägena.
Se även Microsofts ai/ML-system och beroenden och SDL-programfältspivoter för Machine Learning säkerhetsproblem.
Hur du använder det här dokumentet
Vi bekräftar att det här är ett dokument som utvecklas med tiden med hotbilden. Vi har inte heller några tekniska åtgärder för de här fellägena, eftersom försvar är scenariospecifikt och är begränsande med den hotmodell och systemarkitektur som vi tar hänsyn till. Alternativ som presenteras för minskning av hot baseras på aktuell forskning med förväntan att dessa försvar kommer att utvecklas med tiden.
För tekniker rekommenderar vi att gå igenom översikten över möjliga fellägen och hoppa in i hotmodelleringsdokumentet. På så sätt kan tekniker identifiera hot, attacker, svagheter och använda ramverket för att planera för åtgärder när de är tillgängliga. Vi hänvisar dig sedan till programfältet som mappar dessa nya säkerhetsproblem i taxonomin tillsammans med traditionella programbrister, och ger en klassificering för varje ML sårbarhet (t.ex. viktiga, viktiga). Det här programfältet är enkelt integrerat i befintliga incidentsvarsprocesser/spelböcker.
Det här dokumentet organiserar ML fellägen och presenterar ett ramverk för att analysera viktiga problem som är relevanta för alla som utforskar policyalternativ, t.ex. arbetet som görs här[5],[6]. Vi har kategoriserat fel och konsekvenser på ett sätt som skapare kan börja dra uppmärksamheten mellan olika orsaker, som informerar om offentliga policyinitiativ för att öka ML säkerhet och säkerhet. Vi hoppas att beslutsfattare använder de här kategorierna för att ta reda på hur befintliga juridiska problem eventuellt inte har fångat nya problem, vilka historiska juridiska lösningar eller principlösningar som kan ha tagit itu med liknande skador och var vi bör vara särskilt känsliga för civilmål.
Dokumentstruktur
I både avsnitten Avsiktliga fellägen och Oavsiktliga fellägen får du en kort definition av attacken och ett illustrativt exempel från andra användare.
I avsnittet Avsiktliga fellägen visas ytterligare fält:
Vad försöker attacken att kompromettera i ML - konfidentialitet, integritet eller tillgänglighet? Vi definierar konfidentiell information eftersom komponenterna i systemet ML (data, algoritmen, modellen) endast är tillgängliga av behöriga parter. Integritet definieras som att systemet ML ändras endast av behöriga parter. Tillgänglighet definieras som en garanti ML att systemet är tillgängligt för behöriga parter. Tillsammans kallas konfidentialitet, integritet och tillgänglighet för CIA-triaden. För varje avsiktligt felläge försöker vi identifiera vilket av CIA-triaderna som har komprometterats.
Hur mycket kunskap krävs för att sätta fast den här attacken – blackbox eller whitebox? I Blackbox-attacker har attackerarna INTE direkt åtkomst till utbildningsdata, ingen kunskap om vilken ML-algoritm som används och ingen åtkomst till modellens källkod. Attackeraren frågar bara modellen och observerar svaret. I en whitebox-attack har attackerarna kunskaper om antingen ML algoritmen eller åtkomst till modellens källkod.
Kommentar om attackeraren bryter mot traditionella tekniska aning om åtkomst/auktorisering.
Intentionally-Motivated sammanfattning av fel
Sammanfattning av oavsiktliga fel
Information om Intentionally-Motivated fel
| Scenario # | Attackklass | Beskrivning | Typ av kompromett | Scenario |
|---|---|---|---|---|
| 1 | Perturbation-attacker | I angrepp med perturbation ändrar attackerarna snabbt frågan för att få önskat svar | Integritet | Bild: Brus läggs till i en X-ray-bild, vilket gör att prognoser går från normal skanning till onormal [1][Blackbox] Textöversättning: Vissa tecken ändras för att resultera i felaktig översättning. Attacken kan dölja vissa ord eller kan till och med ta bort ordet helt[2][Blackbox och Whitebox] Tal: Forskare visade hur givna en tal waveform, en annan vågform kan replikeras exakt men transkriberar till en helt annan text[3][Whitebox men kan utökas till svart ruta] |
| 2 | Attacker från attacker | Målet för attackeraren är att smitta den maskinmodell som genererats i utbildningsfasen, så att prognoser på nya data ändras i testfasen Riktad: I riktade specialattacker vill attackerare klassificera specifika exempel Ursdiscrimera: Syftet här är att orsaka effekten DoS som, vilket gör systemet otillgängligt. |
Integritet | I en medicinsk datauppsättning där målet är att förutsäga den medicinska användningen av anticoagulant warfarin med hjälp av demografiska information, osv. En forskare introducerade skadliga prover med 8 % markerad kurs, som ändrade läkemedel med 75,06 % för hälften av patienter[4][Blackbox] I Tay-chattroboten var framtida konversationer beslitna eftersom en del av de tidigare konversationerna användes för att träna systemet via feedback[5] [Blackbox] |
| 3 | Modellinversion | De privata funktionerna som används i maskininlärningsmodeller kan återskapas | Konfidentiell information | Lärare kunde återställa privata utbildningsdata som användes för att träna algoritmen[6] Författarna kunde återskapa ansikten med bara namnet och åtkomst till modellen till den punkt där mekanisk turks kunde använda fotot för att identifiera en person från aline up med 95 % precision. Författarna kunde också extrahera särskild information. [Whitebox och Blackbox] [12] |
| 4 | Medlemsangrepp | Attackeraren kan avgöra om en viss datapost var en del av modellens utbildningsdatauppsättning eller inte | Konfidentiell information | Lärare kunde förutse en patients huvudprocedur(t.ex: Att patienten gick igenom) baserat på attributen (t.ex. ålder, kön, sjukhus)[7][Blackbox] |
| 5 | Modeller som stjäl | Attackerarna återskapar den underliggande modellen genom att köra en fråga mot modellen. Den nya modellens funktioner är samma som den underliggande modellen. | Konfidentiell information | Lärare har emulerat den underliggande algoritmen från Amazon, BigML. I BigML-ärendet kunde till exempel forskare återställa modellen som användes för att förutsäga om någon skulle ha en bra/dålig kreditrisk (tyska kreditkortsdatauppsättning) med hjälp av 1 150 frågor och inom 10 minuter[8] |
| 6 | Omprogramering av djup neurala net | Genom en särskilt utformad fråga från ett adversary kan maskininlärningssystem omprogrammeras till en uppgift som avviker från skaparens ursprungliga avsikter | Integritet, tillgänglighet | Demonstrerat hur ImageNet, ett system som används för att klassificera en av flera kategorier av bilder, har om syfte att räkna fyrkanter. Författare avslutar papperet med ett scenario som kan åtgärdas: En attack skickar Captcha-bilder till visionsidentifieraren i en molnbaserad fototjänst för att lösa bild captchas för att skapa skräppostkonton[9] |
| 7 | Adversarialexempel i den fysiska domänen | Ett adversiellt exempel är en indata/fråga från en skadlig enhet som skickas i syfte att missleda maskininlärningssystemet De här exemplen kan visa sig i den fysiska domänen | Integritet | Forskare i 3D skriver ut en sköldpadd med anpassad struktur som lurar bildigenkänningssystem att tro att det är en sköldpadda[10] Härdades upp med en design som nu kan lura bildigenkänningssystem, och inte längre känner igen dem korrekt[11] |
| 8 | Skadlig ML som kan återställa utbildningsdata | Skadlig ML kan fråga den modell som används av kunden och återställa kundens utbildningsdata | Konfidentiell information | Forskare visar hur en illvillig leverantör presenterar en bakåtdoorerad algoritm, där privata utbildningsdata återställs. De kunde återskapa ansikten och text, givet modellen. [12] |
| 9 | Angrepp av ML leveranskedja[13] | De stora resurser (data + beräkning) som krävs för att träna algoritmer är aktuell metod att återanvända modeller som utbildats av stora företag och ändra dem något för hand en uppgift (t.ex. ResNet är en populär bildigenkänningsmodell från Microsoft). Dessa modeller är curated ina Model Cache (Caffe är värd för populära bildigenkänningsmodeller). I den här attacken attackerar adversary modellerna som finns i Caffe, och det här är mycket bra för alla andra. | Integritet | Forskare visar hur det är möjligt för en attackerare att checka in skadlig kod i någon av de populära modellen. En intet ont ML utvecklare laddar ned den här modellen och använder den som en del av bildigenkänningssystemet i sin kod [14]. Författarna visar hur i Caffe finns en modell vars SHA1-hash inte stämmer överens med författarnas sammanfattningar, vilket anger manipulering. Det finns 22 modeller utan SHA1-hash för kontroll av integritet. |
| 10 | Backdoor-Machine Learning | Som i "Leveranskedja i ML", i det här attackscenariot, är utbildningsprocessen helt eller delvis utsourcad till en illvillig part som vill ge användaren en utbildning som innehåller en backdoor. Den bakåtdoorerade modellen skulle fungera bra på de flesta indata (inklusive indata som slutanvändaren kan behålla som en verifieringsuppsättning) men orsakar riktade felklassificeringar eller försämrar noggrannheten i modellen för indata som uppfyller en hemlig egenskap som väljs av en attackerare, som vi kallar backdoorutlösaren | Konfidentialitet, integritet | Forskare skapade en bakdoorerad gatutecken i USA som identifierar stopptecken som hastighetsbegränsningar endast när en särskild dekal läggs till stopptecknet (backdoorutlösaren) 20 De utökar nu arbetet till textbehandlingssystem, där specifika ord ersätts med utlösaren som talares accent[15] |
| 11 | Utnyttja programvaruberoenden av ML system | I den här attacken ändrar inte attackerarna algoritmerna. I stället utnyttjar traditionella programvarubrister, till exempel buffertöverflöde. | Konfidentialitet, integritet, tillgänglighet, | Ett adversary skickar skadade indata till ett bildigenkänningssystem som gör att det felaktigt klassificeras genom att utnyttja en programfel i något av beroendena. |
Information om oavsiktliga fel
| Scenario # | Attackklass | Beskrivning | Typ av kompromett | Scenario |
|---|---|---|---|---|
| 12 | Belöning Hacka | Utbildningssystem för undervisning fungerar på oväntade sätt på grund av avvikelser mellan den angivna belöningen och den sanna avsedda belöningen. | Säkerhet för systemet | En enorm corpus av spelexempel i AI har kompilerats här[1] |
| 13 | Sidoeffekter | RL-systemet stör miljön när det försöker nå sitt mål | Säkerhet för systemet | Scenario, utförligt från författarna i [2]:"Anta att en designer vill ha en RL-agent (till exempel vår rensande robot) för att uppnå ett visst mål, som att flytta en ruta från ena sidan av ett rum till en annan. Det effektivaste sättet att nå målet kan ibland göra något orelaterat och skadligt för resten av miljön, som att knacka över en vattenstämpel som finns i vägen. Om agenten belönas för att han eller hon flyttar rutan kommer den antagligen att knacka på hanen". |
| 14 | Distributionsskift | Systemet testas i en typ av miljö, men kan inte anpassa sig till ändringar i andra typer av miljö | Säkerhet för systemet | En forskare har fått två statusar av art RL-representanter, Regnbåge DQN och A2C i en simulering för att undvika lava. Under utbildningen kunde RL-agenten undvika lava utan att nå sitt mål. Vid testning flyttade de lavans position något, men RL-agenten kunde inte undvika [3] |
| 15 | Naturliga adversialexempel | Systemet känner felaktigt igen en indata som hittades med hård negativ näring | Säkerhet för systemet | Här visar författarna hur det går till med en enkel process för hård negativ minström[4]; det är möjligt att blanda ihop ML genom att vidarebefordra exemplet. |
| 16 | Vanliga skador | Systemet kan inte hantera vanliga skador och perturbationer, t.ex. lutningar, zoomning eller bullriga bilder. | Säkerhet för systemet | Författarna[5] visar hur vanliga skador som ändringar av ljusstyrka, kontrast, fog eller brus har lagts till i bilder, har en betydande minskning av mätvärden i bildigenkänningen |
| 17 | Ofullständig testning i realistiska förhållanden | Testsystemet ML i realistiska förhållanden som det är avsett att fungera i | Säkerhet för systemet | Författarna i [25] framhäver att även om folk ofta uppmärksammar robustheten i ML-algoritmen förlorar de realistiska förhållanden. De utser till exempel att ett saknat stopptecken inaktiveras i vind (vilket är mer realistiskt) än en attacker som försöker hindra systemets indata. |
Bekräftelser
Vi vill tacka Andrew Marshall, Magnus Nyström, John Walton, John Zen, Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Gordon Gillet, medlemmar av Microsofts AI och etiska kommittés "Security workstream", Amar Ashar, Johan Zittrain, medlemmar i AI Safety Security Working Group på Berkman Hugh för att de har gett användbar feedback. Vi vill också tacka granskare från 23 externa partner, standardorganisation och myndighetsorganisationer för att utforma taxonomin.
Litteraturförteckning
[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning". arXiv preprint arXiv:1810.07339 (2018).
[2] Andreborty, Anirban och et al. "Adversarialattacker och härgare: En undersökning". arXiv preprint arXiv:1810.00069 (2018).
[3] Ortega, Hansson och Vishal Maini. "Byggnad säker artificiell intelligens: specifikation, robusthet och garanti." DeepMind Safety Research Blog (2018).
[4] Amodei, Dario och et al. "Betongproblem i AI-säkerhet." arXiv preprint arXiv:1606.06565 (2016).
[5] Tidelag Siva Kumar, Ram och et al. "Lag och adversa Machine Learning". arXiv preprint arXiv:1810.10731 (2018).
[6] Calo, Ryan, et al. "Lura en robot att hacka?". University of Washington School of Law Research Paper 2018-05 (2018).
[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).
[8] Ebrahimi, Javid, Daniel Lowd och Dejing Dou. "På adversariella exempel för Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)
[9] Daveini, Nicholas och David Dave. "Exempel på ljud adversial: Riktade attacker på tal till text." arXiv föreskrivbart arXiv:1801.01944 (2018).
[10] Jagielski, Matthew, et al. "Manipulera maskininlärning: Utsmåddsattacker och motåtgärder för regressionsutbildning". arXiv preprint arXiv:1804.00308 (2018)
[11] [ https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ]
[12] Fredrikson M, Jha S, Ristenpart T. 2015. Modellinversionsattacker som utnyttjar konfidensinformation och grundläggande motåtgärder
[13] Det var i december 2017 som det skrevs in en 13-åring, Och det var han som skrev det och skrev den 17:e. Medlemskapsangrepp mot maskininlärningsmodeller. I proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 maj 2017, pp. 3–18. New York, NY: IEEE.
[14] Det här är första gången det används, Men det här är ett bra sätt att Machine Learning modeller via prognos-API:er. USENIX Security Asterisk. 2016.
[15] Torsson, Gamaleldin F., Ian Goodfellow och Jascha Sohl-Torsson. "Adversarial omprogramering av neurala nätverk." arXiv preprint arXiv:1806.11146 (2018).
[16] Athalye, Anish och Ilya Sutskever. "Synthesizing robusta adversarial examples." arXiv preprint arXiv:1707.07397(2017)
[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).
[19] Xiao, Qixue, et al. "Security Risks in Deep Learning Implementations". arXiv preprint arXiv:1711.11008 (2017).
[20] Gu, Tianyu, Accentn Dolan-Gavitt och Siddharth Garg. "Badnets: Identifying vulnerabilities in the machine learning model supply chain." arXiv preprint arXiv:1708.06733 (2017)
[21] [ https://www.wired.com/story/machine-learning-backdoors/ ]
[22] [ https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ]
[23] Amodei, Dario, et al. "Betongproblem i AI-säkerhet." arXiv preprint arXiv:1606.06565 (2016).
[24] Sådär, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).
[25] Det här är Barain, et al. "Det här gör du genom att avblockera spelets regler för efterforskningar". arXiv preprint arXiv:1807.06732 (2018).
[26] Hendrycks, Dan och Thomas Dietterich. "Prestandatestning av robusthet i neurala nätverk för vanliga skador och perturbationer." arXiv preprint arXiv:1903.12261 (2019).
| Microsoft Corporation | Berkman Administrations Center för Internet och Harvard på Harvard University |
|---|---|
November 2019
&Introduktionsbakgrund
Under de senaste två åren har fler än 200 uppsatser skrivits om hur Machine Learning (ML) kan misslyckas på grund av adversa attacker på algoritmer och data, det här är pratbubblor om vi skulle använda fellägen som inte är adversiella. Spaet med uppsatser har gjort det svårt för ML lärare, låt enbart tekniker, lärare och beslutsfattare hålla koll på attacker mot och försvar mot ML system. Men i och med att dessa system blir mer genomgående måste du förstå hur de misslyckas, oavsett om de är handfallna eller har en inbyggd design som ett system, bara behöver tryckas ned. Syftet med det här dokumentet är att gemensamt ha båda fellägena på en och samma plats.
Avsiktliga fel där felet orsakas av ett aktivt försök att invertera systemet för att uppnå sina mål – antingen för att felaktigt klassificera resultatet, härled privata utbildningsdata eller för att stjäla den underliggande algoritmen.
Oavsiktliga misslyckanden där felet beror på att ett ML skapar ett formellt korrekt men helt osäkert resultat.
Vi skulle vilja uppmärksamma att det finns andra taxonomier och ramverk som individuellt markerar avsiktliga fellägen[1],[2] och oavsiktliga fellägen[3],[4]. Vår klassificering samlar de två separata fellägena på ett ställe och tillgodoser följande behov: