Skydda framtiden för artificiell intelligens och Machine Learning på Microsoft
Av Andrew Marshall, Raul Rojas, Ande Ander och Donald Donaldman
Special tack till Mark Cartwright och Graham Calladine
Sammanfattning
Artificiell intelligens (AI) och Machine Learning (ML) gör redan stor inverkan på hur människor arbetar, umgås och lever sina liv. Allt eftersom förbrukning av produkter och tjänster som skapats kring AI/ML ökar måste specialåtgärder genomföras för att inte bara skydda dina kunder och deras data, utan även för att skydda din AI och algoritmer från missbruk, missbruk och extrahering. Det här dokumentet delar några av Microsofts säkerhetslektioner som har lärts från att utforma produkter och använda onlinetjänster baserade på AI. Även om det är svårt att förutse hur området kommer att bli kvar, har vi kommit fram till att det finns åtgärdsbara problem att ta itu med nu. Dessutom upptäckte vi att det finns strategiska problem som teknikbranschen måste gå före för att säkerställa kundens långsiktiga säkerhet och säkerhet för sina data.
Det här dokumentet handlar inte om AI-baserade attacker eller om att AI används av mänskliga adversaries. I stället fokuserar vi på problem som Microsoft och branschpartner kommer att behöva ta itu med för att skydda AI-baserade produkter och tjänster från mycket avancerade, kreativa och skadliga angrepp, vare sig de utförs av enskilda paket eller hela wolfpackor.
Det här dokumentet fokuserar helt på säkerhetsrelaterade problem som är unika för AI/ML-utrymmet, men på grund av den expansiva naturen hos InfoSec-domänen förstår man att problem och resultat som diskuteras här överlappar med domänerna sekretess och etiska principer. Eftersom det här dokumentet belyser utmaningar med strategiska prioritet för teknikbranschen är målgruppen för det här dokumentet säkerhetsledande branschledande.
Våra tidiga resultat visar att:
AI/ML-specifika pivoter till befintliga säkerhetsmetoder krävs för att minimera de typer av säkerhetsproblem som diskuteras i det här dokumentet.
Machine Learning-modeller kan till stor del inte urskilja mellan skadlig indata och onormala data. En viktig källa till utbildningsdata härleds från omoderade, omodererade offentligadatauppsättningar som är öppna för bidrag från tredje part. Attacker behöver inte kompromettera datauppsättningar när de är gratis att bidra till dem. Med tiden blir skadliga data med låg förtroende betrodda data, förutsatt att datastrukturen/formateringen förblir korrekt.
Eftersom det finns ett stort antal lager med dolda klassificerare/neuraler som kan användas i en djupinlärningsmodell placeras för mycket förtroende på utdata från AI/ML beslutsprocesser och algoritmer utan en kritisk förståelse av hur dessa beslut har uppnåtts. Detta gör att det inte går att "visa ditt arbete" och gör det svårt att provyy försvara AI/ML resultat när de anropas till fråga.
AI/ML används i allt större utsträckning till stöd för beslutsprocesser med höga värden i utvecklingsprocesser och andra branscher där fel beslut kan leda till allvarliga skador eller dödsfall. En brist på forensiska rapporteringsfunktioner i AI/ML förhindrar att dessa beslut av hög kvalitet blir avflagbara i både domstol och domstol.
Målen för det här dokumentet är att (1) framhäva tekniska problem som är unika för AI/ML-blanksteget, (2) ta fram tankar och observationer kring nya hot och (3) dela tidiga tankar om potentiell åtgärd. Några av utmaningarna i det här dokumentet är problem som branschen måste ta itu med under de kommande två åren. Andra är problem som vi redan tvingas ta itu med i dag. Utan en djupare undersökning av de områden som behandlas i det här dokumentet riskerar vi att framtida AI blir en svart ruta genom vår oförmåga att lita på eller förstå (och ändra om det behövs) ai-beslutsprocesser på en matematisk nivå [7]. Ur säkerhetssynpunkt innebär det här effektivt kontrollförlust och att Microsoft lämnar de vägledande principerna för artificiell intelligens [4, 8].
Nya säkerhetsteknikutmaningar
Traditionella programvaruangreppsvektorer är fortfarande kritiska för att hantera, men de ger inte tillräcklig täckning i AI/ML för hot. Den tekniska branschen måste undvika närmast genfrågor med senast gen-lösningar genom att skapa nya ramverk och införa nya metoder som tar itu med luckor i designen och användningen av AI/ML-baserade tjänster:
Som diskuteras nedan måste säker utveckling och driftgrunder införliva begreppen motståndskraft och godtycklighet när du skyddar AI och data som är under kontroll. AI-specifika pivoter krävs inom områdena autentisering, avgränsning av tjänstbegränsning, minskning av inmatningsvalidering och denial för tjänsten. Utan investeringar i de här områdena kommer AI/ML-tjänsterna att fortsätta att gå mot en utförsåkning mot adversaries av alla kunskapsnivåer.
AI måste kunna känna igen partiskhet i andra, utan att bli partisk i sin egen interaktion med människor. För att uppnå detta krävs en kollektiv och föränderlig förståelse av partiskhet, stereotyper, vernaok och andra kulturkonstruktioner. En sådan förståelse hjälper till att skydda AI från attacker mot social engineering och datauppsättningsmanipulering. Ett korrekt implementerat system blir faktiskt starkare från sådana attacker och kan dela sin utökade förståelse med andra API:er.
Machine Learning-algoritmer måste kunna urskilja skadliga data från "Black Hash"-händelser [1] genom att avvisa utbildningsdata som har negativ inverkan på resultaten. Annars kommer inlärningsmodeller alltid att bli sårbara för spel av attacker och läror.
AI måste ha inbyggda forensiska möjligheter. Det gör att företag kan ge kunder transparens och ansvar för sin AI, och se till att dess åtgärder inte bara är verifierbara utan också är juridiskt defenserbara. Dessa funktioner fungerar också som en tidig form av "AI-intrångsidentifiering", så att tekniker kan fastställa den exakta punkten i tiden som ett beslut togs av en klassificerare, vilka data som påverkade den och om dessa data var betrodda eller inte. Funktionerna för datavisualisering i det här området går snabbt fram och visar sig på ett sätt som kan hjälpa tekniker att identifiera och lösa orsaken till dessa komplexa problem [11].
AI måste känna igen och skydda känslig information, även om människor inte känner igen den som sådana. Omfattande användarupplevelser i AI kräver stora mängder rådata att utbilda sig på, så "överdelning" av kunder måste planeras för.
Var och en av dessa områden, inklusive hot och möjliga minskningar, diskuteras i detalj nedan.
AI kräver nya pivoter till traditionella modeller för säker design/säkra drift: introduktionen av motståndskraft och godtycklighet
AI-designers måste alltid säkerställa konfidentiell information, integritet och tillgänglighet för känsliga data, att AI-systemet är fritt från kända svagheter och tillhandahålla kontroller för skydd, identifiering och svar på skadligt beteende mot systemet eller användarens data.
De traditionella sätten att försvara sig mot skadliga angrepp ger inte samma täckning i den här nya versionen, där röst-/video-/bildbaserade attacker kan kringgå aktuella filter och skydd. Nya aspekter av modellering av hot måste utforskas för att förhindra nya missbruk från att utnyttja vår AI. Det går mycket längre än att identifiera traditionella attackytor via fuzzing eller ingångs manipulering (dessa attacker har också sina egna AI-specifika pivoter). För användning av scenarier som är unika för AI/ML utrymme. Nyckeln till dessa är AI-användarupplevelser som röst, video och gester. Hoten som är associerade med dessa upplevelser har inte varit standardmodellerade. Till exempel är videoinnehållet nu anpassat efter fysiska effekter. Dessutom har forskning visat att ljudbaserade attackkommandon kan vara utformade [10].
På grund av att brottslingar, adversärer och bindefiler är oförutsägbara, kreativa och skadliga måste vi lägga in värden för motståndskraft och godtyckligheti våra api:er:
Motståndskraft: Systemet bör kunna identifiera onormala beteenden och förhindra manipulering eller tvång utöver normalt beteende i förhållande till AI-systemet och den specifika aktiviteten. Det här är nya typer av attacker som är specifika för AI/ML blanksteg. System bör vara utformade för att motarbeta indata som annars skulle stå i konflikt med lokala lagar, etiska värden och värden som hålls av communityn och dess skapare. Det innebär att AI har möjlighet att avgöra när en interaktion går "av skript". Detta kan uppnås med följande metoder:
Hitta de enskilda användare som avviker från normen som anges av olika stora kluster av liknande användare, till exempel användare som verkar skriva för snabbt, svara för snabbt, inte sova eller utlösa delar av systemet som andra användare inte vill.
Identifiera mönster för beteende som är kända för indikatorer på sannolikhetsattacker och början av nätverkets killkedjaför intrång.
Identifiera en tidpunkt när flera användare agerar på ett koordinerat sätt. Flera användare utfärdar till exempel samma oexplainbara men avsiktligt utformade fråga, plötsligt insamlingar av antalet användare eller plötsligt uppgångar i aktiveringen av specifika delar av ett AI-system.
Den här typen av attacker bör övervägas som nominella med denial of Service-attacker eftersom AI:n kan kräva felkorrigeringar och omtämna för att inte hamna för samma trick igen. En viktig faktor är möjligheten att identifiera skadliga avsikter i närvaro av motåtgärder, till exempel de som används för att förlora analys-API:er för analys [5].
Diskretion:AI bör vara en pålitlig användare av all information som den har tillgång till. Som människor behöver vi säkert tilldela en viss tillitnivå i våra AI-relationer. Någon gång kommer dessa agenter att prata med andra agenter eller andra människor i vårt ställe. Vi måste kunna lita på att ett AI-system har tillräckligt med utrymme för att dela vad de behöver dela om oss så att andra agenter kan utföra uppgifter åt oss. Flera agenter som interagerar med personuppgifter för vår räkning bör inte heller ha global åtkomst till den. Alla dataåtkomstscenarier som innefattar flera AIs eller botagenter bör begränsa åtkomstlivslängden till den minsta omfattning som krävs. Användare bör också kunna neka data och avvisa autentisering av representanter från specifika företag eller språk precis som webbläsare tillåter svartlistning av webbplatser idag. Att lösa det här problemet kräver ny tankearbete kring autentisering mellan agenter och dataåtkomstbehörigheter som investeringar i molnbaserade användarautentiseringar som gjorts under de första åren av molnbaserad databehandling.
AI måste kunna känna igen partiskhet i andra utan att vara partisk på egen hand
ÄVEN om AI ska vara rättvist och inkluderande utan att diskriminera mot en viss grupp människor eller giltiga resultat, måste det ha en avskalade förståelse av partiskhet för att uppnå detta. Utan att vara tränad på att känna igen partiskhet, sarkasm eller sarkasm kommer AI att duplicera de som söker efter billiga gäster i bästa fall eller orsaka skada för kunder i värsta fall.
Att uppnå den här nivån av information kräver "bra personer som lär sig AI dåliga saker" eftersom det verkligen kräver en omfattande och föränderlig förståelse av kulturförskjutningar. AI ska kunna identifiera en användare som har haft negativ interaktion med tidigare och vara försiktig, ungefär på samma sätt som föräldrar lär sina barn att vara försiktig med dem. Det bästa sättet att ta till sig detta är genom att noggrant utsätta AI:arna för ett kontrollerat/modererat/begränsat sätt. På så sätt kan AI ta reda på skillnaden mellan att en användare "startar upp en vän" och faktisk skadlighet/heming. Då samlas en värdefull ström av utbildningsdata för AI, vilket gör den mer flexibel mot framtida attacker.
AI bör också kunna känna igen partiskhet i datamängder som den är beroende av. Det kan vara kultur eller regionala, som innehåller de vernaerna som används av en viss grupp personer, eller ämnen/ämnen som är av specifikt intresse för en grupp. Precis som vid skadliga utbildningsdata måste AI:t flexibelt till effekterna av dessa data för sina egna slutledningar och avdrag. I dess huvudsteg är det här ett avancerat inmatningsvalideringsproblem med likheter med bunden kontroll. I stället för att hantera längd för buffert och förskjutningar är kontrollerna buffert och bundna ord flaggade i rött från många olika källor. Den konversationshistorik och det sammanhang där ord används är också avgörande. På samma sätt som skyddsrutiner används för att få ett lagerskydd ovanpå en traditionell webbtjänst-API-frontend, bör flera lager med skydd användas i analystekniker för partisk igenkänning och undvikande.
Machine Learning algoritmer måste kunna urskilja skadligt introducerade data från "Black Black Black"-händelser
Ett stort antal whitepapers har publicerats om den teoretiska potentialen hos ML modell/klassificerare manipulering och extrahering/stöld från tjänster där attackerare har tillgång till både utbildningsdatauppsättningen och en informerad förståelse av modellen som används [2, 3, 6, 7]. Problemet med för mycket arkivering är att alla ML kan luras av en attackerare som har kontroll över utbildningsuppsättningsdata. Attackerarna behöver inte ens kunna ändra befintliga utbildningsuppsättningsdata, de behöver bara kunna lägga till dem och få sina indata att bli "betrodda" över tid genom ML-klassificerarens oförmåga att urskilja skadliga data från verkliga avvikande data.
I det här problemet med en kedja av utbildningsdata introduceras vi begreppet "Beslutsintegritet" – möjligheten att identifiera och avvisa skadliga utbildningsdata eller indata från användare innan de har en negativ inverkan på klassificerarbeteendet. The rationale here is that trustworthy training data has a higher probability of generating trustworthy outcomes/decisions. Även om det fortfarande är viktigt att träna på och vara flexibelt till icke betrodda data, bör skadliga data analyseras innan de blir en del av en högförlitlig brödtext i utbildningsdata. Utan sådana mått kan AI användas till att överreagera för att försöka hitta och neka tjänsten för legitima användare.
Det här är särskilt oroande när ej övervakade utbildningsalgoritmer är utbildning i opålitliga eller icke betrodda datamängder. Det innebär att attackerare kan presentera alla data som de vill ha förutsatt att formatet är giltigt och algoritmen har utbildning i den, vilket i själva verket litar på att data pekar jämnt med resten av utbildninguppsättningen. Med tillräckligt utformade indata från attackeraren förlorar utbildningsalgoritmen möjligheten att urskilja brus och ljud från data med hög säkerhet.
Som ett exempel på det här hotet kan du föreställa dig en databas med stopptecken över hela världen, på alla språk. Det skulle vara extremt utmanande att curate på grund av antalet bilder och språk som ingår. Skadligt bidrag till den datauppsättningen skulle inte uppmärksammas förrän självkörningsbilar inte längre känner igen stopptecken. Åtgärder för dataåteråterlösning och beslutsintegritet måste vara tillgängliga här för att identifiera och eliminera utbildningsskador som orsakats av skadliga data för att förhindra att de blir en viktig del av utbildningsmodellen.
AI måste ha inbyggda forensiska undersökningar och säkerhetsloggning för att tillhandahålla transparens och ansvarstagande
AI kommer så småningom att kunna agera i professionell kapacitet som agent åt oss och hjälpa oss att fatta beslut med hög effekt. Ett exempel på detta kan vara ett AI som hjälper till att bearbeta finansiella transaktioner. Om AI:n utnyttjas och transaktioner har manipulerats på något sätt kan konsekvenserna variera mellan den enskilda personen och miljön. I högvärdesscenarier behöver AI lämpliga scenarier och säkerhetsloggning för att tillhandahålla integritet, transparens, ansvarstagande och i vissa fall bevis där civil- eller civilansvar kan uppstå.
Viktiga AI-tjänster behöver gransknings- och event-tracing-resurser på algoritmnivån där utvecklare kan undersöka den registrerade statusen för specifika klassificerare som kan ha lett till ett felaktigt beslut. Den här funktionen krävs i hela branschen för att bevisa korrektheten och transparensen hos AI-genererade beslut när de anropas till fråga.
Event tracing facilities could start with the correlation of basic decision-making information such as:
Tidsperiod då den senaste utbildningshändelsen inträffade
Tidsstämpeln för den senaste datauppsättningsposten som tränats på
Vikter och konfidensnivåer för viktiga klassificerare som används för att fatta viktiga beslut
De klassificerare eller komponenter som ingår i beslutet
Det slutliga högsta värdet som nåtts av algoritmen
Sådan spårning överar för majoriteten av algoritmen-assisterade beslut. Möjligheten att identifiera datapunkter och algoritmmetadata som leder till specifika resultat är dock till stor fördel vid beslut med hög värde. Sådana funktioner visar inte bara tillförlitlighet och integritet genom algoritmens förmåga att "visa dess arbete", utan dessa data kan också användas för finjustering.
En annan säkerhetsfunktion som krävs i AI/ML är identifiering av manipulering. På samma sätt som vi behöver våra API:er för att känna igen partiskhet och inte bli sårbara för den, bör vi ha tillgång till funktioner för att hjälpa våra tekniker att identifiera och svara på sådana attacker. Så här avancerade funktioner är av högt värde när de paras ihop med datavisualiseringsteknik [11] vilket gör det möjligt att granska, felsöka och finjustera algoritmer för effektivare resultat.
AI måste skydda känslig information, även om människor inte
Avancerade upplevelser kräver avancerade data. Människor visar redan stora mängder data som vi ML kunna träna mot. Det omfattar allt från direktuppspelning av videoköinnehåll till trender för kreditkortsköp/transaktionshistorik som används för att identifiera bedrägerier. AI bör ha en diskret diskretion när det gäller hantering av användardata, och alltid agera för att skydda den även när den fritt delningen sker via en offentlig överdelning.
Eftersom ett AI kan ha en autentiserad grupp med "peers" som det handlar om för att kunna utföra komplexa uppgifter måste det också känna igen behovet av att begränsa de data som de delar med dessa peers.
Tidiga observationer vid adressering av AI-säkerhetsproblem
Trots att det här projektet har stor status tror vi att de bevis som sammanställts hittills visar en djupare undersökning av varje område nedan är avgörande för att flytta vår bransch till mer tillförlitlig och säker AI/ML produkter/tjänster. Nedan följer våra tidiga observationer och tankar om vad vi skulle vilja se gjorda i det här utrymmet.
AI/ML-fokuserad testning och säkerhetsgranskning kan upprättas för att säkerställa att vår framtida AI delar våra värden och överensstämmer med asilomar AI-principerna.
- En sådan grupp kan också utveckla verktyg och ramverk som kan användas i hela branschen för att skydda sina AI-/ML-baserade tjänster.
- Med tiden kommer denna expertis att byggas upp inom tekniska grupper organiskt, som den gjorde med traditionella säkerhetskunskaper under de senaste 10 åren.
Utbildning kan utvecklas som gör det möjligt för företag att leverera på mål som att prioritera AI samtidigt som de utmaningar som diskuteras i det här dokumentet minimeras.
- AI-specifik säkerhetsutbildning säkerställer att teknikerna är medvetna om riskerna med SIN AI och de resurser de har tillgång till. Det här materialet måste levereras tillsammans med aktuell utbildning om att skydda kunddata.
- Det kan göras utan att alla data måste vara tillgängliga för att bli säkerhetsexpert – i stället fokuserar vi på att se till att utvecklare ser motståndskraft och godtycklighet som tillämpas på deras användningsfall av AI.
- Utvecklare måste förstå de säkra "byggblocken" för AI-tjänster som kommer att återanvändas i deras företag. En betoning på feldesign med undersystem måste vara särskilt bra och kan enkelt stängas av (t.ex. bildprocessorer och textparenter).
ML-klassificerare och deras underliggande algoritmer kan vara hårdade och kunna identifiera skadliga utbildningsdata utan att verifiera giltiga utbildningsdata som används eller förvränga resultaten.
Tekniker som Avvisa vid negativ indata [6] behöver researcher-cykler för att undersöka.
I det här arbetet ingår matematisk verifiering, koncepttest i kod och testning mot både skadliga och onormala data.
Här kan det vara bra att använda punktkontroll/moderering, särskilt där statistiska kontroller förekommer.
"Övervakande klassificerare" kan byggas för att ge en mer allmän förståelse av hot över flera api:er. Detta förbättrar kraftigt säkerheten i systemet eftersom attackerarna inte längre kan utsortera någon viss modell.
Api:er kan länkas ihop för att identifiera hot i varandras system
Ett centralt ML granskning/forensik kan skapas som upprättar en standard för transparens och tillförlitlighet för AI.
- Frågefunktioner kan också skapas för granskning och granskning av beslut av hög inverkan på företag genom AI.
De som används av adversaries i olika kulturgrupper och sociala medier kan kontinuerligt undersökas och analyseras av AI för att kunna identifiera och svara på sarkasm och så vidare.
Api:er måste vara flexibel inför alla typer av vernaala, oavsett om det är tekniskt, regionalt eller forumspecifikt.
Den här kunskapsdelen kan också användas i innehållsfiltrering/märkning/blockering av automatisering för att hantera problem med moderators skalbarhet.
Den här globala databasen med termer kan lagras i utvecklingsbibliotek eller till och med exponeras via molntjänst-API:er för återanvändning av olika API:er, vilket säkerställer att nya AIs drar nytta av den kombinerade de äldre av de äldre.
En "Machine Learning Fuzzing Framework" kan skapas som ger tekniker möjlighet att mata in olika typer av attacker i testutbildningsuppsättningar som AI kan utvärdera.
- Detta kan inte bara fokusera på text vernaokation, utan på bild, röst- och gestdata samt permutationer av dessa datatyper.
Sammanfattning
Ai-principerna i Asilomar illustrerar komplexiteten hos att tillhandahålla AI på ett sätt som konsekvent är till förmån för mänskligheten. Framtida API:er måste interagera med andra API:er för att ge innehållsrika, tilltalande användarupplevelser. Det innebär att det helt enkelt inte är tillräckligt bra för Microsoft att "få AI rätt" från ett säkerhetsperspektiv – världen måste göra det. Vi behöver branschjustering och samarbete för att bättre kunna lösa problemen i det här dokumentet på ett sätt som liknar vår internationella push för en Digital Convention [9]. Genom att åtgärda de problem som presenteras här kan vi börja vägleda våra kunder och branschpartner på en väg där AI verkligen har moderniserats och ökar intelligensen för hela mänskligheten.
Litteraturförteckning
[1] Nassim Nicholas (2007), Black The Black The Impact: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512
[2] Det första hann vara, fan zhang, ari juels, Michael K. Reiter, Thomas Ristenpart,som stjäl Machine Learning modellervia prognos-API:er
[3] Ian GoodFellow, Pockets Papernot, Sandiga Huang, Yan Duan, Pieter Abbeeloch Jack Clark: Attacking machine learning med exempel påadversaialer
[4] Satya Nadella:Framtidens samarbete
[5] Thomas:Googles ai-förstörs inte klarar av stavfel
[6] Marco Barreno, Blaine Smith, Och D. Joseph, J.D. Sättar:Säkerheten för maskininlärning
[7] Wolchover, Natalie: Denhär artificiell intelligens-första har några problem
[8] Ans, Ariel:Hur justerar vi artificiell intelligens efter mänskliga värden?
[9] Smith, Brad: Detkrävs brådskande kollektiv åtgärd för att hålla människor säkra online: lektionerfrån förra veckans cyberattacker
[10] Nicholas Micini, Pratychai Misher, Tavish Vaidya, Yuankommando Zhang, Micah Sherr, Micah Sherr, Dave Dengman, Wenchao Zhou:Dolda röstkommandon
[11] Mikaela Viéén, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Förd, Nikén Thorat, Charles Nicholson, Google Research:Big Picture