AI/ML-relaterade justeringar av SDL-indelningen av buggar

Av Andrew Marshall, Jugal Parikh, Emre Kiciman och Ram Shankar Siva Kumar

November 2019

Det här dokumentet är en produkt från Microsofts arbetsgrupp AETHER Engineering Practices for AI och ska ses som ett komplement till den befintliga SDL-indelningen som används till att prioritera traditionella säkerhetsrisker. Det är avsett att användas som referens vid prioritering av AI/ML-relaterade säkerhetsproblem. Mer detaljerad information om hotanalys och lösningar finns i Hotmodellering i AI/ML-system och beroenden.

Den här vägledningen bygger på och refererar till en taxonomi kring ML-angreppshot som tagits fram av Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen och Jeffrey Snover och har titeln Fellägen inom maskininlärning”. Även om forskningen som innehållet är baserat på täcker både avsiktliga/illvilliga och oavsiktliga beteenden gällande ML-lägen så gäller den här nivåindelningen enbart avsiktliga/illvilliga beteenden som kan orsaka säkerhetsincidenter och att distribuera en korrigering.

Hot Allvarlighet Beskrivning/affärsrisker/exempel
Kontaminerade data Från viktigt till kritiskt

Kontaminering av träningsdata – angriparens mål är att kontaminera datormodellen som genereras under träningsfasen så att förutsägelser om nya data modifieras under testningsfasen.

I riktade kontamineringsangrepp vill angriparen felklassificera specifika indata så att specifika åtgärder antingen utförs eller ignoreras.

Att skicka AV-programvara som skadlig kod för att framtvinga en felklassificering som skadlig kod och stoppa användningen av riktad AV-programvara i klientsystem.

Ett företag hämtar data om optionsmarknaden från en välkänd och betrodd webbplats för att träna sina modeller. Dataleverantörens webbplats komprometteras genom en SQL-inmatningsattack. Angriparen kan godtyckligt kontaminera datauppsättningen utan att modellen har någon aning om att webbplatsens data har komprometterats.

Modellstöld Från viktigt till kritiskt

Återskapande av den underliggande modellen med hjälp av legitima frågor. Den nya modellen har samma funktioner som den underliggande modellen. När modellen återskapas kan den inverteras för att återskapa funktionsinformation eller dra slutsatser om träningsdata.

Ekvationslösning – för en modell som returnerar klassannolikheter via API-utdata kan en angripare konstruera frågor för att få fram de okända variablerna i en modell.

Sökvägsidentifiering – ett angrepp som utnyttjar API-egenskaper till att extrahera de ”beslut” som fattas av ett träd när indata klassificeras.

Överföringsangrepp – en angripare kan träna en lokal modell, till exempel genom att skicka förutsägelsefrågor till målmodellen, och använda den till att konstruera manipulerade indata som sedan överförs till målmodellen. Om din modell extraheras och visar sig vara sårbar för en viss typ av indatamanipulering så kan nya angrepp mot modellen i produktion utvecklas offline av angriparen som extraherade kopian av modellen.

I scenarier där en maskininlärningsmodell används till att identifiera skadligt beteende, som att identifiera skräppost, klassificera skadlig kod och identifiera avvikelser i nätverket så kan modellextrahering göra det lättare att komma runt skyddsmekanismer

Modellinversion Från viktigt till kritiskt

De privata funktionerna som används i maskininlärningsmodeller kan återskapas. Det handlar om att rekonstruera privata träningsdata som angriparen inte har åtkomst till Det görs genom att angriparen hittar indata som maximerar den returnerade konfidensnivån givet klassificeringen som matchar målet.

Exempel: Rekonstruktion av ansiktsigenkänningsdata från gissade eller kända namn och API-åtkomst för att fråga modellen.

Skadliga exempel i den fysiska domänen Kritiskt Den här manipuleringen av indata kan förekomma i den fysiska världen. Till exempel kan en självkörande bil luras att köra förbi en stoppskylt när den belyses med en viss färg (manipulerade indata), så att bildigenkänningssystemet inte längre uppfattar skylten som en stoppskylt.
Angrepp mot ML-leveranskedjan Kritiskt

På grund av stora resurser (data + beräkning) som krävs för att träna algoritmer är den nuvarande metoden att återanvända modeller som tränats av stora företag och ändra dem något för aktuella uppgifter (t.ex. ResNet är en populär bildigenkänningsmodell från Microsoft).

De här modellerna väljs ut till ett Model Zoo (Caffe är värd för populära bildigenkänningsmodeller).

Vid den här typen av angrepp attackeras modellerna i Caffe, vilket innebär att de även blir skadliga för andra.

Algoritm med bakdörr från illvillig ML-leverantör Kritiskt

Manipulering av den underliggande algoritmen

En illvillig leverantör presenterar en algoritm med en bakdörr som gör att privata träningsdata kan återskapas. Det här gör att angriparen kan rekonstruera känsliga data som ansikten och texter endast med hjälp av modellen.

Omprogrammering av neurala nätverk Från viktigt till kritiskt

Med hjälp av specialkonstruerade frågor från en angripare kan maskininlärningssystem programmeras om för en uppgift som är en annan än utvecklaren tänkt sig

Svaga åtkomstkontroller i ett API för ansiktsigenkänning som gör att tredje part kan använda det i appar som är utformade för att skada användarna, till exempel en ”deep fakes”-generator.

Det här är ett scenario för missbruk/nedtagning av konto

Avsiktliga störningar Från viktigt till kritiskt

Vid störningsattacker modifierar angriparen obemärkt frågan för att få önskat svar från en modell i produktionsmiljö. Detta integritetsintrång av modellens indata leder till ett slags ”fuzzing”-angrepp, vars slutresultat inte nödvändigtvis är en åtkomstöverträdelse eller EOP, utan kompromettering av modellens klassificeringsförmåga.

Ett exempel kan vara nättroll som använder särskilda målord på ett sätt som gör att AI:t förbjuder dem, vilket i praktiken kan utesluta legitima användare med ett namn som matchar ett ”förbjudet” ord från tjänsten.

Att få legitima e-postmeddelanden klassificerade som skräppost eller att få skadliga meddelanden att inte klassificeras. Den här typen av angrepp involverar manipulerade indata eller imitation.

Angriparen kan skapa indata som minskar förtroendenivån för en korrekt klassificering, särskilt i scenarier som kan få betydande konsekvenser. Det här kan också ske i form av ett stort antal falska positiva identifieringar som är avsedda att överbelasta administratörer eller övervakningssystem med bedrägliga aviseringar som är svåra att skilja från legitima aviseringar.

Medlemskapsinferens Måttlig till kritisk

Inferens av enskilt medlemskap i en grupp som används till att träna en modell

Exempel: förutsägelse av kirurgiska procedurer baserat på ålder/kön/sjukhus