AI/ML till programfältet för säkerhetsutvecklingslivscykel

Av Andrew Marshall, Jugal Parikh, Emre Kiciman och Ram Det första hann med Siva Kumar

November 2019

Det här dokumentet är en slutbar produkt från Microsoft AETHER Engineering Practices för AI-arbetsgruppen och funktioner som ett tillägg till den befintliga SDL-buggstapeln som används för traditionella säkerhetsproblem. Den är avsedd att användas som referens för triangeln av AI/ML-relaterade säkerhetsproblem. Mer detaljerad information om hotanalys och minskningar finns i Modellering av hot för AI/ML system och beroenden.

Den här vägledningen är ordnad kring och refererar omfattande till adversarial-Machine Learning Threat Taxonomy som skapats av Ram TillTr Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen och Snover med rätt fellägen i Machine Learning. Observera att även om efterforskningar som det här innehållet baseras på adresser som både avsiktligt/skadligt och oavsiktligt beteende i ML-fellägen, fokuserar det här programfältets tillägg helt på avsiktlig/skadlig beteende som skulle resultera i en säkerhetshändelse och/eller distribution av en korrigering.

Hot Allvarlighetsgrad Beskrivning/affärsrisker/exempel
Data en datadead Viktigt för kritiskt

Skadade utbildningsdata – Det sista målet för attackeraren är att smitta den maskinmodell som skapats i utbildningsfasen ,så att prognoser på nya data ändras i testfasen.

I riktade specialattacker vill attackerare klassificera specifika exempel för att orsaka att vissa åtgärder vidtas eller utelämnas.

Skickar AV-programvara som skadlig programvara för att tvinga fram dess felklassificering som skadlig och eliminera användningen av riktad AV-programvara på klientsystem. 

Ett företag klipper av en känd och betrodd webbplats för framtida data och utbildar sina modeller. Dataleverantörens webbplats komprometteras sedan via en SQL inlösningsattack. Då kan attackeraren binda datamängden efter vite och modellen som tränas har ingen aning om att data är beskända.

Modell som stjäl Viktigt för kritiskt

På så sätt skapas en ny underliggande modell genom att frågan körs på ett legitimt sätt. Den nya modellens funktioner är samma som den underliggande modellen. När modellen återskapas kan den inverteras för att återställa funktionsinformation eller dra slutledningar av utbildningsdata. 

Ekvationslösning – För en modell som returnerar sannolikheter för klassen via API-utdata kan en attack skapa frågor för att fastställa okända variabler i en modell.

Sökvägssökning – en attack som utnyttjar API-funktioner för att extrahera de "beslut" som vidtas av ett träd när de klassificerar en indata.

Överföringsattack – Ett adversaryt kan utbilda en lokal modell – eventuellt genom att utfärda prognosfrågor till den riktade modellen – och använda den för att skapa praktiska exempel som överförs till målmodellen. Om din modell extraheras och upptäcks sårbar för en typ av adversarialinmatning kan nya attacker mot din produktionsdi distribuerade modell utvecklas helt offline av attackeraren som extraherade en kopia av din modell.

I inställningar där en ML-modell fungerar för att identifiera adversiellt beteende, t.ex. identifiering av skräppost, klassificering av skadlig kod och nätverkets avvikande identifiering, kan modell extrahering underlätta intrång

Modellinversion Viktigt för kritiskt

De privata funktionerna som används i maskininlärningsmodeller kan återskapas. Det handlar bland annat om att återskapa privata utbildningsdata som attackeraren inte har åtkomst till. Du uppnår detta genom att hitta indata som maximerar konfidensnivån som returneras, under klassificeringen som matchar målet.

Exempel: Ett problem med ansiktsigenkänningsdata från gissnings- eller kända namn och API-åtkomst till att fråga modellen.

Adversarial Example i Physical Domain Kritisk De här exemplen kan visa sig på den fysiska domänen, t.ex. när en självgående bil luras att köra ett stopptecken på grund av att en viss ljusfärg (adversarialinmatningen) är bra på stopptecknet, vilket tvingar bildigenkänningssystemet att inte längre se stopptecknet som ett stopptecken.  
Attack ML leveranskedja Kritisk

Om stora resurser (data + beräkning) krävs för att utbilda algoritmer är det aktuella övningen att återanvända modeller som utbildats av stora företag och ändra dem något för att utföra en uppgift (t.ex. ResNet är en populär bildigenkänningsmodell från Microsoft).

Dessa modeller är typade i en modell av Caffe (Caffe är värd för populära bildigenkänningsmodeller).

I den här attacken attackerar adversivt modeller som finns i Caffe, och det här är mycket bra för alla andra.

Bakåtdomänerad algoritm från ML dataleverantör Kritisk

Komprometterande den underliggande algoritmen

En ML tjänst-som-tjänst presenterar en bakåtdoorerad algoritm, där privata utbildningsdata återställs. Då kan attackeraren återskapa känsliga data, som ansikten och text, med bara modellen.

Neural Net-omprogramning Viktigt för kritiskt

Genom en särskilt utformad fråga från en attackerare kan ML-system omprogrammeras till en uppgift som avviker från skaparens ursprungliga avsikter

Svaga åtkomstkontroller på ett API för ansiktsigenkänning gör att 3rd-parter kan införliva i appar som är utformade för att skada användare, till exempel en djupkonservergenerator.

Detta är ett scenario för missbruk/kontoövertagning

Adversarial Perturbation Viktigt för kritiskt

I form av perturbationsattacker ändrar attackerarna helt och snabbt frågan för att få ett önskat svar från en produktionsbaserade modell. Det här är ett brott mot modellens indataintegritet som leder till fuzzing-attacker där slutresultatet inte nödvändigtvis är ett åtkomstfel eller EOP, utan istället äventyrar modellens klassificeringsprestanda.

Det kan visa sig när han eller hon använder vissa målord på ett sätt som INNEBÄR att AI:t spärrar dem, vilket nekar legitima användare med ett namn som matchar ett "spärrat" ord.

Tvinga e-postmeddelanden att klassificeras som skräppost eller orsaka att ett skadligt exempel inte identifieras. De här kallas även modelldemonsitet eller imitera attacker.

Attacker kan skapa inmatningar för att minska konfidensnivån för korrekt klassificering, särskilt i scenarier med hög anledning. Det kan också ske i form av ett stort antal falska positiva resultat som är avsedda att överbelasta administratörer eller övervakningssystem med falska varningar som inte kan skiljas från legitima aviseringar.

Slutledning av medlemskap Måttlig till kritisk

Här finns enskilda medlemskap i en grupp som används för att utbilda en modell

Exempel: förutsägelse av procedurer för operationer baserat på ålder/kön/sjukhus