Modellering av hot för AI/ML system och beroenden

Av Andrew Marshall, Jugal Parikh, Emre Kiciman och Ram Det första hann med Siva Kumar

Special tack till Raul Rojas och AETHER Security Engineering Workstream

November 2019

Det här dokumentet är en slutlösning för AETHER Engineering Practices för AI-arbetsgrupper och tillägg av befintliga SDL-modelleringsmetoder genom att tillhandahålla ny vägledning om uppräkning av hot och åtgärder som är specifika för AI och Machine Learning utrymme. Den är avsedd att användas som referens under säkerhetsgranskningar av följande:

  1. Produkter/tjänster som interagerar med eller tar beroenden av AI/ML-baserade tjänster

  2. Produkter/tjänster som byggs med AI/ML sin kärntjänst

Traditionella åtgärder för säkerhetshot är viktigare än någonsin. De krav som fastställs av livscykeln för säkerhetsutveckling är avgörande för att upprätta en grund för produktsäkerhet som vägledningen bygger på. Om du inte tar itu med traditionella säkerhetshot kommer AI/ML-specifika attacker som omfattas av det här dokumentet att aktiveras i både programvaran och fysiska domäner, samt att göra kompromisser längre ned i programstacken. En introduktion till netto nya säkerhetshot på det här utrymmet finns i Skydda framtiden för AI och ML på Microsoft.

Säkerhetsteknikers och datas kompetenser överlappar vanligtvis inte. Den här vägledningen är ett sätt för båda grenarna att ha strukturerade konversationer om dessa nya hot/åtgärder utan att säkerhetstekniker behöver bli datarekruerade eller vice versa.

Det här dokumentet är uppdelat i två avsnitt:

  1. "Viktiga nya överväganden för modellering av hot" fokuserar på nya sätt att tänka och nya frågor att ställa när hot som modellerar AI/ML system. Både datastolar och säkerhetstekniker bör granska det här eftersom det blir deras spelbok för diskussioner om hotmodellering och prioritering av åtgärder.
  2. "AI/ML-specifika hot och deras minskningar" tillhandahåller information om specifika attacker samt specifika minskningar som används idag för att skydda Microsofts produkter och tjänster mot dessa hot. Det här avsnittet är främst riktat till data som kan behöva implementera specifika åtgärder för hot som en utdata från processen för modellering/säkerhetsgranskning av hot.

Den här vägledningen är ordnad kring en adversarial Machine Learning Threat Taxonomy som skapats av Ram Till Exempel Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen och Snover som har rätt till "Failure Modes in Machine Learning". Anvisningar för incidenthantering om hantering av säkerhetshot som beskrivs i det här dokumentet finns i SDL-programfältet för AI/ML-hot. Alla dessa är levande dokument som kommer att utvecklas med tiden med hotbilden.

Viktiga nya överväganden i modellering av hot: Ändra hur du visar förtroendegränser

Anta att de data du utbildar från och dataleverantören är en bra kompromiss. Lär dig att upptäcka avvikande och skadliga dataposter samt att kunna skilja mellan och återställa från dem

Sammanfattning

Utbildningsdatakällor och de system där de lagras ingår i din omfattning för hotmodellering. Det största säkerhetshotet inom maskininlärning idag är data som är beroende av brist på standardidentifiering och åtgärder på det här området, kombinerat med icke betrodda/opålitliga offentliga datamängder som källor till utbildningsdata. Att spåra hur informationen används och hur väl informationen är uppvägd för att säkerställa tillförlitligheten och undvika en utbildningscykel om "skräp i papperskorgen".

Frågor att ställa i en säkerhetsgranskning

  • Hur skulle du kunna veta om dina data är manipulerade eller inte?

    -Vilken telemetri behöver du för att upptäcka en snedhet i kvaliteten på dina utbildningsdata?

  • Håller du på att utbilda dig utifrån användarindata?

    -Vilken typ av inmatningsvalidering/sanitisering gör du på det innehållet?

    -Har strukturen på dessa data dokumenterats på liknande sätt som datablad för datamängder?

  • Vilka åtgärder behöver du vidta för att säkerställa säkerheten för anslutningen mellan din modell och dina data om du utbildar dig mot onlinedatakällor?

    -Finns det ett sätt för rapportering till konsumenter av deras feeds?

    -Kan de ens göra det?

  • Hur känslig är de data du utbildar dig från?

    -Katalogiserar du data eller kontrollerar du tillägg/uppdatering/borttagning av dataposter?

  • Kan din modell ge utdatakänsliga data?

    -Inhämtades dessa data med behörighet från källan?

  • Ger modellen bara de resultat som behövs för att uppnå målet?

  • Ger modellen rådata eller andra direkta utdata som kan spelas in och dupliceras?

  • Hur stor blir effekterna av att dina utbildningsdata återställs genom att attackerna/inverterar modellen?

  • Om konfidensnivåer i modellens utdata plötsligt släpper, kan du då ta reda på hur/varför, samt de data som orsakade den?

  • Har du definierat en fast inmatning för modellen? Vad gör du för att säkerställa att inmatningar uppfyller det här formatet och vad gör du om de inte gör det?

  • Om dina utdata är felaktiga men inte orsakar att fel rapporteras, hur skulle du veta det?

  • Vet du om dina utbildningsalgoritmer är flexibela till adversialinmatningar på en matematisk nivå?

  • Hur kan du återställa dina utbildningsdata från adversial tid?

    Kan du isolera/sätta in allt innehåll i karantän och utbilda om påverkade modeller?

    -Kan du återställa till en modell av en tidigare version för omutbildning?

  • Använder du E-Learning för okurserat offentligt innehåll?

  • Börja fundera på hur dina data är uppställningen – hade du kunnat hitta ett problem, kunde du spåra dem i datauppsättningen? Om inte, är det ett problem?

  • Ta reda på var dina utbildningsdata kommer från och identifiera statistiska norms så att du förstår hur ser ut

    Vilka element i dina utbildningsdata är sårbara för extern påverkan?

    -Vem kan bidra till de datamängder du utbildar dig från?

    Hur kan du skada en tävlande mot dina utbildningsdata?

  • Adversarial Perturbation (alla varianter)

  • Datadeadyr (alla varianter)

Exempel på attacker

  • Tvinga e-postmeddelanden att klassificeras som skräppost eller orsaka att ett skadligt exempel går oupptäckta

  • Attackerande indata som minskar konfidensnivån för korrekt klassificering, särskilt i scenarier med hög sekretess

  • Attacker matas in brus slumpmässigt i källdata som klassificeras för att minska sannolikheten för att rätt klassificering används i framtiden, vilket effektivt håller ned modellen

  • Utbildningsdata som visar hur vissa datapunkter felaktigt klassificeras, vilket resulterar i att vissa åtgärder vidtas eller utelämnas av ett system

Identifiera åtgärder som modell(er) eller produkt/tjänst kan vidta som kan orsaka kund skada online eller i den fysiska domänen

Sammanfattning

Vänster unmitigated, attackerna på AI/ML-system kan hitta till den fysiska världen. Alla scenarion som kan vara kritiska för att rent fysiskt skada användare är en katastrofrisk för din produkt/tjänst. Det omfattar känslig information om dina kunder som används för utbildning och designval som kan läcka ut dessa privata datapunkter.

Frågor att ställa i en säkerhetsgranskning

  • Utbildar du dig med praktiska exempel? Hur påverkar det dina modellers utdata i den fysiska domänen?

  • Hur ser det ut med din produkt/tjänst? Hur kan du identifiera och svara på den?

  • Vad kan du ta för att få din modell att returnera ett resultat som lurar din tjänst att neka åtkomst till legitima användare?

  • Vilka blir effekterna av att din modell kopieras/blir stulen?

  • Kan modellen användas till att uttjäna medlemskap för en enskild person i en viss grupp, eller bara i utbildningsdata?

  • Kan en attackerare orsaka ryktesskador eller ett pr-omslag till produkten genom att tvinga den att utföra vissa åtgärder?

  • Hur hanterar du korrekt formaterade men felaktigt partiska data, till exempel från från automatiskt?

  • Kan den metoden vara utfrågad för att avslöja utbildningsdata eller modellfunktioner för varje sätt att interagera med eller fråga din modell?

  • Slutledning av medlemskap

  • Modellinversion

  • Modell som stjäl

Exempel på attacker

  • Bygga ut och extrahera utbildningsdata genom att upprepade gånger fråga modellen för maximalt förtroende

  • Duplicering av modellen genom uttömmande fråge- och svarsmatchning

  • Fråga modellen på ett sätt som visar att ett visst element av privata data inkluderades i utbildningsuppsättningen

  • Självbil som luras att ignorera stopptecken/trafikljus

  • Konversationsrobotar har manipulerats för att hitta användare som inte kan använda konversationer

Identifiera alla källor till AI/ML beroenden samt beyddpresentationslager i data/modell-leveranskedja

Sammanfattning

Många attacker inom AI och Machine Learning börjar med legitim åtkomst till API:er som finns för att ge frågeåtkomst till en modell. På grund av de omfattande källorna till data och de omfattande användarupplevelserna som ingårhär, autentiserade men "olämpliga" (det finns ett grått område här) åtkomst från tredje part till dina modeller är en risk eftersom möjligheten att agera som presentationslager ovanför en tjänst som tillhandahålls av Microsoft är en risk.

Frågor att ställa i en säkerhetsgranskning

  • Vilka kunder/partner är autentiserade för åtkomst till modell- eller tjänst-API:er?

    -Kan de fungera som ett presentationslager ovanpå tjänsten?

    -Kan du återkalla deras åtkomst snabbt vid en kompromiss?

    -Vilken är din återställningsstrategi i händelse av skadlig användning av tjänsten eller beroenden?

  • Kan en 3rd-part bygga en façade runt din modell för att göra om dess syfte och skada Microsoft eller dess kunder?

  • Tillhandahåller kunderna utbildningsdata direkt till dig?

    -Hur säkrar du dina data?

    Vad händer om den är skadlig och din tjänst är målet?

  • Hur ser en falsk positiv ut här? Vad får en falsk-negativ effekt?

  • Kan du spåra och mäta avvikelsen Sant positivt jämfört med Falskt positivt för flera modeller?

  • Vilken typ av telemetri behöver du för att bevisa tillförlitligheten i modellutdata för dina kunder?

  • Identifiera allatredjepartsberoenden i din ML/utbildningskedja för datakällor – inte bara programvara för öppen källkod, utan även dataleverantörer

    -Varför använder du dem och hur kan du verifiera tillförlitligheten?

  • Använder du färdiga modeller från 3rd-parter eller skickar utbildningsdata till tredjepartsleverantörer av MLaaS?

  • Artiklar om lagernyheter om attacker på liknande produkter/tjänster. Förstå att många AI/ML hot överförs mellan modelltyper, hur skulle dessa attacker påverka dina egna produkter?

  • Neural Net-omprogramning

  • Adversa exempel i den fysiska domänen

  • Skadlig ML som återskapar utbildningsdata

  • Attack av ML leveranskedja

  • Backdoored Model

  • Komprometterade ML specifika beroenden

Exempel på attacker

  • Skadliga MLaaS-provider trojaner din modell med en viss förbikoppling

  • Adversary customer finds vulnerability in common OSS dependency you use, uploads crafted training data payload to compromise your service

  • Unscrupulous partner uses facial recognition APIis and creates a presentation layer over your service to produce Deep Fakes.

AI/ML-specifika hot och deras minskningar

#1: Adversarial Perturbation

Beskrivning

I form av perturbation-attacker ändrar attackerarna helt och snabbt frågan för att få ett önskat svar från en produktionsbaserade modell[1]. Det här är ett brott mot modellens indataintegritet som leder till fuzzing-attacker där slutresultatet inte nödvändigtvis är ett åtkomstfel eller EOP, utan istället äventyrar modellens klassificeringsprestanda. Det kan också visas för efternamn som använder vissa målord på ett sätt som INNEBÄR att AI:et spärrar dem, vilket nekar legitima användare med ett namn som matchar ett "spärrat" ord.

[24]

Variant #1a: Riktad felklassificering

I det här fallet genererar attacker ett sampel som inte ingår i målklassificerarens indataklass, men klassificeras av modellen som den specifika indataklassen. Det adversiella samplet kan visas som slumpmässigt brus för ögonen, men attacker har viss kunskap om systemet för maskininlärning som genererar ett vitt brus som inte är slumpmässigt men utnyttjar vissa specifika aspekter av målmodellen. Adversaryen ger ett indataexempel som inte är ett legitimt stickprov, men målsystemet klassificerar det som en legitim klass.

Exempel

[6]

Minskningar

  • Förstärkande adversarial robusthet med hjälp av modellförtroende som av adversarialutbildning [19]: Författarna föreslår mycket trygg nära intilliggande intilliggande (HCNN), ett ramverk som kombinerar konfidensinformation och närmaste intilliggande sökning, för att förstärka adversa robustheten hos en basmodell. Det här kan hjälpa dig att skilja mellan höger och fel modellförutsägelser i ett område med en punkt som testas från den underliggande utbildningsfördelningen.

  • Attributionbaserad causal analys [20]: Författarna undersöker anslutningen mellan motståndskraften till adversaiala perturbationer och den attributionsbaserade beskrivningen av enskilda beslut som genereras av maskininlärningsmodeller. De rapporterar att adversa indata inte är robusta när det gäller attributionsutrymme, det vill säga att om du maskerar några funktioner med hög attribution kan du ändra delningen av maskininlärningsmodellen i exemplen på adversialer. De naturliga indata är däremot robusta när det gäller tilldelningsutrymme.

    [20]

Dessa metoder kan göra att maskininlärningsmodeller blir mer flexibela mot adversaialattacker eftersom det här tvålagerskognitionssystemet inte bara kräver attack mot den ursprungliga modellen utan också att se till att attributionen som genereras för exemplet med adversialen liknar de ursprungliga exemplen. Båda system måste samtidigt komprometteras för en lyckad adversialattack.

Traditionella paralleller

Remote Elevation of Privilege sedan attacker nu har kontroll över din modell

Allvarlighetsgrad

Kritisk

Variant #1b: Felklassificering av källa/mål

Det här karaktäriserar ett försök av en attackerare att få en modell för att returnera deras önskade etikett för en viss ingång. Det här tvingar vanligtvis en modell att returnera ett falskt positivt eller falskt negativt värde. Resultatet är en diskret övergång till modellens klassificeringsprecision, med vilken en attackerare kan kringgå specifika förbikopplingar.

Även om den här attacken kan få allvarliga konsekvenser för klassificeringsprecisionen kan det också vara mer tidskrävande att utföra eftersom ett adversaryt inte bara får ändra källdata så att de inte längre märks korrekt, utan även märkas specifikt med den önskade bedrägliga etiketten. Dessa attacker innebär ofta flera steg/försök att tvinga fram felaktig klassificering [3]. Om modellen är känslig för överföring av utbildningsattacker som tvingar riktad felklassificering kan det finnas ingen urskiljbar attacktrafikavtryck eftersom sannolikhetsattackerna kan utföras offline.

Exempel

Tvinga e-postmeddelanden att klassificeras som skräppost eller orsaka att ett skadligt exempel inte identifieras. De här kallas även modelldemonsitet eller imitera attacker.

Minskningar

Åtgärder för reaktiv/identifiering av oidentifiering

  • Implementera en minsta tidströskel mellan anrop till API som tillhandahåller klassificeringsresultat. Det här gör att testningen av flera steg i flera steg går långsammare genom att den totala tid som krävs för att hitta en framgångs perturbation ökar.

Förebyggande/skyddsåtgärder

  • Funktionen Neka för förbättring av adversarial robusthet [22]: Författarna utvecklar en ny nätverksarkitektur som ökar adversarial robustheten genom att göra funktionen mer pålitlig. Specifikt innehåller nätverken block som avskpar funktionerna med hjälp av icke-lokala medel eller andra filter. hela nätverken har utbildning från slutet till slut. I kombination med adversiell utbildning, förbättrar funktionen icke-nationella nätverk väsentligt den senaste tekniken i adversarial robusthet i både inställningar för attack i vit ruta och svart ruta.

  • Adversarial utbildning och regularisering: Utbilda med kända adversarialprov för att skapa motståndskraft och robusthet mot skadliga inmatningar. Detta kan också ses som en form av normalisering, som initierar normen för inmatningstoningar och gör prognosfunktionen i klassificeraren jämnare (ökar indatamarginalen). Det omfattar rätt klassificeringar med lägre konfidensfrekvenser.

Investera i att utveckla monotonisk klassificering med urval av monotoniska funktioner. Det säkerställer att adversaryt inte kommer att kunna kringgå klassificeraren genom att helt enkelt utfyllnadsfunktioner från den negativa klassen [13].

  • Funktionen som använder [18] kan användas för att hårdna DNN-modeller genom att identifiera adversa exempel. Det minskar sökutrymmet som kan kommas åt av att prover som motsvarar många olika funktionsvektorer i det ursprungliga blanksteget minskas till ett enda sampel. Genom att jämföra en DNN-modells prognos av den ursprungliga inmatningen med den för den pressade inmatningen kan funktionen som trycks ihop hjälpa till att identifiera exempel på adversa namn. Om de ursprungliga och klämda exemplen ger mycket olika utdata från modellen är troligen inmatningen adversiell. Genom att mäta heten bland förutsägelser och välja ett tröskelvärde kan systemet mata ut rätt prognos för legitima exempel och avvisa adversiella indata.

    [18]

  • Certified Defenses against Adversarial Examples [22]: The authors propose a method based on a semi-förfining den that outputs a certificate that for a given network and test input, no attack can force the error to exceed a certain value. Eftersom certifikatet är annorlunda optimerar författare gemensamt det med nätverksparametrarna, vilket ger en anpassad regularizer som uppmuntrar robusthet mot alla attacker.

Svarsåtgärder

  • Problemvarningar om klassificeringsresultat med hög varians mellan klassificerare, särskilt om de kommer från en enskild användare eller en liten grupp användare.

Traditionella paralleller

Remote Elevation of Privilege

Allvarlighetsgrad

Kritisk

Variant #1c: Slumpmässig förklassificering

Det här är en särskild variant där attackerens målklassificering kan vara något annat än den legitima källklassificering. Attacken innebär vanligtvis störande ljud som slumpmässigt går in i källdata och klassificeras för att minska sannolikheten för att rätt klassificering används i framtiden [3].

Exempel

Minskningar

Samma som Variant 1a.

Traditionella paralleller

Icke-beständiga denial of service

Allvarlighetsgrad

Viktigt

Variant #1d: Konfidensminskning

En attackerare kan skapa indata för att minska konfidensnivån för korrekt klassificering, särskilt i scenarier med hög otänkbara användning. Det här kan också ske i form av ett stort antal falska positiva resultat som är avsedda att överbelasta administratörer eller övervakningssystem med bedrägliga varningar som inte kan skiljas från legitima varningar [3].

Exempel

Minskningar
  • Utöver de åtgärder som behandlas i Variant #1a kan händelsebegränsning användas för att minska mängden aviseringar från en enda källa.
Traditionella paralleller

Icke-beständiga denial of service

Allvarlighetsgrad

Viktigt

#2a av riktade data

Beskrivning

Målet för attackeraren är att smitta den maskinmodell som skapats i utbildningsfasen ,så att prognoser på nya data ändras i testfasen[1]. I riktade specialattacker vill attackerare klassificera specifika exempel för att orsaka att vissa åtgärder vidtas eller utelämnas.

Exempel

Skickar AV-programvara som skadlig programvara för att tvinga fram dess felklassificering som skadlig och eliminera användningen av riktad AV-programvara på klientsystem.

Minskningar
  • Definiera avvikelser för att titta på datafördelningen i dag och avisering om variationer

    -Mät utbildningsdatavariationen dagligen, telemetri för skev/drift

  • Inmatningsvalidering, både sanitisering och integritetskontroll

  • Övningen matar ut utbildningsexempel. Två huvudstrategier för att motarbeta detta hot:

    -Data Sanitization/ validering: ta bort exempel från utbildningsdata – Bagging for attack samtidigt (bagging for attack) [14]

    -Reject-on-Negative-Impact (TIDE)-skydd [15]

    -Robust Learning: Välj utbildningsalgoritmer som är robusta i närvaro av exempel av hög utbildning.

    -En sådan metod beskrivs i [21] där författare tar itu med problemet med data i två steg: 1) introduktion till en nya robust matrisfaktoriseringsmetod för att återställa det sanna underområdet och 2) nya robusta principkomponent regressioner till klippiga adversialinstanser baserat på den bas som återskapades i steg (1). De karaktäriserar nödvändiga och tillräckliga villkor för att återskapa det sanna underområdet och presentera en bunden förväntad prognosförlust jämfört med grundförutsättningarna för sanning.

Traditionella paralleller

Trojansk värd med vilken attacker kvarstår i nätverket. Utbildning eller konfigurationsdata komprometteras och används som idelade/betrodda för modellskapande.

Allvarlighetsgrad

Kritisk

#2b ursintr utsmäckta datasegande

Beskrivning

Målet är att förstöra kvaliteten/integriteten för datauppsättningen som angrips. Många datamängder är offentliga/icke betrodda/opålitliga, så det skapar ytterligare problem med möjligheten att upptäcka sådana dataintegritetsöverträdelser från början. Utbildning om oavsiktligt komprometterade data är en skräp-/skräplösning. När den har upptäckts måste triangeln fastställa omfattningen av data som har brutits och karantän/omtämnad.

Exempel

Ett företag klipper av en känd och betrodd webbplats för framtida data för att träna sina modeller. Dataleverantörens webbplats komprometteras sedan via en SQL inlösningsattack. Då kan attackeraren binda datamängden efter vite och modellen som tränas har ingen aning om att data är beskända.

Minskningar

Samma som variant 2a.

Traditionella paralleller

Autentiserad denial of service mot en tillgång med höga värden

Allvarlighetsgrad

Viktigt

#3 Modellinversionsattacker

Beskrivning

De privata funktionerna som används i maskininlärningsmodeller kan återskapas [1]. Det handlar bland annat om att återskapa privata utbildningsdata som attackeraren inte har åtkomst till. Kallas även toppklättringsattacker i biometrisks communityn [16, 17] Det här sker genom att hitta den input som maximerar konfidensnivån som returneras, och som omfattas av klassificeringen som matchar målet [4].

Exempel

[4]

Minskningar
  • Gränssnitt till modeller med utbildning om känsliga data behöver stark åtkomstkontroll.

  • Frågor med betygsgräns som tillåts av modell

  • Implementera portar mellan användare/uppringare och den faktiska modellen genom att utföra indatavalidering på alla föreslagna frågor, avvisa allt som inte uppfyller modellens definition av korrekt indata och endast returnera den minsta mängd information som behövs för att vara användbar.

Traditionella paralleller

Riktad, genomslagsinformationen

Allvarlighetsgrad

Den här standardinställningen är viktig enligt standard-SDL-programfältet, men känsliga eller personligt identifierbara data som extraheras höjer detta till kritiskt.

#4 Medlemsangrepp

Beskrivning

Attackeraren kan avgöra om en viss datapost var en del av modellens utbildningsdatauppsättning eller inte[1]. Forskare kunde förutse en patients huvudprocedur (t.ex: Att få patienten att gå igenom) baserat på attributen (t.ex. ålder, kön, sjukhus) [1].

[12]

Minskningar

Forskningsrapporter som visar att den här attacken indikerar differentiell sekretess [4, 9] skulle vara en effektiv minskning. Det här är fortfarande ett nascentfält hos Microsoft och AETHER Security Engineering rekommenderar att du skapar expertis vid investeringar i forskning på det här området. Den här efterforskningen skulle behöva räkna upp Different olika sekretessfunktioner och utvärdera deras praktiska effektivitet som åtgärder, och sedan utforma sätten för dessa skydd att ärvs transparent på våra onlinetjänstplattformar, ungefär på samma sätt som för att kompilera kod i Visual Studio ger dig säkerhetsskydd som är transparenta som standard för utvecklare och användare.

Användningen av dropout och modellering av modeller kan i en viss utsträckning vara effektiva åtgärder. Användning av neurala lister ökar inte bara motståndskraften för ett neuralt net för den här attacken, utan ökar även modellprestanda [4].

Traditionella paralleller

Datasekretess. Slutledningar görs om att en datapunkt ska tas med i utbildningsuppsättningen, men själva utbildningsinformationen avslöjas inte

Allvarlighetsgrad

Det här är ett sekretessproblem, inte ett säkerhetsproblem. Den hanteras i vägledning för hotmodeller eftersom domänerna överlappar varandra, men eventuella svar här skulle drivs av sekretess, inte säkerhet.

#5 modell som stjäl

Beskrivning

Attackerarna återskapar den underliggande modellen genom att köra en fråga mot modellen. Den nya modellens funktionalitet är densamma som för den underliggande modellen[1]. När modellen återskapas kan den inverteras för att återställa funktionsinformation eller dra slutledningar av utbildningsdata.

  • Ekvationslösning – För en modell som returnerar sannolikheter för klassen via API-utdata kan en attack skapa frågor för att fastställa okända variabler i en modell.

  • Sökvägssökning – en attack som utnyttjar API-funktioner för att extrahera "beslut" som vidtas av ett träd när de klassificerar en indata [7].

  • Överföringsattack – Ett adversaryt kan utbilda en lokal modell – eventuellt genom att utfärda prognosfrågor till den riktade modellen – och använda den för att skapa praktiska exempel som överförs till målmodellen [8]. Om din modell extraheras och upptäcks sårbar för en typ av adversarialinmatning kan nya attacker mot din produktionsdi distribuerade modell utvecklas helt offline av attackeraren som extraherade en kopia av din modell.

Exempel

I inställningar där en ML-modell fungerar för att identifiera adversiellt beteende, till exempel identifiering av skräppost, klassificering av skadlig kod och avvikande nätverk, kan modell extrahering underlätta attacker [7].

Minskningar

Förebyggande/skyddsåtgärder

  • Minimera eller visa information som returneras i förutsägelse-API:er samtidigt som de behåller sin användbarhet för att "var lugn" i programmen [7].

  • Definiera en välformd fråga för modellinmatningar och returnera bara resultat som svar på slutförda, välformatade inmatningar som matchar det formatet.

  • Returnera avrundade konfidensvärden. De flesta legitima uppringare behöver inte ha flera decimaler precision.

Traditionella paralleller

Oauthiskt, skrivskyddat manipulering av systemdata, riktad information med höga värden?

Allvarlighetsgrad

Viktigt i säkerhetskänsliga modeller, måttliga i annat fall

#6 Neural Net-omprogramering

Beskrivning

Genom en särskilt utformad fråga från ett adversaryt kan maskininlärningssystem omprogrammeras till en uppgift som avviker från skaparens ursprungliga avsikter [1].

Exempel

Svaga åtkomstkontroller på ett API för ansiktsigenkänning gör det möjligt för 3rd-parter att införliva i appar som är utformade för att skada Microsoft-kunder, t.ex. en djup falsk generator.

Minskningar
  • Stark klient < – > serverbaserad autentisering och åtkomstkontroll till modellgränssnitt

  • Borttagning av stötande konton.

  • Identifiera och tillämpa ett servicenivåavtal för api:erna. Fastställ godtagbar tid för korrigering för ett problem när det har rapporterats och se till att problemet inte längre återbeställs när SLA förfaller.

Traditionella paralleller

Det här är ett missbruksscenario. Det är mindre troligt att du öppnar en säkerhetshändelse för det här än att helt enkelt inaktivera användarens konto.

Allvarlighetsgrad

Viktigt för kritiskt

#7 Adversarial Example i den fysiska domänen (bits- > atoms)

Beskrivning

Ett adversiellt exempel är en indata-/fråga från en skadlig enhet som skickas i syfte att missleda systemet för maskininlärning [1]

Exempel

De här exemplen kan visa sig på den fysiska domänen, t.ex. när en självgående bil luras att köra ett stopptecken på grund av att en viss ljusfärg (adversarialinmatningen) är bra på stopptecknet, vilket tvingar bildigenkänningssystemet att inte längre se stopptecknet som ett stopptecken.

Traditionella paralleller

Höjd på behörighet, körning av fjärrkod

Minskningar

Dessa attacker visar sig på att problem i maskininlärningslagret (dataalgoritmlagret & under AI-drivna besluts bort) inte har minimerats. Precis som med all annan programvara *eller* fysiskt system kan lagret under målet alltid anfallas av traditionella vektorer. På grund av detta är traditionella säkerhetsrutiner viktigare än någonsin, särskilt de säkerhetsproblem (data/algo-lagret) som används mellan AI och traditionell programvara.

Allvarlighetsgrad

Kritisk

#8 ML som kan återställa utbildningsdata

Beskrivning

En illvillig leverantör presenterar en bakåtdoorerad algoritm, där privata utbildningsdata återställs. De kunde återskapa ansikten och text, givet modellen.

Traditionella paralleller

Riktad information

Minskningar

Forskningsrapporter som visar hur den här attacken indikerar att homomorfningskryptering skulle vara en effektiv minskning. Det här är ett område med små aktuella investeringar på Microsoft och AETHER Security Engineering rekommenderar att du skapar expertis vid forskning och investeringar i det här utrymmet. Den här forskning skulle behöva räkna upp homomorphic encryption-tenets och utvärdera deras praktiska effektivitet inför skadliga ML-som en tjänst-leverantörer.

Allvarlighetsgrad

Viktigt om data är PII, Måttliga i annat fall

#9 Mot ML leveranskedja

Beskrivning

Om stora resurser (data + beräkning) krävs för att utbilda algoritmer är det aktuella övningen att återanvända modeller som utbildats av stora företag och ändra dem något för att utföra en uppgift (t.ex. ResNet är en populär bildigenkänningsmodell från Microsoft). Dessa modeller är typade i en modell av Caffe (Caffe är värd för populära bildigenkänningsmodeller). I den här attacken attackerar adversivt modeller som finns i Caffe, och det här är mycket bra för alla andra. [1]

Traditionella paralleller
  • Kompromiss av tredjepartsband som inte är säkerhetsberoende

  • App Store som oavsiktligt är värd för skadlig programvara

Minskningar
  • Minimera tredjepartsberoenden för modeller och data om möjligt.

  • Införliva dessa beroenden i din modelleringsprocess för hot.

  • Utnyttja stark autentisering, åtkomstkontroll och kryptering mellan system från 1st/3rd-part.

Allvarlighetsgrad

Kritisk

#10 Backdoor Machine Learning

Beskrivning

Utbildningsprocessen outsourceras till en illvillig tredje part som ändrar utbildningsdata och levererar en trojansk modell som tvingar riktade felklassificeringar, till exempel att klassificera ett visst virus som icke-skadligt[1]. Det här är ML i modellgenereringen av en tjänst.

[12]

Traditionella paralleller
  • Kompromettering för tredjepartssäkerhetssamband

  • Komprometterad programuppdateringsmekanism

  • Kompromettering av certifikatutfärdare

Minskningar
Åtgärder för reaktiv/identifiering av oidentifiering
  • Skadan görs redan när dessa hot har identifierats, så modellen och all utbildning som tillhandahålls av den illvilliga leverantören kan inte vara betrodda.
Förebyggande/skyddsåtgärder
  • Utbilda alla känsliga modeller internt

  • Utbildningsdata för katalog eller se till att de kommer från en betrodd tredje part med starka säkerhetsrutiner

  • Hotmodell interaktionen mellan MLaaS-leverantören och dina egna system

Svarsåtgärder
  • Samma som för kompromett av externt beroende
Allvarlighetsgrad

Kritisk

#11 Sårbarhet av programvaruberoenden av ML system

Beskrivning

I den här attacken ändrar inte attackerarna algoritmerna. Utnyttjar i stället svagheter i programvaran, till exempel buffertöverflöde eller skript på flera webbplatser[1]. Det är fortfarande enklare att kompromettera programlager under AI/ML än att attackerna direkt mot inlärningslagret, så traditionella metoder för åtgärder mot säkerhetshot som beskrivs i livscykeln för säkerhetsutveckling är viktiga.

Traditionella paralleller
  • Komprometterat programvarusamband med öppen källkod

  • Fel vid servervalidering (XSS, CSRF, API-indatavalidering)

Minskningar

Arbeta med säkerhetsteamet och följ tillämpliga metodtips för Security Development Lifecycle/Operational Security Assurance.

Allvarlighetsgrad

Variabel; Upp till kritiskt beroende på vilken typ av traditionellt program säkerhetsproblem.

Litteraturförteckning

[1] Fellägen i Machine Learning, RamAr Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen och Snover,https://docs.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Adversarial Examples in Deep Learning: Characterization and Det första tecknet, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha och T. Ristenpart, "Model Inversion Attacks that exploit Confidence Information and Basic Countermeasures", i förhandlingar för ACM SIGSAC-konferensen 2015 om dator- och kommunikationssäkerhet (CCS).

[6] Pockets Papernot & Patrick McDaniel – adversarialexempel i Machine Learning AIWTB 2017

[7] Som stjäl Machine Learning-modeller via prognos-API:er, Det första api:et det senare, École Polytechnique Fédérale de Lausérale (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, University of North Carolina på Hill; Thomas Ristenpart, Cornell Tech

[8] Blanksteget för adversarialexempel, Det första och det första exemplet , Det första hannne, Ian Goodfellow , Dan Sarah och Patrick McDaniel

[9] Förstå slutledningar för medlemskap i Well-Generalized Learning-modeller Yunhui Long1 , Vincent Bindschaedler1 , Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Tang A. Cheter1 och Kai Chen3,4

[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu et al., en enhetlig toningsfamilj för adversa exempel, ICDM 2015

[12] Wild Patterns: Tio år efter anvisningen av adversarial-Machine Learning – NeCS 2019 Battista Biggioa, Fabio Roli

[13] Robust identifiering av skadlig programvara vanligtvis medMonotonic-klassificering Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto och Fabio Roli. Bagging Classifiers for Attack a adversarial Classification Tasks

[15] An Improved Reject on Negative Impact Defense Hongjiang Li and Patrick P.K. Chan

[16] Adler. Svagheter i biometriska krypteringssystem. 5:e Int'l Conf. AVBPA, 2005

[17] Galbally, McCool, Fier den, Och och Ortega-Fiction. På sårbarheten hos ansiktsverifieringssystem för att klättra upp-attacker. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Funktion som gnissrar: Identifiera adversariella exempel i djup neurala nätverk. Säkerhet vid nätverks- och distributionssystem 2018. 2011-18-21.

[19] Förstärkande adversarial robusthet med Model Confidence In avsnitt by Adversarial Training - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Attribution-driven causal analysis för identifiering av adversarialexempel, Susmit Jha, Sunny Raj, Steven Denis, Sumit Kumar Jha, Somesh Jha, Stefan Janma, Brian Jalaian, Ananthram Swami

[21] Robust linjär regression mot utbildningsdata – Chang Regression et al.

[22] Funktionen Försämnad för att förbättra adversarial robusthet, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Certified Defenses against Adversarial Examples – Aditi Ajaxhunack, JacobHardt, Percy Liang