Threat Modeling AI/ML Systems and Dependencies
Andrew Marshall, Jugal Parikh, Emre Kiciman a Ram Shankar Siva Kumar
Zvláštní poděkování: Raul Rojas a pracovní projekt AETHER Security Engineering Workstream
Listopad 2019
Tento dokument je výstupem technických postupů AETHER pro pracovní skupinu AI a doplňuje stávající postupy modelování hrozeb SDL tím, že poskytuje nové pokyny pro výčet hrozeb a zmírnění rizik specifických pro AI a Machine Learning prostoru. Je určený k použití jako odkaz při hodnocení návrhu zabezpečení následujících:
Produkty/služby, které komunikují se službami založenými na AI/ML nebo se závislostmi na těchto službách
Produkty/služby, které jsou v jádru ML AI/ML a
Tradiční zmírnění bezpečnostních hrozeb je důležitější než kdy dřív. Požadavky stanovené životním cyklem vývoje zabezpečení jsou nezbytné pro vytvoření základu zabezpečení produktů, na který tyto pokyny vychází. Řešení tradičních bezpečnostních hrozeb pomáhá umožnit útoky specifické pro AI/ML, které jsou v tomto dokumentu zahrnuté v softwaru i fyzických doménách, a také snížit úroveň ohrožení zabezpečení v softwarovém zásobníku. Úvod k novým hrozbám zabezpečení v tomto prostoru najdete v článku Zabezpečení budoucnosti AI a ML microsoftu.
Dovednosti bezpečnostních techniků a datových pracovníků se obvykle nepřekrývají. Tyto pokyny poskytují oběma disciplínám způsob, jak vést strukturované konverzace o těchto net-nových hrozbách a zmírněních rizik, aniž by se vyžadovat, aby se bezpečnostní technici stali datovou vědkyní nebo naopak.
Tento dokument je rozdělený do dvou oddílů:
- "Klíčové nové aspekty v modelování hrozeb" se zaměřuje na nové způsoby myšlení a nové otázky, na které se můžete zeptat, kdy se mají systémy AI/ML hrozeb. Jak odborníci na data, tak bezpečnostní technici by to měli zkontrolovat, protože to bude jejich učebnice pro diskuze o modelování hrozeb a stanovení priorit zmírňování rizik.
- "AI/ML hrozby a jejich zmírňování rizik" obsahuje podrobnosti o konkrétních útocích a konkrétních krocích ke zmírnění rizik, které se v současnosti používají k ochraně produktů a služeb Microsoftu před těmito hrozbami. Tato část je primárně zaměřená na pracovníky s daty, kteří potřebují implementovat konkrétní omezení hrozeb jako výstup procesu modelování hrozeb nebo revize zabezpečení.
Tyto pokyny jsou uspořádané kolem taxonomie adversarial Machine Learning threat vytvořená Ramem Šankarem Siva Kumarem, Davidem O'Brienem, Kenderou Albertovou, Salomou Viljoenovou Machine Learning Janem Snoverem s názvem Režimy selhání vMachine Learning. Pokyny pro správu incidentů týkající se triaging security threats detailed in this document (Pokyny k řízení incidentů) najdete na panelu chyb SDL pro AI/ML Hrozby. To vše jsou živé dokumenty, které se v průběhu času budou vyvíjet s prostředím hrozeb.
Klíčové nové aspekty modelování hrozeb: Změna způsobu zobrazení hranic důvěryhodnosti
Předpokládejte ohrožení nebo otravu dat, od které trénujete, a také poskytovatele dat. Naučte se detekovat neobvyklé a škodlivé položky dat a také rozlišovat mezi nimi a obnovit je.
Souhrn
Training Data stores and the systems that host them are part of your Threat Modeling scope. Největší bezpečnostní hrozbou v dnešním strojovém učení je otrava dat kvůli nedostatku standardních zjišťování a zmírňování rizik v tomto prostoru v kombinaci s závislostí na nedůvěryhodných nebo nehodnocených veřejných datových sadách jako zdrojích školicích dat. Sledování provenience a lineage vašich dat je nezbytné pro zajištění jeho důvěryhodnosti a zabránění "odpadkům v" školicích cyklech.
Otázky k položce v bezpečnostním přehledu
Pokud jsou vaše data poškozená nebo manipulovaná, jak byste to věděli?
-Jakou telemetrii musíte zjistit v kvalitě školicích dat?
Školíte se z uživatelsky zadaných vstupů?
-Jaký druh ověřování/dezinfekce vstupu u tohoto obsahu děláte?
-Je struktura těchto dat zdokumentovaná podobně jako datové listy pro datové sady?
Pokud trénujete s online datovými obchody, jaké kroky podnikáte, abyste zajistili zabezpečení připojení mezi modelem a daty?
-Mají způsob ohlašování kompromisů pro spotřebitele svých informačních kanálů?
-Jsou toho vůbec schopní?
Jak citlivá jsou data, ze které trénujete?
-Máte katalog nebo řídíte přidávání/aktualizaci/odstraňování datových položek?
Může váš model vystupovat citlivá data?
-Získali jste tato data se svolením zdroje?
Je výsledek výstupu modelu nutný jenom k dosažení jeho cíle?
Vrátí váš model nezpracované skóre spolehlivosti nebo jakýkoli jiný přímý výstup, který by se dal zaznamenat a duplikovat?
Jaký je dopad obnovování vašich školicích dat útokem nebo invertací vašeho modelu?
Pokud úroveň spolehlivosti výstupu modelu náhle poklesne, můžete zjistit, jak a proč, a také data, která ho způsobila?
Definovali jste pro model dobře vytvořený vstup? Co děláte, abyste zajistili, že vstupy splňují tento formát a co děláte, když ne?
Pokud jsou vaše výstupy nesprávné, ale nezpůsobují hlášení chyb, jak byste to věděli?
Víte, jestli jsou vaše školicí algoritmy odolné vůči protivným vstupům na matematické úrovni?
Jak se zotavíte z kontroverzního zamoření vašich školicích dat?
-Můžete izolovat nebo umístit do karantény sporný obsah a přeškolit ovlivněné modely?
-Můžete vrátit zpět nebo obnovit model předchozí verze pro re-training?
Používáte aplikaci Výsuev Učení na nehodnocený veřejný obsah?
Začněte přemýšlet o linii dat – pokud jste našli nějaký problém, mohli byste sledovat jeho úvod do datové sady? Pokud ne, je to problém?
Zjistěte, odkud vaše školicí data pochází, a identifikujte statistické normy, abyste mohli začít chápat, jak anomálie vypadají.
-Jaké prvky vašich školicích dat jsou zranitelné vůči vnějšímu vlivu?
-Kdo můžete přispívat do sad dat, ze které se školíte?
-Jak byste napadli zdroje školicích dat, abyste poškodili konkurenta?
Související hrozby a omezení rizik v tomto dokumentu
Adversarial Perturbation (všechny varianty)
Otrava dat (všechny varianty)
Příklad útoků
Vynucení klasifikace neškodných e-mailů jako spamu nebo způsobení toho, že se škodlivý příklad nezjme
Vstupy vytvořené útočníkem, které snižují úroveň spolehlivosti správné klasifikace, zejména ve scénářích s vysokými důsledky
Útočník náhodně vloží šum do klasifikovaných zdrojových dat, aby se snížila pravděpodobnost, že se v budoucnu použije správná klasifikace, a tím model efektivně ztuhl.
Zamoření školicích dat k vynucení nesprávné klasifikace výběrových datových bodů, což vede k tomu, že systém může přijmout nebo vynechat konkrétní akce.
Určete akce, které by mohly vaše modely nebo produkt/služba udělat, což může způsobit škodu zákazníkům online nebo fyzickou doménou.
Souhrn
Útoky na AI/ML si najdu cestu do fyzického světa. Každý scénář, který se může zkroutit k duševnímu nebo fyzickému poškození uživatelů, je pro váš produkt nebo službu katastrofální riziko. To se týká všech citlivých dat o vašich zákaznících používaných k výběru školení a návrhu, která rozšiřují tyto soukromé datové body.
Otázky k položce v bezpečnostním přehledu
Trénoval(a) jste s příklady protivných příkladů? Jaký vliv mají na výstup vašeho modelu ve fyzické doméně?
Jak trolling vypadá s vaším produktem nebo službou? Jak na to můžete zjistit a reagovat na něj?
Co by to mělo trvat, než se váš model vrátí k výsledku, který vaši službu triky zamítá přístup k legitimním uživatelům?
Jaký je dopad kopírování nebo odcizení vašeho modelu?
Může být váš model použit k odvodení členství jednotlivce v určité skupině nebo jednoduše v datech školení?
Může útočník způsobit poškození reputace nebo protichůdné chování k vašemu produktu tím, že ho nutí provádět konkrétní akce?
Jak zacházet s správně formátovaná, ale příliš zkreslená data, například z trollů?
Pro každý způsob, jak pracovat s modelem nebo dotazovat, je možné tuto metodu vyslýchat, aby se zpřístupnila data školení nebo funkce modelu?
Související hrozby a omezení rizik v tomto dokumentu
Odvození členství
Inverze modelu
Model Krádeže
Příklad útoků
Přestavba a extrakce dat školení opakovaným dotazem na model pro dosažení maximálních výsledků spolehlivosti
Duplication of the model itself by exhaustive query/response matching
Dotazování na model způsobem, který odhaluje konkrétní prvek soukromých dat, byl zahrnutý v sadě školení.
Auto s vlastním řízením je podvedené, aby ignoroval značky zastavení nebo semafory.
Konverzační roboti manipulovali s uživateli, kteří trollují neškodné uživatele
Určení všech zdrojů závislostí AI/ML a front-end prezentačních vrstev v dodavatelských řetězech dat/modelů
Souhrn
Mnoho útoků v oblasti AI a Machine Learning začíná legitimním přístupem k rozhraním API, která jsou k dispozici, aby poskytovala přístup k modelu dotazu. Vzhledem k bohatým zdrojům dat a bohatým uživatelským prostředím, které jsou v této oblasti součástí, je ověřená, ale "nevhodná" (tady je šedá oblast)3.přístup stran k vašim modelům je riziko, protože je možné pracovat jako prezentační vrstva nad službou poskytovanou společností Microsoft.
Otázky k položce v bezpečnostním přehledu
Kteří zákazníci/partneři jsou ověřeni pro přístup k rozhraním API modelu nebo služby?
-Chytí se v horní části vaší služby jako prezentační vrstva?
-Můžete odvolat jejich přístup okamžitě v případě ohrožení zabezpečení?
-Jaká je vaše strategie obnovení v případě škodlivého používání služby nebo závislostí?
Může3. strana vytvořit kolem vašeho modelu průčelí, které ho znovu zamyšlí a poškodí Microsoft nebo jeho zákazníky?
Poskytují vám zákazníci školicí data přímo?
-Jak tato data zabezpečíte?
-Co když je to škodlivé a vaše služba je cíl?
Jak tady vypadá falešně pozitivní? Jaký je dopad falešně negativního?
Můžete sledovat a měřit odchylku skutečných kladných a falešně pozitivních sazeb napříč několika modely?
Jaký druh telemetrie potřebujete k prokázání důvěryhodnosti výstupu modelu zákazníkům?
Identifikujte všechny závislosti třetích stran v řetězci ML/školení – nejen open source software, ale také poskytovatele dat.
-Proč je používáte a jak ověřujete jejich důvěryhodnost?
Používáte předem vytvořené modely od 3.strany nebo odesíláte data školení poskytovatelům MLaaS třetích stran?
Inventární novinky o útocích na podobné produkty/služby Porozumíte tomu, že ML AI/ML přenosu hrozeb mezi typy modelů, jaký dopad by tyto útoky na vaše vlastní produkty ovlivnily?
Související hrozby a omezení rizik v tomto dokumentu
Neural Net Reprogramming
Adversarial Examples in the physical domain
Zprostředkovatelé ML škodlivého softwaru obnovují školicí data
Útok na ML dodavatelský řetězec
Backdoored Model
Ohrožené ML závislosti
Příklad útoků
Škodlivý poskytovatel MLaaS trojských koní vašeho modelu se specifickým obcházením
Adversary customer finds vulnerability in common OSS dependency you use, uploads crafted training data payload to compromise your service
Bezohledný partner používá rozhraní API pro rozpoznávání obličeje a vytváří vrstvu prezentace nad vaší službou, která vytváří hloubkové Fakes.
AI/ML specifické hrozby a jejich zmírňování
#1: Adversarial Perturbation
Popis
Při útocích ve stylu perturbace útočník nenápadně upraví dotaz tak, aby dostal požadovanou odpověď z produkčního modelu[1]. Jedná se o porušení integrity vstupního modelu, což vede k útokům ve stylu fuzzingu, kdy konečný výsledek nemusí být nutně porušením přístupu nebo EOP, ale místo toho narušuje klasifikační výkon modelu. To se může projevit i v případě, že trollové používají určitá cílová slova tak, aby je AI zakázala, a tím službu účinně odepře legitimním uživatelům se jménem, které odpovídá zakázanému slovu.
[24]
Variant #1a: Výběrová misclassification
V tomto případě útočníci vygenerují vzorek, který není ve vstupní třídě cílového klasifikátoru, ale klasifikuje ho model jako konkrétní vstupní třídu. Adversarial sample can appear like random noise to human eyes but attackers have some knowledge of the target machine learning system to generate a white noise that is not random but is exploiting some specific aspects of the target model. Adversary dává vstupní vzorek, který není legitimním výběrem, ale cílový systém ho klasifikuje jako legitimní třídu.
Příklady
[6]
Omezení rizik
Zesílení robustnosti adversarialu pomocí spolehlivosti modelu vyvolané školením Adversarial Training [19]: Autoři navrhují vysoce sebejistnou blízkou sousedskou architekturu (HCNN), která kombinuje informace o spolehlivosti a nejbližší vyhledávání sousedů, aby se upevňoval adversarial robustnost základního modelu. To může pomoct rozlišovat mezi správnými a nesprávnými předpovědími modelu v okolí bodu, ze které je výběr z podkladového rozdělení školení.
Příčinná analýza založená na atribuci [20]: Autoři prostudují propojení mezi odolností vůči adversarial perturbations a vysvětlením individuálních rozhodnutí generovaných modely strojového učení na základě atribuce. Hlásí, že adversarial inputs are not robust in attribution space, that is, masking a few features with high attribution leads to change indecision of the machine learning model on the adversarial examples. Naopak přirozené vstupy jsou robustní v prostoru pro přiřazení.
[20]
Díky těmto přístupům jsou modely strojového učení odolnější vůči protikladným útokům, protože zmást tento dvouvrstvý systém poznávání vyžaduje nejen útok na původní model, ale také zajištění, že přiřazení vygenerované pro alternativní příklad bude podobné původním příkladům. Oba systémy musí být současně ohroženy kvůli úspěšnému útoku na spory.
Tradiční rovnoběžky
Vzdálené zvýšení oprávnění, protože útočník teď řídí váš model
Závažnost
Kritická
Variant #1b: Source/Target misclassification
To se charakterizuje jako pokus útočníka získat model, který vrátí požadovaný popisek pro daný vstup. To obvykle vynutí, aby model vrátil falešně kladný nebo falešně záporný výsledek. Konečným výsledkem je jemné převzetí přesnosti klasifikace modelu, kdy útočník může vyvolat konkrétní obcházení podle potřeby.
I když má tento útok významný nepříznivý dopad na přesnost klasifikace, může být také náročnější na provedení, protože protichůdci musí nejen manipulovat se zdrojovými daty, aby už nebyla správně označená, ale také označená speciálně požadovaným podvodným štítkem. Tyto útoky často zahrnují několik kroků nebo pokusů o vynucení nesprávně zatříděné klasifikace [3]. Pokud je model náchylný k přenosu výukových útoků, které nutí cílenou mylnou klasifikaci, nemusí dojít k rozeznatelnému útoku na přenos přenosu, protože tyto útoky je možné provádět offline.
Příklady
Vynucení klasifikace neškodných e-mailů jako spamu nebo způsobení toho, že se škodlivý příklad nezjme. Tyto útoky se také označuje jako modelové úniky nebo mimiktické útoky.
Omezení rizik
Akce detekce reaktivních/defenzivních detekcí
- Implementace minimálního časového limitu mezi hovory do rozhraní API, která poskytuje výsledky klasifikace. Tím se zpomalí vícestupňové testování útoku tím, že se zvětší celková doba potřebná k nalezení perturbace úspěchu.
Proaktivní/ochranné akce
Funkce Denoising for Improving Adversarial Robustness [22]: Autoři vyvíjejí novou architekturu sítě, která zvyšuje robustnost adversarial tím, že provádějí funkci denoising. Konkrétně sítě obsahují bloky, které zakírají funkce pomocí jiných než místních prostředků nebo jiných filtrů. všechny sítě jsou vyškolené mezi koncovými zařízeními. V kombinaci s protichůdným školením výrazně zlepšují funkce denoizace sítí nejmodernějších funkcí v oblasti odolnosti protichůdných útoků v nastavení útoku na bílou krabici i černou krabici.
Adversarial Training and Regularization : Trénování se známými vzorky pro spory k vytvoření odolnosti a robustnosti proti škodlivým vstupům. To se také může zobrazit jako forma regularizace, která penalizuje normu vstupních přechodů a zkostřuje predikční funkci klasifikátoru (zvýšení vstupního okraje). Patří sem správné klasifikace s nižšími mírami spolehlivosti.

Investujte do vývoje monotónní klasifikace s výběrem monotónních funkcí. Tím zajistíte, že se adversary nebudou moct vyhnout klasifikátoru jednoduchým odsazením funkcí ze záporné třídy [13].
Stlačování funkcí [18] lze použít k ztvrdení modelů DNN zjišťováním adversarial examples. Tím se zmenší hledaný prostor, který má k dispozici pro pronášečník, a to tak, že se vzorky, které odpovídají mnoha různým vektorům funkcí v původním prostoru, zmenší na jeden vzorek. Porovnáním předpovědí modelu DNN na původním vstupu s předpovídáním na stlačeném vstupu může stlačování funkcí pomoct rozpoznat příklady adversarialu. Pokud původní a stlačené příklady vytvářejí podstatně odlišné výstupy od modelu, bude vstup pravděpodobně sporný. Když změříte neshodu mezi předpovědí a vyberete prahovou hodnotu, může systém výstupem správné předpovědi legitimních příkladů a odmítne adversarial inputs.

[18]Certified Defenses against Adversarial Examples [22]: Autoři navrhují metodu založenou na částečně jednoznačném uvolnění, která vyprovodí certifikát, že pro danou síť a testovací vstup nemůže žádný útok chybu vynutit tak, aby překročila určitou hodnotu. Za druhé, protože se tento certifikát liší, autoři ho společně optimalizují pomocí síťových parametrů a poskytují adaptivní regularizátor, který podporuje robustnost před všemi útoky.
Akce odpovědi
- Upozornění na výsledky klasifikace s vysokým rozptylem mezi klasifikátory, zejména pokud pochází od jednoho uživatele nebo malé skupiny uživatelů.
Tradiční rovnoběžky
Vzdálené zvýšení oprávnění
Závažnost
Kritická
Variant #1c: Random misclassification
Jedná se o zvláštní variantu, kdy cílovou klasifikací útočníka může být cokoli jiného než legitimní klasifikace zdrojů. Útok obvykle zahrnuje náhodné vkládání hluku do klasifikovaných zdrojových dat, aby se snížila pravděpodobnost použití správné klasifikace v budoucnu [3].
Příklady

Omezení rizik
Stejné jako varianta 1a.
Tradiční rovnoběžky
Trvalé odmítnutí služby
Závažnost
Důležité:
Variantní #1d: Snížení spolehlivosti
Útočník může vytvořit vstupy, aby snížil úroveň spolehlivosti správné klasifikace, zejména ve scénářích s vysokými důsledky. To může mít podobu velkého počtu falešně pozitivních výsledků, které mají zahltit správce nebo monitorovací systémy podvodnými výstrahami, které se nerozlišují od legitimních upozornění [3].
Příklady

Omezení rizik
- Kromě akcí, které jsou zahrnuté v #1a, můžete omezení události použít ke snížení objemu upozornění z jednoho zdroje.
Tradiční rovnoběžky
Trvalé odmítnutí služby
Závažnost
Důležité:
#2a dat
Popis
Cílem útočníka je znečiscovat model počítače vygenerovaný ve fázi školení ,aby se v testovací fázi změnily předpovědi nových dat[1]. Při cílených útocích na otravu chce útočník špatně klasifikovat konkrétní příklady, které způsobí, že se konkrétní akce budou provádět nebo vynechat.
Příklady
Odeslání av softwaru jako malwaru, který vynutí jeho mylnou klasifikaci jako škodlivý a eliminuje použití cíleného AV softwaru v klientských systémech.
Omezení rizik
Definujte senzory anomálií, abyste se podívali na rozdělení dat ze dne na den a upozornili na varianty.
-Measure training data variation on daily basis, telemetry for skew/drift
Ověření vstupu, dezinfekce i kontrola integrity
Otrava injektuje vzorky školení odlehnout. Dvě hlavní strategie pro řešení této hrozby:
-Data Sanitization/ validation: remove poisoning samples from training data -Bagging for fighting poisoning attacks [14]
-Reject-on-Negative-Impact (RONI) defense [15]
-Robust Učení: Výběr výukových algoritmů, které jsou robustní v přítomnosti vzorků otrav.
-Jeden takový přístup je popsaný v [21], kdy autoři řeší problém s otravou dat ve dvou krocích: 1) zavedení nové robustní metody faktorizace matice k obnovení skutečného subprostoru a 2) nové robustní regrese hlavní složky na prořezávání adversarial instancí na základě obnovované v kroku (1). Charakterizují nezbytné a dostatečné podmínky pro úspěšné obnovení skutečného subprostoru a představují vázané na očekávanou ztrátu předpovědí ve srovnání s ground truth.
Tradiční rovnoběžky
Hostitel s trojskými kůňmi, při kterém útočník přetrvá v síti. Data školení nebo konfigurace jsou ohrožena a jsou ingestována nebo důvěryhodná pro vytváření modelů.
Závažnost
Kritická
#2b indiscriminate Data Poisoning
Popis
Cílem je zničit kvalitu a integritu napadané sady dat. Mnoho datových sad je veřejných/nedůvěryhodných/nehodnocených, takže to vytváří další obavy týkající se možnosti na prvním místě sledovat takové porušení integrity dat. Školení o nevědomě ohrožených datech je situace s uvolněním nebo uvolněním paměti. Po zjištění je potřeba určit rozsah dat, která byla porušena, a karanténu/přeškolení.
Příklady
Společnost seškrábá dobře známý a důvěryhodný web pro data o futures v ropě, aby trénoval své modely. Web poskytovatele dat je následně ohrožený útokem SQL Injekcí. Útočník může datovou sadu podle své chvilky otrávit a model, který je vyškolený, nemá žádnou techtu, že jsou data poškozená.
Omezení rizik
Stejné jako varianta 2a.
Tradiční rovnoběžky
Ověřené odmítnutí služby vůči majetku s vysokou hodnotou
Závažnost
Důležité:
#3 Útoky inverze modelu
Popis
Soukromé funkce používané v modelech strojového učení je možné obnovit [1]. Patří sem i rekonstrukce soukromých školicích dat, ke které nemá útočník přístup. To se taky označuje jako útok na kopec v biometrické komunitě [16; 17] Toho dosáhnete tak, že se najde vstup, který maximalizuje vrácenou úroveň spolehlivosti podle klasifikace odpovídající cíli [4].
Příklady
[4]
Omezení rizik
Rozhraní pro modely vyškolené z citlivých dat potřebují silné řízení přístupu.
Dotazy limitu sazby povolené modelem
Implementujte brány mezi uživateli/volajícími a skutečným modelem provedením ověření vstupu na všech navrhovaných dotazech, odmítnutím nic, co není splňující definici správnosti vstupu modelu, a vrácením pouze minimálního množství informací potřebných k použití.
Tradiční rovnoběžky
Cílené a ukryté informace
Závažnost
Tato výchozí hodnota je důležitá pro standardní řádek chyb SDL, ale extrahovaná citlivá nebo identifikovatelná data by to zvýšila na kritickou hodnotu.
Útok na odvození členství v č. 4
Popis
Útočník může určit, jestli byl daný datový záznam součástí školicí datové sady modelu, nebo ne[1]. Badatelé dokázali odhadnout hlavní postup pacienta (např. operaci, přes který pacient prošel) na základě atributů (např. věk, pohlaví, nemocnice) [1].
[12]
Omezení rizik
Výzkumné dokumenty, které prokazují, že tento útok je možné použít, naznačují, že by bylo efektivním zmírněním rozdílových osobních údajů [4; 9]. Toto je stále nascentní pole v Microsoftu a AETHER Security Engineering doporučuje budovat odborné znalosti s investicemi do výzkumu v tomto prostoru. Tento výzkum bude muset vyčíslit funkce diferenciální ochrany osobních údajů a vyhodnotit jejich praktickou účinnost jako zmírnění rizik, a pak navrhnout způsoby, jak by se tato obrana zdědila transparentně na našich platformách online služeb, podobně jako při kompilaci kódu v aplikaci Visual Studio vám ve výchozím nastavení poskytuje ochranu zabezpečení, která jsou pro vývojáře a uživatele transparentní.
Použití poklesu neuronů a skládaní modelů může být v určité míře efektivním zmírněním. Použití funkce neuron dropout nejen zvyšuje odolnost neurální sítě k tomuto útoku, ale také zvyšuje výkon modelu [4].
Tradiční rovnoběžky
Ochrana osobních údajů. Vyvozuje se závěr o zahrnutí datového bodu do školicí sady, ale samotná školicí data se nezpřístupňuje.
Závažnost
Jedná se o problém ochrany osobních údajů, ne o problém se zabezpečením. Řeší se v pokynech pro modelování hrozeb, protože se domény překrývají, ale jakákoli odpověď by tady byla řízena ochranou osobních údajů, ne zabezpečením.
#5 Model Krádeže
Popis
Útočníci znovu vytvoří základní model legitimním dotazem na model. Funkce nového modelu je stejná jako u podkladového modelu[1]. Po opětovném vytvoření modelu se může vrátit k obnovení informací o funkcích nebo k odvození dat školení.
Řešení rovnic – U modelu, který vrací pravděpodobnosti třídy prostřednictvím výstupu rozhraní API, může útočník vytvořit dotazy k určení neznámých proměnných v modelu.
Hledání cesty – útok, který využívá specifika rozhraní API k extrahování "rozhodnutí" přijatých stromem při klasifikaci vstupu [7].
Útok přenositelnosti – adversary trénuje místní model – třeba vydáváním předpovědních dotazů na cílový model – a použije ho k vytvoření příkladů pro sporných postupů, které se přenesou do cílového modelu [8]. Pokud se váš model extrahuje a zjistil, že je zranitelný vůči typu vstupních údajů pro spory, mohou být nové útoky na váš produkční model vyvinuty zcela offline útočníkem, který extrahoval kopii vašeho modelu.
Příklady
V nastaveních, kde model ML slouží ke zjišťování adversarial chování, jako je identifikace spamu, klasifikace malwaru a zjišťování anomálií sítě, může extrakce modelu usnadnit útoky úniků [7].
Omezení rizik
Proaktivní/ochranné akce
Minimalizovat nebo obfuscate podrobnosti vrácené v rozhraníCH API pro předpověď a přitom zachovat jejich užitečnost pro "poctivé" aplikace [7].
Definujte dobře vytvořený dotaz pro vstupy modelu a vraťte výsledky jenom jako odpověď na dokončené, dobře vytvořené vstupy odpovídající formátu.
Vrátí zaokrouhlené hodnoty spolehlivosti. Většina legitimních volajících nepotřebuje přesná desetinná místa.
Tradiční rovnoběžky
Neověřené, jen pro čtení, manipulace se systémovými daty, cílené zpřístupnění informací s vysokou hodnotou?
Závažnost
Důležité v modelech citlivých na zabezpečení, Moderovat jinak
#6 Neural Net Reprogramming
Popis
Pomocí speciálně vytvořeného dotazu od adversary je možné strojové výukové systémy přeprogramovat na úkol, který se odchýluje od původního záměru tvůrce [1].
Příklady
Slabé ovládací prvky přístupu v rozhraní API pro rozpoznávání obličeje, které umožňují3. stranám začlenit se do aplikací určených k poškození zákazníků Microsoftu, jako je třeba generátor hlubokých padělků.
Omezení rizik
Silný klient < – vzájemné ověřování serveru a řízení přístupu k rozhraní > modelu
Takedown of the urážející accounts.
Určete a vynucujte smlouvu na úrovni služeb pro vaše rozhraní API. Určete přijatelnou dobu pro vyřešení problému po nahlášení a zajistěte, aby se tento problém po vypršení platnosti smlouvy SLA znovu nevymáhá.
Tradiční rovnoběžky
Jedná se o scénář zneužití. Je méně pravděpodobné, že v tomto případě otevřete bezpečnostní incident, než jednoduše zakázat účet delikventa.
Závažnost
Důležité pro kritické
#7 Adversarial Example in the Physical domain (bits- > atoms)
Popis
Adversarial example is an input/query from a malicious entity sent with sole aim of myleading the machine learning system [1]
Příklady
Tyto příklady se mohou projevit ve fyzické doméně, jako je auto s vlastním řízením, které je napálené do běhu stopky, protože určitá barva světla (protivný vstup) je zněná na stopce, takže systém rozpoznávání obrázků už neuvidí stopku jako stopku.
Tradiční rovnoběžky
Zvýšení oprávnění, vzdálené spuštění kódu
Omezení rizik
Tyto útoky se projevují, protože problémy ve vrstvě strojového učení (vrstva algoritmu dat pod rozhodovacím procesem řízeným pomocí & AI) nebyly zmírněny. Stejně jako u jakéhokoli jiného softwaru *nebo* fyzického systému může být vrstva pod cílem vždy napadána pomocí tradičních vektorů. Z tohoto důvodu jsou tradiční postupy zabezpečení důležitější než kdy dřív, zejména s vrstvou nevyřešených chyb zabezpečení (vrstva dat/algo) používaných mezi AI a tradičním softwarem.
Závažnost
Kritická
#8 Poskytovatelé ML, kteří mohou obnovit data školení
Popis
Škodlivý poskytovatel představuje backdoored algoritmus, ve kterém se obnoví soukromá data školení. Podařilo se jim rekonstruovat tváře a texty, vzhledem k modelu samotného.
Tradiční rovnoběžky
Zpřístupnění cílených informací
Omezení rizik
Výzkumné dokumenty, které prokazují, že tento útok je životaschopný, naznačují, že by bylo efektivním zmírňováním tohoto útoku homomorfní šifrování. Jedná se o oblast s malou aktuální investicí v Microsoftu a AETHER Security Engineering doporučuje budovat odborné znalosti s investicemi do výzkumu v tomto prostoru. Tento výzkum bude muset vytvořit výčet tenetů homomorfního šifrování a vyhodnotit jejich praktickou účinnost jako zmírnění rizik tváří v tvář ML poskytovatelům služeb.
Závažnost
Důležité, pokud jsou data PII, moderovat jinak
#9 Útok na ML dodavatelský řetězec
Popis
Vzhledem k velkým zdrojům (datům + výpočtům) potřebným k trénování algoritmů je v současné době potřeba opakovaně používat modely vyškolené velkými korporacemi a mírně je upravovat pro úkoly po ruce (například: ResNet je oblíbený model rozpoznávání obrázků od Microsoftu). Tyto modely jsou vyučeny v modelové zoologické zahradě (Caffe hostuje oblíbené modely rozpoznávání obrázků). Při tomto útoku napadá adversary modely hostované v Caffe, čímž otravuje dobře pro všechny ostatní. [1]
Tradiční rovnoběžky
Ohrožení zabezpečení závislostí jiných výrobců
App Store nevědomky hostující malware
Omezení rizik
Pokud je to možné, minimalizujte závislosti třetích stran pro modely a data.
Tyto závislosti můžete zahrnout do procesu modelování hrozeb.
Využijte silné ověřování, řízení přístupu a šifrování mezi systémy 1st/3rd-party.
Závažnost
Kritická
#10 Backdoor Machine Learning
Popis
Školicí proces je externě určený škodlivé třetí straně, která manipuluje s daty školení a doručila trojský model, který vynutí cílené mis-klasifikace, jako je klasifikace určitého viru jako škodlivého[1]. Toto riziko je ML scénářích generování modelu jako služba.
[12]
Tradiční rovnoběžky
Ohrožení zabezpečení třetích stran
Ohrožený mechanismus aktualizace softwaru
Ohrožení zabezpečení certifikační autority
Omezení rizik
Akce detekce reaktivních/defenzivních detekcí
- Poškození už je po objevení této hrozby hotové, takže model a jakákoli školicí data poskytovaná škodlivým poskytovatelem nelze důvěřovat.
Proaktivní/ochranné akce
Trénování všech citlivých modelů v systému
Katalogu školicích dat nebo zajistit, aby byla od důvěryhodné třetí strany se silnými bezpečnostními postupy
Model ohrožení interakce mezi poskytovatelem MLaaS a vlastními systémy
Akce odpovědi
- Stejně jako pro ohrožení vnější závislosti
Závažnost
Kritická
#11 Využití závislostí softwaru ML systému
Popis
Při tomto útoku útočník nemanipuluje s algoritmy. Místo toho zneužívá softwarové chyby, jako je přetečení vyrovnávací paměti nebo skriptování mezi weby[1]. Pod rozhraním AI/ML je stále jednodušší napadnout softwarové vrstvy než přímo na výukovou vrstvu, a proto jsou nezbytné tradiční postupy pro zmírňování bezpečnostních hrozeb, které jsou podrobně rozebrácené v životním cyklu vývoje zabezpečení.
Tradiční rovnoběžky
Ohrožená závislost softwaru s otevřeným zdrojovým kódem
Chyba zabezpečení webového serveru (XSS, CSRF, chyba ověření vstupu rozhraní API)
Omezení rizik
Ve spolupráci se svým týmem zabezpečení dodržujte příslušné doporučené postupy pro životní cyklus vývoje zabezpečení a zajištění provozního zabezpečení.
Závažnost
Proměnná; Až kritická v závislosti na typu chyby zabezpečení tradičního softwaru.
Bibliografie
[1] Režimy selhání v Machine Learning, Ram Shankar Siva Kumar, David O'Brien, Kndra Albert, Salome Viljoen a Jan Snover,https://docs.microsoft.com/security/failure-modes-in-machine-learning
[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team
[3] Adversarial Examples in Deep Učení: Characterization and Divergence, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf
[4] ML úniky informací: Útoky a obrana nezávislého členství na modelech a datech na Machine Learning Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf
[5] M. Fredrikson, S. Jha a T. Ristenpart, "Model Inversion Attacks that Exploit Confidence Information andBasic Countermeasures", in Proceedings of the 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).
[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017
[7] Krádež Machine Learning modelůpomocí rozhraní Api pro předpověď , Floriana Tramèra, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech
[8] Prostor přenositelných adversarial examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh a Patrick McDaniel
[9] Principy závěrů členství u modelů Well-Generalized Učení Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Siao-ching2 , Haixu Tang2 , Carla A. Gunter1 a Kai Chen3,4
[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;
[11] Lyu et al., Sjednocená gradientní rodina regularizace pro adversarial examples, ICDM 2015
[12] Wild Patterns: Ten years After the Rise of Adversarial Machine Learning - NeCS 2019 Battista Biggioa, Fabio Roli
[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.
[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto a Fabio Roli. Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks
[15] Vylepšený odmítaní v oblasti ochrany proti negativnímu dopadu Hongjiang Li a Patrick P.K. Chan
[16] Adler. Chyby zabezpečení v biometrických šifrovacích systémech 5. Int'l Conf. AVBPA, 2005
[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. O zranitelnosti systémů pro ověřování obličeje vůči útokům na kopec. Patt. Rec., 2010
[18] Weilin Xu, David Evans, Yanjun Qi. Stlačování funkcí: Zjišťování adversarial příkladů v hlubokých neurálních sítích. 2018 Network and Distributed System Security Symposium. 18. až 21. února.
[19] Zesílení adversariální robustnosti pomocí spolehlivosti modelu vyvolané adversarial trainingem – Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha
[20] Příčinná analýza způsobená přiřazením pro zjišťování adversarial examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami
[21] Robustní lineární regrese proti otravě dat školení – Chang Liu et al.
[22] Funkce Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He
[23] Certified Defenses against Adversarial Examples - Aditi Raghunathan, Jacob Steinhardt, Percy Liang