Threat Modeling AI/ML Systems and Dependencies

Andrew Marshall, Jugal Parikh, Emre Kiciman a Ram Shankar Siva Kumar

Zvláštní poděkování: Raul Rojas a pracovní projekt AETHER Security Engineering Workstream

Listopad 2019

Tento dokument je výstupem technických postupů AETHER pro pracovní skupinu AI a doplňuje stávající postupy modelování hrozeb SDL tím, že poskytuje nové pokyny pro výčet hrozeb a zmírnění rizik specifických pro AI a Machine Learning prostoru. Je určený k použití jako odkaz při hodnocení návrhu zabezpečení následujících:

  1. Produkty/služby, které komunikují se službami založenými na AI/ML nebo se závislostmi na těchto službách

  2. Produkty/služby, které jsou v jádru ML AI/ML a

Tradiční zmírnění bezpečnostních hrozeb je důležitější než kdy dřív. Požadavky stanovené životním cyklem vývoje zabezpečení jsou nezbytné pro vytvoření základu zabezpečení produktů, na který tyto pokyny vychází. Řešení tradičních bezpečnostních hrozeb pomáhá umožnit útoky specifické pro AI/ML, které jsou v tomto dokumentu zahrnuté v softwaru i fyzických doménách, a také snížit úroveň ohrožení zabezpečení v softwarovém zásobníku. Úvod k novým hrozbám zabezpečení v tomto prostoru najdete v článku Zabezpečení budoucnosti AI a ML microsoftu.

Dovednosti bezpečnostních techniků a datových pracovníků se obvykle nepřekrývají. Tyto pokyny poskytují oběma disciplínám způsob, jak vést strukturované konverzace o těchto net-nových hrozbách a zmírněních rizik, aniž by se vyžadovat, aby se bezpečnostní technici stali datovou vědkyní nebo naopak.

Tento dokument je rozdělený do dvou oddílů:

  1. "Klíčové nové aspekty v modelování hrozeb" se zaměřuje na nové způsoby myšlení a nové otázky, na které se můžete zeptat, kdy se mají systémy AI/ML hrozeb. Jak odborníci na data, tak bezpečnostní technici by to měli zkontrolovat, protože to bude jejich učebnice pro diskuze o modelování hrozeb a stanovení priorit zmírňování rizik.
  2. "AI/ML hrozby a jejich zmírňování rizik" obsahuje podrobnosti o konkrétních útocích a konkrétních krocích ke zmírnění rizik, které se v současnosti používají k ochraně produktů a služeb Microsoftu před těmito hrozbami. Tato část je primárně zaměřená na pracovníky s daty, kteří potřebují implementovat konkrétní omezení hrozeb jako výstup procesu modelování hrozeb nebo revize zabezpečení.

Tyto pokyny jsou uspořádané kolem taxonomie adversarial Machine Learning threat vytvořená Ramem Šankarem Siva Kumarem, Davidem O'Brienem, Kenderou Albertovou, Salomou Viljoenovou Machine Learning Janem Snoverem s názvem Režimy selhání vMachine Learning. Pokyny pro správu incidentů týkající se triaging security threats detailed in this document (Pokyny k řízení incidentů) najdete na panelu chyb SDL pro AI/ML Hrozby. To vše jsou živé dokumenty, které se v průběhu času budou vyvíjet s prostředím hrozeb.

Klíčové nové aspekty modelování hrozeb: Změna způsobu zobrazení hranic důvěryhodnosti

Předpokládejte ohrožení nebo otravu dat, od které trénujete, a také poskytovatele dat. Naučte se detekovat neobvyklé a škodlivé položky dat a také rozlišovat mezi nimi a obnovit je.

Souhrn

Training Data stores and the systems that host them are part of your Threat Modeling scope. Největší bezpečnostní hrozbou v dnešním strojovém učení je otrava dat kvůli nedostatku standardních zjišťování a zmírňování rizik v tomto prostoru v kombinaci s závislostí na nedůvěryhodných nebo nehodnocených veřejných datových sadách jako zdrojích školicích dat. Sledování provenience a lineage vašich dat je nezbytné pro zajištění jeho důvěryhodnosti a zabránění "odpadkům v" školicích cyklech.

Otázky k položce v bezpečnostním přehledu

  • Pokud jsou vaše data poškozená nebo manipulovaná, jak byste to věděli?

    -Jakou telemetrii musíte zjistit v kvalitě školicích dat?

  • Školíte se z uživatelsky zadaných vstupů?

    -Jaký druh ověřování/dezinfekce vstupu u tohoto obsahu děláte?

    -Je struktura těchto dat zdokumentovaná podobně jako datové listy pro datové sady?

  • Pokud trénujete s online datovými obchody, jaké kroky podnikáte, abyste zajistili zabezpečení připojení mezi modelem a daty?

    -Mají způsob ohlašování kompromisů pro spotřebitele svých informačních kanálů?

    -Jsou toho vůbec schopní?

  • Jak citlivá jsou data, ze které trénujete?

    -Máte katalog nebo řídíte přidávání/aktualizaci/odstraňování datových položek?

  • Může váš model vystupovat citlivá data?

    -Získali jste tato data se svolením zdroje?

  • Je výsledek výstupu modelu nutný jenom k dosažení jeho cíle?

  • Vrátí váš model nezpracované skóre spolehlivosti nebo jakýkoli jiný přímý výstup, který by se dal zaznamenat a duplikovat?

  • Jaký je dopad obnovování vašich školicích dat útokem nebo invertací vašeho modelu?

  • Pokud úroveň spolehlivosti výstupu modelu náhle poklesne, můžete zjistit, jak a proč, a také data, která ho způsobila?

  • Definovali jste pro model dobře vytvořený vstup? Co děláte, abyste zajistili, že vstupy splňují tento formát a co děláte, když ne?

  • Pokud jsou vaše výstupy nesprávné, ale nezpůsobují hlášení chyb, jak byste to věděli?

  • Víte, jestli jsou vaše školicí algoritmy odolné vůči protivným vstupům na matematické úrovni?

  • Jak se zotavíte z kontroverzního zamoření vašich školicích dat?

    -Můžete izolovat nebo umístit do karantény sporný obsah a přeškolit ovlivněné modely?

    -Můžete vrátit zpět nebo obnovit model předchozí verze pro re-training?

  • Používáte aplikaci Výsuev Učení na nehodnocený veřejný obsah?

  • Začněte přemýšlet o linii dat – pokud jste našli nějaký problém, mohli byste sledovat jeho úvod do datové sady? Pokud ne, je to problém?

  • Zjistěte, odkud vaše školicí data pochází, a identifikujte statistické normy, abyste mohli začít chápat, jak anomálie vypadají.

    -Jaké prvky vašich školicích dat jsou zranitelné vůči vnějšímu vlivu?

    -Kdo můžete přispívat do sad dat, ze které se školíte?

    -Jak byste napadli zdroje školicích dat, abyste poškodili konkurenta?

  • Adversarial Perturbation (všechny varianty)

  • Otrava dat (všechny varianty)

Příklad útoků

  • Vynucení klasifikace neškodných e-mailů jako spamu nebo způsobení toho, že se škodlivý příklad nezjme

  • Vstupy vytvořené útočníkem, které snižují úroveň spolehlivosti správné klasifikace, zejména ve scénářích s vysokými důsledky

  • Útočník náhodně vloží šum do klasifikovaných zdrojových dat, aby se snížila pravděpodobnost, že se v budoucnu použije správná klasifikace, a tím model efektivně ztuhl.

  • Zamoření školicích dat k vynucení nesprávné klasifikace výběrových datových bodů, což vede k tomu, že systém může přijmout nebo vynechat konkrétní akce.

Určete akce, které by mohly vaše modely nebo produkt/služba udělat, což může způsobit škodu zákazníkům online nebo fyzickou doménou.

Souhrn

Útoky na AI/ML si najdu cestu do fyzického světa. Každý scénář, který se může zkroutit k duševnímu nebo fyzickému poškození uživatelů, je pro váš produkt nebo službu katastrofální riziko. To se týká všech citlivých dat o vašich zákaznících používaných k výběru školení a návrhu, která rozšiřují tyto soukromé datové body.

Otázky k položce v bezpečnostním přehledu

  • Trénoval(a) jste s příklady protivných příkladů? Jaký vliv mají na výstup vašeho modelu ve fyzické doméně?

  • Jak trolling vypadá s vaším produktem nebo službou? Jak na to můžete zjistit a reagovat na něj?

  • Co by to mělo trvat, než se váš model vrátí k výsledku, který vaši službu triky zamítá přístup k legitimním uživatelům?

  • Jaký je dopad kopírování nebo odcizení vašeho modelu?

  • Může být váš model použit k odvodení členství jednotlivce v určité skupině nebo jednoduše v datech školení?

  • Může útočník způsobit poškození reputace nebo protichůdné chování k vašemu produktu tím, že ho nutí provádět konkrétní akce?

  • Jak zacházet s správně formátovaná, ale příliš zkreslená data, například z trollů?

  • Pro každý způsob, jak pracovat s modelem nebo dotazovat, je možné tuto metodu vyslýchat, aby se zpřístupnila data školení nebo funkce modelu?

  • Odvození členství

  • Inverze modelu

  • Model Krádeže

Příklad útoků

  • Přestavba a extrakce dat školení opakovaným dotazem na model pro dosažení maximálních výsledků spolehlivosti

  • Duplication of the model itself by exhaustive query/response matching

  • Dotazování na model způsobem, který odhaluje konkrétní prvek soukromých dat, byl zahrnutý v sadě školení.

  • Auto s vlastním řízením je podvedené, aby ignoroval značky zastavení nebo semafory.

  • Konverzační roboti manipulovali s uživateli, kteří trollují neškodné uživatele

Určení všech zdrojů závislostí AI/ML a front-end prezentačních vrstev v dodavatelských řetězech dat/modelů

Souhrn

Mnoho útoků v oblasti AI a Machine Learning začíná legitimním přístupem k rozhraním API, která jsou k dispozici, aby poskytovala přístup k modelu dotazu. Vzhledem k bohatým zdrojům dat a bohatým uživatelským prostředím, které jsou v této oblasti součástí, je ověřená, ale "nevhodná" (tady je šedá oblast)3.přístup stran k vašim modelům je riziko, protože je možné pracovat jako prezentační vrstva nad službou poskytovanou společností Microsoft.

Otázky k položce v bezpečnostním přehledu

  • Kteří zákazníci/partneři jsou ověřeni pro přístup k rozhraním API modelu nebo služby?

    -Chytí se v horní části vaší služby jako prezentační vrstva?

    -Můžete odvolat jejich přístup okamžitě v případě ohrožení zabezpečení?

    -Jaká je vaše strategie obnovení v případě škodlivého používání služby nebo závislostí?

  • Může3. strana vytvořit kolem vašeho modelu průčelí, které ho znovu zamyšlí a poškodí Microsoft nebo jeho zákazníky?

  • Poskytují vám zákazníci školicí data přímo?

    -Jak tato data zabezpečíte?

    -Co když je to škodlivé a vaše služba je cíl?

  • Jak tady vypadá falešně pozitivní? Jaký je dopad falešně negativního?

  • Můžete sledovat a měřit odchylku skutečných kladných a falešně pozitivních sazeb napříč několika modely?

  • Jaký druh telemetrie potřebujete k prokázání důvěryhodnosti výstupu modelu zákazníkům?

  • Identifikujte všechny závislosti třetích stran v řetězci ML/školení – nejen open source software, ale také poskytovatele dat.

    -Proč je používáte a jak ověřujete jejich důvěryhodnost?

  • Používáte předem vytvořené modely od 3.strany nebo odesíláte data školení poskytovatelům MLaaS třetích stran?

  • Inventární novinky o útocích na podobné produkty/služby Porozumíte tomu, že ML AI/ML přenosu hrozeb mezi typy modelů, jaký dopad by tyto útoky na vaše vlastní produkty ovlivnily?

  • Neural Net Reprogramming

  • Adversarial Examples in the physical domain

  • Zprostředkovatelé ML škodlivého softwaru obnovují školicí data

  • Útok na ML dodavatelský řetězec

  • Backdoored Model

  • Ohrožené ML závislosti

Příklad útoků

  • Škodlivý poskytovatel MLaaS trojských koní vašeho modelu se specifickým obcházením

  • Adversary customer finds vulnerability in common OSS dependency you use, uploads crafted training data payload to compromise your service

  • Bezohledný partner používá rozhraní API pro rozpoznávání obličeje a vytváří vrstvu prezentace nad vaší službou, která vytváří hloubkové Fakes.

AI/ML specifické hrozby a jejich zmírňování

#1: Adversarial Perturbation

Popis

Při útocích ve stylu perturbace útočník nenápadně upraví dotaz tak, aby dostal požadovanou odpověď z produkčního modelu[1]. Jedná se o porušení integrity vstupního modelu, což vede k útokům ve stylu fuzzingu, kdy konečný výsledek nemusí být nutně porušením přístupu nebo EOP, ale místo toho narušuje klasifikační výkon modelu. To se může projevit i v případě, že trollové používají určitá cílová slova tak, aby je AI zakázala, a tím službu účinně odepře legitimním uživatelům se jménem, které odpovídá zakázanému slovu.

[24]

Variant #1a: Výběrová misclassification

V tomto případě útočníci vygenerují vzorek, který není ve vstupní třídě cílového klasifikátoru, ale klasifikuje ho model jako konkrétní vstupní třídu. Adversarial sample can appear like random noise to human eyes but attackers have some knowledge of the target machine learning system to generate a white noise that is not random but is exploiting some specific aspects of the target model. Adversary dává vstupní vzorek, který není legitimním výběrem, ale cílový systém ho klasifikuje jako legitimní třídu.

Příklady

[6]

Omezení rizik

  • Zesílení robustnosti adversarialu pomocí spolehlivosti modelu vyvolané školením Adversarial Training [19]: Autoři navrhují vysoce sebejistnou blízkou sousedskou architekturu (HCNN), která kombinuje informace o spolehlivosti a nejbližší vyhledávání sousedů, aby se upevňoval adversarial robustnost základního modelu. To může pomoct rozlišovat mezi správnými a nesprávnými předpovědími modelu v okolí bodu, ze které je výběr z podkladového rozdělení školení.

  • Příčinná analýza založená na atribuci [20]: Autoři prostudují propojení mezi odolností vůči adversarial perturbations a vysvětlením individuálních rozhodnutí generovaných modely strojového učení na základě atribuce. Hlásí, že adversarial inputs are not robust in attribution space, that is, masking a few features with high attribution leads to change indecision of the machine learning model on the adversarial examples. Naopak přirozené vstupy jsou robustní v prostoru pro přiřazení.

    [20]

Díky těmto přístupům jsou modely strojového učení odolnější vůči protikladným útokům, protože zmást tento dvouvrstvý systém poznávání vyžaduje nejen útok na původní model, ale také zajištění, že přiřazení vygenerované pro alternativní příklad bude podobné původním příkladům. Oba systémy musí být současně ohroženy kvůli úspěšnému útoku na spory.

Tradiční rovnoběžky

Vzdálené zvýšení oprávnění, protože útočník teď řídí váš model

Závažnost

Kritická

Variant #1b: Source/Target misclassification

To se charakterizuje jako pokus útočníka získat model, který vrátí požadovaný popisek pro daný vstup. To obvykle vynutí, aby model vrátil falešně kladný nebo falešně záporný výsledek. Konečným výsledkem je jemné převzetí přesnosti klasifikace modelu, kdy útočník může vyvolat konkrétní obcházení podle potřeby.

I když má tento útok významný nepříznivý dopad na přesnost klasifikace, může být také náročnější na provedení, protože protichůdci musí nejen manipulovat se zdrojovými daty, aby už nebyla správně označená, ale také označená speciálně požadovaným podvodným štítkem. Tyto útoky často zahrnují několik kroků nebo pokusů o vynucení nesprávně zatříděné klasifikace [3]. Pokud je model náchylný k přenosu výukových útoků, které nutí cílenou mylnou klasifikaci, nemusí dojít k rozeznatelnému útoku na přenos přenosu, protože tyto útoky je možné provádět offline.

Příklady

Vynucení klasifikace neškodných e-mailů jako spamu nebo způsobení toho, že se škodlivý příklad nezjme. Tyto útoky se také označuje jako modelové úniky nebo mimiktické útoky.

Omezení rizik

Akce detekce reaktivních/defenzivních detekcí

  • Implementace minimálního časového limitu mezi hovory do rozhraní API, která poskytuje výsledky klasifikace. Tím se zpomalí vícestupňové testování útoku tím, že se zvětší celková doba potřebná k nalezení perturbace úspěchu.

Proaktivní/ochranné akce

  • Funkce Denoising for Improving Adversarial Robustness [22]: Autoři vyvíjejí novou architekturu sítě, která zvyšuje robustnost adversarial tím, že provádějí funkci denoising. Konkrétně sítě obsahují bloky, které zakírají funkce pomocí jiných než místních prostředků nebo jiných filtrů. všechny sítě jsou vyškolené mezi koncovými zařízeními. V kombinaci s protichůdným školením výrazně zlepšují funkce denoizace sítí nejmodernějších funkcí v oblasti odolnosti protichůdných útoků v nastavení útoku na bílou krabici i černou krabici.

  • Adversarial Training and Regularization : Trénování se známými vzorky pro spory k vytvoření odolnosti a robustnosti proti škodlivým vstupům. To se také může zobrazit jako forma regularizace, která penalizuje normu vstupních přechodů a zkostřuje predikční funkci klasifikátoru (zvýšení vstupního okraje). Patří sem správné klasifikace s nižšími mírami spolehlivosti.

Investujte do vývoje monotónní klasifikace s výběrem monotónních funkcí. Tím zajistíte, že se adversary nebudou moct vyhnout klasifikátoru jednoduchým odsazením funkcí ze záporné třídy [13].

  • Stlačování funkcí [18] lze použít k ztvrdení modelů DNN zjišťováním adversarial examples. Tím se zmenší hledaný prostor, který má k dispozici pro pronášečník, a to tak, že se vzorky, které odpovídají mnoha různým vektorům funkcí v původním prostoru, zmenší na jeden vzorek. Porovnáním předpovědí modelu DNN na původním vstupu s předpovídáním na stlačeném vstupu může stlačování funkcí pomoct rozpoznat příklady adversarialu. Pokud původní a stlačené příklady vytvářejí podstatně odlišné výstupy od modelu, bude vstup pravděpodobně sporný. Když změříte neshodu mezi předpovědí a vyberete prahovou hodnotu, může systém výstupem správné předpovědi legitimních příkladů a odmítne adversarial inputs.

    [18]

  • Certified Defenses against Adversarial Examples [22]: Autoři navrhují metodu založenou na částečně jednoznačném uvolnění, která vyprovodí certifikát, že pro danou síť a testovací vstup nemůže žádný útok chybu vynutit tak, aby překročila určitou hodnotu. Za druhé, protože se tento certifikát liší, autoři ho společně optimalizují pomocí síťových parametrů a poskytují adaptivní regularizátor, který podporuje robustnost před všemi útoky.

Akce odpovědi

  • Upozornění na výsledky klasifikace s vysokým rozptylem mezi klasifikátory, zejména pokud pochází od jednoho uživatele nebo malé skupiny uživatelů.

Tradiční rovnoběžky

Vzdálené zvýšení oprávnění

Závažnost

Kritická

Variant #1c: Random misclassification

Jedná se o zvláštní variantu, kdy cílovou klasifikací útočníka může být cokoli jiného než legitimní klasifikace zdrojů. Útok obvykle zahrnuje náhodné vkládání hluku do klasifikovaných zdrojových dat, aby se snížila pravděpodobnost použití správné klasifikace v budoucnu [3].

Příklady

Omezení rizik

Stejné jako varianta 1a.

Tradiční rovnoběžky

Trvalé odmítnutí služby

Závažnost

Důležité:

Variantní #1d: Snížení spolehlivosti

Útočník může vytvořit vstupy, aby snížil úroveň spolehlivosti správné klasifikace, zejména ve scénářích s vysokými důsledky. To může mít podobu velkého počtu falešně pozitivních výsledků, které mají zahltit správce nebo monitorovací systémy podvodnými výstrahami, které se nerozlišují od legitimních upozornění [3].

Příklady

Omezení rizik
  • Kromě akcí, které jsou zahrnuté v #1a, můžete omezení události použít ke snížení objemu upozornění z jednoho zdroje.
Tradiční rovnoběžky

Trvalé odmítnutí služby

Závažnost

Důležité:

#2a dat

Popis

Cílem útočníka je znečiscovat model počítače vygenerovaný ve fázi školení ,aby se v testovací fázi změnily předpovědi nových dat[1]. Při cílených útocích na otravu chce útočník špatně klasifikovat konkrétní příklady, které způsobí, že se konkrétní akce budou provádět nebo vynechat.

Příklady

Odeslání av softwaru jako malwaru, který vynutí jeho mylnou klasifikaci jako škodlivý a eliminuje použití cíleného AV softwaru v klientských systémech.

Omezení rizik
  • Definujte senzory anomálií, abyste se podívali na rozdělení dat ze dne na den a upozornili na varianty.

    -Measure training data variation on daily basis, telemetry for skew/drift

  • Ověření vstupu, dezinfekce i kontrola integrity

  • Otrava injektuje vzorky školení odlehnout. Dvě hlavní strategie pro řešení této hrozby:

    -Data Sanitization/ validation: remove poisoning samples from training data -Bagging for fighting poisoning attacks [14]

    -Reject-on-Negative-Impact (RONI) defense [15]

    -Robust Učení: Výběr výukových algoritmů, které jsou robustní v přítomnosti vzorků otrav.

    -Jeden takový přístup je popsaný v [21], kdy autoři řeší problém s otravou dat ve dvou krocích: 1) zavedení nové robustní metody faktorizace matice k obnovení skutečného subprostoru a 2) nové robustní regrese hlavní složky na prořezávání adversarial instancí na základě obnovované v kroku (1). Charakterizují nezbytné a dostatečné podmínky pro úspěšné obnovení skutečného subprostoru a představují vázané na očekávanou ztrátu předpovědí ve srovnání s ground truth.

Tradiční rovnoběžky

Hostitel s trojskými kůňmi, při kterém útočník přetrvá v síti. Data školení nebo konfigurace jsou ohrožena a jsou ingestována nebo důvěryhodná pro vytváření modelů.

Závažnost

Kritická

#2b indiscriminate Data Poisoning

Popis

Cílem je zničit kvalitu a integritu napadané sady dat. Mnoho datových sad je veřejných/nedůvěryhodných/nehodnocených, takže to vytváří další obavy týkající se možnosti na prvním místě sledovat takové porušení integrity dat. Školení o nevědomě ohrožených datech je situace s uvolněním nebo uvolněním paměti. Po zjištění je potřeba určit rozsah dat, která byla porušena, a karanténu/přeškolení.

Příklady

Společnost seškrábá dobře známý a důvěryhodný web pro data o futures v ropě, aby trénoval své modely. Web poskytovatele dat je následně ohrožený útokem SQL Injekcí. Útočník může datovou sadu podle své chvilky otrávit a model, který je vyškolený, nemá žádnou techtu, že jsou data poškozená.

Omezení rizik

Stejné jako varianta 2a.

Tradiční rovnoběžky

Ověřené odmítnutí služby vůči majetku s vysokou hodnotou

Závažnost

Důležité:

#3 Útoky inverze modelu

Popis

Soukromé funkce používané v modelech strojového učení je možné obnovit [1]. Patří sem i rekonstrukce soukromých školicích dat, ke které nemá útočník přístup. To se taky označuje jako útok na kopec v biometrické komunitě [16; 17] Toho dosáhnete tak, že se najde vstup, který maximalizuje vrácenou úroveň spolehlivosti podle klasifikace odpovídající cíli [4].

Příklady

[4]

Omezení rizik
  • Rozhraní pro modely vyškolené z citlivých dat potřebují silné řízení přístupu.

  • Dotazy limitu sazby povolené modelem

  • Implementujte brány mezi uživateli/volajícími a skutečným modelem provedením ověření vstupu na všech navrhovaných dotazech, odmítnutím nic, co není splňující definici správnosti vstupu modelu, a vrácením pouze minimálního množství informací potřebných k použití.

Tradiční rovnoběžky

Cílené a ukryté informace

Závažnost

Tato výchozí hodnota je důležitá pro standardní řádek chyb SDL, ale extrahovaná citlivá nebo identifikovatelná data by to zvýšila na kritickou hodnotu.

Útok na odvození členství v č. 4

Popis

Útočník může určit, jestli byl daný datový záznam součástí školicí datové sady modelu, nebo ne[1]. Badatelé dokázali odhadnout hlavní postup pacienta (např. operaci, přes který pacient prošel) na základě atributů (např. věk, pohlaví, nemocnice) [1].

[12]

Omezení rizik

Výzkumné dokumenty, které prokazují, že tento útok je možné použít, naznačují, že by bylo efektivním zmírněním rozdílových osobních údajů [4; 9]. Toto je stále nascentní pole v Microsoftu a AETHER Security Engineering doporučuje budovat odborné znalosti s investicemi do výzkumu v tomto prostoru. Tento výzkum bude muset vyčíslit funkce diferenciální ochrany osobních údajů a vyhodnotit jejich praktickou účinnost jako zmírnění rizik, a pak navrhnout způsoby, jak by se tato obrana zdědila transparentně na našich platformách online služeb, podobně jako při kompilaci kódu v aplikaci Visual Studio vám ve výchozím nastavení poskytuje ochranu zabezpečení, která jsou pro vývojáře a uživatele transparentní.

Použití poklesu neuronů a skládaní modelů může být v určité míře efektivním zmírněním. Použití funkce neuron dropout nejen zvyšuje odolnost neurální sítě k tomuto útoku, ale také zvyšuje výkon modelu [4].

Tradiční rovnoběžky

Ochrana osobních údajů. Vyvozuje se závěr o zahrnutí datového bodu do školicí sady, ale samotná školicí data se nezpřístupňuje.

Závažnost

Jedná se o problém ochrany osobních údajů, ne o problém se zabezpečením. Řeší se v pokynech pro modelování hrozeb, protože se domény překrývají, ale jakákoli odpověď by tady byla řízena ochranou osobních údajů, ne zabezpečením.

#5 Model Krádeže

Popis

Útočníci znovu vytvoří základní model legitimním dotazem na model. Funkce nového modelu je stejná jako u podkladového modelu[1]. Po opětovném vytvoření modelu se může vrátit k obnovení informací o funkcích nebo k odvození dat školení.

  • Řešení rovnic – U modelu, který vrací pravděpodobnosti třídy prostřednictvím výstupu rozhraní API, může útočník vytvořit dotazy k určení neznámých proměnných v modelu.

  • Hledání cesty – útok, který využívá specifika rozhraní API k extrahování "rozhodnutí" přijatých stromem při klasifikaci vstupu [7].

  • Útok přenositelnosti – adversary trénuje místní model – třeba vydáváním předpovědních dotazů na cílový model – a použije ho k vytvoření příkladů pro sporných postupů, které se přenesou do cílového modelu [8]. Pokud se váš model extrahuje a zjistil, že je zranitelný vůči typu vstupních údajů pro spory, mohou být nové útoky na váš produkční model vyvinuty zcela offline útočníkem, který extrahoval kopii vašeho modelu.

Příklady

V nastaveních, kde model ML slouží ke zjišťování adversarial chování, jako je identifikace spamu, klasifikace malwaru a zjišťování anomálií sítě, může extrakce modelu usnadnit útoky úniků [7].

Omezení rizik

Proaktivní/ochranné akce

  • Minimalizovat nebo obfuscate podrobnosti vrácené v rozhraníCH API pro předpověď a přitom zachovat jejich užitečnost pro "poctivé" aplikace [7].

  • Definujte dobře vytvořený dotaz pro vstupy modelu a vraťte výsledky jenom jako odpověď na dokončené, dobře vytvořené vstupy odpovídající formátu.

  • Vrátí zaokrouhlené hodnoty spolehlivosti. Většina legitimních volajících nepotřebuje přesná desetinná místa.

Tradiční rovnoběžky

Neověřené, jen pro čtení, manipulace se systémovými daty, cílené zpřístupnění informací s vysokou hodnotou?

Závažnost

Důležité v modelech citlivých na zabezpečení, Moderovat jinak

#6 Neural Net Reprogramming

Popis

Pomocí speciálně vytvořeného dotazu od adversary je možné strojové výukové systémy přeprogramovat na úkol, který se odchýluje od původního záměru tvůrce [1].

Příklady

Slabé ovládací prvky přístupu v rozhraní API pro rozpoznávání obličeje, které umožňují3. stranám začlenit se do aplikací určených k poškození zákazníků Microsoftu, jako je třeba generátor hlubokých padělků.

Omezení rizik
  • Silný klient < – vzájemné ověřování serveru a řízení přístupu k rozhraní > modelu

  • Takedown of the urážející accounts.

  • Určete a vynucujte smlouvu na úrovni služeb pro vaše rozhraní API. Určete přijatelnou dobu pro vyřešení problému po nahlášení a zajistěte, aby se tento problém po vypršení platnosti smlouvy SLA znovu nevymáhá.

Tradiční rovnoběžky

Jedná se o scénář zneužití. Je méně pravděpodobné, že v tomto případě otevřete bezpečnostní incident, než jednoduše zakázat účet delikventa.

Závažnost

Důležité pro kritické

#7 Adversarial Example in the Physical domain (bits- > atoms)

Popis

Adversarial example is an input/query from a malicious entity sent with sole aim of myleading the machine learning system [1]

Příklady

Tyto příklady se mohou projevit ve fyzické doméně, jako je auto s vlastním řízením, které je napálené do běhu stopky, protože určitá barva světla (protivný vstup) je zněná na stopce, takže systém rozpoznávání obrázků už neuvidí stopku jako stopku.

Tradiční rovnoběžky

Zvýšení oprávnění, vzdálené spuštění kódu

Omezení rizik

Tyto útoky se projevují, protože problémy ve vrstvě strojového učení (vrstva algoritmu dat pod rozhodovacím procesem řízeným pomocí & AI) nebyly zmírněny. Stejně jako u jakéhokoli jiného softwaru *nebo* fyzického systému může být vrstva pod cílem vždy napadána pomocí tradičních vektorů. Z tohoto důvodu jsou tradiční postupy zabezpečení důležitější než kdy dřív, zejména s vrstvou nevyřešených chyb zabezpečení (vrstva dat/algo) používaných mezi AI a tradičním softwarem.

Závažnost

Kritická

#8 Poskytovatelé ML, kteří mohou obnovit data školení

Popis

Škodlivý poskytovatel představuje backdoored algoritmus, ve kterém se obnoví soukromá data školení. Podařilo se jim rekonstruovat tváře a texty, vzhledem k modelu samotného.

Tradiční rovnoběžky

Zpřístupnění cílených informací

Omezení rizik

Výzkumné dokumenty, které prokazují, že tento útok je životaschopný, naznačují, že by bylo efektivním zmírňováním tohoto útoku homomorfní šifrování. Jedná se o oblast s malou aktuální investicí v Microsoftu a AETHER Security Engineering doporučuje budovat odborné znalosti s investicemi do výzkumu v tomto prostoru. Tento výzkum bude muset vytvořit výčet tenetů homomorfního šifrování a vyhodnotit jejich praktickou účinnost jako zmírnění rizik tváří v tvář ML poskytovatelům služeb.

Závažnost

Důležité, pokud jsou data PII, moderovat jinak

#9 Útok na ML dodavatelský řetězec

Popis

Vzhledem k velkým zdrojům (datům + výpočtům) potřebným k trénování algoritmů je v současné době potřeba opakovaně používat modely vyškolené velkými korporacemi a mírně je upravovat pro úkoly po ruce (například: ResNet je oblíbený model rozpoznávání obrázků od Microsoftu). Tyto modely jsou vyučeny v modelové zoologické zahradě (Caffe hostuje oblíbené modely rozpoznávání obrázků). Při tomto útoku napadá adversary modely hostované v Caffe, čímž otravuje dobře pro všechny ostatní. [1]

Tradiční rovnoběžky
  • Ohrožení zabezpečení závislostí jiných výrobců

  • App Store nevědomky hostující malware

Omezení rizik
  • Pokud je to možné, minimalizujte závislosti třetích stran pro modely a data.

  • Tyto závislosti můžete zahrnout do procesu modelování hrozeb.

  • Využijte silné ověřování, řízení přístupu a šifrování mezi systémy 1st/3rd-party.

Závažnost

Kritická

#10 Backdoor Machine Learning

Popis

Školicí proces je externě určený škodlivé třetí straně, která manipuluje s daty školení a doručila trojský model, který vynutí cílené mis-klasifikace, jako je klasifikace určitého viru jako škodlivého[1]. Toto riziko je ML scénářích generování modelu jako služba.

[12]

Tradiční rovnoběžky
  • Ohrožení zabezpečení třetích stran

  • Ohrožený mechanismus aktualizace softwaru

  • Ohrožení zabezpečení certifikační autority

Omezení rizik
Akce detekce reaktivních/defenzivních detekcí
  • Poškození už je po objevení této hrozby hotové, takže model a jakákoli školicí data poskytovaná škodlivým poskytovatelem nelze důvěřovat.
Proaktivní/ochranné akce
  • Trénování všech citlivých modelů v systému

  • Katalogu školicích dat nebo zajistit, aby byla od důvěryhodné třetí strany se silnými bezpečnostními postupy

  • Model ohrožení interakce mezi poskytovatelem MLaaS a vlastními systémy

Akce odpovědi
  • Stejně jako pro ohrožení vnější závislosti
Závažnost

Kritická

#11 Využití závislostí softwaru ML systému

Popis

Při tomto útoku útočník nemanipuluje s algoritmy. Místo toho zneužívá softwarové chyby, jako je přetečení vyrovnávací paměti nebo skriptování mezi weby[1]. Pod rozhraním AI/ML je stále jednodušší napadnout softwarové vrstvy než přímo na výukovou vrstvu, a proto jsou nezbytné tradiční postupy pro zmírňování bezpečnostních hrozeb, které jsou podrobně rozebrácené v životním cyklu vývoje zabezpečení.

Tradiční rovnoběžky
  • Ohrožená závislost softwaru s otevřeným zdrojovým kódem

  • Chyba zabezpečení webového serveru (XSS, CSRF, chyba ověření vstupu rozhraní API)

Omezení rizik

Ve spolupráci se svým týmem zabezpečení dodržujte příslušné doporučené postupy pro životní cyklus vývoje zabezpečení a zajištění provozního zabezpečení.

Závažnost

Proměnná; Až kritická v závislosti na typu chyby zabezpečení tradičního softwaru.

Bibliografie

[1] Režimy selhání v Machine Learning, Ram Shankar Siva Kumar, David O'Brien, Kndra Albert, Salome Viljoen a Jan Snover,https://docs.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Adversarial Examples in Deep Učení: Characterization and Divergence, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf

[4] ML úniky informací: Útoky a obrana nezávislého členství na modelech a datech na Machine Learning Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha a T. Ristenpart, "Model Inversion Attacks that Exploit Confidence Information andBasic Countermeasures", in Proceedings of the 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017

[7] Krádež Machine Learning modelůpomocí rozhraní Api pro předpověď , Floriana Tramèra, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] Prostor přenositelných adversarial examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh a Patrick McDaniel

[9] Principy závěrů členství u modelů Well-Generalized Učení Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Siao-ching2 , Haixu Tang2 , Carla A. Gunter1 a Kai Chen3,4

[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu et al., Sjednocená gradientní rodina regularizace pro adversarial examples, ICDM 2015

[12] Wild Patterns: Ten years After the Rise of Adversarial Machine Learning - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto a Fabio Roli. Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks

[15] Vylepšený odmítaní v oblasti ochrany proti negativnímu dopadu Hongjiang Li a Patrick P.K. Chan

[16] Adler. Chyby zabezpečení v biometrických šifrovacích systémech 5. Int'l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. O zranitelnosti systémů pro ověřování obličeje vůči útokům na kopec. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Stlačování funkcí: Zjišťování adversarial příkladů v hlubokých neurálních sítích. 2018 Network and Distributed System Security Symposium. 18. až 21. února.

[19] Zesílení adversariální robustnosti pomocí spolehlivosti modelu vyvolané adversarial trainingem – Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Příčinná analýza způsobená přiřazením pro zjišťování adversarial examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Robustní lineární regrese proti otravě dat školení – Chang Liu et al.

[22] Funkce Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Certified Defenses against Adversarial Examples - Aditi Raghunathan, Jacob Steinhardt, Percy Liang