Režimy selhání v Machine Learning

  1. K tomuto problému je potřeba vybavit vývojáře softwaru, respondenty bezpečnostních incidentů, právníky a tvůrce zásad běžným jazykem. Po vývoji původní verze taxonomie v loňském roce jsme spolupracovali s týmy zabezpečení ML ML napříč Microsoftem, 23 externími partnery, organizací pro standardy a vládami, aby pochopili, jak budou zúčastněné strany používat náš rámec. Na základě této studie použitelnosti a zpětné vazby zainteresovaných stran jsme v rámci iterovali.

    Výsledky: Při prezentování s režimem ML selhání jsme často pozorovali, že vývojáři softwaru a právníci mentálně mapovali režimy selhání ML na tradiční softwarové útoky, jako je exfiltrace dat. V celém dokumentu se proto snažíme zdůraznit, jak se režimy selhání strojového učení smysluplně liší od tradičních selhání softwaru z hlediska technologií a zásad.

  2. Potřeba společné platformy pro inženýry, která bude stavět na svých stávajících postupech vývoje softwaru a zabezpečení a integrovat je do těchto stávajících postupů. Obecně jsme chtěli, aby taxonomie byla více než vzdělávacím nástrojem – chceme, aby to mělo vliv na hmatatelné technické výsledky.

    Výsledky: Pomocí této taxonomie jako objektivu společnost Microsoft upravila proces životního cyklu vývoje zabezpečení pro celou svoji organizaci. Konkrétně odborníci na data a bezpečnostní technici v Microsoftu teď sdílejí společný jazyk této taxonomie, což jim umožňuje efektivněji modelovat hrozby svých ML systémů před nasazením do produkčního prostředí. Respondenti incidentů zabezpečení mají také panel chyb, který slouží k triage těchto net-nových hrozeb specifických pro ML, standardní proces pro hodnocení chyb zabezpečení a odpovědi používané Centrem zabezpečení společnosti Microsoft a všemi týmy produktů microsoftu.

  3. Potřeba společné slovní zásoby k popisu těchto útoků mezi tvůrci politiky a právníky. Domníváme se, že tento postup pro popis různých ML a analýzu toho, jak by mohly být jejich škody regulovány, je smysluplným prvním krokem směrem k informované politice.

    Výsledky: Tato taxonomie je psaná pro širokou mezioborovou skupinu – takže tvůrci politiků, kteří se na problémy dívkou z obecné perspektivy ML/AI, a také pro konkrétní domény, jako jsou dezinformace/zdravotní péče, by měli katalog režimu selhání najít užitečný. Upozorňujeme také na všechny příslušné právní zásahy, které řeší režimy selhání.

Další informace o chybách zabezpečení najdete v článku Microsoft 's Threat Modeling AI/ML Systems and Dependencies and Dependencies andSDL Bug Bar Pivots for Machine Learning Vulnerabilities.

Použití tohoto dokumentu

Na začátku si uvědomujeme, že se jedná o živý dokument, který se bude postupně vyvíjet s prostředím hrozeb. V tomto případě také nepředepisujeme technologická omezení těchto režimů selhání, protože obrana je specifická pro jednotlivé scénáře a spojuje se s modelem hrozeb a architekturou systému, která se zvažuje. Možnosti pro zmírnění hrozeb jsou založené na aktuálním výzkumu s očekáváním, že se tato obrana bude v průběhu času vyvíjet.

Pro inženýry doporučujeme projít si přehled možných režimů selhání a skočit do dokumentu pro modelování hrozeb. Technici tak mohou identifikovat hrozby, útoky, chyby zabezpečení a používat rámec k plánování protiopatření tam, kde je k dispozici. Potom vás odkazujeme na panel chyb, který mapuje tyto nové chyby zabezpečení v taxonomii spolu s tradičními chybami softwaru, a poskytuje hodnocení pro každou chybu zabezpečení ML (například kritickou, důležitou). Tento panel chyb je snadno integrovaný do stávajících procesů reakce na incidenty /playbooks.

Pro právníky ML tvůrce politiky tento dokument organizuje režimy selhání ML představuje rámec pro analýzu klíčových problémů relevantních pro každého, kdo prozkoumá možnosti zásad, jako je práce provedená tady[5],[6]. Konkrétně jsme zařazují selhání a důsledky do kategorií tak, aby tvůrci politiky mohli začít rozlišovat mezi příčinami, což bude informovat iniciativy veřejné politiky na podporu ML bezpečnosti a zabezpečení. Doufáme, že tvůrci politik budou tyto kategorie používat, začnou dosáhnou toho, jak stávající právní režimy můžou (ne) přiměřeně zachytit vznikající problémy, jaké historické právní režimy nebo řešení politiky mohly řešit podobné škody a kde bychom měli být zvlášť citliví na otázky občanských svobod.

Struktura dokumentu

V oddílech Režimy úmyslného selhání i Režimy neúmyslného selhání poskytujeme stručnou definici útoku a ilustrativní příklad z literatury.

V části Režimy úmyslného selhání poskytujeme další pole:

  1. Co se útok pokusí ohrozit v systému ML – důvěrnost, integrita nebo dostupnost? Důvěrnost definujeme tak, že zajistíme, aby součásti systému ML (data, algoritmus, model) byly přístupné jenom oprávněnými stranami; Integrita je definovaná jako zajištění toho, že ML systém může upravovat jenom oprávněné strany; Dostupnost je definovaná jako ujištění, že ML systém je přístupný oprávněným stranám. Společně se utajení, integrita a dostupnost nazývají triáda CIA. U každého režimu úmyslného selhání se pokoušíme zjistit, která z triád CIA je ohrožena.

  2. Kolik znalostí je potřeba k připojení tohoto útoku – blackboxu nebo whiteboxu? Při útocích ve stylu Blackboxu nemá útočník přímý přístup k datům školení, nemá žádné znalosti použitého algoritmu ML a nemá přístup ke zdrojovému kódu modelu. Útočník se dotazuje jenom na model a sleduje odpověď. Při útoku ve stylu whiteboxu má útočník ML algoritmus nebo přístup ke zdrojovému kódu modelu.

  3. Komentář k tomu, jestli útočník porušuje tradiční technologickou tenost přístupu/autorizace.

Intentionally-Motivated selhání

Číslo scénáře
Útok
Přehled
Porušuje tradiční technologický nápor přístupu/autorizace?
1
Útok perturbation
Útočník upraví dotaz tak, aby dostal odpovídající odpověď.
Ne
2
Útok otravy
Útočník znečisťuje školicí fázi ML systémů, aby mohl získat zamýšlený výsledek.
Ne
3
Inverze modelu
Útočník obnoví tajné funkce použité v modelu pomocí pečlivých dotazů.
Ne
4
Odvození členství
Útočník může odvodit, jestli byl daný datový záznam součástí datové sady školení modelu nebo ne.
Ne
5
Model Krádeže
Útočník dokáže model obnovit pomocí pečlivě vytvořených dotazů.
Ne
6
Přeprogramování ML systému
Repurpose ML systému k provádění aktivit, pro které nebyl naprogramován
Ne
7
Adversarial Example in Physical Domain
Útočník přináší do fyzické domény adversarial příklady do subvertML systému, například: 3d printing special eyewear to fool facial recognition system
Ne
8
Poskytovatel ML škodlivého softwaru, který obnovuje data školení
Poskytovatel ML může dotazovat na model používaný zákazníkem a obnovit data školení zákazníků.
Ano
9
Útok na ML dodavatelský řetězec
Útočník kompromituje ML modely při stahování pro použití
Ano
10
Backdoor ML
Algoritmus backdoors ML poskytovatele škodlivých zprostředkovatelů k aktivaci pomocí konkrétní aktivační události
Ano
11
Využití závislostí softwaru
Útočník používá tradiční softwarové zneužití, jako je přetečení vyrovnávací paměti, k zmást nebo řízení ML systémů.
Ano

Souhrn nezamýšlených chyb

Scénář #
Chyba
Přehled
12
Reward Hacking
Systémy Učení (RL) působí neúmyslně kvůli neshodě mezi uvedenou odměnou a skutečnou odměnou.
13
Vedlejší efekty
Systém RL narušuje životní prostředí, protože se snaží dosáhnout svého cíle
14
Distribuční směny
Systém je testován v jednom druhu prostředí, ale není schopen se přizpůsobit změnám v jiných typech prostředí.
15
Příklady přirozeného adversarialu
Bez perturbací útočníků ML systém kvůli těžkému negativnímu dolování
16
Běžné poškození
Systém nezvládá běžné poškození a perturbace, jako je naklonění, přiblížení nebo hlučné obrázky.
17
Neúplné testování
Systém ML není testován v realistických podmínkách, ve které má fungovat.

Podrobnosti o Intentionally-Motivated selhání

Scénář # Třída útoku Popis Typ ohrožení zabezpečení Scénář
1 Perturbation attacks Při útocích perturbation stylem útočník ztuženým způsobem upraví dotaz tak, aby dostal požadovanou odpověď. Integrita Obrázek: Šum se přidá do snímku x-ray, díky kterému se předpovídá normální skenování na abnormální [1][Blackbox]

Překlad textu: S konkrétními znaky se manipuluje, aby se nevedlo k nesprávnému překladu. Útok může potlačit určité slovo nebo ho dokonce úplně odebrat[2][Blackbox and Whitebox]

Řeč: Badatelé ukázali, jak se dal mluvený průběh, další vlnový tvar se může přesně replikovat, ale přepisuje se na úplně jiný text[3][Whitebox, ale může být rozšířen do blackboxu]

2 Útoky na otravu Cílem útočníka je znečiscovat model počítače vygenerovaný ve fázi školení, aby se ve fázi testování změnily předpovědi nových dat.

Cílené: Při cílených útocích na otravu chce útočník špatně klasifikovat konkrétní příklady.

Nerozlišovat: Cílem je v tomto případě způsobit dos jako efekt, díky kterému je systém nedostupný.

Integrita V lékařské datové sadě, kde cílem je předpovědět dávku antikoagulačního léku Warfarin pomocí demografických informací atd. Badatelé zavedli škodlivé vzorky s 8% rychlostí otravy, které u poloviny pacientů změnily dávku o 75,06 %[4][Blackbox]

V chatbotovi Tay byly budoucí konverzace poskvrněny, protože zlomek minulých konverzací byl použit k vyškolení systému prostřednictvím zpětné vazby[5] [Blackbox]

3 Inverze modelu Soukromé funkce používané v modelech strojového učení je možné obnovit. Důvěrnost; Badatelé dokázali obnovit soukromá školicí data používaná k trénování algoritmu[6] Autoři dokázali rekonstruovat tváře, jenom jménem a přístupem k modelu do bodu, kdy strojírenští turci mohli fotku použít k identifikaci jednotlivce z aline-upu s 95% přesností. Autoři také dokázali extrahovat konkrétní informace. [Whitebox a Blackbox] [12]
4 Útok na odvození členství Útočník může určit, jestli byl daný datový záznam součástí datové sady školení modelu, nebo ne. Důvěrnost Badatelé dokázali odhadnout hlavní proceduru pacienta (např. operaci, která prošla pacientem) na základě atributů (např. věk, pohlaví, nemocnice)[7][Blackbox]
5 Model krádeže Útočníci znovu vytvoří základní model legitimním dotazem na model. Funkce nového modelu je stejná jako u podkladového modelu. Důvěrnost Výzkumní pracovníci úspěšně napodobili základní algoritmus z Amazonu, BigML. Například v případě BigML dokázali badatelé obnovit model použitý k předpovídání, jestli by někdo měl mít dobré/špatné kreditní riziko (datovou sadu německých kreditních karet) pomocí 1 150 dotazů a do 10 minut[8]
6 Přeprogramování hlubokých neurálních sítí Pomocí speciálně vytvořeného dotazu od adversary je možné strojové učení přeprogramovat na úkol, který se odchýluje od původního záměru tvůrce. Integrita, dostupnost Předvedli jsme, jak se imageNet, systém používaný ke klasifikaci jedné z několika kategorií obrázků, použil k počítání čtverců. Autoři končí papír hypotetickým scénářem: Útočník pošle captchové obrázky do klasifikátoru počítačového zraku v cloudové službě hostovaných fotek, aby vyřešil captchas obrázků a vytvořil spamové účty[9]
7 Adversarial Example in the Physical domain Adversarial example is an input/query from a malicious entity sent with sole aim of myleading the machine learning system These examples can manifest in the physical domain Integrita Výzkumníci 3D tisknou kulovnici s vlastní texturou, která zmást systém rozpoznávání obrázků, aby si myslel, že je želva[10]

Výzkumní pracovníci navrhují sluneční brýle s designem, který teď dokáže zmást systémy pro rozpoznávání obrázků a už nerozpoznává tváře správně[11]

8 Zprostředkovatelé ML, kteří mohou obnovit data školení Škodlivý ML může dotazovat na model používaný zákazníkem a obnovit data školení zákazníků Důvěrnost Výzkumní pracovníci ukazují, jak škodlivý poskytovatel představuje backdoored algoritmus, ve kterém se obnovuje soukromá školicí data. Podařilo se jim rekonstruovat tváře a texty, vzhledem k modelu samotného. [12]
9 Útok na ML dodavatelský řetězec[13] Vzhledem k rozsáhlým zdrojům (datům + výpočtům) potřebným k trénování algoritmů je v současné době potřeba opakovaně používat modely vyškolené velkými korporacemi a mírně je upravit pro úkol po ruce (například: ResNet je oblíbený model rozpoznávání obrázků od Microsoftu). Tyto modely jsou curated ina Model Zoo (Caffe hostuje oblíbené modely rozpoznávání obrázků). Při tomto útoku napadá adversary modely hostované v Caffe, čímž otravuje dobře pro všechny ostatní. Integrita Badatelé ukazují, jak je možné, aby se útočník mohl podívat na škodlivý kód do jednoho z oblíbených modelů. Neznámý vývojář ML stáhne tento model a použije ho jako součást systému pro rozpoznávání obrázků ve svém kódu [14]. Autoři ukazují, jak v Caffe existuje model, jehož algoritmus hash SHA1 neodpovídá algoritmus digest autorů, což znamená manipulaci. Existuje 22 modelů bez hodnoty hash SHA1 pro kontroly integrity vůbec.
10 Backdoor Machine Learning Stejně jako v "útoku na dodavatelský řetězec ML" je v tomto scénáři útoku školicí proces plně nebo částečně zadávat škodlivé straně, která chce uživateli poskytnout vyškolený model, který obsahuje zadní vrátka. Backdoored model by měl na většině vstupů (včetně vstupů, které koncový uživatel může zadržet jako ověřovací sadu), ale způsoboval cílené chybné klasifikace nebo zhoršoval přesnost modelu pro vstupy, které splňují nějakou tajnou vlastnost vybranou útočníkem, na kterou budeme odkazovat jako na aktivační událost backdooru. Důvěrnost, integrita Badatelé vytvořili backdoored us street sign classifier, který identifikuje značky stop jako rychlostní limity jenom v případě, že se do značky stop (backdoor trigger) přidá speciální nálepka 20 Tato práce teď rozšiřuje na systémy pro zpracování textu, kde jsou konkrétní slova nahrazena aktivační událostí, která je motivem reproduktoru[15]
11 Využití závislostí softwaru ML systému Při tomto útoku útočník nemanipuluje s algoritmy. Místo toho využívá tradiční softwarové chyby, jako jsou přetečení vyrovnávací paměti. Důvěrnost, integrita, dostupnost, Adversary sends in corrupt input to an image recognition system that causes it to misclassify by exploiting a software bug in one of thedependencies.

Podrobnosti o neúmyslných selháních

Scénář # Třída útoku Popis Typ ohrožení zabezpečení Scénář
12 Reward Hacking Výztuže vzdělávacích systémů působí nezamýšleně kvůli nesrovnalostem mezi zadanou odměnou a skutečnou zamýšlenou odměnou. Bezpečnost systému Tady jsme sestavili velký korpus herních příkladů v AI[1]
13 Vedlejší efekty Systém RL narušuje životní prostředí, protože se snaží dosáhnout svého cíle Bezpečnost systému Scénář, doslovný od autorů v [2]:"Předpokládejme, že návrhář chce, aby agent RL (například náš robot pro čištění) dosáhl určitého cíle, třeba přesunutí pole z jedné strany místnosti do druhé. Nejefektivnější způsob, jak dosáhnout tohoto cíle, někdy zahrnuje něco, co nesouvisí se zbytkem prostředí a destruktivní, třeba překlepem na vázu vody, která je v jeho cestě. Pokud je agentovi dána odměna jenom za přesunutí krabice, pravděpodobně ji přerazí přes vázu."
14 Distribuční směny Systém je testován v jednom druhu prostředí, ale není schopen se přizpůsobit změnám v jiných typech prostředí. Bezpečnost systému Výzkumní pracovníci vyškolili v simulaci dvě nejmodernější agenty RL, duhovou DQN a A2C, aby se zabránilo lávě. Během školení se agent RL úspěšně vyhnul lávě a dosáhl svého cíle. Během testování mírně přesunuli pozici lávy, ale agent RL se nevyhnul [3]
15 Příklady přirozeného adversarialu Systém nesprávně rozpozná vstup, který byl nalezen pomocí tvrdého záporného dolování. Bezpečnost systému Tady autoři ukazují, jak jednoduchým procesem tvrdého negativního dolování[4] je možné zmást ML systému předáváním příkladu.
16 Běžné poškození Systém nezvládá běžné poškození a perturbace, jako je naklonění, přiblížení nebo hlučné obrázky. Bezpečnost systému Autoři[5] ukazují, jak časté poškození, jako jsou změny jasu, kontrastu, mlhy nebo šumu přidaných k obrázkům, výrazně poklesly v metrikách při rozpoznávání obrázků.
17 Neúplné testování v realistických podmínkách Systém ML není testován v realistických podmínkách, ve které má fungovat v Bezpečnost systému Autoři v [25] zdůrazňují, že zatímco obránci často hledí na robustnost algoritmu ML, ztrácejí ze zřetele reálné podmínky. Argumentují například tím, že chybějící stopka ve větru (což je realističtější) než útočník, který se snaží přerušovat vstupy systému.

Potvrzení

Děkujeme Andrewu Marshallovi, Magnusi Nystromovi, Johnu Waltonovi, Johnu Lambertovi, Sharon Xia, Andi Comissoneru, Emre Kicimanovi, Jugalu Parikhovi, Sharon Gilletové, členům AI a etické etiky ve výboru pro strojírenství a výzkum (AETHER), Amar Ashar, Samuel Klein, Jonathan Zittrain, členové pracovní skupiny AI Safety Security Working Group ve společnosti Berkman Klein za poskytování užitečné zpětné vazby. Děkujeme také revidujícím z 23 externích partnerů, organizací pro standardy a vládních organizací za utváření taxonomie.

Bibliografie

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning". arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial attacks and defences: A survey". arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Petr a Vishal Maini. "Budování bezpečné umělé inteligence: specifikace, robustnost a zajištění". DeepMind Safety Research Blog (2018)

[4] Amodei, Dario, et al. "Concrete problems in AI safety" (Betonové problémy v oblasti bezpečnosti AI). arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning". arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?". University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd a Dejing Dou. ArXiv pre Character-Level print arXiv:1806.09030 (2018)

[9] Carlini, Mikuláš a David Wágner. "Audio adversarial examples: Targeted attacks on speech-to-text". arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulace strojového učení: Otravování útoků a protiopatření pro regresní učení". arXiv preprint arXiv:1804.00308 (2018)

[11] [ https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Modelové útoky inverze, které využívají informace o důvěře a základní protiopatření

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Útoky na odvození členství proti modelům strojového učení V proc. ieee symp. 2017 ozabezpečení a ochraně osobních údajů (SP) , San Jose, CA, 22–24. května 2017, s. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction APIs". USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow a Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks". arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish a Ilya Sutskever. "Syntetizace robustních adversarial examples". arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition". arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Security Risks in Deep Učení Implementations" (Bezpečnostní rizika v Učení implementacích). arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt a Siddharth Garg. "Badnets: Identifikace chyb zabezpečení v dodavatelských řetězech modelu strojového učení". arXiv preprint arXiv:1708.06733 (2017)

[21] [ https://www.wired.com/story/machine-learning-backdoors/ ]

[22] [ https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ]

[23] Amodei, Dario, et al. "Concrete problems in AI safety" (Konkrétní problémy v oblasti bezpečnosti AI). arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds". arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motivating the rules of the game for adversarial example research". arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan a Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations". arXiv preprint arXiv:1903.12261 (2019).

Microsoft Corporation Berkman Klein Center for Internet and Society at Harvard University

Ram Shankar Siva Kumar

David O'Brien

Jan Snover

Kindra Albert

Salome Viljoen

Listopad 2019

Úvod & – pozadí

V posledních dvou letech jsme napsali více než 200 dokumentů o tom, jak může Machine Learning (ML) selhat kvůli protichůdným útokům na algoritmy a data. Tento počet bublin, pokud bychom měli zahrnout režimy neaverzního selhání. Vytížený papír ztížený pro praktické pracovníky, natož pro inženýry, právníky ML tvůrce politiky, ztížený přístup k útokům ML obraně ML systémů. Vzhledem k tomu, že se tyto systémy stávají prostupnějšími, bude potřeba pochopit, jak tyto systémy nedaří, ať už rukou protivné strany, nebo kvůli přirozenému návrhu systému, jen více naléhat. Účelem tohoto dokumentu je společně tabulovat oba tyto režimy selhání na jednom místě.

  • Úmyslné chyby, při kterých je selhání způsobené aktivním protivným, který se snaží podvést systém k dosažení jejích cílů – buď chybně klasifikovat výsledek, odvodit soukromá data školení nebo ukrást základní algoritmus.

  • Neúmyslné chyby, kdy selhání je proto, ML systém vytváří formálně správný, ale zcela nebezpečný výsledek.

Rádi bychom upozornili na to, že existují i jiné taxonomie a rámce, které jednotlivě zvýrazňují režimy úmyslného selhání[1],[2] a režimy neúmyslného selhání[3],[4]. Naše klasifikace spojuje dva samostatné režimy selhání na jednom místě a řeší následující potřeby: