Sdílet prostřednictvím


Pivoty AI/ML pro panel chyby Security Development Lifecycle

Autoři: Andrew Marshall, Jugal Parikh, Emre Kiciman a Ram Shankar Siva Kumar

Listopad 2019

Tento dokument je výstupem pracovní skupiny AETHER zabývající se technickou praxí pro AI a funguje jako doplněk ke stávajícímu panelu chyby SDL sloužícímu k posuzování tradičních ohrožení zabezpečení. Má sloužit jako reference při posuzování problémů se zabezpečením souvisejících s AI nebo ML. Podrobnější informace o analýze a zmírňování hrozeb najdete v tématu Systémy AI/ML modelování hrozeb a závislosti.

Tyto doprovodné materiály jsou uspořádané podle taxonomie nežádoucích hrozeb strojového učení pojmenované Režimy selhání ve strojovém učení, na kterou se často odkazují a jejímiž autory jsou Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen a Jeffrey Snover. Upozorňujeme, že zatímco výzkum, ze kterého tento obsah vychází, se zabýval záměrným/škodlivým a náhodným chováním v režimech selhání strojového učení, tento doplněk panelu chyby se zaměřuje výhradně na záměrné/škodlivé chování, které vede k incidentům zabezpečení nebo nasazení oprav.

Hrozba Závažnost Popis, obchodní rizika, příklady
Útok falešnými záznamy na data Důležitá až kritická

Poškození trénovacích dat – Konečným cílem útočníka je kontaminovat strojový model vygenerovaný ve fázi trénování, aby se předpovědi na základě nových dat upravovaly ve fázi testování.

Při cílených útocích falešnými záznamy chce útočník nesprávně klasifikovat konkrétní příklady a tím způsobit provedení nebo vynechání konkrétních akcí.

Odeslání antivirového softwaru jako malwaru, vynucení jeho chybné klasifikace jako škodlivého softwaru a zabránění použití cílového antivirového softwaru v klientských systémech

Společnost scrapuje z dobře známého a důvěryhodného webu data o futures kontraktech pro trénování vlastních modelů. Web poskytovatele dat je následně ohrožený útokem prostřednictvím injektáže SQL. Útočník může datovou sadu libovolně poškodit a trénovaný model nemůže nijak zjistit, že došlo k poškození dat.

Krádež modelu Důležitá až kritická

Opětovné vytvoření základního modelu prostřednictvím jeho legitimního dotazování. Funkce nového modelu jsou stejné jako funkce základního modelu. Po opětovném vytvoření modelu je možné jeho invertováním získat informace o funkcích a odvozovat závěry z trénovacích dat.

Řešení rovnic – V případě modelu, který prostřednictvím výstupu rozhraní API vrací pravděpodobnosti tříd, může útočník sestavit dotazy, kterými zjistí neznámé proměnné v modelu.

Hledání cesty – Útok, který zneužívá zvláštnosti rozhraní API k extrahování „rozhodnutí“ rozhodovacího stromu při klasifikaci vstupu.

Útok na přenosnost – Nežádoucí osoba může natrénovat místní model, například odesíláním dotazů předpovědí do cílového modelu, a pomocí něj sestavit nežádoucí příklady, které se přenesou do cílového modelu. Pokud útočník extrahuje kopii vašeho modelu a zjistí, že je zranitelný vůči určitému typu nežádoucího vstupu, může vyvíjet nové útoky na váš model nasazený v produkčním prostředí zcela offline.

V prostředích, kde model strojového učení slouží k detekci nežádoucího chování, jako je identifikace spamu, klasifikace malwaru nebo detekce síťových anomálií, může extrakce modelu usnadnit útoky spočívající ve vyhýbání se obraně.

Inverze modelu Důležitá až kritická

Může dojít k získání privátních funkcí použitých v modelech strojového učení. To zahrnuje rekonstrukci privátních trénovacích dat, ke kterým útočník nemá přístup. Toho se dosáhne nalezením vstupu, který maximalizuje vrácenou úroveň spolehlivosti v závislosti na klasifikaci odpovídající cíli.

Příklad: Rekonstrukce dat rozpoznávání obličeje z odhadovaných nebo známých názvů a přístupu rozhraní API k dotazování modelu.

Nežádoucí příklad ve fyzickém světě Kritické Tyto příklady se můžou projevit ve fyzickém světě, například v případě autonomního vozidla zmanipulovaného k jízdě přes značku STOP jejím nasvícením určitou barvou světla (nežádoucí vstup), což přinutí systém rozpoznávání obrazu, aby ji ignoroval.
Útok na dodavatelský řetězec strojového učení Kritické

Vzhledem k velkým prostředkům (datům a výpočtům) potřebným k trénování algoritmů je aktuálním postupem opětovné použití modelů natrénovaných velkými společnostmi a jejich úpravou po ruce pro úkoly (např. ResNet je oblíbený model rozpoznávání obrázků od Microsoftu).

Tyto modely se spravují v Model Zoo (Caffe hostuje oblíbené modely rozpoznávání obrazu).

Při tomto útoku nežádoucí osoba útočí na modely hostované v Caffe a tím poškozuje zdroj pro všechny ostatní.

Algoritmus implementovaný zadními vrátky od poskytovatele strojového učení se zlými úmysly Kritické

Ohrožení zabezpečení základního algoritmu.

Poskytovatel strojového učení jako služby se zlými úmysly zadními vrátky implementuje algoritmus, kterým získá privátní trénovací data. Útočník tak může pouze na základě modelu rekonstruovat citlivá data, jako jsou obličeje nebo texty.

Přeprogramování neuronové sítě Důležitá až kritická

Pomocí speciálně sestaveného dotazu může útočník přeprogramovat systémy strojového učení na úkol, který se liší od původního záměru tvůrce.

Slabé řízení přístupu k rozhraní API pro rozpoznávání obličeje umožňující třetím stranám začlenit aplikace s cílem poškodit uživatele, jako je například generátor tzv. deep fakes (realistické fotomontáže a videomontáže).

Jedná se o scénář zneužití nebo deaktivace účtu.

Nežádoucí perturbace Důležitá až kritická

Při útocích ve stylu perturbace útočník nepozorovaně upraví dotaz tak, aby z modelu nasazeného v produkčním prostředí získal požadovanou odpověď. Jedná se o porušení integrity vstupů modelu, které vede k útokům ve stylu testování neplatnými vstupními daty, jehož konečným důsledkem nemusí nutně být porušení přístupu nebo EOP, ale ohrožení výkonu klasifikace modelu.

Toho můžou využít tzv. trollové, kteří používají určitá cílová slova takovým způsobem, že je umělá inteligence zakáže, a tím efektivně zajistí odepření služeb legitimním uživatelům se jménem, které odpovídá zakázanému slovu.

Vynucení klasifikace neškodných e-mailů jako spamu nebo zajištění neodhalení škodlivého příkladu. Tyto útoky se označují také jako útoky spočívající ve vyhýbání se modelu nebo v napodobování.

Útočník může sestavit vstupy tak, aby snížil úroveň spolehlivosti správné klasifikace, a to zejména ve vysoce rizikových scénářích. Tento typ útoku může mít také podobu velkého množství falešně pozitivních výsledků, které mají zahltit správce nebo monitorovací systémy podvodnými upozornění, která jsou k nerozeznání od legitimních upozornění.

Odvození členství Střední až kritická

Odvození členství jednotlivce ve skupině sloužící k trénování modelu.

Příklad: Předpověď chirurgických zákroků na základě věku, pohlaví a nemocnice.