AI/ML Pivots to the Security Development Lifecycle Bug Bar

Andrew Marshall, Jugal Parikh, Emre Kiciman a Ram Shankar Siva Kumar

Listopad 2019

Tento dokument je výsledkem technických postupů Microsoft AETHER pro pracovní skupinu AI a funguje jako doplněk k existujícímu panelu chyb SDL, který slouží k hodnocení tradičních chyb zabezpečení. Je určený k použití jako odkaz na triage AI/ML souvisejících se zabezpečením. Podrobnější informace o analýze a zmírnění hrozeb najdete v tématu Modelování HROZEB AI/ML Systems and Dependencies.

Tyto pokyny jsou uspořádané a ve velké části odkazují na taxonomii Adversarial Machine Learning Threat, kterou vytvořili Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen a Jeffry Snover s názvem Režimyselhání v Machine Learning . Při zkoumání tohoto obsahu se tento obsah zaměřuje na záměrné nebo škodlivé ML náhodné chování v režimech selhání, ale tento dodatek k řádku chyb se zaměřuje výhradně na úmyslné nebo škodlivé chování, které by vedlo k incidentu zabezpečení nebo nasazení opravy.

Hrozba Závažnost Popis/Obchodní rizika/Příklady
Otrava dat Důležité pro kritické

Poškození školicích dat : Cílem útočníka je znečiscovat model počítače vygenerovaný ve fázi školení,aby se ve fázi testování upravily předpovědi nových dat.

Při cílených útocích na otravu chce útočník špatně klasifikovat konkrétní příklady, které způsobí, že se konkrétní akce budou provádět nebo vynechat.

Odeslání av softwaru jako malwaru, který vynutí jeho mylnou klasifikaci jako škodlivý a eliminuje použití cíleného AV softwaru v klientských systémech. 

Společnost seškrábe známý a důvěryhodný web, aby data z futures vyškolili své modely. Web poskytovatele dat je následně ohrožený útokem SQL Injekcí. Útočník může datovou sadu podle své chvilky otrávit a model, který je vyškolený, nemá žádnou techtu, že jsou data poškozená.

Model Krádeže Důležité pro kritické

Obnovení základního modelu legitimním dotazem. Funkce nového modelu je stejná jako u podkladového modelu. Po opětovném vytvoření modelu se může vrátit k obnovení informací o funkcích nebo k odvození dat školení. 

Řešení rovnic – U modelu, který vrací pravděpodobnosti třídy prostřednictvím výstupu rozhraní API, může útočník vytvořit dotazy k určení neznámých proměnných v modelu.

Hledání cesty – útok, který využívá specifika rozhraní API k extrahování "rozhodnutí" přijatých stromem při klasifikaci vstupu.

Útok přenositelnosti – adversary trénují místní model – třeba tak, že vydávají do cílového modelu předpovídací dotazy – a používají ho k vytváření adversarial příkladů, které se přenesou do cílového modelu. Pokud se váš model extrahuje a zjistil, že je zranitelný vůči typu vstupních údajů pro spory, mohou být nové útoky na váš produkční model vyvinuty zcela offline útočníkem, který extrahoval kopii vašeho modelu.

V nastaveních, kde ML model slouží ke zjišťování adversarial chování, jako je identifikace spamu, klasifikace malwaru a zjišťování anomálií sítě, může extrakce modelu usnadnit útoky úniků.

Inverze modelu Důležité pro kritické

Soukromé funkce používané v modelech strojového učení je možné obnovit. Patří sem i rekonstrukce soukromých školicích dat, ke které nemá útočník přístup. Toho dosáhnete tak, že najdete vstup, který maximalizuje vrácenou úroveň spolehlivosti v závislosti na klasifikaci odpovídající cíli.

Příklad: Rekonstrukce dat rozpoznávání obličeje z odhadovaných nebo známých jmen a přístupu rozhraní API k dotazu na model.

Adversarial Example in Physical Domain Kritická Tyto příklady se mohou projevit ve fyzické doméně, jako je auto s vlastním řízením, které je napálené do běhu stopky, protože určitá barva světla (protivný vstup) je zněná na stopce, takže systém rozpoznávání obrázků už neuvidí stopku jako stopku.  
Útočný ML dodavatelský řetězec Kritická

Vzhledem k velkým zdrojům (datům + výpočtům) potřebným k trénování algoritmů je v současné době potřeba opakovaně používat modely vyškolené velkými korporacemi a mírně je upravovat pro úkoly po ruce (například: ResNet je oblíbený model rozpoznávání obrázků od Microsoftu).

Tyto modely jsou vyučeny v modelové zoologické zahradě (Caffe hostuje oblíbené modely rozpoznávání obrázků).

Při tomto útoku napadá adversary modely hostované v Caffe, čímž otravuje dobře pro všechny ostatní.

Backdoored Algorithm from Malicious ML Provider Kritická

Kompromitování podkladového algoritmu

Škodlivý poskytovatel ML služby představuje algoritmus backdoored, ve kterém se obnoví soukromá data školení. Útočník tak bude mít možnost rekonstruovat citlivá data, jako jsou tváře a texty, a to jenom v modelu.

Neural Net Reprogramming Důležité pro kritické

Pomocí speciálně vytvořeného dotazu od útočníka ML systémy přeprogramovat na úkol, který se odchýluje od původního záměru tvůrce.

Slabé ovládací prvky přístupu v rozhraní API pro rozpoznávání obličeje, které umožňují3. stranám začlenit se do aplikací určených k poškození uživatelů, jako je třeba generátor hlubokých falšování.

Jedná se o scénář zneužití nebo zápočet účtu.

Adversarial Perturbation Důležité pro kritické

Při útocích ve stylu perturbation útočník nenápadně upraví dotaz tak, aby dostal požadovanou odpověď z produkčního modelu. Jedná se o porušení integrity vstupního modelu, což vede k útokům ve stylu fuzzingu, kdy konečný výsledek nemusí být nutně porušením přístupu nebo EOP, ale místo toho narušuje klasifikační výkon modelu.

To se může projevit tím, že trollové používají určitá cílová slova tak, aby je AI zakázala, a služby tak efektivně odepře legitimním uživatelům se jménem, které odpovídá zakázanému slovu.

Vynucení klasifikace neškodných e-mailů jako spamu nebo způsobení toho, že se škodlivý příklad nezjme. Tyto útoky se také označuje jako modelové úniky nebo mimiktické útoky.

Útočník může vytvořit vstupy, aby snížil úroveň spolehlivosti správné klasifikace, zejména ve scénářích s vysokými důsledky. Může to mít podobu velkého počtu falešně pozitivních výsledků, které mají zahltit správce nebo monitorovací systémy podvodnými výstrahami, které se nerozlišují od legitimních upozornění.

Odvození členství Střední až Kritická

Odvodit členství jednotlivců ve skupině, která slouží k trénuje model

Ex: predikce operačních postupů na základě věku/pohlaví/hospitalizace