Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése

Szerzők: Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

Külön köszönet Raul Rojasnak és az AETHER Security Engineering Workstreamnek.

2019. november

Ez a dokumentum az AETHER Engineering Practices for AI (AETHER MI-tervezési eljárások) munkacsoportjának terméke, és kiegészíti a meglévő SDL-fenyegetésmodellezési eljárásokat azáltal, hogy új útmutatást nyújt a veszélyek számbavételére és elhárítására az MI és gépi tanulási területre vonatkozóan. Ez a dokumentum azért készült, hogy referenciaként szolgáljon az alábbi biztonsági terváttekintések során:

  1. Mesterséges intelligenciát/ML-alapú szolgáltatásokat kezelő vagy attól függő termékek/szolgáltatások

  2. Mesterséges intelligencián/gépi tanuláson alapuló termékek/szolgáltatások

A hagyományos biztonsági fenyegetések elhárítása fontosabb, mint valaha. A Biztonságfejlesztési életciklusban meghatározott követelmények elengedhetetlenek egy olyan termék biztonsági alapjainak megalapozásához, amelyre ez az útmutató épít. A hagyományos biztonsági fenyegetések elhárításának elmulasztása lehetővé teszi a jelen dokumentumban tárgyalt mesterséges intelligenciával/gépi tanulással kapcsolatos támadásokat a szoftveres és a fizikai tartományokban egyaránt, valamint a szoftverkészlet alsóbb rétegei biztonságának veszélyeztetését. A terület új biztonsági fenyegetéseinek bemutatásához lásd a mesterséges intelligencia és a gépi tanulás jövőjének biztonságossá tételét a Microsoftnál.

A biztonsági mérnökök és az adatszakértők készségei általában nincsenek átfedésben egymással. Ez az útmutató lehetővé teszi, hogy a két szakterület megbeszéléseket folytathasson az új fenyegetésekről és azok elhárításáról anélkül, hogy a biztonsági mérnököknek adatszakértőkké kellene válniuk, vagy fordítva.

A dokumentum két szakaszra osztható:

  1. „A fenyegetésmodellezés legfontosabb új szempontjai” szakasz a mesterséges intelligencia/gépi tanulás fenyegetésmodellezésének új szemléleteit és kérdéseit tárgyalja. Az adatszakértőknek és a biztonsági mérnököknek egyaránt érdemes áttekinteniük, mivel ezt használják majd útmutatóként a fenyegetésmodellezéssel kapcsolatos megbeszélésekhez és az elhárítási lépések priorizálásához.
  2. „A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja” című szakasz részletesen ismerteti az egyes támadásokat, valamint a jelenleg a Microsoft-termékeket és -szolgáltatásokat érintő fenyegetések elleni védelemhez használatos elhárítási lépéseket. Ez a szakasz elsősorban azoknak az adatszakértőknek szól, akiknek a fenyegetések modellezése/biztonsági felülvizsgálati folyamata során bizonyos veszélyforrások elhárítását kell megvalósítaniuk.

Ez az útmutató a Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover Hibaállapotok a gépi tanulásban cikkében ismertetett kártékony gépi tanulási fenyegetésosztályozási rendszer köré szerveződik. A jelen dokumentumban részletezett biztonsági fenyegetések osztályozásával kapcsolatos incidenskezelési útmutatásért tekintse meg a mesterséges intelligenciával/ML fenyegetésekkel kapcsolatos SDL-hibasávot. Ezek mind élő dokumentumok, amelyek idővel fejlődni fognak a fenyegetési környezettel.

A fenyegetésmodellezés legfontosabb új szempontjai: A megbízhatósági határok új szemlélete

Tegyük fel, hogy veszélyeztetik/beszennyezik az adatokat, amelyekből Ön, valamint az adatszolgáltató a betanítást végzi. Ismerje meg, hogyan észlelheti a rendellenes és rosszindulatú adatbejegyzéseket, valamint hogyan tudja megkülönböztetni azokat egymástól, és elvégezni helyreállítást.

Összefoglalás

A betanítási adattárak és az azokat üzemeltető rendszerek a fenyegetésmodellezési hatókör részét képezik. A gépi tanulásban rejlő legnagyobb biztonsági fenyegetés napjainkban az adatszennyezés, mert a nem megbízható/ellenőrizetlen nyilvános adathalmazok tanulási adatként való használata mellett ezen a területen nincsenek szabványos eljárások ennek észlelésére és elhárítására. Az adatok eredetének ismerete és nyomon követése elengedhetetlen a megbízhatóságuk garantálásához és a „válogatatlan bemenet válogatatlan kimenetet eredményez” betanítási ciklus elkerüléséhez.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

  • Hogyan ismerné fel, hogy adatait beszennyezték vagy illetéktelenül módosították?

    – Milyen telemetriai adatokat kell észlelnie a betanítási adatok minőségében?

  • Felhasználói bemenetekről végzi a betanítást?

    - Milyen típusú bemeneti ellenőrzést/tisztítást végez ezen a tartalomon?

    – Az adatok struktúrája hasonló az adathalmazok adatlapjaihoz?

  • Ha online adattárakon tanít be, milyen lépéseket kell tennie a modell és az adatok közötti kapcsolat biztonságának biztosítása érdekében?

    - Van mód arra, hogy biztonsági réseket jelentsenek a fogyasztóknak a hírcsatornájukban?

    – Egyáltalán képesek erre?

  • Mennyire bizalmas adatokkal végzi a betanítást?

    - Katalogizálja vagy szabályozza az adatbejegyzések hozzáadását/frissítését/törlését?

  • Tartalmazhat a modell kimenete bizalmas adatokat?

    – Az adatokat a forrás engedélyével szerezte be?

  • A modell csak a cél eléréséhez szükséges kimenetet eredményezi?

  • A modell nyers megbízhatósági pontszámokat vagy bármilyen más közvetlen kimenetet ad vissza, amelyek rögzíthetők és duplikálhatók?

  • Milyen hatással van a betanítási adatok helyreállítása a modell támadásával/invertálásával?

  • Ha a modell kimenetének megbízhatósági szintje hirtelen csökken, megtudhatja, hogyan/miért, valamint az azt okozó adatokkal?

  • Jól formázott bemenetet határozott meg a modellhez? Mit tesz annak érdekében, hogy a bemenetek megfeleljenek ennek a formátumnak, és mit tesz, ha nem felelnek meg?

  • Ha a kimenetek hibásak, de nem okoznak hibákat, honnan tudhatná?

  • Tudja, hogy a betanítási algoritmusok rugalmasak-e matematikai szinten a kártékony bemenetekkel szemben?

  • Hogyan állítható helyre a betanítási adatok kártékony szennyeződése?

    – Elkülönítheti/karanténba helyezheti a kártékony tartalmakat, és újra betaníthatja az érintett modelleket?

    - Visszaállítható/visszaállítható egy korábbi verzió modellje az újratanításhoz?

  • Ellenőrizetlen nyilvános tartalmon használ megerősítő tanulást?

  • Az adatok követésekor, ha problémát talál, nyomon tudja követni egészen az adathalmazba való bevezetéséig? Ha nem, akkor problémát jelent mindez?

  • Tudja, honnan származnak a betanítási adatok, és azonosítsa a statisztikai normákat, hogy meg tudja érteni, milyenek az anomáliák

    – A betanítási adatok mely elemei vannak kitéve a külső hatásoknak?

    – Ki járulhat hozzá a betanításhoz használt adathalmazokhoz?

    - Hogyan támadná meg a betanítási adatok forrásait, hogy kárt okozna egy versenytársnak?

  • Megzavarás kártékony céllal (az összes változat)

  • Adatszennyezés (az összes változat)

Példatámadások

  • Arra kényszerítve a jóindulatú e-maileket, hogy levélszemétként legyenek besorolva, vagy kártékony példa észleletlenül menjenek

  • Támadó által készített bemenetek, amelyek csökkentik a helyes besorolás megbízhatósági szintjét, különösen a nagy következményekkel járó helyzetekben

  • A támadó véletlenszerűen szúrja be a zajt a besorolt forrásadatokba, hogy csökkentse a jövőben használt megfelelő besorolás valószínűségét, és hatékonyan lenémíthassa a modellt

  • A betanítási adatok szennyeződése a kiválasztott adatpontok helytelen besorolásának kényszerítése érdekében, ami meghatározott műveletek végrehajtását vagy kihagyását eredményezi egy rendszer által

A modell(ek) vagy termék/szolgáltatás által elvégezhető azon műveletek azonosítása, amelyek az ügyfélnek kárt okozhatnak az online vagy a fizikai tartományban

Összefoglalás

A mesterséges intelligencián/gépi tanuláson alapuló rendszerek elleni elhárítatlan támadások hatással lehetnek a fizikai világra is. Minden olyan esemény, amely pszichológiailag vagy fizikailag ártalmas lehet a felhasználókra, végzetes kockázatot jelent a termékére vagy szolgáltatására nézve. Ez kiterjed minden olyan, az ügyfelekkel kapcsolatos bizalmas adatra, amelyet betanításra használnak és a bizalmas adatok esetleges kiszivárgását okozó tervezési döntésekre.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

  • Kártékony célú példákkal végzi a betanítást? Milyen hatással vannak a modell kimenetére a fizikai tartományban?

  • Milyen hatással van a trollkodás a termékre/szolgáltatásra nézve? Hogyan tudja észlelni és elhárítani?

  • Mire lenne szükség ahhoz, hogy a modell visszaadjon egy olyan eredményt, amely arra utasítja a szolgáltatást, hogy megtagadja a hozzáférést a jogszerű felhasználókhoz?

  • Mit eredményez a modell lemásolása/ellopása?

  • A modell használható-e arra, hogy egy adott csoportban lévő személy tagságára következtetjen, vagy egyszerűen a betanítási adatokban?

  • Okozhatnak-e a támadók hírnévkárosodást vagy pr-fordított perjelet a termékkel kapcsolatban azáltal, hogy adott műveletek végrehajtására kényszerítik?

  • Hogyan kezeli a megfelelően formázott, de túlzottan elfogult adatokat, például a trollokból?

  • A modell minden interakciója vagy lekérdezése elérhető, kikérdezhető-e ez a módszer a betanítási adatok vagy a modell funkcióinak felfedése érdekében?

  • Tagsági következtetés

  • Modellinverzió

  • Modell-lopás

Példatámadások

  • Betanítási adatok helyreállítása és kinyerése a modell ismételt lekérdezésével a maximális megbízhatósági eredmények érdekében

  • A modell duplikálása teljes lekérdezés/válasz egyeztetéssel

  • A modell lekérdezése olyan módon, amely felfedi a privát adatok egy adott elemét a betanítási készletben

  • Önvezető autó félrevezetése, hogy figyelmen kívül hagyja a stoptáblákat/közlekedési lámpákat

  • Beszélgetőrobotok manipulálása, hogy azok jóindulatú felhasználókkal trollkodjanak

A mesterséges intelligencia/gépi tanulás függőségforrásainak, valamint az adatok/modell ellátási láncában található előtér-megjelenítési rétegek beazonosítása

Összefoglalás

A mesterséges intelligenciát és a gépi tanulást érő számos támadás az olyan API-khoz való jogosult hozzáféréssel kezdődik, amelyek a modell lekérdezési hozzáférésének biztosítása érdekében érhetők el. Az itt szereplő gazdag adatforrások és gazdag felhasználói élmény miatt a harmadik felek hitelesített, de „nem megfelelő” (szürke zónás) hozzáférése a modellekhez kockázatos, mert a Microsoft által biztosított szolgáltatáson felüli megjelenítési rétegként is funkcionálhat.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

  • Mely ügyfelek/partnerek vannak hitelesítve a modell vagy szolgáltatás API-k eléréséhez?

    – Működhetnek a szolgáltatáson felüli megjelenítési rétegként?

    – Azonnal vissza tudja vonni a hozzáférésüket a biztonság veszélyeztetése esetén?

    – Mi a helyreállítási stratégia a szolgáltatás vagy függőségek rosszindulatú használata esetén?

  • Felépíthet egy külső fél egy előtérrendszert a modell köré, hogy újracélzhassa azt, és kárt okozzon a Microsoftnak vagy az ügyfeleinek?

  • Az ügyfelek közvetlenül Önnek adják át a betanítási adatokat?

    – Hogyan gondoskodik az adatok biztonságáról?

    – Mi történik, ha az kártékony, és a szolgáltatását célozza?

  • Hogy néz ki egy vakriasztás? Mit eredményez egy vakriasztás?

  • Nyomon tudja követni és mérni a valós pozitív és a hamis pozitív arányok eltérését több modellben?

  • Milyen típusú telemetriára van szüksége ahhoz, hogy igazolja a modell kimenetének megbízhatóságát az ügyfelek számára?

  • Azonosítsa a ML/Betanítási adatszolgáltatási lánc összes harmadik féltől származó függőségét – nem csak nyílt forráskód szoftvereket, hanem adatszolgáltatókat is

    - Miért használja őket, és hogyan ellenőrzi a megbízhatóságukat?

  • Harmadik féltől származó előre elkészített modelleket használ, vagy betanítási adatokat küld harmadik fél MLaaS-szolgáltatóinak?

  • Gyűjtse össze a hasonló termékekre/szolgáltatásokra irányuló támadásokról szóló híreket. Annak ismeretében, hogy a mesterséges intelligenciát/gépi tanulást fenyegető számos veszély több modelltípust is érinthet, milyen hatással lennének ezek a támadások a saját termékeire?

  • Neurális háló újraprogramozása

  • Kártékony célú példák a fizikai tartományban

  • Rosszindulatú gépitanulás-szolgáltatók betanítási adatokat szereznek meg

  • A gépi tanulás ellátási láncának megtámadása

  • A kiskapus modell

  • Sérült biztonságú, gépitanulás-specifikus függőségek

Példatámadások

  • Egy rosszindulatú MLaaS-szolgáltató egy adott megkerülést alkalmazó trójai programmal fertőzi meg a modellt

  • A támadó ügyfél biztonsági rést talál az Ön által használt gyakori OSS-függőségben, és feltölti a létrehozott betanítási adatok hasznos adatait, hogy veszélyeztetje a szolgáltatást

  • A gátlástalan partner arcfelismerő API-kat használ, és egy bemutató réteget hoz létre a szolgáltatáson keresztül mély hamisítványok előállításához.

A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja

#1: Kártékony célú zavar

Description

A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől[1]. Ez a modellbemenet integritásának megsértése, ami fuzz tesztelés jellegű támadásokhoz vezet, amelyek következtében a végeredmény nem feltétlenül egy hozzáférés-megsértés vagy EOP, hanem inkább a modell besorolási teljesítményének befolyásolása. Mindez abban is megnyilvánulhat, hogy a trollok úgy használnak bizonyos célszavakat, hogy a mesterséges intelligencia letiltsa azokat, amivel lényegében megtagadják a szolgáltatást a „letiltott” szóval egyező nevű, jogszerű felhasználók tekintetében.

Diagram that shows increasing attack difficulty when complexity is increasing and capability is decreasing.[24]

Variant #1a: Célzott téves besorolás

Ebben az esetben a támadók olyan mintát hoznak létre, amely nem található meg a célosztályozó bemeneti osztályában, de a modell az adott bemeneti osztályként sorolja be. A kártékony célú minta véletlenszerű zajként jelenhet meg az emberi szem számára, a támadók azonban ismeretekkel rendelkeznek a célszámítógép tanulási rendszeréről, így olyan fehér zajt hozhatnak létre, amely nem véletlenszerű, hanem a megcélzott modell bizonyos aspektusait használja ki. A támadó olyan bemeneti mintát biztosít, amely nem szabályos minta, de a célrendszer szabályos osztályként sorolja be.

Példák

A diagram showing that a photo of targeted noise is incorrectly classified by an image classifier resulting in a photo of a bus.[6]

Kezelési lehetőségek

  • A támadások elleni hatékonyság megerősítése a támadás elleni betanítás által kiváltott modellmegbízhatósággal [19]: A szerzők a „nagy megbízhatóságú közeli szomszéd” (Highly Confident Near Neighbor, HCNN) keretrendszer használatát javasolják, amely a megbízhatósági adatokat ötvözi a legközelebbi szomszédra irányuló kereséssel az alapmodell támadásokkal szembeni hatékonyságának a megerősítéséhez. A keretrendszer segítséget nyújt a helyes és helytelen modell-előrejelzések megkülönböztetésében az alapul szolgáló betanítási eloszlásból mintaként vett pont szomszédságában.

  • Attribúcióalapú okelemzés [20]: A szerzők tanulmányozták a kártékony célú megzavarással szembeni rugalmasság és a gépi tanulási modellek által hozott egyes döntések attribúcióalapú magyarázata közötti kapcsolatot. A beszámolójuk szerint a kártékony célú bemenetek nem hatékonyak az attribúciós térben, vagyis néhány, magas attribúciójú jellemző maszkolása a gépi tanulási modell változással kapcsolatos döntésképtelenségéhez vezet a kártékony célú mintákkal összefüggésben. Ezzel szemben a természetes bemenetek hatékonyak az attribúciós térben.

    An illustration showing two approaches to determining how input values 9,9 becomes misclassified as 9,4.[20]

Ezek a megközelítések rugalmasabbá tehetik a gépi tanulási modelleket a kártékony célú támadásokkal szemben, mert a kétrétegű észlelési rendszer megtévesztéséhez nem csak az eredeti modellt kell támadni, hanem arról is gondoskodni kell, hogy a kártékony célú minta számára létrehozott attribúció hasonlítson az eredeti példákra. A sikeres kártékony célú támadáshoz mindkét rendszert egyszerre kell feltörni.

Hagyományos párhuzamok

Jogosultságok szintjének távoli emelése, mivel a támadó már ellenőrzéssel rendelkezik a modell felett

Severity

Kritikus

Variant #1b: Forrás/cél helytelen besorolása

Ez a támadás úgy jellemezhető, mint a támadó kísérlete arra, hogy a modell a kívánt címkét adja vissza egy adott bemenethez kapcsolódóan. Ez általában arra kényszeríti a modellt, hogy téves pozitív vagy téves negatív eredményt adjon vissza. A végeredmény a modell besorolási pontossága feletti ellenőrzés észrevétlen átvétele, így a támadó tetszése szerint előidézhet adott megkerüléseket.

Bár ez a támadás jelentősen hátrányos hatással van a besorolás pontosságára, a végrehajtása több idővel járhat, mivel a támadónak nem csak a forrásadatokat kell manipulálnia úgy, hogy már ne legyenek helyesen megcímkézve, hanem kifejezetten a kívánt megtévesztő címkével kell ellátnia őket. Ezek a támadások gyakran több lépéssel/kísérlettel járnak a téves besorolás kikényszerítéséhez [3]. Ha a modell hajlamos továbbítani azokat a tanulási támadásokat, amelyek kikényszerítik a célzott téves besorolást, akkor lehet, hogy a támadó forgalmi lábnyoma nem lesz észlelhető, mivel a mintavételezési támadások offline is végrehajthatók.

Példák

A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek.

Kezelési lehetőségek

Reaktív/védelmi célú észlelési intézkedések

  • Implementáljon egy minimális időküszöbértéket a besorolási eredményeket biztosító API meghívásai között. Ez a sikeres megzavarás megtalálásához szükséges idő teljes mennyiségének növelésével lelassítja a többlépéses támadás tesztelését.

Proaktív/védelmi intézkedések

  • Jellemzők zajszűrése a kártékony célú támadásokkal szembeni hatékonyság javítása érdekében [22]: A szerzők olyan új hálózati architektúrát fejlesztettek ki, amely a jellemzők zajszűrésével fokozza a támadásokkal szembeni hatékonyságot. A hálózatok olyan blokkokat tartalmaznak, amelyek nem helyi eszközökkel vagy más szűrőkkel végzik a jellemzők zajszűrését. A hálózatok teljes körűen be vannak tanítva. A támadások elleni betanítással ötvözve a jellemzők zajszűrését végző hálózatok jelentősen javítják a támadással szembeni hatékonyságot a célzott és tapogatózó jellegű támadások esetén egyaránt.

  • Támadások elleni betanítás és szabályozás: A betanításhoz ismert kártékony mintákat használva fokozható a rosszindulatú bemenetekkel szembeni rugalmasság és hatékonyság. Ez a szabályozás egy formájának is tekinthető, amely a bemeneti gradiensek normáját bünteti, és gördülékenyebbé teszi az osztályozó előrejelzési funkcióját (a bemeneti ráhagyást növelve). Ez magában foglalja az alacsonyabb megbízhatósági aránnyal rendelkező helyes besorolásokat is.

A graph showing the change in the slope of the prediction function with adversarial training.

Szánjon időt és energiát a több válogatott monoton jellemzővel rendelkező monoton besorolás fejlesztésébe. Ezzel biztosíthatja, hogy a támadó ne tudja elkerülni az osztályozót a negatív osztályból származó jellemzők egyszerű elfedésével [13].

  • A DNN-modellek megerősítésére jellemzőtömörítés [18] használható, amellyel észlelhetők a kártékony célú példák. Ez csökkenti a támadó számára elérhető keresési teret az eredeti térben található számos különböző jellemzővektornak megfelelő minták egyetlen mintában történő egyesítésével. A DNN-modellnek az eredeti bemenetre vonatkozó előrejelzését a tömörített bemenetre vonatkozó előrejelzésével összehasonlítva a jellemzőtömörítés segíthet a kártékony példák észlelésében. Ha az eredeti és a tömörített példák jelentősen különböző kimeneteket adnak vissza a modellből, a bemenet valószínűleg kártékony. Az előrejelzések közötti eltérések mérésével és egy küszöbérték kiválasztásával a rendszer megfelelő előrejelzést adhat a szabályos példákra vonatkozóan, és elutasíthatja a kártékony bemeneteket.

    An illustration showing the result of feature squeezing.

    A diagram showing the flow of input through a feature-squeezing framework.[18]

  • Tanúsításon alapuló védelmi módszerek a kártékony célú példákkal szemben [22]: A szerzők olyan, félig határozott relaxáción alapuló módszert javasolnak, amely egy tanúsítványt ad ki egy adott hálózatra és tesztbemenetre vonatkozóan, így egyetlen támadás sem kényszerítheti ki egy bizonyos hibaérték túllépését. Másodszor, mivel ez a tanúsítvány differenciálható, a szerzők közösen optimalizálják a hálózati paraméterekkel, egy olyan adaptív szabályozót biztosítva, amely minden támadással szemben fokozza a hatékonyságot.

Válaszintézkedések

  • Riasztásokat ad ki az osztályozók közötti nagy eltéréssel rendelkező besorolási eredményekről, különösen akkor, ha egyetlen felhasználótól vagy felhasználók kis csoportjától származik.

Hagyományos párhuzamok

Jogosultságok szintjének távoli emelése

Severity

Kritikus

Variant #1c: Véletlenszerű téves besorolás

Ez egy különleges változat, amelyben a támadó célbesorolása a szabályos forrásbesoroláson kívül bármi lehet. A támadás általában zaj a besorolás alatt álló forrásadatokba való véletlenszerű bejuttatásával jár a helyes besorolás valószínűségének jövőbeni csökkentése érdekében [3].

Példák

Two photos of a cat. One photo is classified as a tabby cat. After adversarial perturbation, the other photo is classified as guacamole.

Kezelési lehetőségek

Ugyanaz, mint az 1a változat.

Hagyományos párhuzamok

Ideiglenes szolgáltatásmegtagadás

Severity

Fontos

Variant #1d: Megbízhatóság csökkentése

A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal [3].

Példák

Two photos of a stop sign. The photo on the left shows a confidence level of 96 percent. After adversarial perturbation, the photo on the right shows a confidence level of 13 percent.

Kezelési lehetőségek
  • A Variant #1a által lefedett műveletek mellett eseményszabályozás is alkalmazható az egyetlen forrásból érkező riasztások mennyiségének csökkentésére.
Hagyományos párhuzamok

Ideiglenes szolgáltatásmegtagadás

Severity

Fontos

célzott adatmérgezés #2a

Description

A támadó célja, hogy beszennyezhesse a betanítási fázisban létrehozott gépmodellt, hogy az új adatokra vonatkozó előrejelzések a tesztelési fázisban módosuljanak[1]. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását.

Példák

Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken.

Kezelési lehetőségek
  • Anomáliadetektálások definiálása az adateloszlás napi szintű megtekintéséhez és a variációkra vonatkozó riasztásokhoz

    -A betanítási adatok napi változásának mérése, eltéréssel/eltéréssel kapcsolatos telemetriai adatok

  • Bemenet ellenőrzése: tisztítás és integritás-ellenőrzés

  • A szennyezés során külső betanítási mintákat juttatnak a rendszerbe. A fenyegetés elhárításához két fő stratégia áll rendelkezésre:

    -Adatok megtisztítása/ ellenőrzése: mérgezési minták eltávolítása a betanítási adatokból – Mérgezéses támadások elleni harchoz való beásás [14]

    – Negatív hatás elutasításán (Reject-on-Negative-Impact, RONI) alapuló védelem [15]

    -Robusztus Tanulás: Olyan tanulási algoritmusokat válasszon, amelyek mérgezési minták jelenlétében robusztusak.

    – Az egyik ilyen megközelítés ismertetése itt olvasható: [21]. A szerzők két lépésben kezelik az adatszennyezés problémáját: 1) egy új, robusztus mátrixfaktorizációs módszer bevezetésével helyreállítják a valódi alteret, és 2) új, robusztus főkomponens-regresszióval eltávolítják a kártékony példányokat az 1. lépésben feltárt bázisra alapozva. Szükséges és elégséges feltételeket mutatnak be a valódi altér sikeres helyreállításához, valamint a várt előrejelzés-veszteség korlátozásához az alapvetéshez viszonyítva.

Hagyományos párhuzamok

Trójai programmal fertőzött gazdagép, amelynek révén a támadó jelen lehet a hálózaton. A betanítási vagy konfigurációs adatok biztonsága sérült, és a rendszer betölti/megbízhatónak tartja őket a modell létrehozásához.

Severity

Kritikus

#2b válogatás nélküli adatmérgezés

Leírás

A cél a megtámadott adathalmaz minőségének/integritásának rontása. Számos adathalmaz nyilvános, nem megbízható vagy moderálatlan, ez pedig további problémákat jelent az adatintegritás megsértésének felismerésére való képesség terén. A nem ismerten sérült biztonságú adatok felhasználása a betanítás során egy ún. „garbage-in/garbage-out” helyzetet eredményez. Ez a kifejezés arra utal, hogy rossz adatokból csak rossz eredményeket lehet kapni. Az észlelést követően az osztályozásnak meg kell határoznia az adatbiztonság sérülésének mértékét, és karanténba kell helyeznie a sérült adatokat/meg kell ismételnie a betanítást.

Példák

Egy vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős olajügyleti adatokat. Az adatszolgáltató webhelyét ezt követően SQL-injektálási támadással feltörik. A támadó szándékosan beszennyezheti az adathalmazt, és a modell a betanítás során nem érzékeli, hogy az adatok fertőzöttek.

Kezelési lehetőségek

Ugyanaz, mint a 2a változat.

Hagyományos párhuzamok

Hitelesített szolgáltatásmegtagadás valamilyen nagy értékű adategység ellen

Severity

Fontos

#3 Modellinverziós támadások

Description

A gépi tanulási modellekben használt privát jellemzők visszaállíthatók [1]. Ezek közé tartozik azon privát betanítási adatok újraépítése, amelyekhez a támadó nem fér hozzá. A biometrikus közösségben más néven hegymászó támadásként is ismert [16, 17]. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet [4].

Példák

Two images of a person. One image is blurry and the other image is clear.[4]

Kezelési lehetőségek
  • A bizalmas adatokból betanított modellek interfészeinek erős hozzáférés-vezérlésre van szükségük.

  • A modell által engedélyezett lekérdezések sebességének korlátozása

  • Kapuk implementálása a felhasználók/hívók és a tényleges modell között úgy, hogy bemenet-ellenőrzést végez az összes javasolt lekérdezésen, elutasít mindent, ami nem felel meg a modell bemeneti helyességi definíciójának, és csak a szükséges minimális mennyiségű információt adja vissza.

Hagyományos párhuzamok

Az információk célzott és védett felfedése

Severity

Ez a standard SDL-hibalista alapértelmezett beállítása szerint a fontos kategóriába kerül, de a bizalmas vagy személyazonosításra alkalmas adatok kinyerése esetében kritikus fontosságúra változna.

#4 Tagsági következtetési támadás

Description

A támadó el tudja dönteni, hogy egy adott adatrekord része volt-e a modell betanítási adatkészletének, vagy sem[1]. A kutatók képesek voltak egy beteg fő eljárásának előrejelzésére (például: Milyen műtéten esett át a beteg) az attribútumok alapján (pl. kor, nem, kórház) [1].

An illustration showing the complexity of a membership inference attack. Arrows show the flow and relationship between training data prediction data.[12]

Kezelési lehetőségek

A támadás életképességét szemléltető kutatási dokumentumok szerint a differenciált adatvédelem [4, 9] hatékony lehet. Ez a kutatási terület a Microsoftnál még gyermekcipőben jár, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a differenciált adatvédelmi képességeket, és fel kell mérnie azok kockázatcsökkentés szempontjából vett gyakorlati hasznosságát, majd különféle módokat kell kidolgozniuk a védelmi rendszerek átlátható öröklődéséhez az online szolgáltatási platformokon, hasonlóan ahhoz, ahogyan a Visual Studióban a kód fordítása alapértelmezés szerint engedélyezett biztonsági megoldásokat biztosít, amelyek mind a fejlesztő, mind pedig a felhasználók számára átláthatók.

A neuronkihagyás és a modellhalmozás használata bizonyos mértékig hatékony kockázatcsökkentő megoldás lehet. A neuronkihagyás használata nem csupán egy neurális háló ellenállását növeli az ilyen támadásokkal szemben, de a modell teljesítményét is fokozza [4].

Hagyományos párhuzamok

Adatvédelem. Következtetéseket lehet levonni az adatpontoknak a betanítási készletben való használatáról, maguk a betanítási adatok azonban nem lesznek kiadva

Severity

Ez adatvédelmi problémának minősül, nem biztonságinak. Azért szerepel a fenyegetésmodellezési útmutatóban, mert ez a két terület átfedésben van egymással, de a válaszokat a biztonság helyett itt az adatvédelem szempontok motiválják.

#5 Modelllopás

Leírás

A támadók a modell szabályos lekérdezésével újra létrehozzák az alapul szolgáló modellt. Az új és az alapul szolgáló modell működése azonos[1]. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan.

  • Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához.

  • Útvonalkeresés – olyan támadás, amely az API-sajátosságokat kihasználva kinyeri a fa által a bemenet besorolása során hozott "döntéseket" [7].

  • Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe[8]. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen.

Példák

Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat[7].

Kezelési lehetőségek

Proaktív/védelmi intézkedések

  • Minimalizálja vagy rejtse el az előrejelzési API-kban visszaadott adatokat, miközben továbbra is hasznos marad a "becsületes" alkalmazásokhoz [7].

  • Adjon meg egy jól formázott lekérdezést a modellbemenetekhez, és csak az adott formátumnak megfelelő, befejezett, szabályos bemenetekre adott válaszként adja vissza az eredményeket.

  • Kerekített megbízhatósági értékek visszaadása. A legtöbb jogszerű hívó nem igényel több tizedesjegyes pontosságot.

Hagyományos párhuzamok

A rendszeradatok nem hitelesített, csak olvasható jellegű illetéktelen módosítása, nagy értékű információk célzott kiadása?

Severity

A biztonsági szempontból érzékeny modellek esetében fontos, egyéb esetben mérsékelt fontosságú

#6 Neurális net újraprogramozása

Leírás

Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékától [1].

Példák

Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a Microsoft-ügyfelek megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban.

Kezelési lehetőségek
  • Erős ügyfél-kiszolgáló<> kölcsönös hitelesítés és hozzáférés-vezérlés modellfelületekhez

  • A támadó fiókok eltávolítása.

  • Az API-kra vonatkozó szolgáltatásiszint-szerződések azonosítása és kikényszerítése. Annak megállapítása, hogy egy adott probléma esetében mi a megoldáshoz szükséges elfogadható idő, valamint annak biztosítása, hogy a probléma nem fordul elő újra az SLA lejárta után.

Hagyományos párhuzamok

Ez egy visszaélési forgatókönyv. Az ilyen esetekben sokkal valószínűbb, hogy egy biztonsági incidens létrehozása helyett egyszerűen letiltja a támadó fiókját.

Severity

Fontos – Kritikus

#7 Adversarial Example in the Physical domain (bits-atoms>)

Description

Egy kártevő példa egy kártékony entitástól származó bemenet vagy lekérdezés, amelynek kizárólagos célja a gépi tanulási rendszer félrevezetése [1]

Példák

Ezek a példák a fizikai tartományban is megjelenhetnek. Például megtéveszthetnek egy önvezető autót, amely így nem áll meg a stoptáblánál, mert egy adott színű fénnyel (ez a kártékony célú bemenet) világítanak a táblára, és ez arra kényszeríti a képfelismerő rendszert, hogy a stoptáblát már ne stoptáblának érzékelje.

Hagyományos párhuzamok

Jogosultságok szintjének emelése, távoli kódvégrehajtás

Kezelési lehetőségek

Ezek a támadások azért jelentkeznek, mert a gépi tanulási réteg (az AI-alapú döntéshozatal alatti adat & algoritmusréteg) problémáit nem enyhítették. Mint minden más szoftver * vagy * fizikai rendszer, a réteg alatt a cél mindig lehet támadni a hagyományos vektorok. Emiatt a hagyományos biztonsági eljárások betartása fontosabb, mint valaha, különösen az MI és a hagyományos szoftverek között használt kezeletlen biztonsági rések rétege (az adat-/algoritmusréteg) miatt.

Severity

Kritikus

#8 Rosszindulatú ML szolgáltatók, akik helyreállíthatják a betanítási adatokat

Leírás

Egy rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat.  Képesek voltak az arcok és a szövegek rekonstrukciójára kizárólag a modell alapján.

Hagyományos párhuzamok

Az információk célzott felfedése

Kezelési lehetőségek

A támadás életképességét szemléltető kutatási dokumentumok szerint a homomorfikus titkosítás hatékony lehet. Ez a kutatási terület a Microsoftnál jelenleg kevés figyelmet élvez, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a homomorfikus titkosítás alapelveit, és értékelnie kell azok gyakorlati hasznát a kockázatcsökkentés szempontjából a rosszindulatú gépitanulás-szolgáltatók ellenében.

Severity

PII-adatok esetén fontos, egyéb esetben mérsékelt fontosságú

#9 A ML ellátási lánc támadása

Description

Az algoritmusok betanításához szükséges jelentős erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat a nagyvállalatok által betanított modellek újbóli felhasználása, valamint az adott feladatnak megfelelő kis mértékű módosítása (például: A ResNet a Microsoft népszerű képfelismerési modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet.  [1]

Hagyományos párhuzamok
  • Külső fél nem biztonsági jellegű függőségének sérülése

  • Az App Store-ban akaratlanul üzemeltetett kártevők

Kezelési lehetőségek
  • Modellek és adatok külső felekkel kapcsolatos függőségeinek minimalizálása, ahol lehetséges.

  • Ezeket a függőségeket beépítheti a fenyegetésmodellezési folyamatba.

  • Használjon erős hitelesítést, hozzáférés-vezérlést és titkosítást az 1./3. féltől származó rendszerek között.

Severity

Kritikus

#10 Backdoor Machine Learning

Leírás

A betanítási folyamat egy rosszindulatú harmadik félhez van kiszervezve, aki a betanítási adatok illetéktelen módosításával egy olyan, trójait tartalmazó modellt szállított le, amely célzottan kikényszeríti a téves besorolásokat, például nem rosszindulatúként sorol be egy adott vírust[1]. Ez kockázatot jelent a gépitanulás-szolgáltatókkal kapcsolatos modell-létrehozási forgatókönyvekben.

An example showing how mis-classifications can adversely affect training data. One photo is a correctly classified stop sign. After poisoning, the second photo is labeled as a speed limit sign.[12]

Hagyományos párhuzamok
  • Külső fél biztonsági jellegű függőségének sérülése

  • Sérült szoftverfrissítési mechanizmus

  • Hitelesítésszolgáltató sérülése

Kezelési lehetőségek
Reaktív/védelmi célú észlelési intézkedések
  • A kár már megtörtént a fenyegetés felderítése után, így a rosszindulatú szolgáltató által biztosított modell és betanítási adatok nem megbízhatók.
Proaktív/védelmi intézkedések
  • Az összes bizalmas modell házon belüli betanítása

  • Betanítási adatok katalógusa, vagy győződjön meg arról, hogy megbízható harmadik féltől származnak, erős biztonsági eljárásokkal

  • Fenyegetésmodell az MLaaS-szolgáltató és a saját rendszerek közötti interakcióra

Válaszintézkedések
  • Ugyanaz, mint a külső függőségek sérülése esetében
Severity

Kritikus

#11 A ML rendszer szoftverfüggőségeinek kihasználása

Leírás

Ebben a támadásban a támadó NEM manipulálja az algoritmusokat. Ehelyett a szoftveres biztonsági réseket, például a puffertúlcsordulásokat, illetve a webhelyek közötti szkriptelést[1] használja ki. Még mindig könnyebb a mesterséges intelligencia/gépi tanulás rétege alatti szoftverrétegeket megkárosítani, mint közvetlenül megtámadni a tanulási réteget. Ezért elengedhetetlen fontosságúak a biztonságfejlesztési életciklusban leírt, a hagyományos biztonsági fenyegetések elhárítására irányuló gyakorlatok.

Hagyományos párhuzamok
  • Sérült, nyílt forráskódú szoftveres függőség

  • Webkiszolgáló biztonsági rése (XSS-, CSRF-, API-bemenetek érvényesítési hibája)

Kezelési lehetőségek

Működjön együtt biztonsági csapatával, és kövesse a megfelelő biztonsági fejlesztési életciklussal/működési biztonsági garanciával kapcsolatos ajánlott eljárásokat.

Severity

Változó; Akár kritikus is lehet a hagyományos szoftveres biztonsági rések típusától függően.

Irodalomjegyzék

[1] Failure Modes in Machine Learning, Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover, https://docs.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Adversarial Examples in Deep Learning: Characterization and Divergence, Wei, et al, https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models, Salem, et al, https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha, and T. Ristenpart, “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” konferenciakiadvány: 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017

[7] Stealing Machine Learning Models via Prediction APIs, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] The Space of Transferable Adversarial Examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh és Patrick McDaniel

[9] Understanding Membership Inferences on Well-Generalized Learning Models Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 és Kai Chen3,4

[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu et al., A unified gradient regularization family for adversarial examples, ICDM 2015

[12] Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning – NeCS 2019 Battista Biggioa, Fabio Roli

[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto és Fabio Roli. Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks

[15] Továbbfejlesztett elutasítás a Negatív Impact Defense Hongjiang Li és Patrick P.K. Chan

[16] Adler. Vulnerabilities in biometric encryption systems. 5th Int’l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. On the vulnerability of face verification systems to hill-climbing attacks. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks. 2018 Network and Distributed System Security Symposium. Február 18–21.

[19] Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training – Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Attribution-driven Causal Analysis for Detection of Adversarial Examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Robust Linear Regression Against Training Data Poisoning – Chang Liu et al.

[22] Feature Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Certified Defenses against Adversarial Examples – Aditi Raghunathan, Jacob Steinhardt, Percy Liang