Hibaállapotok a gépi tanulásban

Microsoft Corporation Harvard Egyetem – Berkman Klein Center for Internet and Society

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

2019. november

Bevezetési & háttér

Az elmúlt két évben több mint 200 cikk jelent meg azzal kapcsolatban, hogy milyen veszélyek leselkednek a Machine Learningre (ML) az algoritmusokra és az adatokra irányuló kártékony célú támadások miatt. Ez a szám a nem káros hibaállapotokat is beleszámolva hatalmasra nő. A megjelenő cikkek óriási száma miatt még a gépi tanulás terén járatos szakembereknek is nehéz lépést tartani a gépitanulás-rendszerekre irányuló támadások és az azok ellen védelmet nyújtó módszerek fejlődésével, nem is beszélve a mérnökökről, a jogászokról és a döntéshozókról. Mivel azonban ezek a rendszerek egyre elterjedtebbé válnak, egyre fontosabbá válik, hogy megismerjük a meghibásodások működését, akár kártékony célú támadások, akár a rendszer belső kialakítása okozza azokat. Ennek a dokumentumnak az a célja, hogy egy helyen összefoglalja mindkét típusú hibaállapot fajtáit.

  • A szándékos hibák esetében a hibát egy olyan aktív támadó okozta, aki a céljai elérése érdekében alapjaiban zavarja meg a rendszert – ez lehet az eredmény hibás besorolása, a magánjellegű képzési adatok kikövetkeztetése, vagy akár a mögöttes algoritmus ellopása.

  • A nem szándékos hibák esetében a hiba oka az, hogy egy gépitanulás-rendszer formálisan ugyan helyes, de egyértelműen nem biztonságos eredményt állít elő.

Szeretnénk rámutatni arra, hogy vannak más taxonómiák és keretrendszerek, amelyek külön-külön felhívják a figyelmet a szándékosan előidézett hibaállapotokra[1],[2] és a nem szándékosan előforduló hibaállapotokra[3],[4]. Az osztályozás összehozza a két különböző hibaállapotot, és az alábbi igényeket elégíti ki:

  1. A szoftverfejlesztőket, a biztonsági incidensekre válaszolókat, a jogászokat és a döntéshozókat közös nyelvezettel kell felvértezni ahhoz, hogy megvitathassák a problémát. Miután a tavalyi évben kifejlesztettük az osztályozás kezdeti verzióját, a Microsoftnál, valamint 23 további külső partnernél, szabványügyi szervezetnél és kormányhivatalnál tevékenykedő biztonsági és gépi tanulási csapatokkal együttműködve dolgoztunk annak megismerésén, hogy az érintettek hogyan használhatnák az általunk létrehozott keretrendszert. A jelen használhatósági tanulmány és az érintett felek visszajelzései alapján tovább alakítottunk a keretrendszeren.

    Eredmények: Gépi tanulási hibaállapot esetén gyakran megfigyelhető, hogy a szoftverfejlesztők és a jogászok a hagyományos szoftveres támadások (mint például az adatok kiszivárgása) mentális leképezéseit használták a gépi tanulási hibaállapotok esetén. Ezért tehát cikkünkben arra igyekszünk rávilágítani, hogy a gépi tanulási hibaállapotok technológiai és szabályozási szempontból milyen alapvető módon különböznek a hagyományos szoftverhibáktól.

  2. Egy közös platformra van szükség, amelyre a mérnökök építkezhetnek, valamint amit a meglévő szoftverfejlesztési és biztonsági eljárásaikba beépíthetnek. Általánosságban véve az volt a célunk, hogy az osztályozás több legyen egy oktatási eszköznél – azt szeretnénk, hogy kézzelfogható mérnöki eredményeket hozzon létre.

    Eredmények: Ezt az osztályozást használva a Microsoft a teljes szervezet számára módosította a Biztonságfejlesztési életciklus folyamatát. A Microsoft adatelemzői és biztonsági mérnökei ennek az osztályozásnak a közös nyelvét használják, így hatékonyabban tudják megtervezni a saját gépi tanulási rendszereikre vonatkozó fenyegetések modelljét, mielőtt az éles környezetben üzembe helyeznék azokat. A biztonsági incidensekre reagálók is rendelkeznek egy hibalistával a legújabb gépi tanulással kapcsolatos fenyegetések osztályozásához, amely a Microsoft Biztonsági reagálási központ és az összes Microsoft-termékcsapat által a biztonsági rések osztályozásához és a válaszadáshoz használt szabványos eljárás.

  3. A döntéshozók és a jogászok körében ezért közös szókincsre van szükség az esetek leírásához. Úgy gondoljuk, hogy ez a különböző ML hibaállapotok leírására és a káraik szabályozásának elemzésére jelentős első lépés a tájékozott politika felé.

    Eredmények: Ez az osztályozás egy széles körű interdiszciplináris közönség számára készült, így a döntéshozók, akik az adott problémákra az általános gépi tanulás/mesterséges intelligencia szempontjából tekintenek, valamint a speciális szempontokat alkalmazók (például félretájékoztatás/egészségügy) szintén hasznosnak találhatják a hibaállapotok katalógusát. Emellett felhívjuk a figyelmet az esetleges vonatkozó jogi beavatkozásokra is a hibaállapotok kezelésével kapcsolatban.

Lásd még a Microsoft mesterséges intelligenciák/gépi tanulási rendszerek és függőségek fenyegetésmodellezését és a gépi tanulási biztonsági rések SDL-hibalista-kimutatásait.

A dokumentum használata

Először is felhívjuk a figyelmet arra, hogy ez egy élő dokumentum, amely a fenyegetések időbeli alakulásával folyamatosan változni fog. Ezenkívül nem írunk elő műszaki megoldásokat az említett hibaállapotokhoz, mivel a védelem forgatókönyv-specifikus, amelyet a fenyegetések modelljét, valamint a rendszer architektúráját figyelembe véve építünk ki. A veszélyforrások mérséklésére vonatkozó lehetőségek a jelenlegi kutatáson alapulnak, azzal az elvárással, hogy az adott védelmi rendszer az idő múlásával is fejlődik.

A mérnökök számára javasoljuk a lehetséges hibaállapotok áttekintését, és a fenyegetések modellezéséről szóló dokumentum tanulmányozását. Így a mérnökök képesek lesznek a fenyegetések, a támadások, valamint a biztonsági rések azonosítására, és a keretrendszer segítségével, ahol lehet, megtervezik a szükséges ellenintézkedéseket. Ezután arról a hibalistáról lesz szó, amely az osztályozásban szereplő új biztonsági réseket hagyományos szoftveres biztonsági résekre képezi le, továbbá az egyes gépi tanulási rendszerek biztonsági réseihez (pl. fontos és kritikus fontosságú) értékelést is társít. Ez a hibalista könnyedén integrálható az incidensválaszra épülő meglévő folyamatokba/forgatókönyvekbe.

A jogászok és a döntéshozók számára ez a dokumentum rendszerezi a gépi tanulási rendszerek hibaállapotait, és egy olyan keretrendszert mutat be, amellyel bárki elemezheti a szabályzatbeállítások felderítéséhez szükséges kulcsfontosságú problémákat, például az itt végzett munkát[5],[6]. Pontosabban: kategorizáltuk a hibákat és azok következményeit oly módon, hogy a döntéshozók megkezdhessék a kiváltó okok közötti különbségek megállapítását, ez pedig információval szolgál majd a nyilvános döntéshozói kezdeményezések számára, hogy növelhető legyen a gépi tanulás védelme és a biztonsági intézkedések. Reméljük, hogy a döntéshozók arra használják majd ezeket a kategóriákat, hogy kidolgozzák azt, hogy a mostani jogi berendezkedések hogyan rögzíthetik megfelelően (illetve hogyan nem rögzíthetik) a kialakulóban lévő problémákat, milyen történelmi jogi rendszerek vagy szabályozási megoldások segítettek korábban a hasonló problémák kezelésében, és melyek azok a területek, ahol különös körültekintéssel kell eljárni a szabadságjogok határmezsgyéjén.

A dokumentum szerkezete

A szándékos hibaállapotokról és a nem szándékos hibaállapotokról szóló szakaszban ismertetjük a támadás rövid definícióját, valamint egy szemléletes példát is bemutatunk az irodalomból.

A szándékos hibaállapotokat ismertető szakasz az alábbi mezőket is tartalmazza:

  1. A gépi tanulási rendszer mely részét igyekszik meggyengíteni a támadás: a titkosságot, az integritást vagy a rendelkezésre állást? A titkosság meghatározása a következő: annak biztosítása, hogy a gépi tanulási rendszer összetevőit (adatok, algoritmus, modell) csak az arra jogosult felek érhessék el. Az integritás meghatározása: annak biztosítása, hogy a gépi tanulási rendszeren csak az arra jogosult felek hajthassanak végre módosítást. A rendelkezésre állás meghatározása pedig: annak biztosítása, hogy a gépi tanulási rendszer az arra jogosult felek számára elérhető legyen. A titkosság (Confidentiality), az integritás (Integrity) és a rendelkezésre állás (Availability) közös neve röviden „CIA”. Az egyes hibaállapotok esetében azt próbáljuk kideríteni, hogy a CIA-hármas mely eleme sérült.

  2. Mennyi ismeret szükséges az adott támadás kivitelezéséhez, azaz feketedobozos vagy fehérdobozos típusú támadásról van szó? A feketedobozos (blackbox) támadások esetében a támadó nem rendelkezik közvetlen hozzáféréssel a betanítási adathoz, nem ismeri a felhasznált gépi tanulási algoritmust, és nem fér hozzá a modell forráskódjához. A támadó csak a modellt kérdezi le, és megfigyeli a választ. Egy fehérdobozos (whitebox) típusú támadás esetén a támadó ismeri a gépi tanulás algoritmusát, vagy hozzáfér a modellként szolgáló forráskódhoz.

  3. Megjegyzések azzal kapcsolatban, hogy a támadó megsérti-e a hozzáférés/engedélyezés hagyományos technológiai fogalmát.

Szándékos hibák összefoglalása

Forgatókönyv száma
Támadás
Áttekintés
Megsérti-e a hozzáférés/engedélyezés hagyományos technológiai fogalmát?
1
Megzavarásos támadás
A támadó módosítja a lekérdezést a megfelelő válasz elérése céljából
Nem
2
Szennyezéses támadás
A támadó a gépi tanulási rendszerek betanítási fázisát szennyezi be a kívánt eredmény eléréséhez
Nem
3
Modellinverzió
A támadó alaposan átgondolt lekérdezésekkel kinyeri a modellben használt titkos jellemzőket
Nem
4
Tagsági következtetés
A támadó kikövetkeztetheti, hogy egy adott adatrekord a modell betanítási adathalmazának részét képezte-e
Nem
5
Modell-lopás
A támadó gondosan megfogalmazott lekérdezésekkel képes kinyerni a modellt
Nem
6
A gépi tanulási rendszer újraprogramozása
A gépi tanulási rendszer felhasználása az eredeti programozásától eltérő tevékenység elvégzéséhez
Nem
7
Kártékony célú példák a fizikai tartományban
A támadó káros példákat vezet be a fizikai tartományba a gépi tanulási rendszer megzavarása céljából, például: 3D nyomtatáshoz szükséges speciális szemüveget használ az arcfelismerő rendszer kijátszásához
Nem
8
Rosszindulatú gépitanulás-szolgáltatók betanítási adatokat szereznek meg
A rosszindulatú gépitanulás-szolgáltató lekérdezheti az ügyfél által használt modellt, és kinyerheti az ügyfél betanítási adatait
Igen
9
A gépi tanulás ellátási láncának megtámadása
A támadó az ML-modellek biztonságának sérülését idézi elő, amikor letölti a használathoz
Igen
10
A gépi tanulás hátsó kapui
A rosszindulatú gépitanulás-szolgáltató elhelyez egy adott triggerrel aktiválható hátsó kaput az algoritmusban
Igen
11
Szoftveres függőségek kiaknázása
A támadó a gépi tanulási rendszerek megzavarása/szabályozása érdekében az olyan hagyományos szoftverhibákat használja ki, mint például a puffertúlcsordulás
Igen

Nem szándékos hibák összefoglalása

Forgatókönyv sz.
Hiba
Áttekintés
12
Jutalomhackelés
A megerősítő tanulási (RL) rendszerek nem a kívánt módon működnek, mert a megállapított jutalom és a valódi jutalom között eltérések vannak
13
Mellékhatások
A megerősítő tanulási rendszer (RL) kárt okoz a környezetben, miközben a célját próbálja elérni
14
Disztribúcióváltások
A rendszer egy adott típusú környezetben lett tesztelve, és nem tud alkalmazkodni más típusú környezet változásaihoz
15
Természetes kártékony célú példák
Támadói zavarkeltés nélkül is meghibásodik a gépi tanulási rendszer a szigorú negatív adatbányászat miatt
16
Gyakori hibák
A rendszer nem képes kezelni az olyan gyakori hibákat és zavarokat, mint például a döntés, a nagyítás vagy a zajos képek.
17
Hiányos tesztelés
A gépi tanulási rendszer nem lett tesztelve olyan valós körülmények között, amelyek között működnie kellene.

Szándékos hibák részletei

Forgatókönyv sz. Támadási osztály Leírás Veszélyeztetés típusa Forgatókönyv
1 Megzavarásos támadások A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja Integritás Kép: A rendszer hozzáadja a zajt egy röntgenképhez, így az előrejelzések normál vizsgálatról rendellenesre váltanak [1][Blackbox]

Szövegfordítás: Úgy manipulálnak bizonyos karaktereket, hogy helytelen fordítás szülessen. A támadás elérheti a megadott szó mellőzését, vagy akár teljesen el is távolíthatja a szót[2] [feketedobozos és fehérdobozos]

Beszéd: A kutatók kimutatták, hogy egy adott beszéd hullámformájából hogyan replikálható pontosan egy másik hullámforma, amely átiratában végül egy teljesen más szöveget eredményez[3][fehérdobozos, de a feketedobozosra is kiterjeszthető]

2 Szennyezéses támadások A támadó célja a betanítási fázisban létrehozott gépi modell beszennyezése, hogy az új adatokra vonatkozó előrejelzések módosuljanak a tesztelési fázisban

Célzott: A célzott mérgezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni

Válogatás nélküli: Itt a cél DoS (szolgáltatásmegtagadásos) támadásokhoz hasonló hatás elérése, amely elérhetetlenné teszi a rendszert.

Integritás Egy orvosi adathalmazban, ahol a cél az, hogy előre megjósolja a Warfarin véralvadásgátló gyógyszer adagolását demográfiai információk stb. alapján. A kutatók 8%-os mérgezési sebességgel vezették be a kártékony mintákat, ami az adagot 75,06%-kal módosította a páciensek felének esetében[4] [Blackbox]

A Tay csevegőrobot esetében a jövőbeli beszélgetések adathalmaza beszennyeződött, mert a múltbeli beszélgetések egy töredékét használták a rendszer visszajelzéses betanítására [5] [Blackbox]

3 Modellinverzió A gépi tanulási modellekben használt személyes szolgáltatások helyreállíthatók Titkosság; A kutatók képesek voltak helyreállítani az algoritmus betanításához használt személyes betanítási adatokat[6]. A szerzők csupán a névhez és modellhez való hozzáféréssel képesek voltak visszaállítani az arcokat annyira, hogy a Mechanical Turk dolgozói egy fénykép alapján 95%-os pontossággal tudtak azonosítani egy egyént egy csoportból.  A szerzők emellett konkrét adatokat is ki tudtak nyerni.  [Whitebox and Blackbox][12]
4 Tagságkikövetkeztetési támadás A támadó el tudja dönteni, hogy egy adott adatrekord tagja-e a modell betanítási adatkészletének, vagy sem Titkosság A kutatók képesek voltak egy beteg fő eljárásának előrejelzésére (például: Milyen műtéten esett át a beteg) az attribútumok alapján (pl. kor, nem, kórház) [7] [Blackbox]
5 Modell-lopás A támadók a modell szabályos lekérdezésével újra létrehozzák az alapul szolgáló modellt. Az új és az alapul szolgáló modell működése azonos. Titkosság A kutatók sikeresen emulálták az Amazon és a BigML mögöttes algoritmusát. A BigML esetében például a kutatók 1150 lekérdezés használatával és 10 percen belül képesek voltak helyreállítani a modellt, amellyel megjósolható, hogy valakinek jó vagy rossz-e a hitelkockázata (német bankkártya-adathalmaz)[8]
6 Mély neurális hálók újraprogramozása Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékával Integritás, rendelkezésre állás Bemutatta, hogyan lehetett a képek különböző kategóriákba történő besorolására alkalmazható ImageNet rendszert átalakítani négyzetek számolására. A szerzők ezzel a hipotetikus forgatókönyvvel fejezik be a tanulmányt: A támadók CAPTCHA-képeket küldenek egy felhőben található, fényképosztályozásra használt számítógépes látástechnológiai rendszernek, így levélszemétküldő fiókokat hoznak létre a CAPTCHA-védelem megkerülésével[9]
7 Kártékony célú példák a fizikai tartományban A kártékony célú példa egy kártékony entitástól származó bemenet vagy lekérdezés, amelynek kizárólagos célja a gépi tanulási rendszer félrevezetése Ezek a példák fizikailag is megnyilvánulhatnak Integritás A kutatók egy olyan egyéni textúrájú rendelkező puskát készítenek 3D nyomtatással, amelyet a képfelismerési rendszerek teknősbékaként ismernek fel [10]

A kutatók olyan kialakítású napszemüveget alakítanak ki, amely képes a képfelismerési rendszerek megtévesztésére, mert nem ismerik fel megfelelően az arcokat[11]

8 Rosszindulatú gépitanulás-szolgáltatók, akik vissza tudják állítani a betanítási adatokat A rosszindulatú gépitanulás-szolgáltató lekérdezheti az ügyfél által használt modellt, és kinyerheti az ügyfél betanítási adatait Titkosság A kutatók bemutatják, hogyan tudja egy rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállítani a privát betanítási adatokat. Képesek voltak az arcok és a szövegek rekonstrukciójára kizárólag a modell alapján.  [12]
9 A gépi tanulás ellátási láncának megtámadása[13] Az algoritmusok betanításához szükséges jelentős erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat a nagyvállalatok által betanított modellek újbóli felhasználása, valamint az adott feladatnak megfelelő kis mértékű módosítása (például: A ResNet a Microsoft népszerű képfelismerési modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet. Integritás A kutatók bemutatják, hogy a támadók hogyan helyezhetnek el kártékony kódokat az egyik népszerű modellbe. A gyanútlan ML-fejlesztő letölti ezt a modellt, és képfelismerő rendszer részeként használja kódjában [14]. A szerzők megmutatják, hogy a Caffe-ban létezik egy olyan modell, amelynek az SHA1-kivonata NEM egyezik meg a szerzők kivonatával, ami illetéktelen módosítást jelez. 22 modell egyáltalán nem rendelkezik SHA1-kivonattal az integritás ellenőrzéséhez.
10 Kiskapus gépi tanulás „A gépi tanulás ellátási láncának megtámadása” esethez hasonlóan ebben a támadási forgatókönyvben a betanítási folyamatot teljes egészében vagy részben kiszervezik egy rosszindulatú félnek, aki egy kiskaput tartalmazó betanított modellt kíván adni a felhasználónak. Bár a kiskapus modell a legtöbb bemeneten jól teljesít (beleértve azokat a bemeneteket is, amelyeket a végfelhasználó érvényesítési adatként használ), de célzottan hibás besorolásokhoz vezet, vagy csökkenti a modell pontosságát olyan bemenetek esetében, amelyek megfelelnek valamilyen titkos, a támadó által választott tulajdonságnak, amit a kiskapu triggerének nevezünk Titkosság, integritás A kutatók létrehoztak egy olyan, az egyesült államokbeli közlekedési táblákra vonatkozó kiskapus osztályozót, amely a stoptáblákat csak sebességkorlátozásként azonosítja, ha egy speciális matricát tesznek rájuk (kiskapus trigger) 20 Most ezt a munkát szöveges feldolgozási rendszerekre is kiterjesztik, amelyekben adott szavakat másokkal helyettesítenek a beszélő akcentusát triggerként használva [15]
11 A gépi tanulási rendszerek szoftveres függőségeinek kiaknázása Ebben a támadásban a támadó NEM manipulálja az algoritmusokat. Ehelyett a hagyományos szoftveres biztonsági réseket, például a puffertúlcsordulásokat használja ki. Titkosság, integritás, rendelkezésre állás. Egy támadó sérült bemenetet küld egy képfelismerési rendszernek, amely az egyik szoftverfüggőség hibáját kihasználva hibás besorolást eredményez.

Nem szándékos hibák részletei

Forgatókönyv sz. Támadási osztály Leírás Veszélyeztetés típusa Forgatókönyv
12 Jutalomhackelés A megerősítő tanulási rendszerek nem a kívánt módon működnek, mert a megadott jutalom és a valódi tervezett jutalom között eltérések vannak. A rendszer biztonsága Itt sok példa található az MI-rendszerek kijátszására [1]
13 Mellékhatások A megerősítő tanulási rendszer (RL) kárt okoz a környezetben, miközben a célját próbálja elérni A rendszer biztonsága Forgatókönyv, szó szerint a [2] szerzőitől: „Tegyük fel, hogy a tervező szeretné, hogy egy RL-ügynök (például a takarítórobotunk) elérjen egy célt, például hogy egy dobozt egy szoba egyik oldaláról a másikra helyezzen át. Néha az a cél elérésének leghatékonyabb módja, ha valamilyen nem kapcsolódó, a környezet többi részére destruktív hatású műveletet végez, például felborít egy vízzel teli vázát, amely az útjában áll. Ha az ügynök csak a doboz áthelyezése alapján kap jutalmat, valószínűleg fel fogja dönteni a vázát.”
14 Disztribúcióváltások A rendszer egy adott típusú környezetben lett tesztelve, és nem tud alkalmazkodni más típusú környezet változásaihoz A rendszer biztonsága A kutatók két modern RL-ügynököt tanítottak be (Rainbow DQN és A2C) a láva elkerülésére. A betanítás során az RL-ügynök sikeresen el tudta kerülni a lávát, és elérte a célját. A tesztelés során kis mértékben áthelyezték a lávát, de az RL-ügynök nem tudta elkerülni [3]
15 Természetes kártékony célú példák A rendszer helytelenül ismert fel egy olyan bemenetet, amelyet szigorú negatív adatbányászat használatával találtak A rendszer biztonsága Itt a szerzők azt mutatják be, hogy egy egyszerű szigorú negatív adatbányászati [4] folyamattal hogyan zavarható az ML-rendszer a példa továbbításával.
16 Gyakori hibák A rendszer nem képes kezelni az olyan gyakori hibákat és zavarokat, mint például a döntés, a nagyítás vagy a zajos képek. A rendszer biztonsága A szerzők[5] megmutatják, hogy a gyakori adatsérülések, például a fényerő, a kontraszt, a köd vagy a zaj változásai jelentős mértékben csökkenti a képfelismerés metrikáit
17 Valós körülmények közötti hiányos tesztelés A gépi tanulási rendszer nem lett tesztelve olyan valós körülmények között, amelyek között működnie kellene A rendszer biztonsága A szerzők a [25]-ben kiemelik, hogy míg a védők általában számításba veszik az ML-algoritmus megbízhatóságát, a valószerű körülményeket szem elől tévesztik. Például inkább vélik úgy, hogy a hiányzó stoptáblát a szél verte le (ami reálisabb), mint hogy a rendszer bemeneteit támadók próbálják megzavarni.

Köszönetnyilvánítás

Köszönjük Andrew Marshallnak, Magnus Nystromnak, John Waltonnak, John Lambertnek, Sharon Xia-nak, Andi Comissoneru-nak, Emre Kicimannek, Jugal Parikh-nak, Sharon Gilletnek, a Microsoft AI and Ethics in Engineering and Research (AETHER) bizottság biztonsági munkacsoportjának tagjainak, Amar Asharnak, Samuel Kleinnek, Jonathan Zittrainnek, a Berkman Klein AI Biztonsági Munkacsoportjának tagjainak, hogy hasznos visszajelzést küldtek. Emellett köszönetet mondunk 23 külső partnernek, szabványügyi szervezetnek és kormányzati szervezetnek a taxonómia kialakításáért.

Irodalomjegyzék

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial attacks and defences: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro, and Vishal Maini. "Biztonságos mesterséges intelligencia kiépítése: specifikáció, robusztusság és megbízhatóság." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Concrete problems in AI safety." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?". University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd, and Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas, and David Wagner. "Hang adversarial examples: Targeted attacks on speech-to-text." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP) , San Jose, CA, 22–24 May 2017, pp. 3–18. New York, NY: IEEE.

[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction API-k." USENIX Biztonsági Szimpózium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow, and Jascha Sohl-Dickstein. "A neurális hálózatok kártékony célú újraprogramozása." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish, and Ilya Sutskever. "Hatékony kártékony célú példák szintetizálása." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Security Risks in Deep Tanulás Implementations." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt, and Siddharth Garg. "Badnets: Biztonsági rések azonosítása a gépi tanulási modell ellátási láncában." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/ ]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ]

[23] Amodei, Dario, et al. "Konkrét problémák az AI biztonságában." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motivating the rules of the game for adversarial example research." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan, and Thomas Dietterich. "A neurális hálózat robusztusságának felmérése a gyakori sérülésekkel és zavarokkal szemben." arXiv preprint arXiv:1903.12261 (2019).