Hibaállapotok a gépi tanulásban

Microsoft Corporation Harvard Egyetem – Berkman Klein Center for Internet and Society

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

2019. november

Bevezetés és háttér

Az elmúlt két évben több mint 200 cikk jelent meg azzal kapcsolatban, hogy milyen veszélyek leselkednek a Machine Learningre (ML) az algoritmusokra és az adatokra irányuló kártékony célú támadások miatt. Ez a szám a nem káros hibaállapotokat is beleszámolva hatalmasra nő. A megjelenő cikkek óriási száma miatt még a gépi tanulás terén járatos szakembereknek is nehéz lépést tartani a gépitanulás-rendszerekre irányuló támadások és az azok ellen védelmet nyújtó módszerek fejlődésével, nem is beszélve a mérnökökről, a jogászokról és a döntéshozókról. Mivel azonban ezek a rendszerek egyre elterjedtebbé válnak, egyre fontosabbá válik, hogy megismerjük a meghibásodások működését, akár kártékony célú támadások, akár a rendszer belső kialakítása okozza azokat. Ennek a dokumentumnak az a célja, hogy egy helyen összefoglalja mindkét típusú hibaállapot fajtáit.

  • A szándékos hibák esetében a hibát egy olyan aktív támadó okozta, aki a céljai elérése érdekében alapjaiban zavarja meg a rendszert – ez lehet az eredmény hibás besorolása, a magánjellegű képzési adatok kikövetkeztetése, vagy akár a mögöttes algoritmus ellopása.

  • A nem szándékos hibák esetében a hiba oka az, hogy egy gépitanulás-rendszer formálisan ugyan helyes, de egyértelműen nem biztonságos eredményt állít elő.

Szeretnénk rámutatni arra, hogy vannak más taxonómiák és keretrendszerek, amelyek külön-külön felhívják a figyelmet a szándékosan előidézett hibaállapotokra[1],[2] és a nem szándékosan előforduló hibaállapotokra[3],[4]. Az osztályozás összehozza a két különböző hibaállapotot, és az alábbi igényeket elégíti ki:

  1. A szoftverfejlesztőket, a biztonsági incidensekre válaszolókat, a jogászokat és a döntéshozókat közös nyelvezettel kell felvértezni ahhoz, hogy megvitathassák a problémát. Miután a tavalyi évben kifejlesztettük az osztályozás kezdeti verzióját, a Microsoftnál, valamint 23 további külső partnernél, szabványügyi szervezetnél és kormányhivatalnál tevékenykedő biztonsági és gépi tanulási csapatokkal együttműködve dolgoztunk annak megismerésén, hogy az érintettek hogyan használhatnák az általunk létrehozott keretrendszert. A jelen használhatósági tanulmány és az érintett felek visszajelzései alapján tovább alakítottunk a keretrendszeren.

    Eredmények: Amikor egy ml-hiba mód jelenik meg, gyakran megfigyeltük, hogy a szoftverfejlesztők és a jogászok mentálisan leképezték az ml-meghibásodási módokat a hagyományos szoftveres támadásokra, például az adatkiszivárgásra. Ezért tehát cikkünkben arra igyekszünk rávilágítani, hogy a gépi tanulási hibaállapotok technológiai és szabályozási szempontból milyen alapvető módon különböznek a hagyományos szoftverhibáktól.

  2. Egy közös platformra van szükség, amelyre a mérnökök építkezhetnek, valamint amit a meglévő szoftverfejlesztési és biztonsági eljárásaikba beépíthetnek. Általánosságban véve az volt a célunk, hogy az osztályozás több legyen egy oktatási eszköznél – azt szeretnénk, hogy kézzelfogható mérnöki eredményeket hozzon létre.

    Eredmények: Ezt az osztályozást objektívként használva a Microsoft módosította a biztonsági fejlesztési életciklus folyamatát a teljes szervezet számára. A Microsoft adatelemzői és biztonsági mérnökei ennek az osztályozásnak a közös nyelvét használják, így hatékonyabban tudják megtervezni a saját gépi tanulási rendszereikre vonatkozó fenyegetések modelljét, mielőtt az éles környezetben üzembe helyeznék azokat. A biztonsági incidensekre reagálók is rendelkeznek egy hibalistával a legújabb gépi tanulással kapcsolatos fenyegetések osztályozásához, amely a Microsoft Biztonsági reagálási központ és az összes Microsoft-termékcsapat által a biztonsági rések osztályozásához és a válaszadáshoz használt szabványos eljárás.

  3. A döntéshozók és a jogászok körében ezért közös szókincsre van szükség az esetek leírásához. Úgy véljük, hogy a különböző gépi tanulási hibaállapotok leírása és az okozott károk korlátozására alkalmas módok elemzése jelentős kezdő lépésként szolgálhat a tájékozott és megalapozott szabályozás kialakításához.

    Eredmények: Ez az osztályozás egy széles interdiszciplináris közönség számára van megírva – ezért azok a döntéshozók, akik általános ML/AI-szempontból tekintik át a problémákat, valamint bizonyos tartományokban, mint például a félretájékoztatás/egészségügyi ellátás, hasznosnak kell találniuk a hibamód-katalógust. Emellett felhívjuk a figyelmet az esetleges vonatkozó jogi beavatkozásokra is a hibaállapotok kezelésével kapcsolatban.

Lásd még a Microsoft mesterséges intelligenciák/gépi tanulási rendszerek és függőségek fenyegetésmodellezését és a gépi tanulási biztonsági rések SDL-hibalista-kimutatásait.

A dokumentum használata

Először is felhívjuk a figyelmet arra, hogy ez egy élő dokumentum, amely a fenyegetések időbeli alakulásával folyamatosan változni fog. Ezenkívül nem írunk elő műszaki megoldásokat az említett hibaállapotokhoz, mivel a védelem forgatókönyv-specifikus, amelyet a fenyegetések modelljét, valamint a rendszer architektúráját figyelembe véve építünk ki. A veszélyforrások mérséklésére vonatkozó lehetőségek a jelenlegi kutatáson alapulnak, azzal az elvárással, hogy az adott védelmi rendszer az idő múlásával is fejlődik.

A mérnökök számára javasoljuk a lehetséges hibaállapotok áttekintését, és a fenyegetések modellezéséről szóló dokumentum tanulmányozását. Így a mérnökök képesek lesznek a fenyegetések, a támadások, valamint a biztonsági rések azonosítására, és a keretrendszer segítségével, ahol lehet, megtervezik a szükséges ellenintézkedéseket. Ezután arról a hibalistáról lesz szó, amely az osztályozásban szereplő új biztonsági réseket hagyományos szoftveres biztonsági résekre képezi le, továbbá az egyes gépi tanulási rendszerek biztonsági réseihez (pl. fontos és kritikus fontosságú) értékelést is társít. Ez a hibalista könnyedén integrálható az incidensválaszra épülő meglévő folyamatokba/forgatókönyvekbe.

A jogászok és a döntéshozók számára ez a dokumentum rendszerezi a gépi tanulási rendszerek hibaállapotait, és egy olyan keretrendszert mutat be, amellyel bárki elemezheti a szabályzatbeállítások felderítéséhez szükséges kulcsfontosságú problémákat, például az itt végzett munkát[5],[6]. Pontosabban: kategorizáltuk a hibákat és azok következményeit oly módon, hogy a döntéshozók megkezdhessék a kiváltó okok közötti különbségek megállapítását, ez pedig információval szolgál majd a nyilvános döntéshozói kezdeményezések számára, hogy növelhető legyen a gépi tanulás védelme és a biztonsági intézkedések. Reméljük, hogy a döntéshozók arra használják majd ezeket a kategóriákat, hogy kidolgozzák azt, hogy a mostani jogi berendezkedések hogyan rögzíthetik megfelelően (illetve hogyan nem rögzíthetik) a kialakulóban lévő problémákat, milyen történelmi jogi rendszerek vagy szabályozási megoldások segítettek korábban a hasonló problémák kezelésében, és melyek azok a területek, ahol különös körültekintéssel kell eljárni a szabadságjogok határmezsgyéjén.

A dokumentum szerkezete

A szándékos hibaállapotokról és a nem szándékos hibaállapotokról szóló szakaszban ismertetjük a támadás rövid definícióját, valamint egy szemléletes példát is bemutatunk az irodalomból.

A szándékos hibaállapotokat ismertető szakasz az alábbi mezőket is tartalmazza:

  1. A gépi tanulási rendszer mely részét igyekszik meggyengíteni a támadás: a titkosságot, az integritást vagy a rendelkezésre állást? A titkosság meghatározása a következő: annak biztosítása, hogy a gépi tanulási rendszer összetevőit (adatok, algoritmus, modell) csak az arra jogosult felek érhessék el. Az integritás meghatározása: annak biztosítása, hogy a gépi tanulási rendszeren csak az arra jogosult felek hajthassanak végre módosítást. A rendelkezésre állás meghatározása pedig: annak biztosítása, hogy a gépi tanulási rendszer az arra jogosult felek számára elérhető legyen. A titkosság (Confidentiality), az integritás (Integrity) és a rendelkezésre állás (Availability) közös neve röviden „CIA”. Az egyes hibaállapotok esetében azt próbáljuk kideríteni, hogy a CIA-hármas mely eleme sérült.

  2. Mennyi ismeret szükséges az adott támadás kivitelezéséhez, azaz feketedobozos vagy fehérdobozos típusú támadásról van szó? A feketedobozos (blackbox) támadások esetében a támadó nem rendelkezik közvetlen hozzáféréssel a betanítási adathoz, nem ismeri a felhasznált gépi tanulási algoritmust, és nem fér hozzá a modell forráskódjához. A támadó csak a modellt kérdezi le, és megfigyeli a választ. Egy fehérdobozos (whitebox) típusú támadás esetén a támadó ismeri a gépi tanulás algoritmusát, vagy hozzáfér a modellként szolgáló forráskódhoz.

  3. Megjegyzések azzal kapcsolatban, hogy a támadó megsérti-e a hozzáférés/engedélyezés hagyományos technológiai fogalmát.

Szándékos hibák összefoglalása

Forgatókönyv száma
Támadás
Áttekintés
Megsérti-e a hozzáférés/engedélyezés hagyományos technológiai fogalmát?
1
Megzavarásos támadás
A támadó módosítja a lekérdezést a megfelelő válasz elérése céljából
Nem
2
Szennyezéses támadás
A támadó a gépi tanulási rendszerek betanítási fázisát szennyezi be a kívánt eredmény eléréséhez
Nem
3
Modellinverzió
A támadó alaposan átgondolt lekérdezésekkel kinyeri a modellben használt titkos jellemzőket
Nem
4
Tagsági következtetés
A támadó kikövetkeztetheti, hogy egy adott adatrekord a modell betanítási adathalmazának részét képezte-e
Nem
5
Modell-lopás
A támadó gondosan megfogalmazott lekérdezésekkel képes kinyerni a modellt
Nem
6
A gépi tanulási rendszer újraprogramozása
A gépi tanulási rendszer felhasználása az eredeti programozásától eltérő tevékenység elvégzéséhez
Nem
7
Kártékony célú példák a fizikai tartományban
A támadó támadási példákat hoz a fizikai tartományba a subvertML-rendszerhez, például: 3d nyomtatás speciális szemüveget a bolond arcfelismerő rendszerhez
Nem
8
Rosszindulatú gépitanulás-szolgáltatók betanítási adatokat szereznek meg
A rosszindulatú gépitanulás-szolgáltató lekérdezheti az ügyfél által használt modellt, és kinyerheti az ügyfél betanítási adatait
Igen
9
A gépi tanulás ellátási láncának megtámadása
A támadó az ML-modellek biztonságának sérülését idézi elő, amikor letölti a használathoz
Igen
10
A gépi tanulás hátsó kapui
A rosszindulatú gépitanulás-szolgáltató elhelyez egy adott triggerrel aktiválható hátsó kaput az algoritmusban
Igen
11
Szoftveres függőségek kiaknázása
A támadó a gépi tanulási rendszerek megzavarása/szabályozása érdekében az olyan hagyományos szoftverhibákat használja ki, mint például a puffertúlcsordulás
Igen

Nem szándékos hibák összefoglalása

Forgatókönyv sz.
Hiba
Áttekintés
12
Jutalomhackelés
A megerősítő tanulási (RL) rendszerek nem a kívánt módon működnek, mert a megállapított jutalom és a valódi jutalom között eltérések vannak
13
Mellékhatások
A megerősítő tanulási rendszer (RL) kárt okoz a környezetben, miközben a célját próbálja elérni
14
Disztribúcióváltások
A rendszer egy adott típusú környezetben lett tesztelve, és nem tud alkalmazkodni más típusú környezet változásaihoz
15
Természetes kártékony célú példák
Támadói zavarkeltés nélkül is meghibásodik a gépi tanulási rendszer a szigorú negatív adatbányászat miatt
16
Gyakori hibák
A rendszer nem képes kezelni az olyan gyakori hibákat és zavarokat, mint például a döntés, a nagyítás vagy a zajos képek.
17
Hiányos tesztelés
A gépi tanulási rendszer nem lett tesztelve olyan valós körülmények között, amelyek között működnie kellene.

Szándékos hibák részletei

Forgatókönyv sz. Támadási osztály Leírás Veszélyeztetés típusa Eset
1 Perturbációs támadások Perturbációs stílusú támadások esetén a támadó lopakodva módosítja a lekérdezést, hogy megkapja a kívánt választ Integritás Kép: A rendszer hozzáadja a zajt egy röntgenképhez, így az előrejelzések normál vizsgálatból rendellenes [1][Blackbox]

Szövegfordítás: Bizonyos karaktereket a rendszer úgy módosít, hogy helytelen fordítást eredményez. A támadás elérheti a megadott szó mellőzését, vagy akár teljesen el is távolíthatja a szót[2] [feketedobozos és fehérdobozos]

Beszéd: A kutatók megmutatták, hogyan lehet pontosan replikálni egy másik hullámformát, de teljesen más szövegbe írható át[3][Whitebox, de kiterjeszthető a blackboxra]

2 Mérgezéses támadások A támadó célja, hogy beszennyezhesse a betanítási fázisban létrehozott gépmodellt, hogy az új adatokra vonatkozó előrejelzések a tesztelési fázisban módosuljanak

Célzott: Célzott mérgezéses támadások esetén a támadó meg szeretné tévesen besorolni a konkrét példákat

Válogatás nélküli: A cél itt az, hogy doS-szerű hatást okozzon, ami elérhetetlenné teszi a rendszert.

Integritás Egy orvosi adatkészletben, ahol a cél az antikoaguláns gyógyszer Warfarin adagjának előrejelzése demográfiai adatokkal stb. A kutatók rosszindulatú mintákat mutattak be 8%-os mérgezési arányban, ami a betegek fele esetében 75,06%-kal módosította az adagolást[4][Blackbox]

A Tay csevegőrobotban a jövőbeli beszélgetések azért lettek megfertőzve, mert a korábbi beszélgetések töredékét használták a rendszer betanítása visszajelzéssel[5] [Blackbox]

3 Modell inverziója A gépi tanulási modellekben használt személyes szolgáltatások helyreállíthatók Titoktartás; A kutatók képesek voltak helyreállítani az algoritmus betanításához használt privát betanítási adatokat[6] A szerzők csak a névvel és a modellhez való hozzáféréssel tudták rekonstruálni az arcokat arra a pontra, ahol a mechanikai türkök 95%-os pontossággal azonosítottak egy személyt a vonalas felállásból. A szerzők emellett konkrét adatokat is ki tudtak nyerni. [Whitebox és Blackbox] [12]
4 Tagságkikövetkeztetési támadás A támadó el tudja dönteni, hogy egy adott adatrekord tagja-e a modell betanítási adatkészletének, vagy sem Titoktartás A kutatók az attribútumok (pl. életkor, nem, kórház)[7][Blackbox] alapján előre tudták jelezni a páciens fő eljárását (pl. a beteg műtétjét).
5 Modelllopás A támadók a modell szabályos lekérdezésével újra létrehozzák az alapul szolgáló modellt. Az új és az alapul szolgáló modell működése azonos. Confidentiality A kutatók sikeresen emulálták az Amazon és a BigML mögöttes algoritmusát. A BigML esetében például a kutatók 1150 lekérdezés használatával és 10 percen belül képesek voltak helyreállítani a modellt, amellyel megjósolható, hogy valakinek jó vagy rossz-e a hitelkockázata (német bankkártya-adathalmaz)[8]
6 Mély neurális hálók újraprogramozása Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékával Integritás, rendelkezésre állás Bemutatta, hogyan lehetett a képek különböző kategóriákba történő besorolására alkalmazható ImageNet rendszert átalakítani négyzetek számolására. A szerzők hipotetikus forgatókönyvvel zárják le a tanulmányt: A támadó Captcha-képeket küld a számítógép látásosztályozójának egy felhőben üzemeltetett fényképszolgáltatásban, hogy megoldhassa a kép captchas-okat levélszemétfiókok létrehozásához[9]
7 Adversarial example in the Physical domain A támadó példa egy rosszindulatú entitás bemenete/lekérdezése, amelynek célja kizárólag a gépi tanulási rendszer félrevezetése. Ezek a példák a fizikai tartományban nyilvánulhatnak meg Integritás A kutatók 3D nyomtat egy puska egyéni textúra, hogy bolondok képfelismerő rendszer úgy gondolja, hogy egy teknős [10]

A kutatók olyan kialakítású napszemüveget alakítanak ki, amely képes a képfelismerési rendszerek megtévesztésére, mert nem ismerik fel megfelelően az arcokat[11]

8 Rosszindulatú gépitanulás-szolgáltatók, akik vissza tudják állítani a betanítási adatokat A rosszindulatú gépitanulás-szolgáltató lekérdezheti az ügyfél által használt modellt, és kinyerheti az ügyfél betanítási adatait Titoktartás A kutatók bemutatják, hogyan tudja egy rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállítani a privát betanítási adatokat. Képesek voltak az arcok és a szövegek rekonstrukciójára kizárólag a modell alapján. [12]
9 A gépi tanulás ellátási láncának megtámadása[13] Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: a ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet. Integritás A kutatók bemutatják, hogy a támadók hogyan helyezhetnek el kártékony kódokat az egyik népszerű modellbe. A gyanútlan ML-fejlesztő letölti ezt a modellt, és képfelismerő rendszer részeként használja kódjában [14]. A szerzők megmutatják, hogy a Caffe-ban létezik egy olyan modell, amelynek az SHA1-kivonata NEM egyezik meg a szerzők kivonatával, ami illetéktelen módosítást jelez. 22 modell egyáltalán nem rendelkezik SHA1-kivonattal az integritás ellenőrzéséhez.
10 Kiskapus gépi tanulás „A gépi tanulás ellátási láncának megtámadása” esethez hasonlóan ebben a támadási forgatókönyvben a betanítási folyamatot teljes egészében vagy részben kiszervezik egy rosszindulatú félnek, aki egy kiskaput tartalmazó betanított modellt kíván adni a felhasználónak. Bár a kiskapus modell a legtöbb bemeneten jól teljesít (beleértve azokat a bemeneteket is, amelyeket a végfelhasználó érvényesítési adatként használ), de célzottan hibás besorolásokhoz vezet, vagy csökkenti a modell pontosságát olyan bemenetek esetében, amelyek megfelelnek valamilyen titkos, a támadó által választott tulajdonságnak, amit a kiskapu triggerének nevezünk Titkosság, integritás A kutatók létrehoztak egy olyan, az egyesült államokbeli közlekedési táblákra vonatkozó kiskapus osztályozót, amely a stoptáblákat csak sebességkorlátozásként azonosítja, ha egy speciális matricát tesznek rájuk (kiskapus trigger) 20 Most ezt a munkát szöveges feldolgozási rendszerekre is kiterjesztik, amelyekben adott szavakat másokkal helyettesítenek a beszélő akcentusát triggerként használva [15]
11 A gépi tanulási rendszerek szoftveres függőségeinek kiaknázása Ebben a támadásban a támadó NEM manipulálja az algoritmusokat. Ehelyett a hagyományos szoftveres biztonsági réseket, például a puffertúlcsordulásokat használja ki. Bizalmasság, integritás, rendelkezésre állás, Egy támadó sérült bemenetet küld egy képfelismerési rendszernek, amely az egyik szoftverfüggőség hibáját kihasználva hibás besorolást eredményez.

Nem szándékos hibák részletei

Forgatókönyv sz. Támadási osztály Leírás Veszélyeztetés típusa Eset
12 Jutalomhackelés A megerősítő tanulási rendszerek nem a kívánt módon működnek, mert a megadott jutalom és a valódi tervezett jutalom között eltérések vannak. A rendszer Széf sége Itt sok példa található az MI-rendszerek kijátszására [1]
13 Mellékhatások Az RL-rendszer megzavarja a környezetet, miközben megpróbálja elérni a céljukat A rendszer Széf sége Forgatókönyv, szó szerint a [2] szerzőitől: „Tegyük fel, hogy a tervező szeretné, hogy egy RL-ügynök (például a takarítórobotunk) elérjen egy célt, például hogy egy dobozt egy szoba egyik oldaláról a másikra helyezzen át. Néha az a cél elérésének leghatékonyabb módja, ha valamilyen nem kapcsolódó, a környezet többi részére destruktív hatású műveletet végez, például felborít egy vízzel teli vázát, amely az útjában áll. Ha az ügynök csak a doboz áthelyezése alapján kap jutalmat, valószínűleg fel fogja dönteni a vázát.”
14 Disztribúcióváltások A rendszer tesztelése egyféle környezetben történik, de nem képes alkalmazkodni más típusú környezetek változásaihoz A rendszer biztonsága A kutatók két modern RL-ügynököt tanítottak be (Rainbow DQN és A2C) a láva elkerülésére. A betanítás során az RL-ügynök sikeresen el tudta kerülni a lávát, és elérte a célját. A tesztelés során kis mértékben áthelyezték a lávát, de az RL-ügynök nem tudta elkerülni [3]
15 Természetes adversarial példák A rendszer helytelenül felismer egy olyan bemenetet, amelyet kemény negatív bányászattal találtak A rendszer biztonsága Itt a szerzők azt mutatják be, hogy egy egyszerű szigorú negatív adatbányászati [4] folyamattal hogyan zavarható az ML-rendszer a példa továbbításával.
16 Gyakori hibák A rendszer nem képes kezelni az olyan gyakori hibákat és zavarokat, mint például a döntés, a nagyítás vagy a zajos képek. A rendszer biztonsága A szerzők[5] azt mutatják be, hogy a képekhez hozzáadott gyakori sérülések, például a fényerő, a kontraszt, a köd vagy a zaj jelentősen csökkennek a képfelismerési metrikákban
17 Valós körülmények közötti hiányos tesztelés Az ML-rendszert nem valós körülmények között tesztelik, hogy A rendszer biztonsága A szerzők a [25]-ben kiemelik, hogy míg a védők általában számításba veszik az ML-algoritmus megbízhatóságát, a valószerű körülményeket szem elől tévesztik. Például inkább vélik úgy, hogy a hiányzó stoptáblát a szél verte le (ami reálisabb), mint hogy a rendszer bemeneteit támadók próbálják megzavarni.

Köszönetnyilvánítás

Köszönetet mondunk a következőknek: Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet; valamint a Microsoft AI and Ethics in Engineering and Research (MI és etika a tervezésben és a kutatásban, AETHER) bizottság biztonsági csoportjának tagjainak és a Berkman Klein AI Safety Security munkacsoport tagjainak a hasznos visszajelzésekért. Emellett köszönetet mondunk 23 külső partnernek, szabványügyi szervezetnek és kormányzati szervezetnek a taxonómia kialakításáért.

Irodalomjegyzék

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Tanulás." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial attacks and defences: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro, and Vishal Maini. "Biztonságos mesterséges intelligencia kiépítése: specifikáció, robusztusság és megbízhatóság." DeepMind Széf ty Research Blog (2018).

[4] Amodei, Dario, et al. "Konkrét problémák az AI biztonságában." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Tanulás." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?". University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd, and Dejing Dou. "Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas, and David Wagner. "Hang adversarial examples: Targeted attacks on speech-to-text." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 May 2017, pp. 3–18. New York, NY: én Enterprise kiadás e.

[14] Tramèr, Florian, et al. "Machine Tanulás Models via Prediction API-k." U Standard kiadás NIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow, and Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish, and Ilya Sutskever. "Robusztus adversariális példák szintetizálása." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Security Risks in Deep Tanulás Implementations." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt, and Siddharth Garg. "Badnets: A gépi tanulási modell ellátási láncában lévő biztonsági rések azonosítása." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Konkrét problémák az AI biztonságában." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "A játék szabályainak motiválása a támadó példakutatáshoz." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan, and Thomas Dietterich. "A neurális hálózat robusztusságának felmérése a gyakori sérülésekkel és perturbációkkal szemben." arXiv preprint arXiv:1903.12261 (2019).