Threat Modeling AI/ML Systems and Dependencies

Door Andrew Marshall, Jugal Parikh, Emre Kiciman en Ram Shankar Siva Kumar

Speciale dank aan Raul Rojas en de AETHER Security Engineering Workstream

November 2019

Dit document is een product van de AETHER-technische procedures voor AI-werkgroep en vormt een aanvulling op bestaande SDL-bedreigingsmodelleringspraktijken door nieuwe richtlijnen te bieden voor het opsnoemen en beperken van bedreigingen die specifiek zijn voor de AI- en Machine Learning-ruimte. Het is bedoeld om te worden gebruikt als referentie tijdens beveiligingsontwerpbeoordelingen van de volgende opties:

  1. Producten/services die werken met of afhankelijk zijn van AI/ML services

  2. Producten/services die worden gebouwd met AI/ML in de kern

Traditionele risicobeperking van beveiligingsrisico's is belangrijker dan ooit. De vereisten die door de levenscyclus van beveiligingsontwikkeling zijn vastgesteld, zijn essentieel voor het tot stand brengen van een basis voor productbeveiliging waarop deze richtlijnen zijn gebaseerd. Als u traditionele beveiligingsrisico's niet aanpakt, kunt u de AI/ML-specifieke aanvallen die in dit document worden bestreken, inschakelen in zowel de software- als fysieke domeinen, en worden compromissen in de softwaretackverlaagd. Zie De toekomst van AI beveiligen en ML microsoft voor een inleiding tot net-nieuwe beveiligingsrisico'sin deze ruimte.

De vaardigheden van beveiligingsingenieurs en gegevenswetenschappers overlappen elkaar meestal niet. Deze richtlijnen bieden een manier voor beide disciplines om gestructureerde gesprekken te voeren over deze net-nieuwe bedreigingen/risico's zonder dat beveiligingstechnici gegevenswetenschappers moeten worden of omgekeerd.

Dit document is onderverdeeld in twee secties:

  1. 'Key New Considerations in Threat Modeling' richt zich op nieuwe manieren van denken en nieuwe vragen bij het modelleren van AI/ML bedreigingen. Zowel gegevenswetenschappers als beveiligingstechnici moeten dit bekijken, omdat dit hun speelboek is voor discussies over bedreigingsmodellen en prioriteitsprioriteiten voor risicobeperking.
  2. 'AI/ML-specific Threats and their Mitigations' bevat details over specifieke aanvallen en specifieke mitigatiestappen die vandaag worden gebruikt om Microsoft-producten en -services tegen deze bedreigingen te beschermen. Deze sectie is voornamelijk gericht op gegevenswetenschappers die mogelijk specifieke risicobeperking moeten implementeren als een uitvoer van het proces voor het modelleren van bedreigingen/beveiligingsbeoordeling.

Deze richtlijnen zijn georganiseerd rond een onaangetelijk Machine Learning Threat Taxonomie gemaakt door Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen en Jeffrey Snover getiteld "Failure Modes in Machine Learning." Raadpleeg de SDL-bugbalk voor AI/ML bedreigingen voor richtlijnen voor incidentbeheer over het triageren van beveiligingsrisico's die in dit document worden beschreven. Dit zijn allemaal levende documenten die zich in de loop van de tijd zullen ontwikkelen met het bedreigingslandschap.

Belangrijke nieuwe aandachtspunten bij het modelleren van bedreigingen: het wijzigen van de manier waarop u vertrouwensgrenzen bekijkt

Ga ervan uit dat u de gegevens van wie u traint, evenals de gegevensprovider, in gevaar wordt gebracht. Informatie over het detecteren van afwijkende en schadelijke gegevensgegevens en het kunnen onderscheiden en herstellen van gegevens

Overzicht

Trainingsgegevensopslag en de systemen die deze hosten, maken deel uit van uw bereik voor bedreigingsmodellen. De grootste beveiligingsrisico in machine learning is gegevensbeperking vanwege het ontbreken van standaarddetecties en -risico's in deze ruimte, gecombineerd met afhankelijkheid van niet-vertrouwde/niet-cureerde openbare gegevenssets als bronnen van trainingsgegevens. Het bijhouden van de herkomst en de afbakening van uw gegevens is essentieel om de betrouwbaarheid te waarborgen en een trainingscyclus 'garbage in, garbage out' te vermijden.

Vragen die u moet stellen in een beveiligingsbeoordeling

  • Als uw gegevens zijn vergiftigd of gemanipuleerd, hoe weet u dat dan?

    -Welke telemetrie moet u hebben om een scheefheid in de kwaliteit van uw trainingsgegevens op te sporen?

  • Traint u op basis van door de gebruiker geleverde invoer?

    -Wat voor soort invoervalidatie/sanitisatie doet u op die inhoud?

    -Is de structuur van deze gegevens vergelijkbaar met gegevensbladen voor gegevenssets?

  • Als u traint tegen onlinegegevensopslag, welke stappen neemt u om de beveiliging van de verbinding tussen uw model en de gegevens te waarborgen?

    -Hebben ze een manier om compromissen te melden aan consumenten van hun feeds?

    -Zijn ze daar wel toe in staat?

  • Hoe gevoelig zijn de gegevens waar u vandaan traint?

    -Catalogiseert u deze of controleert u de toevoeging/update/verwijdering van gegevensitems?

  • Kan uw model gevoelige gegevens produceren?

    -Zijn deze gegevens verkregen met toestemming van de bron?

  • Is het model alleen uitvoerresultaten nodig om het doel te bereiken?

  • Retourneert uw model onbewerkte betrouwbaarheidsscores of andere directe uitvoer die kan worden opgenomen en gedupliceerd?

  • Wat is de impact van het herstellen van uw trainingsgegevens door uw model aan te vallen/omkeren?

  • Als de betrouwbaarheidsniveaus van uw modeluitvoer plotseling dalen, kunt u dan zien hoe/waarom en welke gegevens dit hebben veroorzaakt?

  • Hebt u een goed gevormde invoer voor uw model gedefinieerd? Wat doet u om ervoor te zorgen dat invoer aan deze indeling voldoet en wat doet u als ze dat niet doen?

  • Als de uitvoer onjuist is, maar er geen fouten worden gerapporteerd, hoe weet u dat dan?

  • Weet u of uw trainingsalgoritmen bestand zijn tegen hoor en wederhoor op wiskundig niveau?

  • Hoe herstelt u van een besleeding van uw trainingsgegevens?

    -Kunt u inhoud van wederhoor isoleren/in quarantaine plaatsen en beïnvloede modellen opnieuw trainen?

    -Kunt u terugdraaien/herstellen naar een model van een eerdere versie voor hertraining?

  • Gebruikt u Versterkings-Learning op niet-cureerde openbare inhoud?

  • Begin na te denken over de aflijning van uw gegevens. Als u een probleem hebt gevonden, kunt u deze bijhouden tot de introductie in de gegevensset? Zo niet, is dat een probleem?

  • Weet waar uw trainingsgegevens vandaan komen en identificeer statistische normen om te begrijpen hoe afwijkingen eruit zien

    -Welke elementen van uw trainingsgegevens zijn kwetsbaar voor invloed van buiten?

    -Wie kunt u bijdragen aan de gegevenssets waar u mee traint?

    -Hoe zou u uw bronnen van trainingsgegevens aanvallen om een concurrent te schaden?

  • De tegennatuurlijke perturbatie (alle varianten)

  • Gegevensvergiftiging (alle varianten)

Voorbeeldaanvallen

  • Goedaardige e-mailberichten dwingen te worden geclassificeerd als spam of waardoor een schadelijk voorbeeld niet wordt gedetecteerd

  • Door aanvallers gemaakte inputs die het betrouwbaarheidsniveau van de juiste classificatie verminderen, met name in scenario's met hoge gevolgen

  • Aanvaller injecteert willekeurig ruis in de brongegevens die worden geclassificeerd om de kans te verkleinen dat de juiste classificatie in de toekomst wordt gebruikt, waardoor het model effectief wordt verkleind

  • Verontreiniging van trainingsgegevens om de verkeerde indeling van bepaalde gegevenspunten af te dwingen, waardoor specifieke acties worden ondernomen of weggelaten door een systeem

Acties identificeren die uw model(en) of product/service kan uitvoeren, waardoor klanten online of in het fysieke domein schade kunnen toebrengen

Overzicht

Aanvallen op AI/ML systemen kunnen ongemitigeerd hun weg vinden naar de fysieke wereld. Elk scenario dat kan worden verdraaid om gebruikers psychisch of fysiek te schaden, is een catastrofaal risico voor uw product/service. Dit geldt voor alle gevoelige gegevens over uw klanten die worden gebruikt voor training en ontwerpkeuzen die deze persoonlijke gegevenspunten kunnen lekken.

Vragen die u moet stellen in een beveiligingsbeoordeling

  • Traint u met voorbeelden van wederhoor? Welke invloed hebben ze op uw modeluitvoer in het fysieke domein?

  • Hoe ziet troleren eruit voor uw product/service? Hoe kunt u deze detecteren en hierop reageren?

  • Wat is er nodig om ervoor te zorgen dat uw model een resultaat retourneert waardoor uw service toegang tot legitieme gebruikers wordt ontzegd?

  • Wat is het effect van het kopiëren/stelen van uw model?

  • Kan uw model worden gebruikt om het lidmaatschap van een individuele persoon in een bepaalde groep af te sluiten, of alleen in de trainingsgegevens?

  • Kan een aanvaller reputatieschade of PR-terugslag aan uw product veroorzaken door het product te dwingen specifieke acties uit te voeren?

  • Hoe gaat u om met correct opgemaakte, maar overtly biased gegevens, zoals van trollen?

  • Kan deze methode worden gebruikt om trainingsgegevens of modelfunctionaliteit bekend te maken voor elke manier waarop uw model wordt bevraagd of wordt bevraagd?

  • Gevolg van lidmaatschap

  • Model-inversie

  • Model stelen

Voorbeeldaanvallen

  • Herstel en extractie van trainingsgegevens door herhaaldelijk een query uit te voeren op het model voor maximale betrouwbaarheidsresultaten

  • Duplicatie van het model zelf door volledige query-/antwoordmatching

  • Query's uitvoeren op het model zodat een specifiek element van persoonlijke gegevens in de trainingsset wordt vermeld

  • Zelfrijdende auto die wordt misleid om stoptekens/verkeerslichten te negeren

  • Conversational bots manipulated to troll goedign users

Alle bronnen van AI/ML en frontend presentatielagen in uw gegevens-/modelleveringsketen identificeren

Overzicht

Veel aanvallen in AI en Machine Learning beginnen met legitieme toegang tot API's die worden opgedoken om querytoegang tot een model te bieden. Vanwege de rijke bronnen van gegevens en uitgebreide gebruikerservaringen die hier worden gebruikt, isgeverifieerd, maar 'ongepast' (er is hier een grijs gebied) is toegang van derden tot uw modellen een risico vanwege de mogelijkheid om op te treden als een presentatielaag boven een door Microsoft verstrekte service.

Vragen die u moet stellen in een beveiligingsbeoordeling

  • Welke klanten/partners zijn geverifieerd voor toegang tot uw model- of service-API's?

    -Kunnen ze fungeren als een presentatielaag boven aan uw service?

    -Kunt u hun toegang snel intrekken in geval van compromissen?

    -Wat is uw herstelstrategie in geval van schadelijk gebruik van uw service of afhankelijkheden?

  • Kan een derde partij een façade rond uw model maken om deze opnieuw te gebruiken en Microsoft of haar klanten te schaden?

  • Verstrekken klanten rechtstreeks trainingsgegevens aan u?

    -Hoe beveiligt u die gegevens?

    -Wat gebeurt er als het schadelijk is en uw service het doel is?

  • Hoe ziet een onwaar-positief er hier uit? Wat is het effect van een onwaar-negatief?

  • Kunt u de deviatie van True Positive versus False Positive-tarieven in meerdere modellen bijhouden en meten?

  • Wat voor soort telemetrie hebt u nodig om de betrouwbaarheid van uw modeluitvoer aan uw klanten te bewijzen?

  • Alle afhankelijkheden vanderden in uw ML/Training data supply chain identificeren, niet alleen open source-software, maar ook gegevensproviders

    -Waarom gebruikt u ze en hoe controleert u hun betrouwbaarheid?

  • Gebruikt u voorafgebouwde modellen van3 derden of dient u trainingsgegevens in bij3 MLaaS-providers van derden?

  • Nieuwsberichten over aanvallen op soortgelijke producten/services. Als u begrijpt dat veel AI/ML-bedreigingen tussen modeltypen worden doorgestuurd, welke invloed hebben deze aanvallen op uw eigen producten?

  • Neurale netherprogrammering

  • Voorbeelden van wederhoor in het fysieke domein

  • Schadelijke ML-providers die trainingsgegevens herstellen

  • De ML supply chain aanvallen

  • Backdoored Model

  • Gecompromitteerde ML-specifieke afhankelijkheden

Voorbeeldaanvallen

  • Kwaadaardige MLaaS-provider trojans uw model met een specifieke bypass

  • Klant met tegenspraak vindt kwetsbaarheid in gangbare OSS-afhankelijkheid die u gebruikt, uploadt gemaakte trainingsgegevenslading om uw service in gevaar te brengen

  • Gewetenloze partner gebruikt gezichtsherkenning-API's en maakt een presentatielaag over uw service om Deep Fakes te maken.

AI/ML-specifieke bedreigingen en de risico's daarvan

#1: Onnatuurlijke perturbatie

Beschrijving

Bij aanvallen met een perturbatiestijl wijzigt de aanvaller de query om een gewenste reactie te krijgen van een productiemodel[1]. Dit is een inbreuk op de integriteit van de modelinvoer, wat leidt tot fuzzing-style-aanvallen waarbij het eindresultaat niet noodzakelijkerwijs een toegangsovertreding of EOP is, maar in plaats daarvan de classificatieprestaties van het model in gevaar brengt. Dit kan ook worden gemanifesteerd door trollen die bepaalde doelwoorden gebruiken op een manier die door de AI wordt verboden, zodat legitieme gebruikers de service kunnen weigeren met een naam die overeenkomt met een 'verboden' woord.

[24]

Variant #1a: Targeted misclassification

In dit geval genereren aanvallers een steekproef die niet in de invoerklasse van de doelclassifier valt, maar die door het model wordt geclassificeerd als die specifieke invoerklasse. Het steekproefvoorbeeld kan worden weergegeven als willekeurig geluid voor menselijke ogen, maar aanvallers hebben enige kennis van het doelapparaat om een wit geluid te genereren dat niet willekeurig is, maar dat gebruik maakt van bepaalde specifieke aspecten van het doelmodel. De wederpartij geeft een invoervoorbeeld dat geen legitiem voorbeeld is, maar het doelsysteem classificeert het als een legitieme klasse.

Voorbeelden

[6]

Risico's

  • Het versterken van de robuustheid van de wederhoor met behulp van modelzekerheid geïnduceerd door Dessinial Training [19]: De auteurs stellen HCNN (Highly Confident Near Neighbor) voor, een framework dat betrouwbaarheidsinformatie combineert en het dichtstbijzijnde zoeken naar de naaste omgeving, om de robuustheid van een basismodel te versterken. Dit kan helpen onderscheid te maken tussen goede en verkeerde modelvoorspellingen in een buurt van een punt dat is bemonsterd van de onderliggende trainingsverdeling.

  • Toeschrijvingsgestuurde causale analyse [20]: De auteurs bestuderen het verband tussen de tolerantie voor hoorbare perturbaties en de op attributie gebaseerde uitleg van afzonderlijke beslissingen die worden gegenereerd door machine learning-modellen. Ze melden dat hoor-en-wederhoorinvoer niet robuust is in de attributieruimte, dat wil zeggen dat het maskeren van een paar functies met een hoge toeschrijving leidt tot het wijzigen van de besluiteloosheid van het machine learning-model in de voorbeelden van hoor en wederhoor. De natuurlijke inputs zijn daarentegen robuust in de toewijzingsruimte.

    [20]

Deze benaderingen kunnen machine learning-modellen beter bestand maken tegen aanvallen met wederhoor, omdat het voor gek houden van dit tweelaags cognitiesysteem niet alleen het oorspronkelijke model moet aanvallen, maar er ook voor moet zorgen dat de toewijzing die wordt gegenereerd voor het voorbeeld van de wederhoor, vergelijkbaar is met de oorspronkelijke voorbeelden. Beide systemen moeten tegelijk worden gecompromitteerd voor een geslaagde aanval op tegenspraak.

Traditionele parallellen

Remote Elevation of Privilege aangezien de aanvaller nu de controle heeft over uw model

Ernst

Kritiek

Variant #1b: Foutclassificatie bron/doel

Dit wordt gekarakteriseerd als een poging van een aanvaller om een model te krijgen om het gewenste label te retourneren voor een bepaalde invoer. Dit dwingt een model meestal om een onwaar positief of onwaar negatief als resultaat te geven. Het eindresultaat is een subtiele overname van de classificatienauwkeurigheid van het model, waarbij een aanvaller naar eigen goed wil specifieke bypasses kan veroorzaken.

Hoewel deze aanval een aanzienlijk nadelig effect heeft op de classificatienauwkeurigheid, kan het ook tijdsintensief zijn om uit te voeren, aangezien een tegenstrever niet alleen de brongegevens moet manipuleren, zodat deze niet meer correct worden gelabeld, maar ook specifiek moeten worden gelabeld met het gewenste frauduleuze label. Deze aanvallen omvatten vaak meerdere stappen/pogingen om onjuiste indeling af te dwingen [3]. Als het model gevoelig is voor het overbrengen van leeraanvallen die een gerichte verkeerde indeling dwingen, is er mogelijk geen duidelijke voetafdruk van het verkeer van aanvallers, omdat de aanvallen offline kunnen worden uitgevoerd.

Voorbeelden

U dwingt goedaardige e-mailberichten te worden geclassificeerd als spam of waardoor een schadelijk voorbeeld niet wordt gedetecteerd. Deze worden ook wel modelontwijkings- of nabootsingsaanvallen genoemd.

Risico's

Reactieve/defensieve detectieacties

  • Implementeert een minimale tijdsdrempel tussen oproepen naar de API die classificatieresultaten oplevert. Dit vertraagt het testen van aanvallen in meerdere stappen door de totale hoeveelheid tijd te verhogen die nodig is om een succesperturbatie te vinden.

Proactieve/beschermende acties

  • Feature Denoising for Improving Adversarial Robustness [22]: De auteurs ontwikkelen een nieuwe netwerkarchitectuur die de robuustheid van hoor en wederhoor verhoogt door functienoising uit te voeren. De netwerken bevatten met name blokken die de functies denoiseer met niet-lokale middelen of andere filters. de hele netwerken zijn end-to-end opgeleid. In combinatie met hoor-en-wederhoortraining verbetert de functie die netwerken noemt de state-of-the-art in de weerslag in zowel de white-box- als black-box-aanvalsinstellingen.

  • Hoor-en-wederhoortraining en regularisatie: train met bekende voorbeelden van wederhoor om tolerantie en robuustheid te bouwen tegen schadelijke inputs. Dit kan ook worden gezien als een vorm van regularisatie, waardoor de norm van invoerovergangen wordt afgestraft en de voorspellingsfunctie van de classificatie soepeler wordt (waardoor de invoermarge wordt vergroot). Dit geldt ook voor correcte classificaties met lagere betrouwbaarheidstarieven.

Investeer in het ontwikkelen van eentonige classificatie met een selectie van monotone functies. Dit zorgt ervoor dat de tegenpartij de classificatie niet kan ontduiken door alleen opvullingsfuncties uit de negatieve klasse [13] te gebruiken.

  • Functie-knijpen [18] kan worden gebruikt om DNN-modellen te harden door voorbeelden van tegenspraak te detecteren. Het verkleint de zoekruimte die beschikbaar is voor een tegenpartij door steekproeven die overeenkomen met veel verschillende functievectoren in de oorspronkelijke ruimte, samen te zetten in één steekproef. Door de voorspelling van een DNN-model op de oorspronkelijke invoer te vergelijken met die op de geperste invoer, kan functie-knijpen helpen bij het opsporen van voorbeelden van tegenspraak. Als de oorspronkelijke en samengeperste voorbeelden aanzienlijk verschillende uitvoer van het model produceren, is de invoer waarschijnlijk hoor en wederhoor. Door het verschil tussen voorspellingen te meten en een drempelwaarde te selecteren, kan het systeem de juiste voorspelling voor legitieme voorbeelden geven en weigert het hoor en wederhoor.

    [18]

  • Gecertificeerde verdediging tegen praktijkvoorbeelden [22]: De auteurs stellen een methode voor op basis van een semi-definitieve ontspanning waarmee een certificaat wordt uitgevoerd dat voor een bepaald netwerk en testinvoer geen enkele aanval kan dwingen om een bepaalde waarde te overschrijden. Ten tweede, aangezien dit certificaat verschillend is, optimaliseren auteurs dit samen met de netwerkparameters, wat een adaptieve regularizer biedt die robuustheid tegen alle aanvallen bevordert.

Antwoordacties

  • Waarschuwingen geven voor classificatieresultaten met een hoge variantie tussen classificaties, met name als deze afkomstig zijn van één gebruiker of een kleine groep gebruikers.

Traditionele parallellen

Verheffing van bevoegdheden op afstand

Ernst

Kritiek

Variant #1c: Willekeurige foutclassificatie

Dit is een speciale variatie waarbij de doelclassificatie van de aanvaller iets anders kan zijn dan de legitieme bronclassificatie. Bij de aanval wordt meestal willekeurig ruisinjectie in de brongegevens gebruikt om de kans te verkleinen dat de juiste classificatie in de toekomst wordt gebruikt [3].

Voorbeelden

Risico's

Hetzelfde als Variant 1a.

Traditionele parallellen

Niet-permanente serviceweken

Ernst

Belangrijk

Variant #1d: Betrouwbaarheidsbeperking

Een aanvaller kan inputs maken om het betrouwbaarheidsniveau van de juiste classificatie te verminderen, met name in scenario's met hoge gevolgen. Dit kan ook de vorm aannemen van een groot aantal fout-positieven die zijn bedoeld om beheerders of controlesystemen te overweldigen met frauduleuze waarschuwingen die niet kunnen worden onderscheiden van legitieme waarschuwingen [3].

Voorbeelden

Risico's
  • Naast de acties die worden bestreken in Variant #1a, kan beperking van gebeurtenissen worden gebruikt om het aantal waarschuwingen uit één bron te beperken.
Traditionele parallellen

Niet-permanente serviceweken

Ernst

Belangrijk

#2a Targeted Data Vergiftiging

Beschrijving

Het doel van de aanvaller is om het machinemodel dat inde trainingsfase wordt gegenereerd, te besmetten, zodat de voorspellingen voor nieuwe gegevens in de testfase worden gewijzigd[1]. Bij gerichte aanvallen op vergiftiging wil de aanvaller specifieke voorbeelden verkeerd indelen om ervoor te zorgen dat specifieke acties worden uitgevoerd of weggelaten.

Voorbeelden

Het indienen van AV-software als malware om de foutclassificatie als schadelijk te dwingen en het gebruik van gerichte AV-software op clientsystemen te elimineren.

Risico's
  • Anomaly-sensoren definiëren om te kijken naar gegevensdistributie op basis van dag tot dag en om variaties te waarschuwen

    -Meet de variatie van trainingsgegevens op dagelijkse basis, telemetrie voor scheefheid/afwijking

  • Invoervalidatie, zowel sanitisatie als integriteitscontrole

  • Vergiftiging injecteert outlying trainingsvoorbeelden. Twee belangrijke strategieën voor het tegengaan van deze bedreiging:

    -Gegevens sanitization/validatie: vergiftigingsvoorbeelden verwijderen uit trainingsgegevens -Bagging voor het bestrijden van vergiftigingsaanvallen [14]

    -Reject-on-Negative-Impact (RONI) defense [15]

    -Robuuste Learning: kies leeralgoritmen die robuust zijn in aanwezigheid van vergiftigingsvoorbeelden.

    -Een dergelijke benadering wordt beschreven in [21] waarin auteurs het probleem van gegevensvergiftiging in twee stappen aanpakken: 1) de introductie van een nieuwe krachtige matrixfactorisatiemethode om de ware subruimte te herstellen, en 2) nieuwe krachtige principecomponentsregressie om hoorbare exemplaren te verwijderen op basis van de basis die in stap (1) is hersteld. Ze kenmerken noodzakelijke en voldoende voorwaarden voor het succesvol herstellen van de ware subruimte en geven een afhankelijk van verwacht voorspellingsverlies ten opzichte van grondgebeurde.

Traditionele parallellen

Trojaanse host waarbij de aanvaller aanhoudt op het netwerk. Trainings- of configgegevens worden gecompromitteerd en worden ingenomen/vertrouwd voor het maken van modellen.

Ernst

Kritiek

#2b Indiscriminate Data Vergiftiging

Beschrijving

Doel is om de kwaliteit/integriteit van de gegevensset die wordt aangevallen te verkreuken. Veel gegevenssets zijn openbaar/niet-vertrouwd/ongecureerd, dus dit veroorzaakt extra zorgen over de mogelijkheid om dergelijke schendingen van gegevensintegriteit te herkennen. Training over onbewust gecompromitteerde gegevens is een situatie waarin u niet weet waar u mee te maken kunt krijgen. Wanneer triage is gedetecteerd, moet de omvang van de gegevens die zijn geschonden en quarantaine/herinvoer worden bepaald.

Voorbeelden

Een bedrijf schrapt een bekende en vertrouwde website voor gegevens over olie-futures om hun modellen te trainen. De website van de gegevensprovider wordt vervolgens gecompromitteerd via SQL Injection-aanval. De aanvaller kan de gegevensset naar eigen goed wil gif geven en het model dat wordt opgeleid, heeft geen idee dat de gegevens zijn besmet.

Risico's

Hetzelfde als variant 2a.

Traditionele parallellen

Geverifieerde denial of service tegen een hoog-waardeactivum

Ernst

Belangrijk

#3 Model-inversieaanvallen

Beschrijving

De persoonlijke functies die in machine learning-modellen worden gebruikt, kunnen worden hersteld [1]. Dit omvat het reconstrueren van persoonlijke trainingsgegevens waar de aanvaller geen toegang toe heeft. Ook wel bekend als aanvallen op heuvelklimmen in de biometrische community [16, 17] Dit wordt bereikt door de invoer te vinden waarmee het geretourneerde betrouwbaarheidsniveau wordt gemaximaliseerd, afhankelijk van de classificatie die overeenkomt met het doel [4].

Voorbeelden

[4]

Risico's
  • Interfaces voor modellen die zijn getraind op gevoelige gegevens, hebben een sterk toegangsbeheer nodig.

  • Rentelimietquery's die per model zijn toegestaan

  • Implementeert poorten tussen gebruikers/beroepers en het werkelijke model door invoervalidatie uit te voeren op alle voorgestelde query's, door alles te weigeren dat niet aan de definitie van invoer juistheid van het model voldoen en alleen de minimale hoeveelheid informatie te retourneren die nodig is om nuttig te zijn.

Traditionele parallellen

Targeted, covert Information Disclosure

Ernst

Dit is standaard belangrijk volgens de standaard SDL-bugbalk, maar gevoelige of persoonlijk identificeerbare gegevens die worden geëxtraheerd, brengen dit tot kritiek.

#4 Membership Inference Attack

Beschrijving

De aanvaller kan bepalen of een bepaalde gegevensrecord al dan niet deel uitmaakte van de trainingsset van het model[1]. De onderzoekers konden de hoofdprocedure van een patiënt voorspellen (bijvoorbeeld: De patiënt heeft een operatie uitgevoerd) op basis van de kenmerken (bijvoorbeeld leeftijd, geslacht, ziekenhuis) [1].

[12]

Risico's

Onderzoeksdocumenten die de haalbaarheid van deze aanval aantonen, geven aan dat differentiële privacy [4, 9] een effectieve beperking zou zijn. Dit is nog steeds een belangrijk veld bij Microsoft en AETHER Security Engineering raadt aan expertise op te bouwen met onderzoeksinvesteringen in deze ruimte. Dit onderzoek moet de mogelijkheden voor differentiële privacy opsnoemen en de praktische effectiviteit ervan evalueren als mitigaties en vervolgens manieren ontwerpen om deze verdedigingsfuncties transparant over te nemen op onze onlineservicesplatforms, vergelijkbaar met de manier waarop het compileren van code in Visual Studio u standaard beveiligingsbeveiligingen biedt die transparant zijn voor de ontwikkelaars en gebruikers.

Het gebruik van uitval van neuronen en het stapelen van modellen kan tot op zekere hoogte effectieve oplossingen zijn. Het gebruik van neuron-uitval verhoogt niet alleen de tolerantie van een neuraal net voor deze aanval, maar verhoogt ook de modelprestaties [4].

Traditionele parallellen

Privacy van gegevens. Er worden gevolgtrekkingen gemaakt over de opname van een gegevenspunt in de trainingsset, maar de trainingsgegevens zelf worden niet openbaar gemaakt

Ernst

Dit is een privacyprobleem, geen beveiligingsprobleem. Het wordt in richtlijnen voor bedreigingsmodellen aangepakt, omdat de domeinen elkaar overlappen, maar elk antwoord hier wordt gestuurd door Privacy, niet door Beveiliging.

#5 Model stelen

Beschrijving

De aanvallers maken het onderliggende model opnieuw door het model op legitieme manier te query's te geven. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model[1]. Wanneer het model opnieuw is gemaakt, kan het worden omgekeerd om functiegegevens te herstellen of om gevolg te geven aan trainingsgegevens.

  • Vergelijking oplossen: voor een model dat de kans van de klas via API-uitvoer retourneert, kan een aanvaller query's maken om onbekende variabelen in een model te bepalen.

  • Pad zoeken: een aanval die gebruik maakt van API-bijzonderheden om de 'beslissingen' te halen die door een boom zijn genomen bij het classificeren van een invoer [7].

  • Overdraagbaarheidsaanval - Een tegenstrever kan een lokaal model trainen, mogelijk door voorspellingsquery's uit te geven aan het doelmodel, en deze te gebruiken om voorbeelden van tegensvoortelijke acties te maken die naar het doelmodel worden overgeplaatst [8]. Als uw model wordt geëxtraheerd en kwetsbaar wordt gevonden voor een type hoor-en-wederhoor, kunnen nieuwe aanvallen op uw door de productie geïmplementeerde model volledig offline worden ontwikkeld door de aanvaller die een kopie van uw model heeft geëxtraheerd.

Voorbeelden

In instellingen waarin een ML-model dient om ongewenst gedrag te detecteren, zoals de identificatie van spam, malwareclassificatie en netwerkdetectie, kan modelextractie fraudeaanvallen vergemakkelijken [7].

Risico's

Proactieve/beschermende acties

  • Minimaliseer of verduis de details die worden geretourneerd in voorspelling-API's, terwijl ze nog steeds bruikbaar blijven voor 'eerlijke' toepassingen [7].

  • Definieer een goed gevormde query voor uw modelinvoeren en retourneert alleen resultaten in reactie op voltooide, goed gevormde invoer die overeenkomt met die indeling.

  • Retourneert afgeronde betrouwbaarheidswaarden. De meeste legitieme beroepers hebben niet meerdere decimalen met precisie nodig.

Traditionele parallellen

Unauthenticated, read-only tampering of system data, targeted high-value information disclosure?

Ernst

Belangrijk in beveiligingsgevoelige modellen, anders matig

#6 Neural Net Reprogramming

Beschrijving

Met een speciaal ontworpen query van een wederpartij kunnen machine learning-systemen worden geherprogrammeerd naar een taak die afwijkt van de oorspronkelijke bedoeling van de maker [1].

Voorbeelden

Besturingselementen voor zwakke toegang op een API voor gezichtsherkenning waarmee3 derden kunnen worden opgenomen in apps die zijn ontworpen om Microsoft-klanten te schaden, zoals een deep fakes-generator.

Risico's
  • Strong client < - server mutual authentication and access control to model > interfaces

  • De gewraakte accounts verwijderen.

  • Een serviceovereenkomst voor uw API's identificeren en afdwingen. Bepaal de acceptabele time-to-fix voor een probleem dat is gerapporteerd en zorg ervoor dat het probleem niet meer opnieuw wordtpros zodra SLA verloopt.

Traditionele parallellen

Dit is een misbruikscenario. U hebt minder kans op een beveiligingsincident dan dat u het account van de overtreder gewoon uit wilt schakelen.

Ernst

Belangrijk voor kritiek

#7 Het voorbeeld van de tegenpartij in het fysieke domein > (bits-atomen)

Beschrijving

Een voorbeeld van hoor en wederhoor is een invoer/query van een kwaadaardige entiteit die wordt verzonden met als enige doel het machine learning-systeem te misleiden [1]

Voorbeelden

Deze voorbeelden kunnen zich manifesteren in het fysieke domein, zoals een zelfrijdende auto die wordt misleid door het uitvoeren van een stopteken omdat een bepaalde kleur van licht (de wederhoorlijke invoer) op het stopteken wordt gesjoemeld, waardoor het systeem voor het herkennen van afbeeldingen het stopteken niet meer ziet als een stopteken.

Traditionele parallellen

Hoogte van bevoegdheden, uitvoering van externe code

Risico's

Deze aanvallen manifesteren zich omdat problemen in de machine learning-laag (de gegevensalgoritmelaag onder & ai-gestuurde besluitvorming) niet zijn beperkt. Net als bij andere software *of* fysieke systemen, kan de laag onder het doel altijd worden aangevallen via traditionele vectoren. Daarom zijn traditionele beveiligingspraktijken belangrijker dan ooit, met name omdat de laag met niet-gemitigeerde beveiligingslekken (de gegevens-/algolaag) wordt gebruikt tussen AI en traditionele software.

Ernst

Kritiek

#8 Kwaadwillende ML die trainingsgegevens kunnen herstellen

Beschrijving

Een kwaadwillende provider presenteert een backdoored algoritme, waarin de persoonlijke trainingsgegevens worden hersteld. Ze konden gezichten en teksten reconstrueren, gezien het model alleen.

Traditionele parallellen

Openbaarmaking van gerichte informatie

Risico's

Onderzoeksdocumenten die de haalbaarheid van deze aanval aantonen, geven aan dat homomorfe versleuteling een effectieve beperking zou zijn. Dit is een gebied met weinig huidige investeringen bij Microsoft en AETHER Security Engineering raadt aan expertise op te bouwen met onderzoeksinvesteringen in deze ruimte. Dit onderzoek moet homomorfische versleutelingsmethodes opsnoemen en de praktische effectiviteit ervan evalueren als mitigaties in het gezicht van kwaadwillende ML-as-a-Service-providers.

Ernst

Belangrijk als gegevens pii zijn, anders gemiddeld

#9 Aanvallen op de ML Supply Chain

Beschrijving

Vanwege de grote resources (gegevens + berekeningen) die nodig zijn om algoritmen te trainen, is het de huidige praktijk om modellen die zijn opgeleid door grote bedrijven opnieuw te gebruiken en deze enigszins te wijzigen voor taak bij de hand (bijvoorbeeld: ResNet is een populair afbeeldingsherkenningsmodel van Microsoft). Deze modellen zijn samengesteld in een modelpark (Caffe bevat populaire modellen voor afbeeldingsherkenning). In deze aanval valt de aanvaller de modellen aan die worden gehost in Caffe, waardoor de goed voor iedereen anders wordt verantwoordelijk gehouden. [1]

Traditionele parallellen
  • Compromis van externe afhankelijkheid van niet-beveiligingsrisico's

  • App Store die malware zonder het te weten host

Risico's
  • Minimaliseer afhankelijkheden van derden voor modellen en gegevens waar mogelijk.

  • Neem deze afhankelijkheden op in uw proces voor het modelleren van bedreigingen.

  • Maak gebruik van sterke verificatie,toegangsbeheer en versleuteling tussen systemen van derden van 1 en3.

Ernst

Kritiek

#10 Backdoor Machine Learning

Beschrijving

Het trainingsproces wordt uitbesteed aan een kwaadwillende derde partij die met trainingsgegevens geknoeid heeft en een trojaned-model heeft geleverd waarmee gerichte verkeerde classificaties worden gedreigd, zoals het classificeren van een bepaald virus als niet-schadelijk[1]. Dit is een risico in ML-as-a-Service model-generation scenario's.

[12]

Traditionele parallellen
  • Compromitteerd beveiligingsafhankelijkheid van derden

  • Mechanisme voor gecompromitteerde software-update

  • Certificaatinstantie compromis

Risico's
Reactieve/defensieve detectieacties
  • De schade is al aangericht nadat deze bedreiging is gevonden, zodat het model en de trainingsgegevens die door de kwaadwillende provider worden verstrekt, niet kunnen worden vertrouwd.
Proactieve/beschermende acties
  • Alle gevoelige modellen in eigen huis trainen

  • Trainingsgegevens catalogiseren of ervoor zorgen dat deze afkomstig zijn van een vertrouwde derde partij met sterke beveiligingspraktijken

  • Bedreigingsmodel de interactie tussen de MLaaS-provider en uw eigen systemen

Antwoordacties
  • Hetzelfde als voor compromissen met externe afhankelijkheid
Ernst

Kritiek

#11 Softwareafhankelijkheden van het ML gebruiken

Beschrijving

In deze aanval manipuleert de aanvaller de algoritmen niet. In plaats daarvan maakt u gebruik van softwareproblemen, zoals bufferoverloop of cross-site scripting[1]. Het is nog steeds gemakkelijker om softwarelagen onder AI/ML te compromitteerden dan de leerlaag rechtstreeks aan te vallen, dus traditionele beveiligingsrisico's die worden beschreven in de levenscyclus van beveiligingsontwikkeling zijn essentieel.

Traditionele parallellen
  • Gecompromitteerd Afhankelijkheid van Open Source-software

  • Kwetsbaarheid van webserver (XSS, MVOF, API-invoervalidatiefout)

Risico's

Werk samen met uw beveiligingsteam om de toepasselijke beveiligingsontwikkelingscyclus/operational security assurance-best practices te volgen.

Ernst

Variabele; Tot Kritiek, afhankelijk van het type traditionele softwareprobleem.

Bibliografie

[1] Failure Modes in Machine Learning, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen en Jeffrey Snover,https://docs.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Voorbeelden van wederhoor in Deep Learning: Characterization and Divergence, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha en T. Ristenpart, "Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures," in Proceedings of the 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolas Papernot Patrick McDaniel- Voorbeelden van wederhoor & in Machine Learning AIWTB 2017

[7] Stealing Machine Learning Models via Prediction API's, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Universiteit van Cornell; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] Deruimte van overdraagbare voorbeelden van wederhoor , Florian Tramèr , Nicolas Papernot , Lan Goodfellow , Dan Boneh en Patrick McDaniel

[9] Understanding Membership Inferences on Well-Generalized Learning Models Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 , and Kai Chen3,4

[10] Simon-Gabriel et al., De kwetsbaarheid van neurale netwerken neemt toe met de inputdimensie, ArXiv 2018;

[11] Lyu et al., A unified gradient regularization family for adversarial examples, ICDM 2015

[12] Wilde patronen: Tien jaar na de opkomst van de Machine Learning - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Een zeer krachtige detectie van malware met behulp vanMonotonic Classification Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto en Fabio Roli. Classifiers inpakken voor het bestrijden van aanvallen op vergiftiging in de classificatietaken van de tegenpartij

[15] Een verbeterde reject on Negative Impact Defense Hongjiang Li en Patrick P.K. Chan

[16] Adler. Beveiligingsproblemen in biometrische versleutelingssystemen. 5e Int'l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. Over de kwetsbaarheid van gezichtsverificatiesystemen voor aanvallen op heuvelbeklimmen. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Functie knijpen: het detecteren van voorbeelden van hoor en wederhoor in deep neurale netwerken. 2018 Network and Distributed System Security Symposium. 18-21 februari.

[19] Het versterken van de robuustheid van de wederhoor met behulp van model vertrouwen geïnduceerd door Dessinial Training - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Toeschrijvingsgestuurde causale analyse voor detectie van voorbeelden van wederhoor, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Robust Linear Regression Against Training Data Poisoning – Chang Liu et al.

[22] Functiedenoising voor het verbeteren van de rendiviteit van de tegenpartij, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Gecertificeerde verdediging tegen voorbeelden van wederhoor - Aditi Raghunathan, Jacob Steinhardt, Percy Liang