AI/ML draait naar de beveiligingsontwikkelingscyclusbugbalk

Door Andrew Marshall, Jugal Parikh, Emre Kiciman en Ram Shankar Siva Kumar

November 2019

Dit document is een deliverable van de Microsoft AETHER Engineering Practices for AI Working Group en fungeert als aanvulling op de bestaande SDL-bugbalk die wordt gebruikt om traditionele beveiligingsproblemen te voorkomen. Het is bedoeld om te worden gebruikt als referentie voor de triage van AI/ML-gerelateerde beveiligingsproblemen. Zie AI/ML systemen en afhankelijkheden voor meer gedetailleerde bedreigingsanalyses en risicobeperkingsinformatie.

Deze richtlijn is georganiseerd rond en verwijst uitgebreid naar de onoverkomelijke Machine Learning Threat Taxonomie gemaakt door Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen en Jeffrey Snover getiteld Failure Modes in Machine Learning. Hoewel het onderzoek van deze inhoud is gebaseerd op zowel opzettelijk/schadelijk als onbedoeld gedrag in de ML-modi, is deze aanvulling op de bugbalk volledig gericht op opzettelijk/schadelijk gedrag dat zou leiden tot een beveiligingsincident en/of implementatie van een fix.

Bedreiging Ernst Beschrijving/zakelijke risico's/voorbeelden
Gegevens Vergiftiging Belangrijk voor kritiek

Beschadigde trainingsgegevens: het doel van de aanvaller is om het machinemodel dat inde trainingsfase wordt gegenereerd, te vervuilen, zodat voorspellingen voor nieuwe gegevens in de testfase worden gewijzigd.

Bij gerichte aanvallen op vergiftiging wil de aanvaller specifieke voorbeelden verkeerd indelen om ervoor te zorgen dat specifieke acties worden uitgevoerd of weggelaten.

Het indienen van AV-software als malware om de foutclassificatie als schadelijk te dwingen en het gebruik van gerichte AV-software op clientsystemen te elimineren. 

Een bedrijf schrapt een bekende en vertrouwde website voor futures-gegevens om hun modellen te trainen. De website van de gegevensprovider wordt vervolgens gecompromitteerd via SQL Injection-aanval. De aanvaller kan de gegevensset naar eigen goed wil gif geven en het model dat wordt opgeleid, heeft geen idee dat de gegevens zijn besmet.

Model stelen Belangrijk voor kritiek

Recreëren van het onderliggende model door het op legitieme manier te bevragen. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model. Wanneer het model opnieuw is gemaakt, kan het worden omgekeerd om functiegegevens te herstellen of om gevolg te geven aan trainingsgegevens. 

Vergelijking oplossen: voor een model dat de kans van de klas via API-uitvoer retourneert, kan een aanvaller query's maken om onbekende variabelen in een model te bepalen.

Pad zoeken: een aanval die gebruik maakt van API-bijzonderheden om de 'beslissingen' te halen die door een boom zijn genomen bij het classificeren van een invoer.

Overdraagbaarheidsaanval- Een tegenstrever kan een lokaal model trainen, mogelijk door voorspellingsquery's uit te geven aan het doelmodel, en deze te gebruiken om voorbeelden te maken van wederhoor die naar het doelmodel worden overgeplaatst. Als uw model wordt geëxtraheerd en kwetsbaar wordt gevonden voor een type hoor-en-wederhoor, kunnen nieuwe aanvallen op uw door de productie geïmplementeerde model volledig offline worden ontwikkeld door de aanvaller die een kopie van uw model heeft geëxtraheerd.

In instellingen waarin een ML-model dient om ongewenst gedrag te detecteren, zoals de identificatie van spam, malwareclassificatie en netwerkdetectie, kan modelextractie fraudeaanvallen vergemakkelijken

Model-inversie Belangrijk voor kritiek

De persoonlijke functies die in machine learning-modellen worden gebruikt, kunnen worden hersteld. Dit omvat het reconstrueren van persoonlijke trainingsgegevens waar de aanvaller geen toegang toe heeft. Dit wordt bereikt door de invoer te vinden waarmee het geretourneerde betrouwbaarheidsniveau wordt gemaximaliseerd, afhankelijk van de classificatie die overeenkomt met het doel.

Voorbeeld: Herstel van gezichtsherkenningsgegevens van geraden of bekende namen en API-toegang om een query uit te voeren op het model.

Voorbeeld van hoor en wederhoor in fysiek domein Kritiek Deze voorbeelden kunnen zich manifesteren in het fysieke domein, zoals een zelfrijdende auto die wordt misleid door het uitvoeren van een stopteken omdat een bepaalde kleur van licht (de wederhoorlijke invoer) op het stopteken wordt gesjoemeld, waardoor het systeem voor het herkennen van afbeeldingen het stopteken niet meer ziet als een stopteken.  
Aanval ML Supply Chain Kritiek

Vanwege de grote resources (gegevens + berekeningen) die nodig zijn om algoritmen te trainen, is het de huidige praktijk om modellen die zijn opgeleid door grote bedrijven opnieuw te gebruiken en deze enigszins te wijzigen voor taak bij de hand (bijvoorbeeld: ResNet is een populair afbeeldingsherkenningsmodel van Microsoft).

Deze modellen zijn samengesteld in een modelpark (Caffe bevat populaire modellen voor afbeeldingsherkenning).

In deze aanval valt de aanvaller de modellen aan die worden gehost in Caffe, waardoor de goed voor iedereen anders wordt verantwoordelijk gehouden.

Backdoored Algorithm from Malicious ML Provider Kritiek

Het onderliggende algoritme in gevaar brengen

Een kwaadaardige ML-as-a-Service-provider presenteert een backdoored algoritme, waarin de persoonlijke trainingsgegevens worden hersteld. Dit biedt de aanvaller de mogelijkheid om gevoelige gegevens, zoals gezichten en tekst, te reconstrueren, alleen gegeven het model.

Neurale netherprogrammering Belangrijk voor kritiek

Met een speciaal ontworpen query van een aanvaller kunnen ML worden geherprogrammeerd naar een taak die afwijkt van de oorspronkelijke bedoeling van de maker

Zwakke toegangsbesturingselementen op een gezichtsherkennings-API waarmee3 derden kunnen worden opgenomen in apps die zijn ontworpen om gebruikers te schaden, zoals een deep fakes-generator.

Dit is een scenario voor misbruik/accountdown

Onnatuurlijke perturbatie Belangrijk voor kritiek

Bij aanvallen in de stijl van perturbatie wijzigt de aanvaller de query om een gewenste reactie te krijgen van een productiemodel. Dit is een inbreuk op de integriteit van de modelinvoer, wat leidt tot fuzzing-style-aanvallen waarbij het eindresultaat niet noodzakelijkerwijs een toegangsovertreding of EOP is, maar in plaats daarvan de classificatieprestaties van het model in gevaar brengt.

Dit kan worden gemanifesteerd door trollen die bepaalde doelwoorden gebruiken op een manier die door de AI wordt verboden, zodat de service effectief wordt ontzegd aan legitieme gebruikers met een naam die overeenkomt met een 'verboden' woord.

U dwingt goedaardige e-mailberichten te worden geclassificeerd als spam of waardoor een schadelijk voorbeeld niet wordt gedetecteerd. Deze worden ook wel modelontwijkings- of nabootsingsaanvallen genoemd.

Aanvaller kan inputs maken om het betrouwbaarheidsniveau van de juiste classificatie te verlagen, met name in scenario's met hoge gevolgen. Dit kan ook de vorm aannemen van een groot aantal fout-positieven die zijn bedoeld om beheerders of controlesystemen te overweldigen met frauduleuze waarschuwingen die niet kunnen worden onderscheiden van legitieme waarschuwingen.

Gevolg van lidmaatschap Gemiddeld tot kritiek

Individuele lidmaatschappen in een groep afleiden die worden gebruikt om een model te trainen

Ex: voorspelling van chirurgische procedures op basis van leeftijd/geslacht/ziekenhuis