AI-/ML-beweging naar de Security Development Lifecycle-bugbar

Door Andrew Marshall, Jugal Parikh, Emre Kiciman en Ram Shankar Siva Kumar

November 2019

Dit document is afkomstig van de Microsoft AETHER Engineering Practices for AI Working Group (werkgroep voor AETHER-engineeringpraktijken voor AI) en dient als aanvulling op de bestaande SDL-bugbar die wordt gebruikt om traditionele beveiligingsproblemen te classificeren. Het document is bedoeld als referentiepunt voor het classificeren van AI-/ML-gerelateerde beveiligingsproblemen. Raadpleeg Threat Modeling AI/ML Systems and Dependencies (Bedreigingsmodellering in AI-/ML-systemen en -afhankelijkheden) voor meer informatie over bedreigingsanalyses en -beperkingen.

Deze richtlijn borduurt voort op en bevat veel verwijzingen naar de taxonomie van schadelijke ML-bedreigingen van Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen en Jeffrey Snover met de naam Failure Modes in Machine Learning (Foutmodi in machine learning). Houd er rekening mee dat hoewel het onderzoek waarop deze inhoud is gebaseerd, zowel opzettelijk/schadelijk als onopzettelijk gedrag in ML-foutmodi behandelt, deze bugbaraanvulling volledig is gericht op opzettelijk/schadelijk gedrag dat zou leiden tot een beveiligingsincident en/of een fiximplementatie.

Bedreiging Ernst Beschrijving/bedrijfsrisico's/voorbeelden
Datacorruptie Belangrijk tot Kritiek

De trainingsgegevens beschadigen – Het uiteindelijke doel van de aanvaller is om het gegenereerde machinemodel te corrumperen in de trainingsfase, zodat voorspellingen over nieuwe gegevens worden gewijzigd in de testfase.

Bij gerichte verontreinigingsaanvallen wil de aanvaller specifieke voorbeelden verkeerd classificeren om ervoor te zorgen dat specifieke acties worden uitgevoerd of nagelaten.

AV-software als malware indienen om de software onjuist te laten classificeren als schadelijke software om zo het gebruik van gerichte AV-software op clientsystemen te elimineren.

Een bedrijf scrapet een bekende en vertrouwde website op toekomstige gegevens om zijn modellen te trainen. De website van de gegevensprovider wordt op een gegeven moment gecompromitteerd via een SQL-injectieaanval. De aanvaller kan de gegevensset naar believen verontreinigen en het model dat wordt getraind, heeft er geen weet van dat de gegevens besmet zijn.

Stelen van model Belangrijk tot Kritiek

Recreatie van het onderliggende model door legitiem query's erop uit te voeren. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model. Zodra het model opnieuw is gemaakt, kan het worden omgekeerd om informatie over het kenmerk te herstellen of om trainingsgegevens te deduceren.

Vergelijkingen oplossen – Voor een model dat klassewaarschijnlijkheden retourneert via API-uitvoer, kan een aanvaller query's maken om onbekende variabelen in een model te bepalen.

Paden vinden – Een aanval waarbij de API-details worden misbruikt om de 'beslissingen' te extraheren die door een structuur worden genomen bij het classificeren van een invoer.

Overdrachtsaanval – Een kwaadwillend iemand kan een lokaal model trainen, mogelijk door voorspellingsquery's naar het doelmodel te verzenden en dit te gebruiken om schadelijke voorbeelden te maken die worden overgedragen op het doelmodel. Als uw model geëxtraheerd is en kwetsbaar blijkt te zijn voor een bepaald type schadelijke invoer, kunnen nieuwe aanvallen tegen uw productie-implementatiemodel volledig offline worden ontwikkeld door de aanvaller die een kopie van uw model heeft geëxtraheerd.

In instellingen waarbij een ML-model wordt gebruikt om schadelijk gedrag te detecteren, zoals het identificeren van spam, het classificeren van malware en het detecteren van netwerkafwijkingen, kan modelextractie leiden tot fraudeaanvallen

Modelinversie Belangrijk tot Kritiek

De privéfuncties die in machine learning-modellen worden gebruikt, kunnen worden hersteld. Dit omvat het reconstrueren van privé-trainingsgegevens waartoe de aanvaller geen toegang heeft. Dit wordt bereikt door de invoer te vinden die het geretourneerde betrouwbaarheidsniveau maximaliseert, afhankelijk van de classificatie die met het doel overeenkomt.

Voorbeeld: Reconstructie van gezichtsherkenningsgegevens van geraden of bekende namen en API-toegang om een query uit te voeren op het model.

Schadelijk voorbeeld in fysiek domein Kritiek Deze voorbeelden kunnen zich manifesteren in het fysieke domein, zoals een zelfrijdende auto die wordt misleid om bij een stopbord door te rijden doordat er een bepaalde kleur licht (de schadelijke invoer) op het stopbord schijnt, waardoor het systeem voor afbeeldingsherkenning het stopbord niet meer als zodanig herkent.
ML-toeleveringsketen aanvallen Kritiek

Vanwege grote resources (gegevens en berekeningen) die nodig zijn voor het trainen van algoritmen, is de huidige praktijk het hergebruiken van modellen die zijn getraind door grote bedrijven en deze enigszins wijzigen voor taken (bijvoorbeeld: ResNet is een populair model voor afbeeldingsherkenning van Microsoft).

Deze modellen worden gecureerd in een Model Zoo (Caffe host populaire modellen voor afbeeldingsherkenning).

Bij deze aanval valt de kwaadwillende persoon de in Caffe gehoste modellen aan, waardoor de bron voor anderen wordt verontreinigd.

Gemanipuleerd algoritme van schadelijke ML-provider Kritiek

Het onderliggende algoritme in gevaar brengen

Een schadelijke ML-as-a-service-provider stelt een gemanipuleerd algoritme voor waarin de privé-trainingsgegevens worden hersteld. Dit biedt de aanvaller de mogelijkheid om slechts op basis van het model gevoelige gegevens, zoals gezichten en teksten, te reconstrueren.

Neural Net herprogrammeren Belangrijk tot Kritiek

Door middel van een speciaal gemaakte query van een aanvaller kunnen ML-systemen worden geherprogrammeerd voor een taak die afwijkt van de oorspronkelijke intentie van de maker

Zwakke toegangscontroles voor een gezichtsherkennings-API waarmee 3e partijen kunnen worden opgenomen in apps die zijn ontworpen om gebruikers te beschadigen, zoals een deepfakegenerator.

Dit is een scenario voor misbruik/accountverwijdering

Adversarial verstoring Belangrijk tot Kritiek

Bij verstorende aanvallen wijzigt de aanvaller heimelijk de query om een gewenste reactie te krijgen van een productie-implementatiemodel. Dit is een schending van de modelinvoerintegriteit die leidt tot verstoringsaanvallen waarbij het eindresultaat niet noodzakelijkerwijs een toegangsschending of EOP is, maar eerder een aantasting van de classificatieprestaties van het model.

Trollen kunnen dit bewerkstelligen door bepaalde doelwoorden op dusdanige manier te gebruiken dat ze door AI worden verboden, waardoor legitieme gebruikers met een naam die overeenkomt met een 'verboden' woord, de toegang tot de service wordt ontzegd.

Afdwingen dat goedaardige e-mails worden geclassificeerd als spam of ervoor zorgen dat een schadelijk voorbeeld onopgemerkt blijft. Deze aanvallen worden ook wel modelontwijkings- of imitatieaanvallen genoemd.

De aanvaller kan invoeren maken om het betrouwbaarheidsniveau van de juiste classificatie te verminderen, met name in cruciale scenario's. Dit kan ook de vorm aannemen van een groot aantal fout-positieven dat is bedoeld om beheerders of bewakingssystemen te overbelasten met frauduleuze waarschuwingen die niet te onderscheiden zijn van legitieme waarschuwingen.

Afleiden van lidmaatschap Gemiddeld tot kritiek

Afzonderlijk lidmaatschap deduceren uit een groep die wordt gebruikt om een model te trainen

Bijvoorbeeld: voorspelling van chirurgische ingrepen op basis van leeftijd/geslacht/ziekenhuis