De toekomst van kunstmatige intelligentie en Machine Learning veilig stellen bij Microsoft

Door Andrew Marshall, Raul Rojas, Jay Stokes en Donald Brinkman

Met speciale dank aan Mark Cartwright en Graham Calladine

Samenvatting

Kunstmatige intelligentie (AI) en Machine Learning (ML) hebben al een grote invloed op hoe mensen werken, met elkaar omgaan en hun leven leiden. Naarmate het verbruik van producten en services die zijn gebouwd rond AI/ML toeneemt, moeten gespecialiseerde acties worden ondernomen om niet alleen uw klanten en hun gegevens te beveiligen, maar ook om uw AI en algoritmen te beschermen tegen misbruik, trolling en extractie. In dit document wordt aandacht besteed aan enkele van de beveiligingslessen die Microsoft heeft getrokken uit het ontwerpen van producten en het exploiteren van onlineservices die zijn gebouwd op AI. Hoewel het moeilijk is te voorspellen hoe dit gebied zich zal gaan ontwikkelen, hebben we geconcludeerd dat er problemen zijn waartegen nu moet worden opgetreden. Daarnaast hebben we geconstateerd dat er strategische problemen zijn die de tech-industrie moet aanpakken om de beveiliging van klanten op de lange termijn te garanderen, evenals de beveiliging van hun gegevens.

Dit document gaat niet over op AI gebaseerde aanvallen en ook niet over AI die wordt ingezet door menselijke tegenstanders. We richten ons op problemen die door Microsoft en branchepartners moeten worden aangepakt om op AI gebaseerde producten en services te beschermen tegen zeer geavanceerde, creatieve en kwaadaardige aanvallen, ongeacht of deze worden uitgevoerd door afzonderlijke trolls of complete wolfpacks.

Dit document richt zich volledig op problemen van beveiligingstechnische aard die uniek zijn in het AI/ML-domein. Gezien de expansieve aard van het InfoSec-domein moge het duidelijk zijn dat de problemen en bevindingen die hier worden besproken, in bepaalde mate overlappen met de domeinen van privacy en ethiek. Aangezien dit document ingaat op uitdagingen van strategisch belang voor de technische bedrijfstak, is de doelgroep voor dit document leadership voor beveiligingstechniek binnen alle branches.

Onze vroege bevindingen suggereren dat:

  • AI/ML-specifieke aanpassingen van bestaande beveiligingsprocedures vereist zijn om de typen beveiligingsproblemen te verhelpen die in dit document worden besproken.

  • Machine Learning-modellen in hoofdlijnen niet in staat zijn om onderscheid te maken tussen kwaadwillende invoer en onschadelijke gegevens die afwijken van de norm. Een belangrijke bron van trainingsgegevens zijn niet-gecureerde, niet-gecontroleerde, openbare gegevenssets die open zijn voor bijdragen van derden. Aanvallers hoeven gegevens helemaal niet te manipuleren als ze de mogelijkheid hebben om er een bijdrage aan te leveren. In de loop van de tijd kunnen kwaadaardige gegevens met een lage betrouwbaarheid zo vertrouwde gegevens met een hoge betrouwbaarheid worden, op voorwaarde dat de gegevensstructuur/-indeling juist blijft.

  • Gezien het grote aantal lagen van verborgen classificaties/neuronen waarvan gebruik kan worden gemaakt in een Deep Learning-model, wordt er te veel vertrouwen gegeven aan de uitvoer van besluitvormingsprocessen en -algoritmen op basis van AI/ML zonder dat er essentiële kennis aanwezig is van de manier waarop tot deze beslissingen is gekomen. Deze vertroebeling maakt het onmogelijk om 'uw werk te laten zien' en maakt het lastig om bevindingen van AI/ML aantoonbaar te verdedigen wanneer deze in twijfel worden geroepen.

  • AI/ML wordt steeds vaker gebruikt ter ondersteuning van belangrijke besluitvormingsprocessen in de geneeskunde en andere branches, waarbij de verkeerde beslissing kan leiden tot ernstige letsel of zelfs de dood. Een gebrek aan forensische rapportagemogelijkheden in AI/ML voorkomt dat deze belangrijke conclusies verdedigbaar zijn in zowel de rechtszaal als in de publieke opinie.

De doelstellingen van dit document zijn (1) de problemen van beveiligingstechnieken bespreken die uniek zijn voor het AI/ML-domein, (2) enkele eerste gedachten en waarnemingen presenteren over opkomende bedreigingen en (3) vroege ideeën delen over mogelijke oplossingen. Enkele van de uitdagingen in dit document zijn problemen die de branche in de komende twee jaar moet oplossen, andere zijn problemen die we zo snel mogelijk achter ons moeten laten. Zonder dieper onderzoek te doen naar de gebieden die in dit document worden behandeld, lopen we het risico dat AI een zwarte doos wordt voor het feit dat ai niet kan worden vertrouwd of begrepen (en indien nodig kan worden gewijzigd) op wiskundig niveau [7]. Vanuit het oogpunt van beveiliging betekent dit in feite verlies van controle en het afstappen van de richtlijnen van Microsoft voor kunstmatige intelligentie [4, 8].

Nieuwe uitdagingen voor beveiligingstechniek

Het is nog steeds erg belangrijk dat er oplossingen worden gebruikt tegen traditionele vectoren voor het aanvallen van software, maar deze bieden onvoldoende dekking in het landschap van AI/ML-bedreigingen. De tech-industrie moet problemen van de volgende generatie niet bestrijden met oplossingen van de vorige generatie door nieuwe frameworks te bouwen en nieuwe benaderingen te omarmen die zich richten op hiaten in het ontwerp en de werking van services die op AI/ML zijn gebaseerd:

  1. Zoals hieronder wordt beschreven, moeten veilige fundamenten voor ontwikkeling en uitvoering gebruikmaken van de concepten van tolerantie en discretie bij het beveiligen van AI en de gegevens onder controle van AI. AI-specifieke aanpassingen zijn vereist op het gebied van verificatie, scheiding van rechten, invoervalidatie en Denial of Service-beperking. Zonder investeringen in deze gebieden zullen AI/ML-services een zeer lastige strijd blijven leveren tegen aanvallers met wisselende vaardigheidsniveaus.

  2. AI moet in staat zijn om vooroordelen bij anderen te herkennen, zonder zelf vooroordelen te hanteren in de interactie met mensen. Hiervoor is een collectieve en zich steeds ontwikkelende kennis nodig van vooroordelen, stereotypen, specifiek taalgebruik en andere culturele concepten. Een dergelijk begrip helpt om AI te beschermen tegen social engineering en aanvallen om gegevenssets te manipuleren. Een goed geïmplementeerd systeem zal in werkelijkheid sterker worden van dergelijke aanvallen en de verworven kennis kunnen delen met andere AI's.

  3. Machine Learning-algoritmen moeten in staat zijn om met kwaadwillende bedoelingen geïntroduceerde gegevens te onderscheiden van goedaardige 'Black Swan'-gebeurtenissen [1] door trainingsgegevens te weigeren die een negatieve impact hebben op resultaten. Anders zullen leermodellen altijd vatbaar zijn voor manipulatie door aanvallers en trolls.

  4. AI moet over ingebouwde forensische mogelijkheden beschikken. Alleen dan kunnen ondernemingen transparant zijn naar klanten en verantwoording afleggen voor hun AI, omdat kan worden aangetoond dat de acties van het systeem niet alleen aantoonbaar juist zijn, maar ook juridisch verdedigbaar. Deze mogelijkheden functioneren ook als een vroege vorm van 'detectie van AI-indringing', zodat technici het exacte tijdstip kunnen bepalen dat een beslissing is genomen door een classificatie, welke gegevens hierop van invloed zijn geweest en of die gegevens betrouwbaar zijn. De mogelijkheden voor gegevensvisualisatie op dit gebied maken een snelle ontwikkeling door en zien er veelbelovend uit als hulpmiddel voor technici om de hoofdoorzaken van deze complexe problemen te identificeren en op te lossen [11].

  5. AI moet gevoelige gegevens herkennen en beveiligen, zelfs als mensen dit niet zien. Rijke gebruikerservaringen in AI vereisen grote hoeveelheden onbewerkte gegevens nodig om op te trainen, dus moet er rekening worden gehouden met 'over-delen' door klanten.

Elk van deze gebieden, met inbegrip van bedreigingen en mogelijke oplossingen, wordt hieronder uitvoerig besproken.

AI vereist nieuwe aanpassingen voor traditionele modellen voor veilig ontwerpen/veilige exploitatie: de introductie van tolerantie en discretie

AI-ontwerpers moeten altijd de vertrouwelijkheid, integriteit en beschikbaarheid van gevoelige gegevens garanderen, dat het AI-systeem vrij is van bekende beveiligingsproblemen en besturingselementen bieden voor de beveiliging, detectie en reactie op schadelijk gedrag tegen het systeem of de gegevens van de gebruiker.

De traditionele manieren om te beschermen tegen kwaadaardige aanvallen bieden niet dezelfde dekking in dit nieuwe paradigma, waarbij aanvallen via spraak/video/afbeeldingen de huidige filters en beveiligingen kunnen omzeilen. Nieuwe aspecten van bedreigingsmodellering moeten worden verkend om te voorkomen dat er nieuwe beveiligingsproblemen ontstaan door misbruik van onze AI. Dit gaat veel verder dan het identificeren van het traditionele aanvalsoppervlak door middel van fuzzing of invoermanipulatie (deze aanvallen hebben ook hun eigen AI-specifieke varianten). Het vereist het integreren van scenario's die uniek zijn voor het AI/ML-domein. Belangrijk hierbij zijn AI-gebruikerservaringen zoals spraak, video en gebaren. De bedreigingen die aan deze ervaringen zijn gekoppeld, zijn niet traditioneel gemodelleerd. Video-inhoud wordt nu bijvoorbeeld aangepast om fysieke effecten op te roepen. Daarnaast heeft onderzoek aangetoond dat het mogelijk is om op audio gebaseerde aanvalsopdrachten te ontwerpen [10].

De onvoorspelbaarheid, creativiteit en schadelijke intenties van criminelen, vastberaden aanvallers en trollen vereisen dat wij onze AI's uitbreiden met de waarden van tolerantie en discretie:

Tolerantie: Het systeem moet abnormale gedragingen kunnen identificeren en manipulatie of cast-conversie buiten de normale grenzen van aanvaardbaar gedrag voorkomen in verhouding tot het AI-systeem en de specifieke taak. Dit zijn nieuwe typen aanvallen die specifiek zijn voor het AI/ML-domein. Systemen moeten zo worden ontworpen dat ze invoer weigeren die anderszins een conflict zou opleveren met lokale wetgeving, ethiek en waarden en normen die leven binnen de gemeenschap en bij de makers. Dit betekent dat AI moet beschikken over de mogelijkheid om vast te stellen wanneer een interactie 'off-script' gaat. Dit kan worden bereikt met de volgende methoden:

  1. Individuele gebruikers opsporen die afwijken van normen die zijn ingesteld door de verschillende grote clusters van soortgelijke gebruikers, zoals gebruikers die te snel lijken te typen, te snel reageren, niet in de slaapstand gaan of onderdelen van het systeem activeren die andere gebruikers met rust laten.

  2. Patronen van gedrag opsporen waarvan bekend is dat ze indicatoren zijn van kwaadaardige aanvallen en het begin van de Network Intrusion Kill Chain.

  3. Steeds herkennen wanneer meerdere gebruikers op een gecoördineerde manier handelen, bijvoorbeeld dat meerdere gebruikers tegelijkertijd dezelfde, onverklaarbare maar opzettelijk geformuleerde query uitvoeren, plotselinge pieken in het aantal gebruikers of plotselinge pieken in de activering van specifieke delen van een AI-systeem.

Aanvallen van dit type zijn van hetzelfde niveau als Denial of Service-aanvallen, aangezien de AI mogelijk bugfixes en hertraining vereist om niet opnieuw op deze manier te worden misleid. Van kritiek belang is de mogelijkheid om kwaadaardige intentie te identificeren in de aanwezigheid van tegenmaatregelen zoals maatregelen die worden gebruikt om API's voor sentimentanalyse te verslaan [5].

Discretie: AI moet een verantwoordelijke en betrouwbare beheerder zijn van alle gegevens waartoe het systeem toegang heeft. Als mensen zullen we ongetwijfeld een bepaalde mate van vertrouwen hanteren in onze AI-relaties. Op een bepaald moment zullen deze agents namens ons communiceren met andere agents of andere mensen. We moeten erop kunnen vertrouwen dat een AI-systeem voldoende discreet is om alleen in beperkte vorm te delen wat over ons moet worden gedeeld, zodat andere agents namens het systeem taken kunnen uitvoeren. Daarnaast mag het niet zo zijn dat meerdere agents die namens ons werken met persoonsgegevens, elk afzonderlijke globale toegang tot de gegevens hebben. Scenario's voor gegevenstoegang waarbij meerdere AI's of bot-agents betrokken zijn, moeten de levensduur van de toegang tot de vereiste minimale duur beperken. Gebruikers moeten ook gegevens kunnen weigeren en de verificatie van agents van specifieke bedrijven of landinstellingen kunnen weigeren, net zoals webbrowsers siteblokkering toestaan. Het oplossen van dit probleem vereist een nieuwe benadering van verificatie tussen agents en bevoegdheden voor gegevenstoegang, zoals de investeringen in cloudverificatie van gebruikers in de vroege jaren van cloud-computing.

AI moet in staat zijn om vooroordelen bij anderen te herkennen, zonder zelf bevooroordeeld te zijn.

Hoewel AI eerlijk en inclusief moet zijn zonder discriminerend te zijn ten aanzien van een bepaalde groep personen of geldige uitkomsten, is een aangeboren begrip van vooroordelen noodzakelijk om dit mogelijk te maken. Zonder te worden getraind om vooroordelen, trolling of sarcasme te herkennen, zal AI worden misleid door personen die in het gunstigste geval een geintje willen uithalen of in het slechtste geval klanten schade willen toebrengen.

Het bereiken van dit niveau van bewustzijn is alleen mogelijk als 'goede mensen AI slechte dingen leren', omdat hiervoor een uitgebreide en meegroeiende kennis van culturele vooroordelen vereist is. AI moet in staat zijn om een gebruiker te herkennen waarmee in het verleden negatieve interacties hebben plaatsgevonden om met de nodige voorzichtigheid te kunnen reageren, vergelijkbaar met de manier waarop ouders hun kinderen leren op hun hoede te zijn voor vreemden. De beste manier om dit aan te pakken, is door het AI-systeem voorzichtig bloot te stellen aan trolls op een gecontroleerde/bewaakte/beperkte manier. Op deze manier kan AI het verschil leren tussen een goedaardige gebruiker die wat wil uitproberen en daadwerkelijk kwaadwillende intenties/trolling. Trolls bieden een waardevolle stroom trainingsgegevens voor AI, waardoor het systeem beter bestand wordt tegen toekomstige aanvallen.

AI moet ook in staat zijn om vooroordelen te herkennen in gegevensset die bij het trainen worden gebruikt. Deze kunnen cultureel of regionaal van aard zijn, met taal die wordt gebruikt door een bepaalde groep mensen, of onderwerpen/meningen die van speciale interesse zijn voor een groep. Net als bij kwaadwillend geïntroduceerde trainingsgegevens, moet AI bestand zijn tegen de effecten van deze gegevens op de eigen afleidingen en deducties. In essentie is dit een complex probleem van invoervalidatie met overeenkomsten met bereikcontrole. In plaats van om te gaan met bufferlengtes en offsets, zijn buffer- en bereikcontroles woorden met een rode vlag uit een breed aanbod van bronnen. De gespreksgeschiedenis en de context waarin woorden worden gebruikt, zijn ook belangrijk. Net zoals defense-in-depth-practices worden gebruikt om lagen van beveiliging over de front-end van een traditionele webservice-API te leggen, moeten er meerdere beveiligingslagen worden gebruikt voor de herkenning en het voorkomen van vooroordelen.

Machine Learning-algoritmen moeten in staat zijn om met kwaadwillende bedoelingen geïntroduceerde gegevens te onderscheiden van goedaardige 'Black Swan'-gebeurtenissen

Er zijn verschillende whitepapers gepubliceerd over de theoretische mogelijkheid van manipulatie van ML-model/-classificatie en extractie/diefstal van services waarbij aanvallers toegang hebben tot zowel de set met trainingsgegevens als een goed begrip van het gebruikte model [2, 3, 6, 7]. Het overkoepelende probleem hier is dat alle ML-classificaties kunnen worden misleid door een aanvaller die controle heeft over de set met trainingsgegevens. Aanvallers hoeven niet eens de mogelijkheid te hebben om bestaande trainingsgegevens aan te passen, aangezien het voldoende is om gegevens toe te voegen aan de set en ervoor te zorgen dat deze 'vertrouwd' worden door misbruik te maken van het feit dat de ML-classificatie kwaadaardige gegevens niet kan onderscheiden van gegevens die met een reden afwijkend zijn.

Dit probleem met de toeleveringsketen van de trainingsgegevens brengt ons bij het concept van 'beslissingsintegriteit'; de mogelijkheid om kwaadwillend geïntroduceerde trainingsgegevens of gebruikersinvoer te identificeren en weigeren voordat deze een negatieve invloed hebben op het classificatiegedrag. De logica hierachter is dat er met betrouwbare trainingsgegevens een grotere kans is dat betrouwbare resultaten/beslissingen worden gegenereerd. Hoewel het nog steeds cruciaal is om te trainen op onbetrouwbare gegevens om hiertegen bestand te zijn, moet de kwaadaardige aard van die gegevens worden geanalyseerd voordat ze deel uitmaken van een set met trainingsgegevens met zeer hoge betrouwbaarheid. Zonder dergelijke maatregelen kan AI ertoe worden verleid om overtrokken te reageren op trolling en de toegang tot de service te weigeren aan legitieme gebruikers.

Dit is met name een probleem wanneer leeralgoritmen zonder toezicht worden getraind met behulp van niet-gecureerde of niet-vertrouwde gegevenssets. Dit betekent dat aanvallers alle mogelijke gegevens kunnen introduceren, op voorwaarde dat de indeling correct is en het algoritme wordt getraind op deze gegevens. De gegevens van de aanvaller worden dan net zo vertrouwd als de rest van de trainingsset. Als de aanvaller voldoende zorgvuldig samengestelde invoer aan de set toevoegt, verliest het trainingsalgoritme het vermogen om ruis en afwijkingen te onderscheiden van gegevens met een hoge betrouwbaarheid.

Als een voorbeeld van deze bedreiging nemen we een database van stopborden van over de hele wereld, in elke mogelijke taal. Een dergelijke gegevensset is zeer lastig te cureren vanwege het aantal betrokken afbeeldingen en talen. Kwaadwillende bijdragen aan die gegevensset zouden waarschijnlijk niet worden opgemerkt tot het moment dat zelfrijdende auto's stopborden niet meer herkennen. Oplossingen voor gegevenstolerantie en beslissingsintegriteit moeten hier in combinatie worden gebruikt om de schade te identificeren en repareren die het gevolg is van kwaadaardige gegevens om te voorkomen dat deze een integraal onderdeel van het leermodel gaan vormen.

AI moet beschikken over ingebouwde forensische gegevens en registratie van beveiligingsgebeurtenissen om transparantie en aansprakelijkheid te bieden

AI zal uiteindelijk in staat zijn om in een professionele hoedanigheid als een agent namens ons op te treden en ons te helpen bij het nemen van belangrijke beslissingen. Een voorbeeld hiervan is een AI-systeem dat helpt bij de verwerking van financiële transacties. Als het systeem zou worden misbruikt, en transacties op enige manier zouden worden gemanipuleerd, kunnen de gevolgen variëren van incidenteel tot systeembreed. In belangrijke scenario's vereist AI de juiste forensische gegevens en registratie van beveiligingsgebeurtenissen om integriteit, transparantie, aansprakelijkheid en, in sommige gevallen, bewijs te leveren als er sprake is van mogelijke civiele of strafrechtelijke aansprakelijkheid.

Voor essentiële AI-services zijn voorzieningen voor controle/gebeurtenistracering op algoritmeniveau nodig zodat ontwikkelaars de vastgelegde status van specifieke classificaties kunnen onderzoeken die mogelijk hebben geleid tot een onnauwkeurige beslissing. Deze mogelijkheid is nodig in de hele branche om de juistheid en transparantie van door AI gegenereerde beslissingen te bewijzen wanneer deze in twijfel worden getrokken.

Voorzieningen voor het traceren van gebeurtenissen kunnen worden ingevuld via de correlatie van basisgegevens voor het nemen van beslissingen, zoals:

  1. Het tijdsblok waarin de laatste trainingsgebeurtenis zich heeft voorgedaan

  2. Het tijdstempel van de meest recente invoer in de gegevensset waarop is getraind

  3. Wegingen en vertrouwensniveaus van belangrijke classificaties die worden gebruikt voor het nemen van belangrijke beslissingen

  4. De classificaties of onderdelen die betrokken zijn bij de beslissing

  5. De uiteindelijke invloedrijke beslissing die is genomen door het algoritme

Dergelijke tracering is overkill voor het merendeel van besluitvorming met behulp van een algoritme. Als u echter de mogelijkheid hebt om de gegevenspunten en metagegevens van een algoritme aan te geven die hebben geleid tot specifieke resultaten, is dat een groot voordeel bij het nemen van zeer belangrijke beslissingen. Dergelijke mogelijkheden tonen niet alleen de betrouwbaarheid en de integriteit aan doordat het algoritme kan 'laten zien hoe het werkt', maar deze gegevens kunnen ook worden gebruikt voor fine-tuning.

Een andere forensische functie die nodig is in AI/ML is de mogelijkheid om manipulatie te detecteren. Net zo als we willen dat ons AI-systeem vooroordelen herkent en hier niet vatbaar voor is, hebben we forensische mogelijkheden nodig die onze technici kunnen helpen bij het detecteren en reageren op dergelijke aanvallen. Deze forensische mogelijkheden zullen van nog meer waarde zijn als ze worden gecombineerd met technieken voor gegevensvisualisatie [11], waardoor we nog effectievere resultaten kunnen verkrijgen door het controleren, debuggen en afstemmen van algoritmen.

AI moet gevoelige gegevens beveiligen, zelfs als mensen dat niet doen

Rijke ervaringen vereisen rijke gegevens. Mensen leveren al enorme hoeveelheden gegevens aan waarop ML kan worden getraind. Deze variëren van de inhoud van wachtrijen voor het streamen van alledaagse videobeelden tot trends in creditcardaankopen/transactiegeschiedenissen die worden gebruikt om fraude op te sporen. AI moet een zekere mate van discretie toepassen als het gaat om het afhandelen van gebruikersgegevens, waarbij deze altijd moeten worden beveiligd, zelfs wanneer de gegevens vrijwillig worden aangeboden door een ruimhartig publiek.

Aangezien een AI-systeem een geverifieerde groep van 'peers' kan hebben waarmee wordt gesproken om complexe taken uit te voeren, moet ook het belang worden onderkend van het beperken van de gegevens die worden gedeeld met deze peers.

Vroege waarnemingen met betrekking tot AI en beveiligingsproblemen

Ondanks de opkomende aard van dit project zijn we van mening dat het bewijs dat tot heden is verzameld, aantoont dat nader onderzoek van elk van de onderstaande gebieden essentieel is om onze branche te verrijken met betrouwbaardere en veiligere AI/ML-producten/-services. Hieronder ziet u onze vroege waarnemingen en gedachten over wat we graag zien gebeuren in dit domein.

  1. Ai/ML-gerichte penetratietests en beveiligingsbeoordelingsinstanties kunnen worden opgezet om ervoor te zorgen dat onze toekomstige AI onze waarden deelt en overeenkomt met de Asilomar AI-principes.

    1. Een dergelijke instantie kan ook tools en frameworks ontwikkelen die binnen de gehele branche worden ingezet om services op basis van AI/ML te beveiligen.
    2. Na verloop van tijd zal deze expertise organisch groeien binnen de engineering-groepen, net zoals dat het geval was bij de expertise in traditionele beveiliging gedurende de afgelopen tien jaar.
  2. Er kan training worden ontwikkeld die ondernemingen helpt bij het realiseren van doelen zoals het democratiseren van AI en het tegelijkertijd oplossen van de problemen die in dit document aan bod komen.

    1. Specifieke beveiligingstraining voor AI betekent dat technici zich bewust zijn van de risico's voor hun AI-systeem en de resources die ze tot hun beschikking hebben. Dit materiaal moet worden aangeboden in combinatie met actuele trainingen over het beveiligen van klantgegevens.
    2. Dit is mogelijk zonder dat elke gegevenswetenschapper verplicht moet worden omgeschoold tot beveiligingsexpert. De focus moet liggen op het benadrukken aan ontwikkelaars van het belang van de concepten van tolerantie en discretie zoals deze gelden voor hun gebruiksscenario's van AI.
    3. Ontwikkelaars moeten een goed beeld hebben van de veilige 'bouwstenen' die worden hergebruikt binnen de onderneming. Er moet de nadruk worden gelegd op fouttolerante ontwerpen met subsystemen die eenvoudig kunnen worden uitgeschakeld (denk aan afbeeldingsprocessors en tekstparsers).
  3. ML-classificaties en hun onderliggende algoritmen kunnen worden beveiligd en geschikt worden gemaakt voor het detecteren van kwaadaardige trainingsgegevens zonder dat deze geldige trainingsgegevens verontreinigen die in gebruik zijn of de resultaten scheeftrekken.

    1. Technieken zoals Reject on Negative Input [6] vereisen onderzoekscycli voor nadere bestudering.

    2. Dit werk vereist wiskundige verificatie, proof-of-concept in code en testen op zowel kwaadwillende als onschadelijke gegevens die afwijken van de norm.

    3. Menselijke spotcontrole/toezicht kan hier nuttig zijn, met name waar statistische afwijkingen aanwezig zijn.

    4. Er kunnen 'toezichthoudende classificaties' worden ontwikkeld om een meer universeel begrip van bedreigingen te hebben tussen verschillende AI-systemen. Hierdoor wordt de beveiliging van het systeem enorm verbeterd omdat de aanvaller niet meer de mogelijkheid heeft om één bepaald model uit te filteren.

    5. AI-systemen kunnen worden gekoppeld om bedreigingen in gekoppelde systemen te identificeren.

  4. Er kan een centrale bibliotheek met controleactiviteiten/forensische gegevens voor ML worden opgezet die als norm fungeert voor de transparantie en betrouwbaarheid van AI.

    1. Er kunnen ook querymogelijkheden worden gebouwd voor het controleren en reconstrueren van beslissingen door AI met grote bedrijfsimpact.
  5. Het taalgebruik van bepaalde tegenstanders in verschillende culturele groepen en op social media kan continu worden geïnventariseerd en geanalyseerd door AI om trolling, sarcasme, etc. te kunnen detecteren en verwerken.

    1. AI-systemen moeten tolerant zijn ten aanzien van allerlei soorten taalgebruik, of dit nu technisch of regionaal is of specifiek geldt voor een bepaald forum.

    2. Deze kennis kan ook worden gebruikt in inhoudsfiltering/labeling/blokkerende automatisering om problemen met schaalbaarheid van moderatoren op te lossen.

    3. Deze algemene database met termen kan worden gehost in ontwikkelingsbibliotheken of zelfs beschikbaar worden gemaakt via cloudservice-API's voor hergebruik door verschillende API's, zodat nieuwe AIs profiteren van de gecombineerde wijsheid van oudere.

  6. Er kan een 'Machine Learning Fuzzing Framework' worden opgezet waarmee technici verschillende soorten aanvallen kunnen injecteren in trainingssets voor testdoeleinden om deze te laten evalueren door AI.

    1. Dit kan niet alleen voor bepaalde taalvarianten, maar ook voor afbeeldingen, spraak en gebaren, en zelfs voor permutaties van deze gegevenstypen.

Conclusie

De Asilomar AI Principles illustreren de complexiteit van het leveren van AI op een manier die uitsluitend positief is voor de mensheid. Toekomstige AI-systemen zullen moeten samenwerken met andere AI-systemen om rijke en interessante gebruikerservaringen te presenteren. Dit betekent dat het simpelweg onvoldoende is als Microsoft AI vanuit beveiligingsperspectief 'goed op de rails heeft'. De hele wereld zal dit moeten doen. We hebben afstemming en samenwerking nodig binnen de branche, met een betere zichtbaarheid van de problemen die in dit document aan de orde zijn geweest, vergelijkbaar met onze wereldwijze commitment voor een Verdrag van Genève voor de digitale industrie [9]. Door oplossingen te zoeken voor de hier beschreven problemen, kunnen we een begin maken om samen met onze klanten en branchepartners een traject te bewandelen waar AI echt is gedemocratiseerd en een bijdrage levert aan de intelligentie van de mensheid als geheel.

Bibliografie

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] Power Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart,Machine Learning-modellen stelen via voorspellings-API's

[3] Ian GoodFellow, Nicolas Papernot, Sandy Jing, Yan Duan, Pieter Abbeel en Jack Clark:Machine Learning aanvallen met adversarial voorbeelden

[4] Satya Nadella:The Partnership of the Future

[5] Claburn, Thomas:Google's troll-destroying AI kan niet omgaan met typfouten

[6] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar:The security of machine learning

[7] Wolchover, Natalie:This Artificial Intelligence Pioneer has a few concerns

[8] Conn, Ariel:How Do We Align Artificial Intelligence with Human Values?

[9] Smith, Brad:The need for urgent collective action to keep people safe online: Lessons from last week's cyberattack

[10] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenczhou Zhou:Hidden Voice Commands

[11] Fernanda Viégas,Martin, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research:Big Picture