Identifiera säkerhetsfelrapporter enbart baserat på rapportrubriker och bullriga data
| CELA Data Science Microsoft |
Kundsäkerhet och förtroende Microsoft |
Sammandrag – Att identifiera säkerhetsfelrapporter (SBR-rapporter) är ett viktigt steg i livscykeln för programvaruutveckling. I övervakade metoder för maskininlärning är det vanligt att anta att hela felrapporter finns tillgängliga för utbildning och att deras etiketter är brusfria. Efter vår kunskap är det här den första undersökningen som visar att korrekt etikettförutsägelse är möjlig för SBR även om enbart rubriken är tillgänglig och i närvaro av etikettbrus.
Indexvillkor – Machine Learning, feletikettering, brus, felrapport av säkerhetsfel, feldatabaser
I. INTRODUKTION
Att identifiera säkerhetsproblem bland rapporterade buggar är ett brådskande behov hos olika team för programvaruutveckling, som sådana problem, för att få mer snabba korrigeringar för att uppfylla efterlevnadskraven och säkerställa integriteten för programvaran och kunddata.
Maskininlärning och artificiell intelligens-verktyg lovar att göra programvaruutvecklingen snabbare, agile och korrekt. Flera forskare har använt maskininlärning för problemet med att identifiera säkerhetsbuggar [2], [7], [8], [18]. I tidigare publicerade studier antas att hela felrapporten är tillgänglig för utbildning och poängsättning av en maskininlärningsmodell. Så är inte fallet nödvändigtvis. I vissa fall kan inte hela felrapporten göras tillgänglig. Felrapporten kan till exempel innehålla lösenord, personlig information (PII) eller andra typer av känslig information – ett fall vi för närvarande befinner oss i Microsoft. Därför är det viktigt att fastställa hur bra säkerhetsfelidentifiering kan utföras med mindre information, till exempel när det bara finns en rubrik för felrapporten.
Dessutom innehåller felposter ofta feletiketterade poster [7]: programrapporter som inte är säkerhetsrelaterade och klassificeras som säkerhetsrelaterade och vice versa. Det finns flera orsaker till att feletiketter visas, allt från utvecklingsteamets brist på kunskaper om säkerhet, till fnacke av vissa problem, t.ex. att buggar som inte är säkerhetskontroller kan utnyttjas på ett indirekt sätt som orsakar säkerhetsriskerna. Det här är ett allvarligt problem eftersom felstavningen av SBR gör att säkerhetsexperter måste granska feldatabasen manuellt i ett dyrt och tidskrävande arbete. Att förstå hur brus påverkar olika klassificerare och hur robusta (eller tillförlitliga) olika tekniker för maskininlärning är i närvaro av datauppsättningar och är ett problem som måste åtgärdas för att automatisk klassificering ska kunna användas för programvaruteknik.
Preliminärt arbete förstärker att lagringsplatsen är i inbyggd bullrig, och att bruset kan ha en negativ effekt på klassificerare för maskininlärningsprestanda [7]. Det saknas dock en systematiskt och kvantitativa studie om hur olika nivåer och typer av brus påverkar prestandan för olika övervakade maskininlärningsalgoritmer för problemet med att identifiera säkerhetsfelrapporter (SRBs).
I den här undersökningen visar vi att klassificering av felrapporter kan utföras även när enbart rubriken är tillgänglig för utbildning och poängsättning. Efter vår kunskap är det här det första du kan göra. Vi tillhandahåller dessutom den första systematiskt studie av effekten av brus i klassificering av felrapporter. Vi gör en komparativ studie av robusthet för tre maskininlärningstekniker (logistisk regression, naïve Bayes och AdaBoost) mot klassoberoende brus.
Även om det finns vissa analysmodeller som fångar den allmänna störande effekten av brus för några enkla klassificerare [5], [6], ger dessa resultat inte några specifika gränser för effekten av bruset på precisionen och är endast giltiga för en viss maskininlärningsteknik. En korrekt analys av effekten av brus i maskininlärningsmodeller utförs vanligtvis genom att köra beräkningsexperiment. Sådana analyser har gjorts för flera scenarier allt från programvarumåttdata [4] till satellitbildklassificering [13] och medicinska data [12]. Men dessa resultat kan inte översättas till vårt specifika problem, på grund av dess stora beroende av typ av datauppsättningar och underliggande klassificeringsproblem. Vi har efter bästa kännedom inte publicerat resultat på problemet med särskilt bullriga datauppsättningar på klassificering av säkerhetsfelrapporter.
VÅRA FORSKNINGS BIDRAG:
Vi utbildar klassificerare för identifiering av säkerhetsfelrapporter (SBR) enbart baserat på rapporternas rubrik. Efter vår kunskap är det här det första du kan göra. Tidigare arbeten använde antingen den fullständiga felrapporten eller förbättrade felrapporten med ytterligare kompletterande funktioner. Att klassificera buggar som bara är baserat på panelen är särskilt relevant när fullständiga felrapporter inte kan göras tillgängliga på grund av sekretessproblem. Det är till exempel ökänt när det gäller felrapporter som innehåller lösenord och andra känsliga data.
Vi tillhandahåller också den första systematiskt studie av etikettbruss för olika maskininlärningsmodeller och tekniker som används för automatisk klassificering av SBR-regler. Vi gör en komparativ studie av robusthet för tre distinkta maskininlärningstekniker (logistisk regression, naïve Bayes och AdaBoost) mot klassberoende och klassoberoende brus.
Resten av papperet presenteras på följande sätt: I avsnitt II presenterar vi några av de tidigare verken i den nyan. I avsnitt III beskriver vi datauppsättningen och hur data förbearbetas. Metodiken beskrivs i avsnitt IV och resultatet av våra experiment som analyseras i avsnitt V. Slutligen presenteras våra beslut och framtida arbeten i VI.
II. TIDIGARE VERK
MASKININLÄRNINGSPROGRAM PÅ LAGRINGSPLATSEN FÖR FEL.
Det finns ett omfattande försök att tillämpa textnäring, naturlig språkbearbetning och maskininlärning på buggens lagringsdatabaser i ett försök att automatisera arbetsbördor, t.ex. identifiering av säkerhetsfel [2], [7], [8], [18], identifiering av programdubbletter [3], buggtriangulering [1], [11] för att nämna några program. Under idealiska idealiska tidpunkter för maskininlärning (ML) och naturlig språkbearbetning minskar potentiellt det manuella arbete som krävs för att curate bug databases, förkorta den tid som krävs för att utföra dessa uppgifter och kan öka tillförlitligheten i resultaten.
I [7] föreslår författarna en modell för naturligt språk för att automatisera klassificeringen av SBR baserat på beskrivningen av buggen. Författarna extraherar ett ordval från all buggbeskrivning i uppsättningen med utbildningsdata och manuellt curate det i tre listor med ord: relevanta ord, stoppa ord (vanliga ord som verkar irrelevanta för klassificering) och synonymer. De jämför prestandan hos säkerhetsfelidentifierarens utbildning om data som utvärderas av säkerhetstekniker och en klassificerare har utbildning i data som har etiketterats av felrapporteringare i allmänhet. Även om modellen är tydligt mer effektiv när säkerhetstekniker har utbildning i data, baseras den föreslagna modellen på en manuellt härledd ordlista, som gör den beroende av den mänskliga läroplanen. Det finns dessutom ingen analys av hur olika nivåer av brus påverkar deras modell, hur olika klassificerare reagerar på brus och om brus i endera klassen påverkar prestandan på ett annat sätt.
Zou et. al [18] använda flera typer av information som finns i en felrapport som omfattar icke-textbaserade fält i en felrapport (metafunktioner, t.ex. tid, allvarlighetsgrad och prioritet) och textinnehållet i en felrapport (textbaserade funktioner, det vill säga texten i sammanfattningsfält). Baserat på dessa funktioner skapar de en modell för att automatiskt identifiera SBR-utbildningarna via teknik för naturlig språkbearbetning och maskininlärning. I [8] utför författarna en liknande analys, men de jämför också prestandan hos övervakade och ej övervakade maskininlärningstekniker och kan se hur mycket data som behövs för att utbilda sina modeller.
I [2] utforskar författarna även olika tekniker för maskininlärning för att klassificera buggar som SBR- eller NSBR-rapporter (buggrapport utan säkerhet) baserat på beskrivningarna. De föreslår en pipeline för databearbetning och modellering baserat på TFIDF. De jämför den föreslagna pipelinen med en modell baserad på en bag of-words och naïve Bayes. Wijayasekara et al. [16] använde även teknik för textnäring för att generera funktionsvektor för varje programrapport baserat på vanliga ord för att identifiera HIB-buggar (Hidden Impact Bugs). Yang et al. [17] påstådda att identifiera programrapporter med hög effekt (till exempel SBRs) med hjälp av term frequency (TF) och naïve Bayes. I [9] föreslår författarna en modell för att förutsäga hur allvarlig ett fel är.
ETIKETTBRUS
Problemet med hantering av datauppsättningar med etikettbrus har i stor utsträckning varit en fråga. Frenay och Verleysen föreslår en taxonomi för etikettbrus i [6] för att skilja på olika typer av bullrig etikett. Författarna föreslår tre olika typer av brus: etikettbrus som uppstår oberoende av den sanna klassen och värdena för instansfunktionerna. etikettbrus som bara beror på den sanna etiketten. och etikettbrus där sannolikheten för felstavning också beror på funktionsvärdena. I vårt arbete undersöker vi de två första typerna av brus. Ur ett teoretiskt perspektiv minskar etikettbrus normalt modellens prestanda [10] utom i vissa fall [14]. I allmänhet förlitar sig robusta metoder på överpassande undvikande för att hantera etikettbrus [15]. En studie av bruseffekter i klassificering har gjorts tidigare i många områden, till exempel klassificering av satellitbild [13], klassificering av programvarukvalitet [4] och klassificering av medicinska domäner [12]. Efter bästa kunskaper finns det inte någon publicerad studie om exakt mätbara effekter av bullriga etiketter i problemet med klassificering av SBR. I det här scenariot har det exakta förhållandet mellan brusnivåer, brustyper och prestandaförsämring inte fastställts. Det kan dessutom vara värt att förstå hur olika klassificerare beter sig i närvaro av brus. I allmänhet är vi omedvetna om något arbete som systemmässigt beskriver effekten av bullriga datauppsättningar på prestanda för olika maskininlärningsalgoritmer i samband med programfelrapporter.
III. BESKRIVNING AV DATAUPPSÄTTNING
Våra datauppsättning består av 1 073 149 felrubriker, varav 552 073 motsvarar SBR och 521 076 till NSBR. Data har samlats in från olika team i Microsoft under åren 2015, 2016, 2017 och 2018. Alla etiketter införskeds via signaturbaserade system för buggverifiering eller av människor. Buggtitlar i vår datauppsättning är mycket korta texter, som innehåller cirka 10 ord, med en översikt över problemet.
A. Data förbearbetning Vi parsar varje buggrubrik med hjälp av blanksteg, vilket resulterar i en lista med token. Vi bearbetar varje lista med token enligt följande:
Ta bort alla token som är filsökvägar
Delade token där följande symboler finns: { , (, ), -, }, {, [, ], }
Ta bort stoppord , token som endast består av numeriska tecken och token som förekommer färre än 5 gånger i hela corpus.
IV. METODIK
Processen för utbildning av våra maskininlärningsmodeller består av två huvudsteg: koda data till funktionsvektorer och utbildning som övervakas av maskininlärningsklassare.
A. Feature Vectors and Machine Learning Techniques
I den första delen ingår kodning av data i funktionsvektorer med termen frekvensinverseringsalgoritm för dokument (TF-IDF), som används i [2]. TF-IDF är en informationshämtningsteknik som väger en frekvens (TF) och dess inversa dokumentfrekvens (IDF). Varje ord eller term har sina respektive TF- och IDF-poäng. Med TF-IDF-algoritmen tilldelas ordet prioritet baserat på hur många gånger det förekommer i dokumentet, och än viktigare är att det kontrollerar hur relevant nyckelordet är i samlingen med rubriker i datauppsättningen. Vi har utbildat och jämfört tre klassificeringstekniker: naïve Bayes (NB), främjat beslutsträd (AdaBoost) och logistisk regression (NB). Vi har valt de här teknikerna eftersom de har visats ha bra prestanda för relaterad uppgift att identifiera säkerhetsfelrapporter baserade på hela rapporten i samband med aktiviteten. Resultaten bekräftades i en preliminär analys där de här tre klassificerarna utformade stöd för vektordatorer och slumpmässiga skogar. I våra experiment använder vi kodningsbiblioteket för kodning och modellutbildning.
B. Typer av brus
Det brus som saknas i det här arbetet refererar till brus i klassetiketten i utbildningsdata. I närvaro av sådant brus, vilket är ostörande, försämras utbildningsprocessen och den resulterande modellen av felstavade exempel. Vi analyserar effekterna av olika brusnivåer som tillämpas på klassinformationen. Olika typer av etikettbrus har diskuterats tidigare under tiden med hjälp av olika terminologier. I vårt arbete analyserar vi effekterna av två olika etikettbrus i våra klassificerare: klassoberoende etikettbrus, som introduceras genom att slumpmässigt välja instanser och vända etiketten. och klassberoende brus, där det är olika risk för att det är bullrigt i klasser.
a) Klassoberoende brus: Klassoberoende brus refererar till brus som uppkommer oberoende av den verkliga klassen för instanserna. I den här typen av brus är sannolikheten för att feletikettera pbr densamma för alla förekomster i datauppsättningen. Vi introducerar klassoberoende brus i våra datauppsättningar genom att vända varje etikett i våra data slumpmässigt med sannolikhet pbr.
b) Klassberoende brus: Klassberoende brus refererar till brus som beror på den verkliga klassen för instanserna. I den här typen av brus är sannolikheten för felstavning i klassen SYL psyl och sannolikheten för stavfel i klass NS UPP pns an. Vi presenterar klassberoende brus i datauppsättningen genom att vända varje post i datauppsättningen där den sanna etiketten är S BR med sannolikhet psbra. På liknande sätt vänder vi på klassetiketten för NSLANDE-instanser med sannolikhet pnsndi .
c) Brus av enstakaklass: Brus för enstaka klass är ett specialfall av klassberoende brus, där pnsndi = 0 och psbra 0. Observera att för klassoberoende brus har vi ps anteckning = pns br = pbr.
C. Generering av brus
Experimenten undersöker effekterna av olika brustyper och -nivåer i utbildningen av SNDI-klassificerare. I våra experiment ställer vi in 25 % av datauppsättningen som testdata, 10 % som validering och 65 % som utbildningsdata.
Vi lägger till brus i uppsättningar med utbildnings- och valideringsdata för olika nivåer av pbr,ps widget och pns widget. Vi gör inga ändringar i testdatauppsättningen. De olika brusnivåer som används är P = {0,05 × i|0 < i < 10}.
I klassoberoende brusexperiment gör vi följande för pbr ∈ P:
Generera brus för uppsättningar av utbildnings- och valideringsdata.
Utbilda logistisk regression, naïve Bayes och AdaBoost-modeller med utbildningsdatauppsättning (med brus); * Finjustera modeller med verifieringsdatauppsättning (med brus)
Testmodeller som använder testdatauppsättning (bruslösa).
I klassberoende brusexperiment, för psperi ∈ P och pnsperi ∈ P gör vi följande för alla kombinationer av psperi och pnsperi:
Generera brus för uppsättningar av utbildnings- och valideringsdata.
Utbilda logistisk regression, naïve Bayes och AdaBoost-modeller med utbildningsdatauppsättning (med brus);
Finjustera modeller med verifieringsdatauppsättning (med brus)
Testmodeller som använder testdatauppsättning (bruslösa).
V. EXPERIMENTRESULTAT
I det här avsnittet analyseras resultatet av experiment enligt den metodik som beskrivs i avsnitt IV.
a)Modellera prestanda utan brus i uppsättningen med utbildningsdata: Ett av bidragen i det här dokumentet är förslaget från en maskininlärningsmodell för att identifiera säkerhetsbuggar genom att bara använda rubriken på buggen som data för beslut. På så sätt kan utbildning av maskininlärningsmodeller även när utvecklingsteam inte vill dela hela felrapporter på grund av närvaro av känsliga data. Vi jämför prestandan hos tre maskininlärningsmodeller när de endast har utbildning i programtitlar.
Logistisk regressionsmodell är den bästa för att klassificera. Det är klassificeraren med det högsta AUC-värdet (0,9826, återkallelsen av 0,9353 för ett FPR-värde på 0,0735). naïve Bayes-klassificeraren presenterar något lägre prestanda än logistisk regressionsidentifierare, med AUC av 0,9779 och en återkallelse av 0,9189 för ett FPR på 0,0769. AdaBoost-klassificeraren har en prestanda för en höglägesjämförelse jämfört med de två tidigare omnämnda klassificerarna. Den ger en AUC med 0,9143 och en återkallelse av 0,7018 för en 0,0774-FPR. Området under ROC-kurvan (AUC) är ett bra mått för att jämföra prestanda för flera modeller, eftersom det sammanfattar TPR-relationen i ett enda värde jämfört med FPR-relationen. I den efterföljande analysen begränsar vi vår komparativ analys till AUC-värden.

A. Class Noise: single-class
En kan föreställa dig ett scenario där alla buggar tilldelas till klass NS UPP som standard och en bugg kommer bara att tilldelas till klassen SGAR om det finns en säkerhetsexpert som granskar feldatabasen. Det här scenariot representeras i den experimentella inställningen av enstaka klass, där vi utgår från att pns div = 0 och 0 p sdiv 0,5.

Från tabell II ser vi ett mycket litet inflytande i AUC för alla tre klassificerare. AUC-ROC från en modell som tränats på psyck = 0 jämfört med en AUC-ROC av modell där pscy = 0,25 skiljer sig från 0,003 för logistisk regression, 0,006 för naïve Bayes och 0,006 för AdaBoost. När det gäller psyck = 0,50 skiljer sig AUC-måttet för alla modeller från modellen med pslj = 0 med 0,007 för logistisk regression, 0,011 för naïve Bayes och 0,010 för AdaBoost. Logistisk regressionsklassifierare som tränats på förekomsten av brus av en enstaka klass presenterar den minsta variationen i sitt AUC-mått, dvs. ett mer robust beteende jämfört med våra naïve Bayes- och AdaBoost-klassificerare.
B. Klassbrus: klassoberoende
Vi jämför prestandan hos våra tre klassificerare för de fall där utbildningarna är skadade av ett klassoberoende brus. Vi mäter AUC för varje modell som tränats på olika nivåer av pbr i utbildningsdata.

I tabell III ser vi en minskning av AUC-ROC för varje brussteg i experimentet. AUC-ROC mäts från en modell som tränats på brusfria data jämfört med en AUC-ROC av modell som tränats på klassoberoende brus med pbr = 0,25 skiljer sig med 0,011 för logistisk regression, 0,008 för naïve Bayes och 0,0038 för AdaBoost. Vi observerar att etikettbrus inte påverkar AUC för naïve Bayes och AdaBoost-klassificerare betydligt när brusnivåer är lägre än 40 %. Å andra sidan får logistisk regressionsidentifierare en inverkan i AUC-mått för etikettbrusnivåer över 30 %.

Bild 1. Variationen i AUC-ROC i klassoberoende brus. För en brusnivå pbr =0,5 fungerar klassificeraren som en slumpmässig klassificerare, dvs. AUC≈0,5. Vi kan dock observera att för lägre brusnivåer (pbr ≤0.30) presenterar logistisk regressions learner bättre prestanda jämfört med de andra två modellerna. Men för 0,35≤ pbr ≤0.45 naïve Bayes-läraren presenterar bättre AUCROC-mått.
C. Klassbrus: klassberoende
I den slutliga uppsättningen experiment tar vi hänsyn till ett scenario där olika klasser innehåller olika brusnivåer, det vill säga psari ≠ pnsminut. Vi ökar programmässigtmed 0,05 i utbildningsdata och observera ändringen i beteendet hos de tre klassificerarna.



TabellERNA IV, V, VI visar variationen i AUC eftersom bruset ökar i olika nivåer i varje klass för logistisk regression i Tabell IV, för naïve Bayes i Tabell V och för AdaBoost i Tabell VI. För alla klassificerare märker vi en påverkan i AUC-mått när båda klasserna innehåller en brusnivå över 30 %. naïve Bayes beter sig mot robust. Effekterna på AUC är mycket liten även om 50 % av etiketten i den positiva klassen vänds, förutsatt att den negativa klassen innehåller 30 % av bullrig etikett eller mindre. I det här fallet är släppet i AUC 0,03. AdaBoost visade det mest robusta beteendet för alla tre klassificerare. En betydande förändring i AUC kommer endast att ske för brusnivåer som är större än 45 % i båda klasserna. I det fallet börjar vi observera en AUC som är större än 0,02.
D. Om det finns kvarstående brus i den ursprungliga datauppsättningen
Vår datauppsättning har etiketterats av signaturbaserade automatiserade system och av experter. Dessutom har alla buggar rapporter granskats och stängts av experter. Vi räknar med att mängden brus i datamängden är minimal och inte statistiskt signifikant, men förekomsten av restbrus upphäver inte våra beslut. För att illustrera förutsätter vi att den ursprungliga datauppsättningen skadas av ett klassoberoende brus som är lika med 0 p 1/2 oberoende och identiskt distribuerat << (i.i.d) för varje post.
Om vi, utöver det ursprungliga bruset, lägger till ett klassoberoende brus med sannolikhet pbr i.i.d, blir det resulterande bruset per post p∗ = p(1 − pbr )+(1 − p)pbr. För 0 < p,p< 1/2 har vi att det faktiska bruset per etikett p∗ är strikt större än det brus vi artificiellt lägger till < i datauppsättningen p< Därför skulle prestandan för våra klassificerare vara ännu bättre om de hade fått utbildning om en helt brusfri datauppsättning (p = 0) från början. Som sammanfattning innebär förekomsten av restbrus i den faktiska datauppsättningen att motståndskraft mot brus för våra klassificerare är bättre än det som visas i det här resultatet. Om restbrusen i datauppsättningen dessutom är statistiskt relevant blir AUC för våra klassificerare 0,5 (en slumpmässig gissning) för en brusnivå som strikt understiger 0,5. Vi observerar inte sådant beteende i våra resultat.
VI. BESLUT OCH FRAMTIDA ARBETEN
Vårt bidrag i den här uppsatsen är tvåmappigt.
Först har vi visat att det är genomförbart med klassificering av säkerhetsrapporter enbart baserat på rubriken på felrapporten. Det här är särskilt relevant i scenarier där hela felrapporten inte är tillgänglig på grund av sekretessbegränsningar. I vårt fall innehöll till exempel felrapporter privat information som lösenord och kryptografiska nycklar och var inte tillgängliga för utbildning av klassificerare. Resultatet visar att S FLERA IDENTIFIERINGar kan utföras med hög precision även om endast rapportrubriker är tillgängliga. Vår klassificeringsmodell som utnyttjar en kombination av TF-IDF och logistisk regression utför en AUC av 0,9831.
Sedan har vi analyserat effekten av feletiketterade utbildnings- och valideringsdata. Vi jämförde tre välkända maskininlärningstekniker (naïve Bayes, logistisk regression och AdaBoost) vad gäller deras robusthet mot olika brustyper och brusnivåer. Alla tre klassificerarna är robusta för brus för enskilt klass.. Brus i utbildningsdata har ingen betydande effekt i den resulterande klassificeraren. Minskning av AUC är mycket liten (0,01) för en brusnivå på 50 %. För brus som finns i båda klasserna och är klassoberoende presenterar naïve Bayes- och AdaBoost-modeller betydande variationer i AUC endast när de har utbildning i en datauppsättning med brusnivåer som är större än 40 %.
Slutligen kommer klassberoende brus att avsevärt påverka AUC endast när det finns mer än 35 % brus i båda klasserna. AdaBoost visade mest robusthet. Påverkan på AUC är mycket liten även om den positiva klassen har 50 % av etiketterna bullriga, förutsatt att den negativa klassen innehåller 45 % av bullrig etikett eller mindre. I det här fallet är släppet i AUC mindre än 0,03. Efter bästa kunskaper är det här den första systematiskt studie om effekten av bullriga datauppsättningar för identifiering av säkerhetsfelrapporter.
KOMMANDE ARBETEN
I den här uppsatsen har vi startat en systematiskt studie av effekter av brus i prestanda för maskininlärnings klassificerare för identifiering av säkerhetsbuggar. Det finns flera intressanta problem med det här arbetet, bland annat: man undersöker effekten av bullriga datamängder för att fastställa en säkerhetsfelnivås allvarlighetsnivå. förstå effekten av klass som är beroende av motståndskraften hos modeller med utbildning mot brus förstå effekten av brus som vanligtvis uppförs i datauppsättningen.
REFERENCES
[1] John Anvik, Lyndon Hiew och Gail C Och. Vem ska du åtgärda det här felet? I förhandlingar för den 28:e internationella konferensen om programvaruteknik, sidorna 361–370. ACM, 2006.
[2] Diksha Behl, Sané Handa och Anrora Arora. Ett program för buggnäring för att identifiera och analysera säkerhetsbuggar med naïve bayes och tf-idf. Sidorna 294–299 i Optimering, Reliabilty och Information Technology (ICROIT),internationell konferens 2014 på. IEEE, 2014.
[3] Bettenberg, Raaj Premraj, Thomas Zimmermann och Sunghun Kim. Dubbletter av felrapporter som anses vara skadliga? I programvaruunderhåll, 2008. ICSM 2008. Internationella IEEE-konferenser påsidorna 337–345. IEEE, 2008.
[4] AndresStringleco, Taghi M Khoshgoftaar, Jason Van Hausse och Mobon Bullard. Identifiera elever som är robusta för data av låg kvalitet. I Återanvändning och integrering av information, 2008. IRI 2008. Internationella IEEE-konferenser påsidorna 190–195. IEEE, 2008.
[5] Benoııt Frenay.' Osäkerhet och etikettbrus inom maskininlärning. PhD-uppsatsen, University of Louvain, Louvain-la-Neuve, Belgien, 2013.
[6] Benoııt Frenay och Verleysen. Klassificering i närvaro av etikettbrus: en undersökning. IEEE-transaktioner i neuralanätverk och utbildningssystem , 25(5):845–869, 2014.
[7] Michael Gegick, Rotella Och Tao Xie. Identifiera säkerhetsfelrapporter via textnäring: en fallstudie av industri. På lagringsplatsen för minprogramvara (MSR), 2010, 7:e IEEE-arbetskonferenspå , sidorna 11–20. IEEE, 2010.
[8] Katie Goseva-Popstojanova och Jacob Tyo. Identifiering av säkerhetsrelaterade felrapporter via textnäring med hjälp av övervakad och ej övervakad klassificering. Sidorna 344–355, 2018, i IEEE 2018Internationella konferens om programvarukvalitet, tillförlitlighet och säkerhet (QRS).
[9] TideSsonsson, Hansson, Emanuel Jobber och Accent Goethals. Förutse allvarlighetsgraden för en rapporterad bugg. På lagringsplatsen för minprogramvara (MSR), 2010, 7:e IEEE-arbetskonferenspå , sidorna 1–10. IEEE, 2010.
[10] Naresh Manwani och PS Sastry. Brusintensering under riskminimering. IEEE-transaktioner i cyberntics, 43(3):1146–1151, 2013.
[11] G Gave och D Cubranic. Automatisk buggskriangulering med hjälp av textkategorisering. I conference of the Sixteenth International Conference on Software Engineering Knowledge Engineering. Citeseer, 2004.
[12] Mykola Pechenizkiy, Alexey Tsymbal, Seppo Puuanen och Oleksandr Pechenizkiy. Klassbrus och övervakad utbildning i medicinska domäner: Effekten av extrahering av funktioner. Sidorna 708–713 i null. IEEE, 2006.
[13] Charlotte Pelletier,Bladia Valero, Jordi Inglada, Champions Champion, Marais Sicre och Gerard Ded animera.' Effekten av brus för klassetiketter för klassificeringsprestanda för mappning av landomslag med satellitbildtidsserier. Fjärravkänning ,9(2):173, 2017.
[14] PS Sastry, GD Nagendra och Naresh Manwani. En grupp med kontinuerligaction learning automata för brusinlärning av halvrum. IEEE-transaktioner i system, man och cybernetics, del B (Cybernetics), 40(1):19–28, 2010.
[15] Choh-Man Teng. En jämförelse av tekniker för brushantering. I FLAIRS-konferens, sidorna 269–273, 2001.
[16] Dumidu Wijayasekara, Miless Manic och Miles McQueen. Sårbarhetsidentifiering och -klassificering via buggdatabaser för textnäring. På IEEE:s årliga konferens i IECON 2014–40, sidor 3612–3618. IEEE, 2014.
[17] Xinli Yang, David Lo, Qiao Huang, Xin Xia och Jianling Sun. Automatisk identifiering av programrapporter med hög påverkan som utnyttjar lärstrategier. I Computer Software and Applications Conference (COMPSAC), 2016 IEEE 40th Annual, volume 1, pages 227–232. IEEE, 2016.
[18] Deqing Zou, Zhijun Deng, Zhen Li och Hai Jin. Identifiera säkerhetsfelrapporter automatiskt med flertypsanalys. På den australiensiska konferensen om informationssäkerhet ochsekretess , sidorna 619–633. Springer, 2018.