Identifikace sestav chyb zabezpečení založených výhradně na názvech sestav a hlučných datech
| CELA Data Science Microsoft |
Zabezpečení a důvěryhodnost zákazníků Microsoft |
Abstraktní – Identifikace zpráv o chybách zabezpečení (SBR) je zásadní krok v životním cyklu vývoje softwaru. U přístupů založených na strojovém učení s pod dohledem se obvykle předpokládá, že jsou k dispozici celé sestavy chyb pro školení a že jejich popisky jsou bez šumu. Podle našich nejlepších znalostí je to první studie, která prokáže, že přesné předpovědi štítků jsou možné pro SBR i v případě, že je k dispozici pouze název a za přítomnosti šumu štítků.
Indexové podmínky – Machine Learning, chybně popisků, šum, zpráva o chybách zabezpečení, úložiště chyb
I. ÚVOD
Identifikaci problémů souvisejících se zabezpečením mezi nahlášenou chybou je naléhavá potřeba týmů pro vývoj softwaru, protože takové problémy volají po urychlenějších opravách, aby byly splněny požadavky na dodržování předpisů a aby byla zajištěna integrita softwaru a zákaznických dat.
Nástroje strojového učení a umělé inteligence slíbí, že vývoj softwaru bude rychlejší, agilní a správný. Několik výzkumníků použilo strojové učení k problému identifikace chyb zabezpečení [2], [7], [8], [18]. Předchozí publikované studie předpokládaly, že celá sestava chyb je dostupná pro školení a vyhodnocování modelu strojového učení. Nemusí tomu tak být. Existují situace, kdy není možné k dispozici celou sestavu chyb. Zpráva o chybě může například obsahovat hesla, osobní identifikační údaje (PII) nebo jiné druhy citlivých dat – případ, který momentálně čelíme microsoftu. Proto je důležité zjistit, jak dobře se může identifikace chyb zabezpečení provádět s menšími informacemi, třeba když je k dispozici jenom název sestavy chyb.
Úložiště chyb navíc často obsahují chybně značené položky [7]: sestavy chyb nesouvisely se zabezpečením, které jsou klasifikované jako související se zabezpečením a naopak. Existuje několik důvodů, proč došlo k chybně popiskům, od nedostatku odborných znalostí vývojového týmu v oblasti zabezpečení až po ztuhlost určitých problémů, například to, že chyby nesousedící se zabezpečením se dají zneužít nepřímým způsobem, aby to mohlo mít vliv na zabezpečení. Jedná se o vážný problém, protože nesprávné označení SBR vede k tomu, že odborníci na zabezpečení museli ručně zkontrolovat databázi chyb s nákladnou a časově náročnou snahou. Pochopení toho, jak šum ovlivňuje různé klasifikátory a jak robustní (nebo nestabilní) jsou různé techniky strojového učení v přítomnosti sad dat kontaminovaných různými druhy hluku, je problém, který je nutné vyřešit, aby se automatická klasifikace do praxe softwarového inženýrství přenesla.
Předběžná práce tvrdí, že úložiště chyb jsou vnitřně hlučná a že hluk může mít nepříznivý vliv na klasifikátory strojového učení s výkonem [7]. Chybí ale žádná systematická a kvantitativní studie o tom, jak různé úrovně a typy hluku ovlivňují výkon různých algoritmů strojového učení s dohledem, pokud se týká problému identifikace sestav chyb zabezpečení.
V této studii ukážeme, že klasifikaci chybových sestav je možné provést i v případě, že je k dispozici jenom název pro školení a vyhodnocování. Podle našich nejlepších znalostí je to první práce, která to bude dělat. Kromě toho poskytujeme první systematickou studii o účinku hluku v klasifikaci chybových sestav. Srovnávací studie robustnosti tří technik strojového učení (logistické regrese, naivní Bayes a AdaBoost) proti hluku nezávislému na třídě.
I když existují některé analytické modely, které zachycují obecný vliv hluku pro několik jednoduchých klasifikátorů [5], [6], tyto výsledky nezachycují těsné meze vlivu šumu na přesnost a platí jenom pro konkrétní techniku strojového učení. Přesnou analýzu účinku hluku v modelech strojového učení obvykle provádíte pomocí výpočetních experimentů. Takové analýzy jsme provedli v několika scénářích od dat o měření softwaru [4], klasifikace satelitních obrázků [13] a lékařských dat [12]. Tyto výsledky ale nelze převést na náš konkrétní problém, protože jsou závislé na povaze množin dat a základním klasifikačním problému. Podle našeho nejlepšího vědomí neexistují žádné publikované výsledky na problém s dopadem hlučných sad dat na klasifikaci sestavy chyb zabezpečení.
NAŠE VÝZKUMNÉ PŘÍSPĚVKY:
Klasifikátory trénujeme pro identifikaci zpráv o chybách zabezpečení (SBR) výhradně na základě názvu sestav. Podle našich nejlepších znalostí je to první práce, která to bude dělat. Předchozí práce buď použily úplnou zprávu o chybě, nebo vylepšují sestavu chyb o další doplňkové funkce. Klasifikovat chyby založené výhradně na dlaždici je zvlášť důležité v případě, že úplné zprávy o chybách nelze z důvodu obav o ochranu osobních údajů z důvodu ochrany osobních údajů získat. Je třeba známý případ chybových sestav, které obsahují hesla a jiná citlivá data.
Poskytujeme také první systematickou studii s tolerancí hluku štítků u různých modelů strojového učení a technik používaných pro automatickou klasifikaci SBR. Srovnávací studie robustnosti tří odlišných technik strojového učení (logistické regrese, naivní Bayes a AdaBoost) proti hluku závislému na třídě a třídě nezávislému šumu.
Zbývající část papíru je prezentována takto: V oddílu II uvádíme některá z předchozích děl v literatuře. V části III popisujeme sadu dat a způsob předběžného zpracování dat. Metodologie je popsaná v oddílu IV a výsledky našich experimentů analyzovaných v oddílu V. A konečně, naše závěry a budoucí práce jsou prezentovány ve VI.
II. PŘEDCHOZÍ PRÁCE
MACHINE LEARNING APPLICATIONS TO BUG REPOSITORIES.
Existuje rozsáhlá literatura při používání dolování textu, zpracování přirozeného jazyka a strojového učení v úložištích chyb ve snaze automatizovat namáhavé úkoly, jako je zjišťování chyb zabezpečení [2], [7], [8], [18], identifikace duplicitních chyb [3], zjišťování chyb [1], [11], pro názvy několika aplikací. V ideálním případě může sňatek strojového učení (ML) a zpracování přirozeného jazyka snížit ruční práci, která je nutná k tomu, aby se databáze chyb mohly zkracovat, zkrátit čas potřebný k provedení těchto úkolů a zvýšit spolehlivost výsledků.
V [7] autoři navrhují model přirozeného jazyka, který zautomatizuje klasifikaci SBR na základě popisu chyby. Autoři extrahují slovní zásobu ze všech popisů chyb v sadě školicích dat a ručně ji dají do tří seznamů slov: relevantní slova, zastavte slova (běžná slova, která jsou pro klasifikaci irelevantní) a synonyma. Porovnávají výkon klasifikátoru chyb zabezpečení vyškolených na datech, která vyhodnocují všichni technici zabezpečení, a klasifikátor vyškolený na datech, která byla obecně označená reportéry chyb. I když je jejich model při trénování dat, která prošetřují technici zabezpečení, jasně efektivnější, navržený model je založený na ručně odvozené slovní zásobě, díky které je závislý na lidském kurátorství. Kromě toho neexistuje žádná analýza toho, jak různé úrovně šumu ovlivňují jejich model, jak různé klasifikátory reagují na šum a jestli šum v jedné třídě ovlivňuje výkon jinak.
Zou et. al [18] využívají více typů informací obsažených v sestavě chyb, které zahrnují netextová pole sestavy chyb (meta funkce, například čas, závažnost a prioritu) a textový obsah sestavy chyb (textové funkce, tj. text v souhrnných polích). Na základě těchto funkcí vytvoří model, který automaticky identifikuje SBR pomocí přirozeného zpracování jazyka a technik strojového učení. V [8] autoři provádějí podobnou analýzu, ale navíc porovnávají výkon technik strojového učení pod dohledem a bez dohledu a prostudují si, kolik dat je potřeba k trénování jejich modelů.
V [2] autoři také prozkoumá různé techniky strojového učení a klasifikují chyby jako SBR nebo NSBR (Non-Security Bug Report) na základě jejich popisů. Navrhují kanál pro zpracování dat a školení modelu na základě TFIDF. Porovnávají navrhovaný kanál s modelem založeným na bag-of-words a naivních Bayes. Wijayasekara et al. [16] také používal techniky dolování textu k vygenerování vektoru funkcí každé sestavy chyb na základě častých slov k identifikaci chyb skrytých vlivů. Jang et al. [17] prohlašoval, že pomocí funkce Četnosti termínů (TF) a naivních bayes identifikuje zprávy o chybách s vysokým dopadem (např. zprávy OBR). V [9] autoři navrhují model, který předpovídá závažnost chyby.
ŠUM ŠTÍTKŮ
Problém se sadami dat s šumem štítků se značně prostudoval. Frenay a Verleysen navrhují taxonomii hluku štítků v [6], aby bylo možné rozlišit různé typy hlučných štítků. Autoři navrhují tři různé typy šumu: šum popisku, který se vyskytuje nezávisle na skutečné třídě a hodnotách funkcí instance; šum štítků, který závisí jenom na skutečném štítku; a šum štítků, u kterých pravděpodobnost chyby popisku závisí také na hodnotách funkcí. V naší práci se snažíme prostudovat první dva typy hluku. Z teoretické perspektivy šum štítků obvykle snižuje výkon modelu [10], s výjimkou některých konkrétních případů [14]. Obecně platí, že robustní metody se při zpracování šumu štítků spoléhají na to, že se vyhnou přelévání [15]. V mnoha oblastech, jako je klasifikace satelitního snímku [13], klasifikace kvality softwaru [4] a klasifikace lékařské domény [12] byla provedena studie hluku v klasifikaci. Podle našich nejlepších znalostí neexistují žádné publikované práce, které by prošly přesnou kvantifikací vlivů hlučných štítků v problému klasifikace SBR. V tomto scénáři nebyla stanovena přesná relace mezi úrovněmi hluku, typy šumu a snížením výkonu. Kromě toho je užitečné pochopit, jak se různé klasifikátory chovají v přítomnosti hluku. Obecně platí, že si nejsme vědomi žádné práce, která systematicky prošeřuje vliv hlučných datových sad na výkon různých algoritmů strojového učení v kontextu softwarových chybových sestav.
III. POPIS SADY DAT
Naše sada dat se skládá z 1 073 149 názvů chyb, z nichž 552 073 odpovídá SBR a 521 076 NSBR. Data byla shromažďována od různých týmů v microsoftu v letech 2015, 2016, 2017 a 2018. Všechny štítky získaly systémy ověřování chyb založené na podpisu nebo označené člověkem. Názvy chyb v naší sadě dat jsou velmi krátké texty, které obsahují asi 10 slov, s přehledem problému.
A. Zpracování dat: Jednotlivé názvy chyb analyzujeme podle prázdných mezer, takže se zobrazí seznam tokenů. Každý seznam tokenů zpracováváme takto:
Odebrání všech tokenů, které jsou cestami k souborům
Rozdělené tokeny, ve kterých jsou přítomné následující symboly: { , (, ), -, }, {, [, ], }
Odeberte slova stop , tokeny, které jsou tvořeny jenom číselnými znaky, a tokeny, které se v celém korpusu zobrazují méně než 5krát.
IV. METODOLOGIE
Proces školení našich modelů strojového učení se skládá ze dvou hlavních kroků: kódování dat do vektorů funkcí a školicích třídičů strojového učení s dohledem.
A. Funkce Vektory a Machine Learning techniky
První část zahrnuje kódování dat do vektorů funkcí pomocí algoritmu četnosti četnosti frekvenčních frekvencí v dokumentu (TF-IDF), který se používá v [2].The first part involves encoding data into feature vectors using the term frequencyinverse document frequency algorithm (TF-IDF), as used in [2]. TF-IDF je technika načítání informací, která váží frekvenci termínů (TF) a její frekvenci inverzních dokumentů (IDF). Každé slovo nebo termín má příslušné skóre TF a IDF. Algoritmus TF-IDF přiřazovat důležitost tohoto slova na základě počtu zobrazení v dokumentu a co je důležitější, zkontroluje, jak důležité je klíčové slovo v celé kolekci názvů v sadě dat. Proškolení a porovnání tří klasifikačních technik: naivní Bayes (NB), zesílené rozhodovací stromy (AdaBoost) a logistické regrese (LR). Tyto techniky jsme zvolili, protože se ukázaly jako dobře výkonné pro související úkol identifikace sestav chyb zabezpečení na základě celé sestavy v literatuře. Tyto výsledky byly potvrzeny v předběžné analýze, kdy tyto tři klasifikátory předvádily podpůrné vektorové stroje a náhodné doménové struktury. V našich experimentech používáme knihovnu scikit-learn pro kódování a školení k modelům.
B. Typy šumu
Šum, který se v této práci prostudoval, odkazuje na šum v popisku třídy v datech školení. V případě takového hluku v důsledku toho je proces učení a výsledný model zhoršený špatně označenými příklady. Analyzujeme dopad různých úrovní hluku použitých na informace o třídě. Typy šumu štítků byly v literatuře diskutovány pomocí různých terminologií. V naší práci analyzujeme vliv dvou různých šumů štítků v našich klasifikátorech: šum štítků nezávislých na třídě, který se zavádí výběrem náhodných instancí a překlopením jejich štítku; a hluku závislého na třídě, kde třídy mají různou pravděpodobnost, že budou hlučné.
a) Šum nezávislý natřídě: Šum nezávislý na třídě odkazuje na šum, který se vyskytuje nezávisle na skutečné třídě instancí. U tohoto typu šumu je pravděpodobnost nesprávného označení pbr stejná pro všechny výskyty v sadě dat. V našich datových sadách zavádíme šum nezávislý na třídě tak, že každý štítek v naší datové sadě náhodně překlopíte pravděpodobností pbr.
b) Šum závislý natřídě: Šum závislý na třídě odkazuje na šum, který závisí na skutečné třídě instancí. U tohoto typu šumu je pravděpodobnost nesprávného označení ve třídě SBR psbr a pravděpodobnost nesprávného označení ve třídě NSBR je pnsbr. V naší sadě dat zavádíme šum závislý na třídě tak, že překlopíte každou položku v sadě dat, pro kterou je pravdivý popisek SBR s pravděpodobností psbr. Obdobně překlápět popisek třídy instancí NSBR s pravděpodobností pnsbr.
c) Jednosekudovýšum: Jednosekudový šum je zvláštní případ hluku závislého na třídě, kde pnsbr = 0 a psbr 0. Všimněte si, že u hluku nezávislého na třídě máme psbr = pnsbr = pbr.
C. Generování šumu
Naše experimenty prošetřují dopad různých typů a úrovní hluku při školení klasifikátorů SBR. V našich experimentech jsme nastavili 25 % sady dat jako testovací data, 10 % jako ověření a 65 % jako školicí data.
Do školicích a ověřovacích datových sad přidáme šum pro různé úrovně pbr, psbr a pnsbr . V testovací sadě dat neupravujeme žádné změny. Použité úrovně hluku jsou P = {0,05 × i|0 < i < 10}.
Při experimentech s hlukem nezávislým na třídě pro pbr ∈ P děláme toto:
Generování šumu pro sady dat školení a ověření;
Trénování logistické regrese, naivních modelů Bayes a AdaBoost pomocí školicích datových sad (s šumem); * Ladění modelů pomocí ověřovací sady dat (s šumem);
Otestujte modely pomocí sady testovacích dat (bez šumu).
Při experimentech s hlukem závislým na třídě pro psbr ∈ P a pnsbr ∈ P pro všechny kombinace psbr a pnsbr:
Generování šumu pro sady dat školení a ověření;
Trénování logistické regrese, naivních modelů Bayes a AdaBoost pomocí školicích datových sad (s šumem);
Ladění modelů pomocí ověřovací sady dat (s šumem);
Otestujte modely pomocí sady testovacích dat (bez šumu).
V. EXPERIMENTÁLNÍ VÝSLEDKY
V této části analyzujte výsledky experimentů provedených podle metodologie popsané v oddílu IV.
a)Modelovat výkon bez hluku v sadě dat školení: Jedním z příspěvků tohoto dokumentu je návrh modelu strojového učení k identifikaci chyb zabezpečení pomocí názvu chyby jako dat pro rozhodování. To umožňuje školení modelů strojového učení i v případě, že vývojové týmy nepřeje sdílet sestavy chyb v plném rozsahu kvůli přítomnosti citlivých dat. Porovnáváme výkon tří modelů strojového učení při trénování pomocí jenom názvů chyb.
Logistický regresní model je nejlepší klasifikátor. Jedná se o klasifikátor s nejvyšší hodnotou AUC 0,9826, odvolání 0,9353 pro hodnotu FPR 0,0735. Naivní klasifikátor Bayes představuje o něco nižší výkon než logistický regresní klasifikátor, s HODNOTou AUC 0,9779 a odvoláním hodnoty 0,9189 pro FPR 0,0769. Klasifikátor AdaBoost má ve srovnání se dvěma dříve zmíněnými klasifikátory nižší výkon. Dosáhne hodnoty AUC 0,9143 a odvolání hodnoty 0,7018 pro 0,0774 FPR. Oblast pod křivkou ROC (AUC) je dobrá metrika pro porovnání výkonu několika modelů, protože shrnuje v jedné hodnotě vztah TPR a FPR. V následné analýze omezíme srovnávací analýzu na hodnoty AUC.

A. Class Noise : single-class
Je možné si představit scénář, kdy jsou všechny chyby přiřazeny ke třídě NSBR ve výchozím nastavení, a chyba se přiřadí třídě SBR jenom v případě, že je odborník na zabezpečení, který rešeršuje úložiště chyb. Tento scénář je znázorněn v experimentálním nastavení jedné třídy, kde předpokládáme, že pnsbr = 0 a 0 psbr 0,5.

Z tabulky II pozorujeme velmi malý dopad na AUC pro všechny tři klasifikátory. HODNOTA AUC-ROC z modelu, který je vyškolený na psbr = 0 ve srovnání s hodnotou AUC-ROC modelu, kde psbr = 0,25 se liší 0,003 pro logistické regresi, 0,006 pro naivní Bayes a 0,006 pro AdaBoost. V případě psbr = 0,50 se hodnota AUC měřená pro každý z modelů liší od modelu vyškolené s psbr = 0 podle 0,007 pro logistické regresi, 0,011 pro naivní Bayes a 0,010 pro AdaBoost. Logistický regresní klasifikátor vyškolený v přítomnosti jednosekudových šumů představuje nejmenší odchylku v její metrice AUC, tj. robustnější chování ve srovnání s našimi naivními klasifikátory Bayes a AdaBoost.
B. Šum třídy: nezávislé na třídě
Porovnáme výkon tří klasifikátorů v případě, kdy je sada školení poškozená hlukem nezávislým na třídě. Změříme AUC pro každý model vyškolený s různými úrovněmi pbr v datech školení.

V tabulce III pozorujeme snížení HODNOTY AUC-ROC pro každý přírůstek šumu v experimentu. Hodnota AUC-ROC měřená z modelu, který je vyškolený na bezhluková data, ve srovnání s modelem AUC-ROC, který je vyškolený s třídně nezávislým šumem s hodnotou pbr = 0,25, se liší hodnotou 0,011 pro logistickou regresi, 0,008 pro naivní Bayes a 0,0038 pro AdaBoost. Pozorujeme, že šum štítků nemá vliv na AUC naivních klasifikátorů Bayes a AdaBoost, pokud jsou úrovně šumu nižší než 40 %. Na druhou stranu logistické regresní klasifikátor má vliv na míru AUC u hladin šumu štítků nad 30 %.

Obr. 1. Varianta AUC-ROC v hluku nezávislém na třídě. U úrovně šumu pbr =0,5 funguje klasifikátor jako náhodný klasifikátor, tj. AUC≈0,5. Můžeme ale pozorovat, že u nižších úrovní hluku (pbr ≤0,30) představuje logistický regresní učitel lepší výkon ve srovnání s ostatními dvěma modely. U 0,35 ≤p br ≤,45 naivní bayesský učící se prezentuje lepší metriky AUCROC.
C. Šum třídy: závislé na třídě
V závěrečné sadě pokusů uvažujeme o scénáři, kdy různé třídy obsahují různé úrovně hluku, tj. psbr ≠ pnsbr. Systematicky zvyšujeme hodnoty psbr a pnsbr nezávisle na 0,05 v datech školení a sledujeme změnu chování tří klasifikátorů.



Tabulky IV, V, VI ukazují variantu AUC, protože šum se zvyšuje v různých úrovních v každé třídě pro logistické regrese v tabulce IV, pro naivní Bayes v tabulce V a pro AdaBoost v tabulce VI. U všech klasifikátorů zaznamenáme vliv v metrikě AUC, když obě třídy obsahují úroveň šumu nad 30 %. Naivní Bayes se chová robustně. Vliv na AUC je velmi malý, i když se překlopí 50 % štítku v kladné třídě, pokud záporná třída obsahuje 30 % hlučných štítků nebo méně. V tomto případě je pokles hodnoty AUC 0,03. AdaBoost prezentoval nej robustnější chování všech tří klasifikátorů. K významné změně AUC dojde jenom u hladin hluku vyšších než 45 % v obou třídách. V takovém případě začneme sledovat úpadek AUC větší než 0,02.
D. O přítomnosti zbytkového šumu v původní sadě dat
Naše sada dat byla označena automatickými systémy založenými na podpisu a lidmi. Všechny zprávy o chybách navíc dále přehodnotí a uzavřeli odborníci z lidí. I když očekáváme, že množství šumu v naší sadě dat je minimální a statisticky nevýznamná, přítomnost zbytkového šumu naše závěry nesnídí. Pro ilustraci se skutečně předpokládá, že původní sada dat je poškozená šumem nezávislým na třídě, který se rovná nezávislému 0 p 1/2 a identicky << rozložené (i.i.d) pro každou položku.
Pokud k původnímu šumu přidáme šum nezávislý na třídě s pravděpodobností pbr i.i.d, výsledný šum na záznam bude p∗ = p(1 − pbr )+(1 − p)pbr . U 0 < p,p<< 1/2 máme za to, že skutečný šum na štítek p∗ je striktně větší než šum, který jsme uměle přidali do sady dat p< . Výkon našich klasifikátorů by tak byl ještě lepší, kdyby byli na prvním místě vyškoleni s úplně bezhlučnou datovou sadu (p = 0). Souhrnně řečeno, existence zbytkového šumu ve skutečné sadě dat znamená, že odolnost vůči šumu našich klasifikátorů je lepší než tady uvedené výsledky. Kromě toho, pokud by reziduální šum v naší sadě dat byl statisticky relevantní, hodnota AUC našich klasifikátorů by se stala 0,5 (náhodný odhad) pro úroveň hluku striktně nižší než 0,5. Takové chování ve výsledcích nepozorujeme.
VI. ZÁVĚRY A BUDOUCÍ PRÁCE
Náš příspěvek v tomto dokumentu je dvojí.
Nejprve jsme ukázali, že klasifikace sestavy chyb zabezpečení je proveditelnost založená výhradně na názvu sestavy chyb. To je důležité zejména v situacích, kdy není kvůli omezením ochrany osobních údajů dostupná celá sestava chyb. V našem případě například sestavy chyb obsahovaly soukromé informace, jako jsou hesla a kryptografické klíče, a nebyly k dispozici pro školení klasifikátorů. Náš výsledek ukazuje, že identifikaci SBR lze provádět s vysokou přesností, i když jsou k dispozici jenom názvy sestav. Náš klasifikační model, který využívá kombinaci TF-IDF a logistické regrese, se provádí při AUC 0,9831.
Za druhé jsme analyzovali vliv chybně označených školicích a ověřovacích dat. Porovnali jsme tři dobře známé techniky klasifikace strojového učení (naivní Bayes, logistické regrese a AdaBoost) z hlediska jejich robustnosti proti různým typům hluku a úrovním hluku. Všechny tři klasifikátory jsou robustní pro jednosekudový šum. Šum v datech školení nemá ve výsledném klasifikátoru žádný významný vliv. Snížení AUC je velmi malé (0,01) pro úroveň šumu 50 %. U hluku přítomných v obou třídách a u naivních modelů Bayes a AdaBoost, které jsou nezávislé na třídě, představují významné rozdíly v AUC pouze v případě, že jsou vyškoleni se sadou dat s úrovní šumu větší než 40 %.
A konečně, hluk závislý na třídě významně ovlivňuje HODNOTU AUC jenom v případě, že je v obou třídách více než 35 % šumu. AdaBoost vykazoval největší robustnost. Vliv na AUC je velmi malý, i když kladná třída má 50 % štítků za předpokladu, že záporná třída obsahuje 45 % hlučných štítků nebo méně. V tomto případě je pokles HODNOTY AUC menší než 0,03. Podle našich nejlepších znalostí je to první systematická studie o vlivu hlučných datových sad pro identifikaci zprávy o chybách zabezpečení.
BUDOUCÍ PRÁCE
V tomto dokumentu jsme začali systematicky prostudovat vliv hluku na výkon klasifikátorů strojového učení pro identifikaci chyb zabezpečení. Existuje několik zajímavých pokračování této práce, včetně: zkoumání účinku hlučných datových sad při určování úrovně závažnosti chyby zabezpečení; pochopení vlivu nevyváženosti tříd na odolnost vyškolených modelů proti hluku; pochopení efektu šumu, který je v sadě dat protivný.
ODKAZY
[1] John Anvik, Lyndon Hiew a Gail C Murphy. Kdo byste měli tuto chybu opravit? Na stránkách 361–370 v rámci řízení 28.mezinárodní konference o softwarové technice. ACM, 2006.
[2] Diksha Behl, Sahil Handa a Anuja Arora. Nástroj pro dolování chyb k identifikaci a analýze chyb zabezpečení pomocí naivních záhonů a tf-idf. V části Optimalizace, Reliabilty a informační technologie (ICROIT), Mezinárodní konference 2014 dne, stránky 294–299. IEEE, 2014.
[3] Mikuláš Bettenburg, Rahul Premraj, Thomas Zimmermann a Sunghun Kim. Duplicitní zprávy o chybách jsou ve skutečnosti považovány za škodlivé? V části Údržba softwaru, 2008. ICSM 2008. Ieee international conference on, pages 337–345. IEEE, 2008.
[4] Andres Folleco, Taghi M Khoshgoftaar, Jason Van Hulse a Lofton Bullard. Identifikace osob, které jsou robustní a mají nízkou kvalitu dat. V části Opakované použití a integrace informací 2008. IRI 2008. Ieee International Conference on, pages 190–195. IEEE, 2008.
[5] Benoit Frenay.' Nejistota a popisek šumu v strojové výuce. PhD thesis, Catholic University of Louvain, Louvain-la-Neuve, Belgium, 2013.
[6] Benoait Frenay a Michal Verleysen. Klasifikace přítomnosti šumu štítků: průzkum. Ieee transactions on neural networks and learning systems, 25(5):845–869, 2014.
[7] Michael Gegick, Petr Rotella a Tao Xie. Identifikace zpráv o chybách zabezpečení pomocí dolování textu: Průmyslová případová studie. In Mining software repositories (MSR), 2010 7th IEEE working conference on, pages 11–20. IEEE, 2010.
[8] Kateřina Goseva-Popstojanova a Jakub Tyo. Identifikace zpráv o chybách souvisejících se zabezpečením pomocí dolování textu pomocí dohlížené a bez dohlížené klasifikace. V mezinárodní konferenci IEEE 2018o kvalitě, spolehlivosti a zabezpečení softwaru (QRS) na stránkách 344–355, 2018.
[9] Petr Lamkanfi, Serge Demeyer, Emanuel Giger a Petr Goethals. Předpovídání závažnosti nahlášené chyby In Mining Software Repositories (MSR), 2010 7th IEEE Working Conference on, pages 1–10. IEEE, 2010.
[10] Naresh Manwani a PS Sastry. Odolnost proti šumu při minimalizaci rizik. Transakce IEEE s kybernetikou, 43(3):1146–1151, 2013.
[11] G Murphy a D Cubranic. Automatické třídění chyb pomocí kategorizace textu In Proceedings of the Sixteenth International Conference on Software Engineering Knowledge Engineering. Citeseer, 2004.
[12] Mykola Pechenizkiy, Alexey Tsymbal, Seppo Puuronen a Oleksandr Pechenizkiy. Hluk třídy a výuka pod dohledem v lékařských doménách: Vliv extrakce funkcí. V null, stránky 708–713. IEEE, 2006.
[13] Charlotte Pelletier, Silvia Valero, Jordi Inglada, Šampiónka Mikuláše, Klára Marais Sicreová a Gerard Dedieu. Vliv hluku popisků školicí třídy na klasifikační výkony pro mapování pozemních krytů pomocí časové řady satelitních obrázků. Remote Sensing, 9(2):173, 2017.
[14] PS Sastry, GD Nagendra a Naresh Manwani. Tým automatu nepřetržitého učení pro výuku snášenlivosti hluku v polovičních prostorech. Ieee Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 40(1):19–28, 2010.
[15] Choh-Man Teng. Porovnání technik pro zpracování hluku Na stránkách konference FLAIRS269–273, 2001.
[16] Dumidu Wijayasekara, Miloš Manic a Miles McQueen. Identifikace a klasifikace zranitelnosti prostřednictvím databází chyb dolování textu Výroční konference IEEE, stránky 3612–3618, ve společnosti Industrial Electronics Society, IECON 2014–40. IEEE, 2014.
[17] Sin-li Jang, David Lo, Qiao Huang, Sin-sia a Jianling Sun. Automatická identifikace zpráv o chybách s vysokým dopadem s využitím nerovnovázených výukových strategií. V programu Computer Software and Applications Conference (COMPSAC), 2016 IEEE 40th Annual, volume 1, pages 227–232. IEEE, 2016.
[18] Deqing Zou, Zhijun Deng, Zhen Li a Hai Jin. Automatická identifikace sestav chyb zabezpečení pomocí analýzy vícetypových funkcí. V australské konferenci o zabezpečení informací aochraně osobních údajů na stranách 619–633. Springer, 2018.