Yalnızca Rapor Başlıklarına ve Gürültülü Verilere Dayalı Güvenlik Hatası Raporlarını Tanımlama

Mayana Perazi

CELA Data Science
Microsoft

Scott Scottsen

Müşteri Güvenliği ve Güveni
Microsoft

Özet — Güvenlik hatası raporlarının (SBR) belirlenmesi, yazılım geliştirme yaşam döngüsü açısından önemli bir adımdır. Denetlenen makine öğrenimine dayalı yaklaşımlarda, genellikle tüm hata raporlarının eğitim için kullanılabilir olduğu ve etiketlerinin gürültüden ücretsiz olduğu varsayıldı. Bilgimizi en iyi şekilde ifade etmek için, bu, yalnızca başlık kullanılabilir olduğunda ve etiket gürültüsü olduğunda bile SBR'ler için doğru etiket tahminlerinin mümkün olduğunu göstermek için ilk çalışmadır.

Dizin Koşulları — Machine Learning, YanlışBeling, Gürültü, Güvenlik Hatası Raporu, Hata Depoları

I. Gİrİş

Bildirilen hatalar arasında güvenlikle ilgili sorunların belirlenmesi, yazılım geliştirme ekiplerinin uyumluluk gereksinimlerini karşılamak ve yazılımla müşteri verilerini bütünlüğünü sağlamak için daha hızlandırılmış düzeltmeleri araması gibi önemli bir ihtiyaçtır.

Makine öğrenimi ve yapay zeka araçları, yazılım geliştirmeyi daha hızlı, çevik ve doğru hale yapmaya söz veriyoruz. Güvenlik hatalarını tanımlama sorununa birçok araştırmacı makine öğrenimi uyguladı [2], [7], [8], [18]. Önceki yayımlanan çalışmalarda, tüm hata raporunun eğitim ve makine öğrenme modeli puanlama için kullanılabilir olduğu varsayıldı. Böyle olması gerekmez. Bazı durumlarda hata raporunun tamamı kullanılamaz. Örneğin, hata raporu parolalar, kişisel olarak tanımlayıcı bilgiler (PII) veya başka tür hassas veriler (Microsoft'a yönelik bir durum) içerebilir. Bu nedenle, hata raporunun yalnızca başlığının ne zaman kullanılabilir olduğu gibi daha az bilgi kullanılarak, ne kadar iyi bir güvenlik hatası tanımlamanın gerçekleştirileni belirlemesi önemlidir.

Buna ek olarak, hata depoları çoğunlukla yanlış etiketli girişler içerir [7]: güvenlikle ilgili olarak sınıflandırılmış güvenlikle ilgili olmayan hata raporları (ve tersi). Geliştirme ekibinin güvenlik konusunda uzmanlığının olmamasından bazı sorunların göz kamaştırıcılığına kadar yanlış etiket oluşmasının çeşitli nedenleri vardır; örneğin, güvenlikle ilgili olmayan hataların dolaylı bir yolla istismarılması bir güvenlik imalarına neden olabilir. SBR'lerin yanlış etiketli olması, güvenlik uzmanlarının hata veritabanını pahalı ve zaman alıcı bir çalışma içinde el ile gözden geçirmek zorunda kalmalarına neden olduğu için bu ciddi bir sorundur. Gürültünün farklı sınıflayıcıları nasıl etkilediğini ve farklı makine öğrenme tekniklerinin farklı gürültü türlerine neden olan veri kümelerinin varlığında ne kadar güçlü (veya güçlü) olduğunu anlamak, yazılım mühendisliği uygulamasına otomatik sınıflandırmayı getirmek için ele alınması gereken bir sorundur.

İlk çalışmalar, hata depolarının zararlı olduğu ve gürültünün performans makinesi sınıf değiştiricilerini [7] öğrenmesi üzerinde olumsuz bir etkisi olabileceğinin yeni çalışmaları. Bununla birlikte, farklı düzeyler ve gürültü türlerinin farklı denetlemeli makine öğrenme algoritmalarının güvenlik hatası raporlarını (SRB) belirleme sorununa yönelik performansını nasıl etkilediğini sistematik ve niceliksel bir inceleme ile ortaya çıkarabilirsiniz.

Bu çalışma, hata raporlarının sınıflandırması, yalnızca başlık eğitim ve puanlama için kullanılabilir olduğunda bile gerçekleştirilir. Bilgimiz en iyi şekilde, bunu yapmak için ilk çalışmadır. Buna ek olarak, hata raporu sınıflandırması içinde gürültünün etkisinin sistematik ilk incelemeyi sağlaruz. Sınıfdan bağımsız gürültüye karşı üç makine öğrenme tekniğinin (lojistiği regresyon, naïve Bayes ve AdaBust) güçlülüğü karşılaştırmalı bir çalışma olarak incelememiz var.

Birkaç basit sınıflandırıcı [5], [6] için gürültünün genel etkisini yakalayan bazı analitik modeller varken, bu sonuçlar duyarlılık üzerinde gürültünün etkisi üzerinde sıkı bir sınır tanımaz ve yalnızca belirli bir makine öğrenme tekniği için geçerlidir. Makine öğrenme modellerinde gürültünün etkisinin doğru bir çözümlemesi genellikle bilgisayar deneyleri çalıştırarak gerçekleştirilir. Bu çözümlemeler, yazılım ölçü verisi [4], uydu görüntü sınıflandırması [13] ve tıbbi veri [12] arasında değişen çeşitli senaryolarda yapıldı. Ancak veri kümelerinin yapısına ve temel sınıflandırma sorununa yüksek bağımlılığı nedeniyle, bu sonuçlar bizim için belirli bir soruna çevrilebilir. Bilgimizin en iyi sonucu olarak, özellikle gürültülü veri kümelerinin güvenlik hata raporu sınıflandırması üzerindeki etkisiyle ilgili yayımlanmış bir sonuç yok.

ARAŞTıRMA KATKıLARıMıZ:

  • Sınıflayıcıları, yalnızca raporların başlığına göre güvenlik hatası raporlarının (SBR) tanımlanması için eğiteriz. Bilgimiz en iyi şekilde, bunu yapmak için ilk çalışmadır. Önceki çalışmalar, tam hata raporunu kullandı veya ek tamamlayıcı özelliklerle hata raporunu geliştirdi. Hataları yalnızca kutucuğunu temel alarak sınıflendirmek, özellikle gizlilik kaygıları nedeniyle hata raporlarının tamamlanamayında kullanılamaz olmasıyla ilgilidir. Örneğin, parola ve diğer hassas veriler içeren hata raporlarında bu durum rahatsız olmaz.

  • Ayrıca, SBR'lerin otomatik olarak sınıflandırması için kullanılan farklı makine öğrenme modellerinin ve tekniklerinin etiket gürültüsten dayanıklılığının ilk sistematik incelemeyi de sağlariz. Sınıfa bağımlı ve sınıfdan bağımsız gürültüye karşı üç farklı makine öğrenme tekniğinin (lojistiği regresyon, naïve Bayes ve AdaBust) güçlüliğini karşılaştırmalı bir çalışmadan sağlıyoruz.

Kağıdın kalan bölümü şöyle sunulmaktadır: II bölümünde, önceki çalışmaların bazılarını, şu şekilde sunabilirsiniz: Ii. BÖLÜM III'te veri kümesi ve verilerin nasıl önceden işlenmeli olduğu açıklandı. Yöntem, IV bölümünde ve denemelerimizin V bölümünde çözümlene sonuçları bölümünde açıklanmıştır. Son olarak, sonuç ve gelecek çalışmalarımız VI'de sunulacaktır.

II. ÖNCEKI ÇALıŞMALAR

HATA DEPOLARı IÇIN MAKINE ÖĞRENME UYGULAMALARı.

Birkaç uygulamaya ad olmak üzere güvenlik hatası algılama [2], [7], [8], [18], hata yinelenen tanımlama [3], hata önceliği [1], [11], gibi zahmetli görevleri otomatikleştirmeye çalışırken hata depolarında metin madenciliği, doğal dil işleme ve makine öğrenimiyle ilgili kapsamlı bir an var. İdeal olarak, makine öğrenimi (ML) ve doğal dil işlemeye karşı olan öğrenme, hata veritabanlarını el ile oluşturma için gereken çalışma süresini kısaltır ve sonuçların güvenilirliğini artırır.

[7] içinde, yazarlar hatanın açıklamasına göre SBR'lerin sınıflandırmalarını otomatikleştirmek için doğal dil modeli teklif ediyor. Yazarlar, eğitim veri kümesinde tüm hata açıklamalarından bir sözcük dağarcığı ayıklar ve bunu el ile üç sözcük listesinde el ile hazırlar: ilgili sözcükler, sözcükleri durdurma (sınıflandırma için önemli olmayan yaygın sözcükler) ve eş anlamlılar. Tüm güvenlik mühendisleri tarafından değerlendirilen verilere ilişkin güvenlik hata sınıflayıcısının performansını ve genel olarak hata raporlayıcısı tarafından etiketlenmiş veriler üzerinde eğitim alan bir sınıflandırıcının performansını karşılar. Güvenlik mühendisleri tarafından gözden geçirilen veriler konusunda eğitim alınan veriler konusunda modellerinin açıkça daha etkili olmasına karşın, önerilen model el ile türetilen bir sözcük dağarcığına dayalıdır ve bu da insan el ile yapılan curation'a bağımlıdır. Ayrıca, farklı gürültü düzeylerinin modellerini nasıl etkilediği, farklı sınıflayıcıların gürültüye ne kadar karşılık gelen ifadeleri ve gürültünün her iki sınıftaki gürültüyü de farklı bir şekilde etkileyeceğinin çözümlemesi yoktur.

Zou et. Al [18], bir hata raporunda yer alan ve hata raporunun metin olmayan alanlarını (örneğin, zaman, önem düzeyi ve öncelik) ve hata raporunun metinsel içeriğini (özet alanlarındaki metin gibi) içeren birden çok bilgi türü kullanır. Bu özelliklere bağlı olarak, SBR'leri doğal dil işleme ve makine öğrenme tekniklerini kullanarak otomatik olarak tanımlamak için bir model oluşturulur. [8] içinde yazarlar benzer bir çözümlemeler gerçekleştirler, buna ek olarak denetlenen ve denetlenemeyen makine öğrenme tekniklerinin performansını karşılar ve modellerini eğitmek için ne kadar veri gerektiğini incelerler.

[2] içinde yazarlar ayrıca, hataları açıklamalarına göre SSBR'ler veya NSBR'ler (Güvenlikle Ilgili Olmayan Hata Raporu) olarak sınıflandırmak için farklı makine öğrenme tekniklerini keşfeder. Bunlar, TFIDF'yi temel alan veri işleme ve model eğitimi için bir ardışık düzen teklif ediyor. Bunlar, sözcük çantası ve naïve Bayes'i temel alan bir modelle önerilen potansiyel hattı karşıtır. Wijayasekara et al. [16], Gizli Etki Hatalarını (HIB) tanımlamak için sık kullanılan sözcükleri temel alarak her hata raporunun özellik vektörü oluşturmak için metin araştırma tekniklerini de kullandı. Yang ve al. [17], Terim Sıklığı (TF) ve naïve Bayes'in yardımıyla yüksek etkiyle ilgili hata raporlarını (SBR'ler gibi) tanımladı. [9] içinde, yazarlar bir hatanın önem derecesine tahmin etmek için bir model teklif ediyor.

ETIKET GÜRÜLTÜLERI

Etiket gürültüleri olan veri kümeleriyle ilgilenme sorunu yoğun olarak garantilenmiş. Frenay ve Verleysen, farklı gürültülü etiket türlerini ayırt etmek için [6] içinde etiket gürültü taksonomisi teklif ediyor. Yazarlar üç farklı gürültü türü önermektedir: gerçek sınıfından ve örnek özelliklerinin değerlerinden bağımsız olarak oluşan etiket gürültüsü; yalnızca doğru etikete bağlı olan etiket gürültüleri; ve etiket gürültüleri de özellik değerlerine bağlıdır. Çalışmamızda ilk iki gürültü türü üzerinde çalışıyoruz. Perspektif perspektiften bakıldığında, etiket gürültüsü belirli durumlarda [14] hariç çoğunlukla bir modelin performansını [10] azaltır. Genel olarak güçlü yöntemler etiket gürültülerini [15] işlemekten kaçınmaya dayandır. Sınıflandırmada gürültü efektlerinin çalışması, uydu görüntü sınıflandırması [13], yazılım kalitesi sınıflandırması [4] ve tıbbi etki alanı sınıflandırması [12] gibi birçok alanda daha önce yapılıyor. Bizim bilgimiz en iyi şekilde, SBRs sınıflandırması sorununda gürültülü etiketlerin etkilerinin tam olarak nicelik ölçülmesi üzerinde çalışmak için hiçbir yayımlanmış çalışma yoktur. Bu senaryoda gürültü düzeyleri, gürültü türleri ve performans düşüşü arasında tam ilişki kurulmadı. Ayrıca, gürültünün varlığında farklı sınıflayıcıların nasıl davranacağını anlamak da gerekir. Daha genel olarak, yazılım hata raporları bağlamında farklı makine öğrenme algoritmalarının performansı üzerindeki gürültülü veri kümelerinin etkisini sistematik olarak incelemeye yönelik çalışmaların farkında olmazz.

III. VERI KÜMESI AÇıKLAMASı

Veri kümemiz 1.073.149 hata başlığı,552.073'ü SBR'lere, 521.076'dan da NSBR'lere karşılık gelen 521.073 hata başlığıdan oluşur. Veriler 2015, 2016, 2017 ve 2018 yılında Microsoft genelinde çeşitli ekiplerden toplanır. Tüm etiketler imza tabanlı hata doğrulama sistemleri veya insanlar tarafından etiketlenmiş olarak elde edildi. Veri kümemizde yer alan hata başlıkları, soruna genel bir bakışla birlikte yaklaşık 10 sözcük içeren çok kısa metinler içerir.

A. Veri Önceden İşleme Her hata başlığını boş alanlarla ayrıştırarak bir belirteç listesi elde edilir. Her belirteç listesini aşağıdaki gibi işleme alıruz:

  • Dosya yolu olan tüm belirteçleri kaldırma

  • Şu simgelerin bulunduğu belirteçleri bölün: { , (, ), -, }, {, [, ], }

  • Stop words , tokens that are composed by numeric characters only and tokens that appear than 5 times in entire corpus.

IV. METHODOLOGY

Makine öğrenme modellerimiz eğitim süreci iki ana adımdan oluşur: verileri özellik vektörlerine kodlama ve eğitim tarafından denetlenen makine öğrenme sınıflayıcıları.

A. Özellik Vektörleri ve Machine Learning Teknikler

Birinci bölüm, [2] içinde kullanılan frequencyinverse belge frekans algoritması (TF-IDF) terimini kullanarak özellik vektörlerine veri kodlama içerir. TF-IDF, terim sıklığını (TF) ve bunun ters belge sıklığını (IDF) ölçen bir bilgi alma tekniğidir. Her sözcüğün veya terimin kendi ilgili TF ve IDF puanıdır. TF-IDF algoritması bu sözcüğün belgede kaç kez göründüğüne bağlı olarak önem atar ve daha da önemlisi, anahtar sözcüğün veri kümesi başlık koleksiyonu genelinde ne kadar ilgili olduğunu denetler. Üç sınıflandırma tekniğinin eğitimini ve karşılaştırıldık: naïve Bayes (NB), artırmış karar ağaçları (AdaBust) ve lojistiği regresyon (LR). Bu teknikleri seçtik, çünkü ilgili görev olan, güvenlik hatası raporlarını, tüm rapora göre, doğru olarak belirlemeye yönelik olarak gösterilirler. Bu sonuçlar, ön çözümlemede onaylandı ve bu üç sınıflandırıcı, fazla form formlarında vektör makinelerini ve rastgele ormanları destekliyor. Denemelerde kodlama ve model eğitimi için scikit-learn kitaplığını kullanıruz.

B. Gürültü Türleri

Bu çalışmada gürültü, eğitim verisinde sınıf etiketinde yer alan gürültüyü ifade eder. Bu tür gürültülerin varlığında, bir tığlama gibi öğrenme süreci ve sonuç modeli, yanlış süslenmiş örneklerle engellenmiş olur. Sınıf bilgilerine uygulanan farklı gürültü düzeylerinin etkisini analiz ederiz. Daha önce farklı terminolojileri kullanarak ünlüler için etiket gürültüsü türleri ele alınmıştır. Çalışmamızda, sınıflayıcılar üzerindeki iki farklı etiket gürültüsünün etkilerini analiz ediyoruz: örnekleri rastgele seçerek ve etiketlerini çevirerek ortaya çıktısı olan sınıfdan bağımsız etiket gürültüleri; ve sınıfların gürültülü olma olasılığı farklı olan sınıfa bağımlı gürültüler.

a) Sınıftan bağımsız gürültü:Sınıflardan bağımsız gürültü, örneklerin gerçek sınıfından bağımsız olarak oluşan gürültüyü ifade eder. Bu tür gürültülerde, veri kümesinde her tekrar için aynı olan yanlış etiket pbr olasılığı vardır. Veri kümelerimizin her etiketini p br olasılığıyla rastgele çevirerek, veri kümelerimizin sınıfdan bağımsız seslerinitanıtıyoruz.

b) Sınıfa bağımlı gürültü: Sınıfa bağımlı gürültü, örneklerin gerçek sınıfına bağlı gürültüyü ifade eder. Bu gürültü türünde, sınıf SABIL'de yanlış etiket olma olasılığı p s buğraraktır ve sınıfta NS BUĞAL'da yanlış etiket olma olasılığı pns bu kadardır. Veri kümemizde, gerçek etiketinin olasılık p s öbgesi olan SYLA olduğu veri kümesinde her girdiyi çevirerek sınıfa bağımlıgürültüler ortaya çıkar. Benzer şekilde, NS PC örneklerinin sınıf etiketini olasılık pns dağılımıyla çeviririz.

c) Tek sınıfgürültü: Tek sınıf gürültü, sınıfa bağımlı olan özel bir gürültü durumundadır ve burada pnsüf = 0 ve psüf 0 olur. Sınıftan bağımsız gürültüler için ps yalnızca s yalnızca pns bir = p br olduğunuunutmayın.

C. Gürültü Oluşturma

Denemelerimiz, SCISI sınıflandırıcıları eğitimi sırasında farklı gürültü türleri ve düzeylerin etkisini araştırıyor. Denemelerde, test verileri olarak veri kümelerinin %25'ini doğrulama ve %65'i eğitim verileri olarak ayarlamıştık.

Eğitim ve doğrulama veri kümelerinde farklı pbr, ps hem de p ns noise düzeyleri için gürültüeklmektedir. Test veri kümesinde herhangi bir değişiklik yapılmasına gerek yok. Kullanılan farklı gürültü düzeyleri P = {0,05 × i| < i < 10}.

Sınıftan bağımsız gürültü deneylerinde, pbr ∈ P için şunları yapacağız:

  • Eğitim ve doğrulama veri kümeleri için gürültü oluşturma;

  • Eğitim veri setini (gürültüyle) kullanarak lojistiği regresyon, naïve Bayes ve AdaBust modelleri eğitin; * Doğrulama veri kümesi (gürültüyle) kullanan modelleri ayarlama;

  • Test veri kümesi (gürültüz) kullanarak modelleri test etmek.

Sınıfa bağımlı gürültü deneylerinde, ps ∈ P ve pns ∈ P için p s herhangi bir ps∈ ve p ns bunların tüm bileşimleri içinaşağıdakini yapıyoruz:

  • Eğitim ve doğrulama veri kümeleri için gürültü oluşturma;

  • Eğitim veri setini (gürültüyle) kullanarak lojistiği regresyon, naïve Bayes ve AdaBust modelleri eğitin;

  • Doğrulama veri kümesi (gürültüyle) kullanarak modelleri ayarlama;

  • Test veri kümesi (gürültüz) kullanarak modelleri test etmek.

V. DENEYSEL SONUÇLAR

Bu bölümde, denemelerin sonuçları IV bölümünde açıklanan yönteme göre analiz edilir.

a) Eğitimveri kümesinde gürültü olmadan performans modeli : Bu makalenin katkılarından biri, karar verme verisi olarak yalnızca hatanın başlığını kullanarak güvenlik hatalarını tanımlamaya yardımcı olacak bir makine öğrenme modelinin teklifidir. Geliştirme ekipleri hassas veriler bulundurarak hata raporlarını tam olarak paylaşmak yerine makine öğrenme modellerinin eğitimine olanak sağlar. Yalnızca hata başlıklarını kullanarak eğitilen üç makine öğrenme modelinin performansını karşılaştırıldığında.

Lojistiği regresyon modeli en iyi performans gösteren sınıflandırıcıdır. 0,9826'lık en yüksek AUC değerine sahip sınıflayıcıdır ve 0,0735 FPR değeri için 0,9353'ü hatırlatır. Naïve Bayes Classifier, 0,9779 AUC ve 0,0769 FPR için 0,9189 geri çağırma ile lojistiğin Sınıfı Sınıfı değiştiriciden biraz daha düşük performans sunar. AdaBust sınıflandırıcısı, daha önce sözü edilen iki sınıflandırıcıya göre üstün performansa sahip. 0,9143 AUC ve 0,0774 FPR için 0,7018 geri çağırmayı başarıyor. ROC eğrisi (AUC) altındaki alan, birkaç modelin performansını karşılaştırmak için iyi bir metriktir çünkü TPR ile FPR arasındaki tek değerde özetlenmiştir. Sonraki çözümlemede karşılaştırmalı çözümlememizi AUC değerleriyle kısıtlaacağız.

Tablo I

A. Sınıf Gürültü: tek sınıf

Bir senaryo düşünün; tüm hatalar varsayılan olarak sınıf NS DERGISI'ye atanır ve hata, yalnızca hata deposunu gözden geçiren bir güvenlik uzmanı olursa sınıf S DOSYASI'ne atanır. Bu senaryo, pns bir = 0 ve 0 p s yapılandırarak 0,5 olduğunu varsayın tek sınıf deneysel ayarda temsil edilen bir senaryodur.

Tablo II

II tablosundan, her üç sınıf için de AUC'de çok küçük bir etkisi gözlemltük. Ps bir model üzerinde eğitim alan bir modelin AUC-ROC ile puc-ROC karşılaştırması olan, pskom = 0,25, lojistiği regresyon için 0,003, naïve Bayes için 0,006 ve AdaBust için 0,006 ile karşılaştırıldığında, AUC-ROC. Psaş = 0,50 durumunda, modellerin her biri için ölçüm yapılanAUC, lojistiği regresyon için p s öbeği = 0 ile 0,007 arasındaki eğitimden, naïve Bayes için 0,011 ve AdaBust için 0,010'dan farklıdır. Tek sınıf gürültünün varlığıyla ilgili eğitimli lojistiği regresyon sınıfı değiştiricisi, naïve Bayes ve AdaBust sınıf değiştiricilerimiz ile karşılaştırıldığında, AUC metrik en küçük çeşitletiğini sunar.

B. Sınıf Gürültü: sınıfa bağımsız

Eğitim setlerinin sınıfa bağımsız bir gürültüyle bozulması durumunda üç sınıflandırıcımızın performansını karşılaştırıldığında. Eğitim verilerinde farklı pbr düzeyleriyle eğitim alan her model için AUC'i ölçüruz.

Tablo III

Tablo III'de, deneylerdeki her gürültü artışı için AUC-ROC'de bir azalma gözlemlemektedir. AUC-ROC, pbr = 0,25 ile sınıf bağımsız gürültüyle eğitim alan bir model ROC modele göre gürültüz veriler üzerinde eğitimli bir modelden, lojistiği regresyon için 0,011, naïve Bayes için 0,008 ve AdaBust için 0,0038 ile farklılık gösterir. Gürültü düzeyleri %40'dan düşük olduğunda etiket gürültülerinin AUC of naïve Bayes ve AdaBust sınıflayıcılarını önemli ölçüde etkilememektedir. Öte yandan, lojistiği sınıflandırıcı deneyimler, AUC ölçüsünde etiket gürültü düzeyleri %30'ın üzerinde bir etkiyle karşılaşır.

AUC

Şekil 1. Sınıftan bağımsız gürültüde AUC-ROC çeşitlemesi. Gürültü düzeyinde pbr =0,5 sınıflandırıcı rastgele bir sınıflandırıcı gibi davranır; yani AUC≈0,5. Ancak, düşük gürültü düzeyleri için (pbr ≤0.30) lojistiğin öğrenicisi, diğer iki modele göre daha iyi bir performans ortaya çıkar. Ancak 0,35 ≤ pbr ≤0,45 naïve Bayes öğrenicisi, daha iyi AUCROC ölçümleri sunar.

C. Sınıf Gürültüsü: sınıfa bağımlı

Denemelerin son kümesinde, farklı sınıfların farklı gürültü düzeyleri içerdiği bir senaryo düşünün. Örneğin,p sylep ns irliye. Eğitim verilerindes hem s hem dep ns her şeyi sistematik olarak 0,05 ile artırır ve üç sınıflandırıcının davranışında değişikliği gözlemlez.

LojistiğiRegresyon Naive BayesAdaBust

Tables IV, V, VI show the variation of AUC as noise is increased in each class for logistic regresyon in Table IV, for naïve Bayes in Table V and AdaBust in Table VI. Her iki sınıf da %30'dan yüksek gürültü düzeyi içerdiğinde AUC metriğinde tüm sınıflayıcılar için bir etki fark edilir. naïve Bayes, çok güçlü bir şekilde davranır. Negatif sınıf gürültülü etiketlerin %30'u veya daha azı içeriyorsa pozitif sınıftaki etiketin %50'si çevrilse bile AUC üzerindeki etkisi çok küçüktür. Bu durumda, AUC'daki drop (0,03) olur. AdaBust, üç sınıflandırıcının da en güçlü davranışını sundu. AUC'de önemli bir değişiklik, her iki sınıfta da yalnızca %45'in üzerinde gürültü düzeyleri için gerçekleşecektir. Bu durumda, AUC'nin 0,02'den büyük bir AUC'i gözleyerek başlayabiliriz.

D. Özgün Veri Kümesinde Arta Gürültünün Varlığında

Veri kümemiz imza tabanlı otomatik sistemler ve insan uzmanları tarafından etiketlenmiş. Ayrıca, tüm hatalar raporları insan uzmanları tarafından daha fazla gözden geçirildi ve kapatıldı. Veri kümemizde gürültü miktarının istatistiksel olarak çok az olmasını beklememizle birlikte, arta kalan gürültünün varlığı sonuçlarımızı geçersiz hale çıkarmaz. Gerçekten de çizim amacıyla, özgün veri setin her giriş için 0 p 1/2 bağımsız ve aynı şekilde dağıtılmış < (i.d) sınıfa uygun bir gürültüyle bozuk olduğunu < varsayalım.

Özgün gürültünün üzerine, pbr i.d olasılığıyla sınıfa bağımsız bir gürültü ekleriz. Giriş başına sonuçta ortaya çıkan gürültü p∗ = p(1 − pbr )+(1 − p)pbr olur. 0 < p,p<< 1/2 için, p etiket başına gerçek gürültünün∗ p br veri kümesine yapay olarak ekleymız gürültüden tamamen büyük olması< Dolayısıyla, ilk yerinde tamamen gürültüz bir veri kümesi (p = 0) ile eğitim almış olsalar, sınıflayıcılarımızın performansı daha da iyi olur. Özet olarak, gerçek veri kümesinde artık gürültünün varlığı, sınıflayıcılarımızın gürültülerine karşı olan azimin buradaki sonuçlardan daha iyi olduğu anlamına gelir. Ayrıca, veri kümemizde artık gürültü olması istatistiksel olarak ilgili olursa, sınıflayıcılarımızın AUC 0,5'den katı bir gürültü düzeyi için 0,5 (rastgele tahmin) olur. Sonuçlarımızda bu davranışı gözlemleyemiz.

VI. SONUÇ VE GELECEK ÇALıŞMALAR

Bu kağıda katkımız iki klasör içindedir.

İlk olarak, yalnızca hata raporunun başlığına dayalı olarak güvenlik hata raporu sınıflandırmanın uygun olduğunu gösterdik. Bu özellikle, gizlilik kısıtlamaları nedeniyle hata raporunun tamamının mevcut olmadığının olduğu senaryolarda çok ilgili bir durumdur. Örneğin, bizim örneğimizde hata raporları parolalar ve şifreleme anahtarları gibi özel bilgiler içeriyor olabilir ve sınıflayıcıları eğitimi için kullanılamıyor. Sonuç olarak, yalnızca rapor başlıkları kullanılabilir olduğunda bile S BAZı TANıMLAMAnın yüksek doğrulukta gerçekleştirilebiliyor. TF-IDF ve lojistiğin bir bileşimini kullanan sınıflandırma modelimiz, 0,9831 AUC ile gerçekleştirdiği gibi.

İkincisi, yanlış etiketli eğitim ve doğrulama verilerin etkisini analiz ettik. Farklı gürültü türlerine ve gürültü düzeylerine karşı güçlü olma açısından iyi bilinen üç makine öğrenme sınıflandırma tekniklerini (naïve Bayes, lojistiği regresyon ve AdaBust) karşılaştırdık. Her üç sınıf değiştirici de tek sınıf gürültüye karşı sağlamdır. Eğitim verilerinin gürültü, sonuçta elde edilen sınıflandırıcıya önemli bir etkisi yoktur. AUC'daki azalma %50 gürültü düzeyinde çok küçüktür (0,01). Her iki sınıfta da bulunan ve sınıflardan bağımsız olan gürültü için naïve Bayes ve AdaBust modelleri, yalnızca %40'ın üzerinde gürültü düzeylerine sahip bir veri kümesiyle eğitim alıyorsa AUC'da önemli çeşitlemeler sağlar.

Son olarak, sınıfa bağımlı gürültü, yalnızca iki sınıfta da %35 daha fazla gürültü olduğunda AUC'ı önemli ölçüde etkiler. AdaBust en güçlülüğü gösterdi. Negatif sınıf gürültülü etiketlerin %45'ini veya daha azını içerdiğinde pozitif sınıf etiketlerinin %50'sini gürültülü olduğunda bile AUC'daki etkisi çok küçüktür. Bu durumda, AUC'daki açılan liste 0,03'den küçük olur. Bilgimizi en iyi şekilde ifade etmek için bu, gürültülü veri kümelerinin güvenlik hata raporu tanımlamaya yönelik etkisi konusunda sistematik ilk çalışmadır.

FUTURE WORKS

Bu kağıda, güvenlik hataları tanımlamaya yönelik makine öğrenme sınıflayıcılarının performansında gürültünün etkilerini sistematik olarak incelemeye başladık. Bu çalışmayla ilgili bazı ilginç bilgi var: bir güvenlik hatasının önem düzeyi belirlemede gürültülü veri kümelerinin etkisini inceleme; gürültüye karşı eğitim modellerinin etkileri üzerindeki sınıf dengesinin etkisini anlama; veri kümesinde karşıt olarak gelen gürültünün etkisini anlamak.

BAŞVURULAR

[1] John Anew, Lyndon Hiew ve Gail C Ayrıca. Who düzeltmeniz gerekir mi? In Proceedings of the 28 international conference on Software engineering, pages 361–370. ACM, 2006.

[2] Diksha Behl, Sahil Handa ve Anuja Arora. Naïve koyları ve tf-idf kullanarak güvenlik hatalarını tespit edip çözümlemek için bir hata madenciliği aracı. İyileştirme, Denge ve Bilgi Teknolojisi (ICROIT), 2014 Uluslararası Konferansında, sayfa 294–299'da açık. IEEE, 2014.

[3] Herbe Bettenburg, Sureul Premmann, Thomas Zimmermann ve Sunghun Kim. Yinelenen hata raporları gerçekten de zararlı olarak kabul edilir mi? Yazılım bakımı, 2008'de. ICSM 2008. 337–345 arası sayfalarda IEEEuluslararası konferansı. IEEE, 2008.

[4] Andres Folleco, Taghi M Hasshgoftaar, Jason Van Hulse ve JasononArd. Öğrenenlerin güçlü ve düşük kaliteli verileri belirleme. Bilgi Yeniden Kullanımı ve Tümleştirme, 2008'de. IRI 2008. IEEE Uluslararası Konferans on, sayfa 190–195. IEEE, 2008.

[5] Benoˆıt Frenay'ı kontrol altında bulundurun. Makine öğrenimi için Belirsizlik ve etiket gürültüleri. PhDsis, University of Louvain, Louvain-la-Neuve, Belçika, 2013.

[6] Benoˆıt Frenay ve Michael Verleysen'i kontrol ediyor. Etiket gürültünün varlığında sınıflandırma: bir anket. IEEE ilesinir ağları ve öğrenme sistemleri (25(5):845–869, 2014'te yapılan işlemler.

[7] Michael Gegolog, Michael Michaelella ve Tao Xie. Metin madenciliği yoluyla güvenlik hata raporlarının belirlenmesi: Çok büyük bir olay incelemesi. Araştırma yazılım depolarında (MSR), sayfa 11–20 üzerinde 7. IEEEçalışma konferansı. IEEE, 2010.

[8] Katerina Goseva-Popstojanova Jacob Tyo. Denetlenen ve denetlenemeyen sınıflandırma kullanılarak metin madenciliği aracılığıyla güvenlikle ilgili hata raporlarının tanımlanması. 2018 IEEEUluslararası Yazılım Kalitesi, Güvenilirlik ve Güvenlik (QRS) Konferansında (QRS) 344–355, 2018 sayfaları.

[9] Ayrıca Lamkanfi, SergeEtr, Emanuel Giger ve Burge Goethals. Bildirilen bir hatanın önem derecesi tahmin. Tarım Yazılım Depoları'nda (MSR), 1–10 sayfaları üzerinde 7. IEEEÇalışma Konferansı. IEEE, 2010.

[10] Nar hem Nar hem de Manwani ve PS Sastry. Risk en aza indirinen gürültü. IEEE siber suçlarlailgili işlemler , 43(3):1146–1151, 2013.

[11] G Herb ve D Cubranic. Metin kategorisini kullanarak otomatik hata önceliği. In Proceedings of the Bir VeyaDaha Fazla Uluslararası Konferans on Software Engineering Knowledge Engineering . Citeseer, 2004.

[12] Mykola Pechenizkiy, Alexey Tsymbal, Seppo Puchenen ve Oleksandr Pechenizkiy. Tıbbi etki alanlarında sınıf gürültüleri ve denetimli öğrenme: Özellik ayıklamanın etkileri. Null ,sayfa 708–713 içinde. IEEE, 2006.

[13] Pelletier, Silvia Valero, Jordi Inglada, Venezuela Şampiyon, Marais Sicre ve Gerard Dedieu.' Uydu görüntüsü zaman serisiyle kara kapak eşlemesi için eğitim sınıfı etiketi gürültünün sınıflandırma performanslarına etkisi. Uzaktan Algılama ,9(2):173, 2017.

[14] PS Sastry, GD Nagendra ve Narando Manwani. Yarı boşlukların gürültüyü azaltmadan öğrenmesi için sürekli birction öğrenme automatası ekibi. Sistemlerde, Adam'da ve Sibernetikte, Bölüm B (Sibernetik), 40(1):19–28, 2010'da IEEE İşlemleri.

[15] Choh-Man Teng. Gürültü işleme tekniklerinin karşılaştırması. FLAIRS Konferansı'nda,sayfa 269–273, 2001.

[16] Dumidu Wijayasekara, Perus Manic ve Miles McQueen. Metin madenciliği hata veritabanları aracılığıyla Güvenlik Açığı Tanımlama ve Sınıflandırma. IEEE'nin Yıllık IECON 2014-40. Yıllık Konferansında, 3612–3618 sayfaları. IEEE, 2014.

[17] Xinli Yang, David Lo, Qiao Huang, Xin Xia ve Buğlan Güneş. Dengelenmez öğrenme stratejilerini geliştiren yüksek etkili hata raporlarının otomatik tanımlanması. Bilgisayar Yazılımı ve Uygulamaları Konferansı'nda (COMPSAC), 2016 IEEE 40.Yıllık , hacim 1, sayfa 227–232. IEEE, 2016.

[18] Deqing Zou, Zhihihi deng, Zhen Li ve Hai Jin. Çok tür özellik çözümlemesi aracılığıyla güvenlik hatası raporlarını otomatik olarak belirleme. Australasian Conference on Information Security and Privacy (Australasian Conference on Information Security and Privacy) (Sayfa 619–633). İlkbahar, 2018.