SMOTE

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Yapay aşırı örnekleme kullanarak veri kümesinde düşük örnek sayısını artırır

Kategori: Veri Dönüştürme / Düzenleme

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, makine öğrenmesi için kullanılan bir veri kümesinde daha az temsil edilmeye neden olan örneklerin sayısını artırmak için Machine Learning Studio'da (klasik) SMOTE modülünün nasıl kullanımı açıklanmıştır. SMOTE, nadir durumların sayısını artırmak için mevcut örnekleri çoğaltmaktan daha iyi bir yoldur.

SMOTE modülünü dengesiz bir veri kümesine bağlayabilirsiniz. Bir veri kümesinde dengesizlik olması için birçok neden vardır: hedeflemektedirniz kategori popülasyonda çok nadir olabilir veya verilerin tolere etmek zor olabilir. Genellikle, analiz etmek istediğiniz sınıf altında temsil edilirken SMOTE kullanır.

Modül, belirttiğiniz yüzdeye bağlı olarak özgün örnekleri içeren bir veri kümesi ve ek sayıda yapay sentetik örnek döndürür.

SMOTE hakkında daha fazla bilgi

SMOTE,Yapay Sentetik Fazla Örnekleme Tekniği'nin açılımıdır. Bu, veri kümenizin durum sayısını dengeli bir şekilde artırmaya yönelik istatistiksel bir tekniktir. Modül, giriş olarak temin edersiniz mevcut küçük olaylardan yeni örnekler oluşturarak çalışır. Bu SMOTE uygulaması , çoğunluğun sayısını değiştirmez.

Yeni örnekler yalnızca mevcut azınlığı olan örneklerin kopyası değildir; Bunun yerine algoritma, her hedef sınıf ve en yakın komşular için özellik alanı örneklerini alır ve hedef örneğin özelliklerini komşularının özellikleriyle birleştiren yeni örnekler üretir. Bu yaklaşım, her sınıf için kullanılabilen özellikleri artırır ve örnekleri daha genel yapar.

SMOTE, veri kümelerinin tamamını giriş olarak alır, ancak yalnızca azınlığı olan vakaların yüzdesini artırır. Örneğin, durumların yalnızca %1'inin hedef değeri A 'ya (küçük sınıf) ve servise ait %99'larının B değerine sahip olduğu dengesiz bir veri kümeniz olduğunu varsayalım. Çoğunluk olaylarının yüzdesini önceki yüzdenin iki katına artırmak için modülün özelliklerine SMOTE yüzdesi için 200 girersiniz.

Örnekler

Nasıl çalıştığını görmek için küçük bir veri kümesiyle SMOTE kullanmayı denemenizi öneririz. Aşağıdaki örnek, Machine Learning Studio'da (klasik) bulunan Kan Bağışı veri kümesi kullanır.

Bir denemeye veri kümesi ekler ve veri kümesi çıkışında Görselleştir'e tıklarsanız, veri kümesinde yer alan 748 satırdan veya olaydan 570'inin (%76' sı Sınıf 0 ve 178'i sınıf 1'in %24'ü) olduğunu görebilir. Bu dengesiz bir durum olsa da, Sınıf 1 kan bağışında bulunan insanları temsil eder ve bu nedenle bu satırlar modellemek istediğiniz özellik alanı içerir.

Durum sayısını artırmak için SMOTE yüzdesi değerini 100 katları kullanarak aşağıdaki gibi ayarlayın:

Sınıf 0 Sınıf 1 toplam
Özgün veri kümesi

(SMOTE yüzdesine eşdeğerdir = 0)
570

76%
178

24%
748
SMOTE yüzdesi = 100 570

62%
356

38%
926
SMOTE yüzdesi = 200 570

%52
534

48%
1104
SMOTE yüzdesi = 300 570

44%
712

56%
1282

Uyarı

SMOTE kullanarak durum sayısını artırmanın daha doğru modeller üretmesi garanti edilemez. Örnek eklemenin modelinizi nasıl etkileyenisini görmek için farklı yüzdelerle, farklı özellik kümeleriyle ve farklı sayıda en yakın komşuyla denemeler yapmaya çalışmanız gerekir.

SMOTE'yi yapılandırma

  1. SMOTE modülünü denemenize ekleyin. Modülü Veri Dönüştürme modülleri altında işleme kategorisinde bulabilirsiniz.

  2. Bağlan artırmak istediğiniz veri kümesine göre. SMOTE'yi kullanmadan önce kullanmak istediğiniz sütunları yalıtmak için yalnızca belirli sütunları kullanarak veya bazı sütunları dışlayarak yeni servis durumlarını eklemek için özellik alanı belirtmek için Veri Kümesinde Sütunları Seçme modülünü kullanın.

    Aksi takdirde, SMOTE kullanarak yeni servis örnekleri oluşturmak, giriş olarak sizin sağ istediğiniz tüm sütunları temel almaktadır.

  3. Etiketi veya hedef sınıfı içeren sütunun bu şekilde işaretlenmiş olduğundan emin olmak.

    Etiket sütunu yoksa, Sınıf etiketlerini içeren sütunu seçmek için Meta Verileri Düzenle modülünü kullanın ve Alanlar açılan listesindenEtiket'i seçin.

  4. SMOTE modülü, etiket sütunundaki en küçük sınıfı otomatik olarak tanımlar ve sonra nadide sınıfı için tüm örnekleri alır.

  5. SMOTE yüzdesi seçeneğinde, çıkış veri kümesinde yer alan azınlığın hedef yüzdesini gösteren bir tam sayı yazın. Örnek:

    • 0 (% ) yazın. SMOTE modülü, giriş olarak tam olarak sizin sağladığımız veri kümesiyle aynı veri kümesini döndürür ve yeni bir olay eklemez. Bu veri kümesinde sınıf oranı değişmemiştir.

    • 100 (%) yazın. SMOTE modülü, özgün veri kümesinde yer alan aynı sayıdaki azınlığı ekleyerek yeni küçük vakalar üretir. SMOTE, çoğunluğun sayısını artırmaysa da, her sınıfın durumlarının oranı artık değişmiştir.

    • 200 (%) yazın. Modül, özgün veri kümesine kıyasla en küçük vakaların yüzdesini iki katına çıkartır. Bu durum, daha önce olduğu gibi iki kat fazla küçük olay olmasıyla sonuçlanmaz. Bunun yerine, veri kümesi boyutu, çoğunluğun sayısı aynı kalacak şekilde artırıldı ve istenen yüzde değeriyle eşleşene kadar servis davalarının sayısı artırıldı.

    Not

    SMOTE yüzdesi için yalnızca 100 katları kullanın.

  6. SMOTE algoritmasının yeni durumlar oluşturmak için kullandığı özellik alanı boyutunu belirlemek için En yakın komşu sayısı seçeneğini kullanın. En yakın komşu , bazı hedef durumlara çok benzeyen bir veri satırıdır (büyük/küçük harf). İki durum arasındaki uzaklık, tüm özelliklerin ağırlıklı vektörleri birleştirerek ölçülür.

    • En yakın komşu sayısını artırarak daha fazla durumdan özellikler elde ediyor olurnuz.
    • En yakın komşu sayısını düşük tutarak, özgün örnektekilere daha çok benzer özellikleri kullanırsiniz.
  7. Aynı denemenin çalıştırmalarında aynı sonuçların aynı verilerle olmasını sağlamak için Rastgele çekirdek metin kutusuna bir değer yazın. Aksi takdirde modül, deneme dağıtıldığında işlemci saat değerlerine göre rastgele bir çekirdek üretir ve bu da çalıştırmalarda biraz farklı sonuçlara neden olabilir.

  8. Denemeyi çalıştırın.

    Modülün çıktısı, özgün satırları içeren bir veri kümesidir ve azlık durumlarına sahip bazı eklenmiş satırları içerir.

İpucu

hangi yeni satırların eklendiğini anlamak istiyorsanız, uygulama SQL dönüştürmeyi veya veri ekleme modüllerini kullanabilirsiniz.

Teknik notlar

  • Smote modülünü kullanan bir model yayımlarken, bir Web hizmeti olarak yayınlanmadan önce, tahmine dayalı deneyden Smote 'yı kaldırın. Bunun nedeni, SMOME 'nin eğitim sırasında bir modeli geliştirmesinin amaçlandığı ve Puanlama için tasarlanmamıştır. Yayımlanan bir tahmine dayalı deneme, SMOTE modülünü içeriyorsa bir hata alabilirsiniz.

  • Daha fazla sonuç elde etmek için eksik değer Temizleme veya diğer dönüştürmeleri, SMOTE uygulamadan önce verileri onarmak üzere uygularsanız daha iyi sonuçlar elde edebilirsiniz.

  • Bazı araştırmacılar, SMOTE 'ın metin sınıflandırması veya genomikler veri kümelerinde kullanılanlar gibi yüksek boyutlu veya seyrek veriler üzerinde etkin olup olmadığını araştırmıştır. Bu raporda, bu gibi durumlarda SMOTE uygulamanın teorik ve teorik doğruluğuna ilişkin iyi bir Özet vardır: Blagus ve lusa: yüksek boyutlu sınıf tarafından imlenen veriler IÇIN SMOTE

    SMOTE, veri kümeniz için geçerli değilse, minallık durumlarını fazla örneklemek veya çoğunluk durumlarının temelini oluşturmak için çeşitli yöntemler ve kümeleme, Bama ya da Uyarlamalı yükseltme kullanarak doğrudan öğrenme tekniklerini de göz önünde bulundurmanız gereken diğer yaklaşımlar vardır.

Beklenen giriş

Ad Tür Description
Örnekler Veri tablosu Örnek veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
SMOTE yüzdesi >sınama Tamsayı 100 100 katları olarak fazla örnekleme miktarı.
En yakın komşu sayısı >değer Tamsayı 1 Yeni durumlar için özelliklerin çizileceği en yakın komşu sayısı
Rastgele çekirdek Herhangi biri Tamsayı 0 Rastgele sayı üreticisi için çekirdek

Çıktı

Ad Tür Description
Tablo Veri tablosu Orijinal örnekleri içeren bir veri tablosu ve ek sayıda yapay azlık sınıfı örneği. Yeni örnek sayısı (smotePercent/100) * T, burada T, minınlık sınıf örneklerinin sayısıdır.

Ayrıca bkz.

Örnek ve bölünmüş
A-Z modül listesi