Verileri Kutulara Gruplama

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Sayısal verileri bölmelere yerleştirir

Kategori: Ölçeklendirme ve Azaltma

Not

Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)

Benzer sürükle ve bırak modülleri de Azure Machine Learning tasarımcısında kullanılabilir.

Modüle genel bakış

Bu makalede, sayıları gruplandırmak veya sürekli veri dağılımını değiştirmek için Machine Learning Studio'da (klasik) Verileri Bölmeler Halinde Gruplandırma modülünün nasıl kullanılacağı açıklanmaktadır.

Verileri Bölmeler Halinde Gruplandırma modülü, verileri bölmek için birden çok seçeneği destekler. Bölme kenarlarının nasıl ayarlandığını ve değerlerin bölmelere nasıl eklendiğini özelleştirebilirsiniz. Örneğin şunları yapabilirsiniz:

  • Bölme sınırları olarak görev yapmak için bir dizi değeri el ile yazın.
  • Tahmine dayalı modeldeki bölmeleri iyileştirmek amacıyla her aralığın bilgi değerlerini belirlemek için entropi puanlarını hesaplayın. + Nicel veya yüzdebirlik dereceleri kullanarak bölmelere değer atayın.
  • Her bölmedeki değerlerin sayısını denetleme de denetlenebilir.
  • Değerlerin çift dağılımını bölmelere zorla.

Gruplama ve gruplandırma hakkında daha fazla bilgi

Verileri gruplama veya gruplandırma (bazen niceleme olarak da adlandırılır), sayısal verileri makine öğrenmesi için hazırlamada önemli bir araçtır ve aşağıdaki gibi senaryolarda yararlıdır:

  • Sürekli sayılardan oluşan bir sütunda etkili bir şekilde modellenemeyecek kadar çok benzersiz değer vardır; bu nedenle, daha küçük bir ayrık aralık kümesi oluşturmak için değerleri gruplara otomatik olarak veya el ile atarsınız.

    Örneğin, veri değerlerinin en uygun gruplandırmalarını belirlemek için Verileri Bölmeler halinde Gruplandırma tarafından oluşturulan entropi puanlarını kullanabilir ve bu grupları modelinizde özellik olarak kullanabilirsiniz.

  • Sayı sütununu belirli aralıkları temsil eden kategorik değerlerle değiştirin.

    Örneğin, kullanıcı demografik bilgileri için 1-15, 16-22, 23-30 gibi özel aralıklar belirterek bir yaş sütunundaki değerleri gruplandırmak isteyebilirsiniz.

  • Bir veri kümesinin, tümü beklenen aralığın dışında olan birkaç aşırı değeri vardır ve bu değerlerin eğitilen model üzerinde büyük bir etkisi vardır. Modeldeki yanlılığı azaltmak için quantiles (veya equal-height) yöntemini kullanarak verileri tekdüzen bir dağılıma dönüştürebilirsiniz.

    Bu yöntemle, Verileri Bölmeler Halinde Gruplandırma modülü, her bölmeye yaklaşık olarak aynı sayıda örneğin düşmesini sağlamak için ideal bölme konumlarını ve bölme genişliklerini belirler. Ardından, seçtiğiniz normalleştirme yöntemine bağlı olarak, bölmelerdeki değerler yüzdebirlik dilimlere dönüştürülür veya bir bölme numarasına eşlenir.

Gruplama örnekleri

Aşağıdaki diyagramda quantiles yöntemiyle gruplandırmadan önce ve sonra sayısal değerlerin dağılımı gösterilmektedir. Soldaki ham verilerle karşılaştırıldığında verilerin birleştirilmiş ve birim normal ölçeğine dönüştürüldüğüne dikkat edin.

raw data and data binned and normalized

Gruplandırmaya yönelik başka bir yaklaşım, her grubun eşit sayıda hastaya sahip olduğunu garanti etmek için hastaları çeşitli kontrol ve test gruplarına atamak için Kullanılan Bölmeler halinde Gruplama Verilerinin kullanıldığı Meme kanseri algılama örneğinde gösterilmiştir.

Verileri gruplandırmanın birçok yolu olduğundan, tümü özelleştirilebilir olduğundan, farklı yöntemler ve değerlerle denemeler yapmanız önerilir. Örnekler bölümü, farklı gruplama algoritmalarının nasıl kullanılacağını gösteren örnek denemelerin bağlantılarını içerir.

Grup Verilerini Bölmeler Halinde Yapılandırma

  1. Studio'daki (klasik) denemenize Verileri Bölmelere Gruplandırma modülünü ekleyin. Bu modülü Veri Dönüştürme kategorisinde, Ölçeklendirme ve Azaltma altında bulabilirsiniz.

  2. Bölmeye sayısal veriler içeren veri kümesini Bağlan. Niceleme yalnızca sayısal veri içeren sütunlara uygulanabilir.

    Veri kümesi sayısal olmayan sütunlar içeriyorsa, çalışacak sütunların bir alt kümesini seçmek için Veri Kümesindeki Sütunları Seçme modülünü kullanın.

  3. Gruplama modunu belirtin. Gruplama modu diğer parametreleri belirler, bu nedenle önce Gruplama modu seçeneğini belirlediğinizden emin olun! Aşağıdaki gruplama türleri desteklenir:

    Entropi MDL: Bu yöntem, tahmin etmek istediğiniz sütunu ve bölmeler halinde gruplandırmak istediğiniz sütunu veya sütunları seçmenizi gerektirir. Daha sonra verileri geçirir ve entropiyi en aza indiren bölme sayısını belirlemeye çalışır. Başka bir deyişle, veri sütununun hedef sütunu en iyi şekilde tahmin etmesini sağlayan bir dizi bölme seçer. Ardından, adlı <colname>quantizedbir sütundaki verilerinizin her satırıyla ilişkili bölme numarasını döndürür.

    Entropi MDL yöntemi, iyi bir tahminde bulunmak için başlangıçta verileri bölmenin bir yolunu bulamazsa, tüm verileri tekdüzen bir bölmeye atar. Bu, sütunun iyi bir tahmin aracı olmadığı anlamına gelmez. Bu durumda, entropiyi en aza indirecek bölme sayısını bulmak ve verileri daha iyi bir tahmin aracı yapmak için diğer yöntemleri kullanabilirsiniz.

    Bu yöntem gerçek entropi puanlarını döndürmez.

    Niceller: Nicel yöntemi, yüzdebirlik derecelerine göre bölmelere değer atar. Niceller eşit yükseklikli gruplama olarak da bilinir.

    Eşit Genişlik: Bu seçenekle, toplam bölme sayısını belirtmeniz gerekir. Veri sütunundaki değerler, her bölmenin başlangıç ve bitiş değerleri arasında aynı zaman aralığına sahip olması için bölmelere yerleştirilir. Sonuç olarak, veriler belirli bir nokta etrafında yığılırsa bazı bölmeler daha fazla değere sahip olabilir.

    Özel Kenarlar: Her bölmeyi başlatan değerleri belirtebilirsiniz. Kenar değeri her zaman bölmenin alt sınırıdır. Örneğin, değerleri biri 0'dan büyük, biri 0'dan küçük veya 0'a eşit olan iki bölmede gruplandırmak istediğinizi varsayalım. Bu durumda, bölme kenarları için virgülle ayrılmış bölme kenarları listesine 0 yazarsınız. Modülün çıkışı 1 ve 2 olur ve her satır değeri için bin dizinini gösterir.

    Özel Başlangıç ve Durdurma ile Eşit Genişlik: Bu yöntem Eşit Genişlik seçeneği gibidir, ancak hem alt hem de üst bölme sınırlarını belirtebilirsiniz.

  4. Bölme sayısı: Entropi MDL, Quantiles ve Eşit Genişlikli gruplama modlarını kullanıyorsanız, oluşturmak istediğiniz bölme sayısını veya niceliği belirtmek için bu seçeneği kullanın.

  5. Bölme sütunları için, bölmek istediğiniz değerleri içeren sütunları seçmek için Sütun Seçici'yi kullanın. Sütunlar sayısal bir veri türü olmalıdır.

    Aynı gruplama kuralı, seçtiğiniz tüm geçerli sütunlara uygulanır. Bu nedenle, farklı bir yöntem kullanarak bazı sütunları bölmeniz gerekiyorsa, her sütun kümesi için Verileri Bölmeler Halinde Gruplandır'ın ayrı bir örneğini kullanın.

    Uyarı

    İzin verilmeyen bir sütun seçerseniz çalışma zamanı hatası oluşturulur. Modül, izin verilmeyen türde bir sütun bulur bulmaz bir hata döndürür. Hata alırsanız tüm seçili sütunları gözden geçirin. Hata tüm geçersiz sütunları listelemez.

  6. Çıkış modu için, nicelenmiş değerlerin çıkışını nasıl yapmak istediğinizi belirtin.

    • Ekleme: Binned değerleriyle yeni bir sütun oluşturur ve bunu giriş tablosuna ekler.

    • Inplace: Özgün değerleri veri kümesindeki yeni değerlerle değiştirir.

    • ResultOnly: Yalnızca sonuç sütunlarını döndürür.

  7. Quantiles gruplama modunu seçerseniz, nicellere göre sıralamadan önce değerlerin nasıl normalleştirileceğini belirlemek için Quantile normalleştirme seçeneğini kullanın. Değerleri normalleştirmenin değerleri dönüştürdüğünü, ancak son bölme sayısını etkilemediğini unutmayın. Örnek için bkz. Farklı Normalleştirme Yöntemlerinin Etkileri.

    Aşağıdaki normalleştirme türleri desteklenir:

    • Yüzde: Değerler [0,100] aralığında normalleştirilir

    • PQuantile: Değerler [0,1] aralığında normalleştirilir

    • QuantileIndex: Değerler [1,bölme sayısı] aralığında normalleştirilir

  8. Özel Kenarlar seçeneğini belirlerseniz, + Virgülle ayrılmış bölme kenarları metin kutusuna bölme kenarları olarak kullanılacak virgülle ayrılmış bir sayı listesi yazın. Değerler bölmeleri bölen noktayı işaretler. Bu nedenle, bir bölme kenar değeri yazarsanız iki bölme oluşturulur; İki bölme kenar değeri yazarsanız, üç bölme vb. oluşturulur.

    Değerler, bölmelerin oluşturulacağı düzende, en düşükten en yükseğe sıralanmalıdır.

  9. Özel Başlangıç ve Durdurma ile Eşit Genişlik seçeneğini kullanırsanız, bölmelerin sınırlarını belirtmeniz gerekir.

    İlk kenar konumu metin kutusuna bir değer yazarak ilk bölmenin alt sınırını tanımlayın.

    Son kenar konumu metin kutusuna bir değer yazarak son bölmenin alt sınırını tanımlayın.

  10. Sütunları kategorik olarak etiketle: İkili değerlerin sütununa otomatik olarak meta veri bayrağı eklemek için bu seçeneği belirleyin. Meta veri bayrağı, nicelenmiş sütunların kategorik değişkenler olarak işlenmesi gerektiğini gösterir.

  11. Denemeyi çalıştırın veya bu modülü seçip Seçili çalıştır'a tıklayın.

Sonuçlar

Verileri Bölmeler Halinde Gruplandırma modülü, her öğenin belirtilen moda göre gruplandığı bir veri kümesi döndürür.

Ayrıca, aynı gruplama modunu ve parametreleri kullanarak yeni veri örneklerini bölmek için Dönüştürme Uygulama modülüne geçirilebilen bir işlev olan bir Gruplama dönüşümü döndürür.

Gruplama yönteminin tahmin aracı olarak ne kadar iyi çalıştığını görmek için Veri Grubu'ndan Bölmelere veri kümesi çıkışına tıklayabilir ve etiket sütununu gruplanmış sütunla karşılaştırabilirsiniz. Bölmelere gruplandırma tahmine dayalıysa, sekmeler arası matristeki değerler birkaç hücrede yoğunlaşmalıdır.

İpucu

Eğitim verilerinizde gruplama kullanıyorsanız, test ve tahmin için kullandığınız verilerde aynı gruplama yöntemini kullanmanız gerektiğini unutmayın. Buna gruplama yöntemi, bölme konumları ve bölme genişlikleri dahildir.

Verilerin her zaman aynı gruplama yöntemi kullanılarak dönüştürülmesini sağlamak için, Dönüştürmeyi Uygula modülünü kullanarak yararlı veri dönüşümlerini kaydetmenizi ve sonra bunları diğer veri kümelerine uygulamanızı öneririz.

Örnekler

Makine öğrenmesi senaryolarında nicelemenin nasıl uygulandığına ilişkin örnekler için bkz. Azure AI Galerisi:

Teknik notlar

Bu bölüm uygulama ayrıntılarını, ipuçlarını ve sık sorulan soruların yanıtlarını içerir.

Farklı normalleştirme yöntemlerinin etkileri

Quantile normalleştirme seçeneğini seçerseniz, değerler gruplandırmadan önce dönüştürülür. Bu nedenle, normalleştirme için seçtiğiniz yöntemin sayısal değerler üzerinde güçlü bir etkisi vardır.

Örneğin, aşağıdaki tabloda Teleskop veri kümesindeki tek bir sütundaki fLengthdeğerlerin normalleştirme yöntemlerinin her biriyle nasıl dönüştürüldüğü gösterilmektedir. sütunu, fLengthher seçenekten çıkış değerlerinin çizimi için rastgele seçilmiştir ve normal bir dağılımı yoktur.

Kaynak (fLength) pQuantile QuantileIndex Yüzde
28.7967 0.363636 4 36.363636
31.6036 0.454545 5 45.454545
162.052 0.909091 10 90.909091
23.8172 0.272727 3 27.272727

Her yöntem için gruplama sonuçları benzerdir.

Aşağıdaki grafikte, sütundaki değerlerin, varsayılan olarak 10 bölme kullanılarak gruplandırmadan önceki ve sonraki dağılımı gösterilmektedir.

Comparison of Normalization Methods for Binning

Uygulama ayrıntıları

  • Niceleme sırasında her sayı, değerini bölme kenarlarının değerleriyle karşılaştırarak bir bölmeyle eşlenir.

    Örneğin, değer 1,5 ve bölme kenarları 1, 2 ve 3 ise, öğe 2 numaralı bölmeyle eşlenir. 0,5 değeri 1 numaralı bölmeye (taşma bölmesi) eşlenir ve 3,5 değeri 4 numaralı bölmeye (taşma bölmesi) eşlenir.

  • Bölme sütunu (niceleme) seyrek ise, sonuçta elde edilen sütun doldurulduğunda bölme dizini uzaklığı (nicelik uzaklığı) kullanılır. Uzaklık, seyrek 0'ın her zaman 0 dizini olan bölmeye (başka bir deyişle, 0 değeriyle nicel) gitmesi için seçilir.

  • Seyrek sıfırlar girişten çıkış sütununa yayılır.

  • Yoğun sütunların işlenmesi her zaman minimum bin dizini 1'e eşit olan sonuçlar üretir; başka bir ifadeyle, minimum miktar değeri sütundaki minimum değere eşit olur. Aynı zamanda seyrek bir sütunun işlenmesi, minimum bin dizini (minimum nicelik değeri) değişkenli bir sonuç üretir.

  • Tüm NaN'ler ve eksik değerler giriş sütunundan çıkış sütununa yayılır. Tek özel durum, modülün nicel dizinler döndürmesi durumudur. Bu durumda tüm NaN'ler eksik değerlere yükseltilir.

  • Bölme dizinleri 1 tabanlıdır. Bu, nicellerin doğal kuralıdır (1. nicel, 2. nicel vb.). Tek özel durum, bölme sütunun seyrek olmasıdır.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Analiz edilecek veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Gruplama modu Liste QuantizationMode Dağılım Dilimleri Bir gruplama yöntemi seçin
Depo kutusuna sütunlar herhangi biri ColumnSelection SayısalTüm Niceleme için sütun seçme
Çıkış modu herhangi biri Çıktı Nicelenmiş sütunların çıkışının nasıl olması gerektiğini belirtme
Sütunları kategorik olarak etiketleme herhangi biri Boole true Çıkış sütunlarının kategorik olarak etiketlenip etiketlenmediğini belirtin
Bölme sayısı >=1 Tamsayı 10 İstenen bölme sayısını belirtin
Nicel normalleştirme herhangi biri BinningNormalization Nicelleri normalleştirme yöntemini seçme
İlk kenar konumu herhangi biri Float 0,0 İlk bölme kenarı için değeri belirtin
Bölme genişliği herhangi biri Float 0,5 Özel bölme genişliği belirtme
Son kenar konumu herhangi biri Float 1.0 Son bölme kenarı için değeri belirtin
Bölme kenarlarının virgülle ayrılmış listesi herhangi biri Dize Bölme kenarları olarak kullanılacak sayıların virgülle ayrılmış listesini yazın

Çıkışlar

Ad Tür Description
Nicelenmiş veri kümesi Veri Tablosu Nicelenmiş sütunlar içeren veri kümesi
Gruplama dönüşümü ITransform arabirimi Veri kümesine niceleme uygulayan dönüştürme

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0004 Parametre belirli bir değerden küçük veya buna eşitse özel durum oluşur.
Hata 0011 Geçirilen sütun kümesi bağımsız değişkeni veri kümesi sütunlarından hiçbirine uygulanmazsa özel durum oluşur.
Hata 0021 Modüle geçirilen bazı veri kümelerindeki satır sayısı çok küçükse özel durum oluşur.
Hata 0024 Veri kümesi etiket sütunu içermiyorsa özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerindeki sütun sayısı çok küçükse özel durum oluşur.
Hata 0038 Beklenen öğe sayısının tam bir değer olması gerekirken değilse özel durum oluşur.
Hata 0005 Parametre belirli bir değerden küçükse özel durum oluşur.
Hata 0002 Bir veya daha fazla parametre ayrıştırılamadıysa veya belirtilen türden hedef yöntem türü için gerekli olarak dönüştürülemiyorsa özel durum oluşur.
Hata 0019 Sütunun sıralanmış değerler içermesi bekleniyorsa, ancak içermiyorsa özel durum oluşur.
Hata 0039 İşlem başarısız olursa özel durum oluşur.
Hata 0075 Bir veri kümesinin miktarını belirlemek için geçersiz bir gruplama işlevi kullanıldığında özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. hata kodları Machine Learning.

API özel durumlarının listesi için bkz. MACHINE LEARNING REST API Hata Kodları.

Ayrıca bkz.

Ölçeklendirme ve Azaltma
Verileri Normalleştirme
Değerleri Kırpma