Ayrık Değerleri Değiştirme

Bir sütundaki ayrık değerleri başka bir sütunu temel alan sayısal değerlerle değiştirir

Kategori: İstatistiksel İşlevler

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu makalede, ayrık bir değeri temsil etmek için değiştirilebilir bir olasılık puanı oluşturmak için Azure Machine Learning Studio'daki (klasik) Ayrık Değerleri Değiştir modülünün nasıl kullanacağız? Bu puan, ayrık değerlerin bilgi değerini anlamak için yararlı olabilir.

Nasıl çalışır?

Ayrık (veya kategorik) değeri içeren bir sütun seçin ve sonra başvuru için kullanmak üzere başka bir sütun seçin.

İkinci sütunun kategorik mi yoksa kategorik olmayan mı olduğuna bağlı olarak modül aşağıdaki değerlerden birini hesaplar:

  • İlk sütundaki değerlere göre ikinci sütunun koşullu olasılığı.
  • İlk sütundaki her değer grubu için ortalama ve standart sapma.

Modülde hem puanlara sahip bir veri kümesi hem de diğer veri kümelerini kaydedecek ve uygulayabilecek bir işlev çıkışını verir.

Ayrık Değerleri Değiştir'i yapılandırma

İpucu

Aynı anda yalnızca bir sütun çifti ile çalışmanizi öneririz. Analiz etmek için birden çok sütun seçmeniz modülde hataya neden olmaz. Ancak, uygulamada, birden çok sütun seçerseniz, bunlar seçim sırasına göre değil dahili bir yöntem ile eşkarştırıldı.

Bu nedenle, her zaman tek bir sütun çifti seçmenizi, biri Ayrık sütunlar için, biri de Değiştirme sütunları için seçmenizi öneririz.

Birden çok sütun için puanlar üretmeniz gerekirse, Ayrı Değerleri Değiştir'in ayrı örneklerini kullanın.

  1. Ayrık Değerleri Değiştir modülünü denemenize ekleyin. Bu modülü, Azure Machine Learning Studio (klasik) içindeki deneme öğeleri listesinde istatistiksel işlevler grubunda bulabilirsiniz.

  2. Kategorik verilerin en az bir sütununu içeren bir veri kümesini bağlayın.

  3. Ayrık sütunlar: ayrık (veya kategorik) değerler içeren bir sütun seçmek için sütun seçiciyi Başlat ' a tıklayın.

    Seçtiğiniz tüm ayrık sütunlar kategorik olmalıdır. Bir hata alırsanız, sütun türünü değiştirmek için meta verileri Düzenle modülünü kullanın.

  4. Değiştirme sütunları: değiştirme puanı hesaplanırken kullanılacak değerleri içeren sütunu seçmek için, sütun seçiciyi Başlat ' a tıklayın.

    Ayrık sütunlar için birden çok sütun seçerseniz, aynı sayıda değiştirme sütunu seçmeniz gerekir.

  5. Denemeyi çalıştırın.

    Not

    Hangi istatistiksel işlevin uygulanacağını seçemezsiniz. Modül, değiştirme sütunu için seçilen sütunun veri türüne göre uygun bir ölçü hesaplar.

Sonuçlar

Modül her sütun çifti için aşağıdaki değerlerden birini hesaplar:

  • İkinci sütun kategorik değerler içeriyorsa, modül ilk sütundaki değerler verildiğinde ikinci sütunun koşullu olasılığını hesaplar.

    Örneğin, occupation Census veri kümesinden ayrı sütun olarak seçtiğinizi varsayın ve gender değiştirme sütunu olarak öğesini seçin. Modülün çıkışı şöyle olacaktır:

    P(gender | occupation)

  • İkinci sütun sayılara dönüştürülebilen kategorik olmayan değerler içeriyorsa (sayısal veya kategori olarak işaretlenmemiş değerler gibi), modül ilk sütundaki her bir değer grubu için Ortalama ve Standart sapmayı çıkarır.

    Örneğin, occupation ayrık sütun olarak kullandığınızı ve diğer sütunun ise sayısal sütunu olduğunu varsayalım hours-per-week . Modül şu yeni değerleri çıktı:

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

Olasılık puanlarına ek olarak, modül dönüştürülmüş bir veri kümesi de verir. Bu veri kümesinde, değiştirme sütunları olarak seçilen sütun, hesaplanan puanları içeren bir sütunla değiştirilmiştir.

İpucu

Kaynak veri kümesinde sütunlar aslında işlem tarafından değiştirilemez veya silinmez; score sütunları, kaynak veriler yerine modül ve çıkış tarafından oluşturulan yeni sütunlardır.

Kaynak değerleri olasılık puanları ile birlikte görüntülemek için Sütun Ekle modülünü kullanın.

Örnekler

Ayrık Değerleri Değiştir kullanımı bazı basit örneklerle gösterebilirsiniz.

Örnek 1 - Kategorik bir değeri olasılık puanıyla değiştirme

Aşağıdaki tabloda kategorik bir X sütunu ve kategorik değerler olarak kabul edilen True/False değerlerine sahip Y sütunu yer alır. Ayrık Değerleri Değiştir'i kullanarak, üçüncü sütunda gösterildiği gibi verilen X değerinin Y olasılığı için bir koşullu olasılık puanı hesaplar.

X Y P(Y|X)
Mavi 0 P(Y=0|X=Blue) = 0.5
Mavi 1 P(Y=1|X=Blue) = 0.5
Yeşil 0 P(Y=0|X=Green) = 2/3
Yeşil 0 P(Y=0|X=Green) = 2/3
Yeşil 1 P(Y=1|X=Green) = 1/3
Kırmızı 0 P(Y=0|X=Red) = .75
Kırmızı 0 P(Y=0|X=Red) = .75
Kırmızı 1 P(Y=1|X=Red) = .25
Kırmızı 0 P(Y=0|X=Red) = .75

Örnek 2 - Tek bir sütunu temel alarak ortalama ve standart sapmayı hesaplama

İkinci sütun sayısal olduğunda, Ayrık Değerleri Değiştir koşullu olasılık puanı yerine ortalama ve standart sapmayı hesaplar.

Aşağıdaki örnek, aşağıdaki gibi basitleştirilmiş Otomatik Fiyatlar örnek veri kümesine dayalıdır:

  • Sütunların küçük bir alt kümesi seçilmiştir.

  • Bölüm ve Örnek modülünün Baş seçeneği kullanılarak yalnızca ilk 30 satır ayıklandı.

  • Ayrık Değerleri Değiştir modülü, araç curb ağırlığı için ortalama ve standart sapmayı hesaplamak için kullanıldı. kategorik sütunu num-of-doors verildi.

Aşağıdaki tablo sonuçları gösterir:

Gövde Kapı sayısı Curb ağırlığı Ortalama (|ağırlık) Std-Dev(curb ağırlık|kapı sayısı)
std iki 2548 2429,785714 507,45699
std dördü 2337 2625,6 493,409877
std iki 2507 2429,785714 507,45699
Turbo dördü 3086 2625,6 5 493,409877
std dördü 1989 2625,6 493,409877
Turbo 2191
std dördü 2535 2625.6 493.409877

Excel'de işlevini kullanarak her bir değer grubu için AVERAGEIF ortalamayı doğruabilirsiniz.

Örnek 3 - Eksik değerleri işleme

Bu örnek, koşullu olasılık puanları hesaplanmış olduğunda eksik değerlerin (null değerlerin) sonuçlara nasıl yaymalarını gösterir.

  • Ayrık değer sütunu ve hesaplama arama sütunu eksik değerleri içeriyorsa, eksik değerler yeni sütuna yayılır.

  • Ayrık değer sütunu yalnızca eksik değerler içeriyorsa, modül sütunu işleyemziyor ve bir hata iletisi görüntülenir.

X Y P(Y|X)
1 Doğru P(Y=true|X=1) = 1/2
1 Yanlış P(Y=false|X=1) = 1/2
2 Doğru P(Y=true|X=2) = 1/3
2 Yanlış P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

Teknik notlar

  • Değiştirmek istediğiniz ayrık sütunların kategorik olduğundan emin olmak gerekir, yoksa modül bir hata döndürür. Bunu yapmak için Meta Verileri Düzenle modülünü kullanın.

  • İkinci sütunda Boole değerleri varsa, True-False değerleri sırasıyla FALSE ve 0 ile 1'e eşdeğer TRUE ile sayısal olarak işlenir.

  • Standart sapma sütunu için formül, popülasyon standart sapmasını hesaplar. Bu nedenle, payda (N - 1) yerine N kullanılır.

  • İkinci sütunda kategorik olmayan veriler (sayısal veya Boole değerleri) varsa modül, verilen X değeri için Y değerinin ortalama ve standart sapmasını hesaplar.

    Başka bir ifadeyle, tarafından dizine alan veri kümesinde yer alan her satır i için:

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • İkinci sütunda sayısal veya Boole olmayan kategorik veriler veya değerler varsa modül, verilen X değeri için Y koşullu olasılığını hesaplar.

  • İkinci sütundaki boole değerleri sırasıyla FALSE ve TRUE ile 0 ve 1'e eşdeğer sayısal veriler olarak işlenir.

  • Ayrık sütunda, ikinci sütunda eksik değer içeren bir satır mevcut olacak şekilde bir sınıf varsa, sınıf içindeki koşullu olasılıkların toplamı birden küçük olur.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Ayrık sütunlar Herhangi biri ColumnSelection Ayrık değerler içeren sütunları seçer
Değiştirme sütunları Herhangi biri ColumnSelection Ayrık değerler yerine kullanmak üzere verileri içeren sütunları seçer

Çıkışlar

Ad Tür Description
Ek veri kümesi Veri Tablosu Değiştirilmiş verilerle veri kümesi
Transform işlevi ITransform arabirimi Diğer veri kümelere uygulanan dönüştürme işlevinin tanımı

Özel durumlar

Özel durum Description
Hata 0001 Veri kümesinde belirtilen bir veya daha fazla sütun bulunamasa özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerinde sütun sayısı çok küçük olduğunda özel durum oluşur.
Hata 0021 Modüle geçirilen bazı veri kümelerinde satır sayısı çok küçük olduğunda özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütunda geçerli modül tarafından desteklenmeyen bir tür varsa özel durum oluşur.
Hata 0026 Aynı ada sahip sütunlara izin verilmiyorsa özel durum oluşur.
Hata 0022 Giriş veri kümesindeki Seçili sütunların sayısı beklenen sayıya eşit değilse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

İstatistiksel Işlevler