Ayrık değerleri Değiştir

Makale
05/06/2019

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

makine öğrenimi projelerini ML Studio (klasik) konumundan Azure Machine Learning taşımaya yönelik bilgilerebakın.
Azure Machine Learninghakkında daha fazla bilgi edinin.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Farklı değerleri bir sütundan farklı bir sütuna göre sayısal değerlerle değiştirir

Kategori: Istatistiksel işlevler

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Modüle genel bakış

bu makalede, ayrı bir değeri temsil etmek üzere kullanılabilecek bir olasılık puanı oluşturmak için Machine Learning Studio 'da (klasik) ayrık değerleri değiştirme modülünün nasıl kullanılacağı açıklanır. Bu puan, ayrık değerlerin bilgi değerini anlamak için yararlı olabilir.

Nasıl çalışır?

Ayrık (veya kategorik) değeri içeren bir sütun seçin ve ardından başvuru için kullanılacak başka bir sütun seçin.

İkinci sütunun kategorik veya kategorilmemiş olmasına bağlı olarak, modül aşağıdaki değerlerden birini hesaplar:

İkinci sütunun ilk sütunundaki değerleri verdiği koşullu olasılık .
İlk sütundaki her bir değer grubu için Ortalama ve Standart sapma .

Modül, hem puanları olan bir veri kümesini hem de kaydedebilmeniz ve diğer veri kümelerine uygulayabileceğiniz bir işlevi çıktı.

Farklı değerleri değiştirme nasıl yapılandırılır

İpucu

Aynı anda yalnızca bir çift sütundan çalışmaktan çalıştığınızı öneririz. Analiz etmek için birden çok sütun seçerseniz modül bir hata oluşturmaz. Ancak, uygulamada birden çok sütun seçerseniz seçim sırasına göre değil, bir iç buluşsal yöntem ile eşleştirilir.

Bu nedenle, biri ayrı sütunlar ve değiştirme sütunlarıiçin olmak üzere her seferinde tek bir sütun çifti seçmenizi öneririz.

Birden çok sütun için puanlar oluşturmanız gerekiyorsa, farklı değerleri Değiştir' in ayrı örneklerini kullanın.

Farklı değerleri Değiştir modülünü denemenize ekleyin. bu modülü, Machine Learning Studio 'daki deneme öğeleri listesinde istatistiksel işlevler grubunda bulabilirsiniz (klasik).
kategorik verilerin en az bir sütununu içeren bir veri kümesi Bağlan.
Ayrık sütunlar: ayrık (veya kategorik) değerler içeren bir sütun seçmek için sütun seçiciyi Başlat ' a tıklayın.

Seçtiğiniz tüm ayrık sütunlar kategorik olmalıdır. Bir hata alırsanız, sütun türünü değiştirmek için meta verileri Düzenle modülünü kullanın.
Değiştirme sütunları: değiştirme puanı hesaplanırken kullanılacak değerleri içeren sütunu seçmek için, sütun seçiciyi Başlat ' a tıklayın.

Ayrık sütunlariçin birden çok sütun seçerseniz, aynı sayıda değiştirme sütunu seçmeniz gerekir.
Denemeyi çalıştırın.

Not

Hangi istatistiksel işlevin uygulanacağını seçemezsiniz. Modül, değiştirme sütunuiçin seçilen sütunun veri türüne göre uygun bir ölçü hesaplar.

Sonuçlar

Modül her sütun çifti için aşağıdaki değerlerden birini hesaplar:

İkinci sütun kategorik değerler içeriyorsa, modül ilk sütundaki değerler verildiğinde ikinci sütunun koşullu olasılığını hesaplar.

Örneğin, Census veri kümesinden ayrı sütun olarak seçtiğinizi occupation varsayın ve değiştirme sütunu olarak öğesini seçin gender . Modülün çıkışı şöyle olacaktır:

P(gender | occupation)
İkinci sütun sayılara dönüştürülebilen kategorik olmayan değerler içeriyorsa (sayısal veya kategori olarak işaretlenmemiş değerler gibi), modül ilk sütundaki her bir değer grubu için Ortalama ve Standart sapmayı çıkarır.

Örneğin, ayrık sütun olarak kullandığınızı ve diğer sütunun ise sayısal sütunu hours-per-week olduğunu varsayalım occupation . Modül şu yeni değerleri çıktı:

Mean(hours-per-week | occupation)

Std-Dev(hours-per-week | occupation)

Olasılık puanlarına ek olarak, modül dönüştürülmüş bir veri kümesi de verir. Bu veri kümesinde, değiştirme sütunları olarak seçilen sütun, hesaplanan puanları içeren bir sütunla değiştirilmiştir.

İpucu

Kaynak veri kümesindeki sütunlar gerçekte işlem tarafından değiştirilmez veya silinmez; puan sütunları, kaynak veriler yerine modül ve çıkış tarafından oluşturulan yeni değerlerdir.

Kaynak değerlerini olasılık puanlarla birlikte görüntülemek için, sütun Ekle modülünü kullanın.

Örnekler

Farklı değerleri Değiştir kullanımı, bazı basit örneklere göre gösterilebilir.

Örnek 1-bir kategorik değeri bir olasılık puanı ile değiştirme

Aşağıdaki tabloda kategorik bir sütun X ve kategorik değerler olarak kabul edilen true/false değerleri içeren bir sütun Y. Ayrık değerleri Değiştir' i kullandığınızda, üçüncü sütunda gösterildiği gibi Y X verilen bir olasılık için koşullu bir olasılık puanı hesaplar.

X	Y	P (Y \| Sayı
Mavi	0	`P(Y=0\|X=Blue) = 0.5`
Mavi	1	`P(Y=1\|X=Blue) = 0.5`
Yeşil	0	`P(Y=0\|X=Green) = 2/3`
Yeşil	0	`P(Y=0\|X=Green) = 2/3`
Yeşil	1	`P(Y=1\|X=Green) = 1/3`
Kırmızı	0	`P(Y=0\|X=Red) = .75`
Kırmızı	0	`P(Y=0\|X=Red) = .75`
Kırmızı	1	`P(Y=1\|X=Red) = .25`
Kırmızı	0	`P(Y=0\|X=Red) = .75`

Örnek 2-kategorik olmayan bir sütuna göre ortalama ve standart sapmayı hesaplama

İkinci sütun sayısal olduğunda, ayrık değerleri Değiştir koşullu bir olasılık puanı yerine ortalama ve standart sapmayı hesaplar.

Aşağıdaki örnek, otomatik fiyatlar örnek veri kümesini temel alarak aşağıdaki gibi basitleştirilmiştir:

Sütun küçük bir alt kümesi seçildi.
Bölüm ve örnek modülün Head seçeneği kullanılarak yalnızca ilk 30 satır ayıklandı.
Farklı değerleri Değiştir modülü, araç Curb ağırlığı için Ortalama ve Standart sapmayı hesaplamak üzere kullanılmıştır. Kategorik sütun olarak num-of-doors verilirler.

Aşağıdaki tabloda sonuçlar gösterilmektedir:

Gövde	Kapıların sayısı	Curb ağırlığı	Ortalama (Curb-ağırlık \| kapıların sayısı)	STD-dev (Curb-ağırlık \| kapıların sayısı)
std	iki	2548	2429,785714	507,45699
std	dördü	2337	2625,6	493,409877
std	iki	2507	2429,785714	507,45699
Turbo	dördü	3086	2625,6 5	493,409877
std	dördü	1989	2625,6	493,409877
Turbo		2191
std	dördü	2535	2625,6	493,409877

Excel işlevini kullanarak AVERAGEIF her bir değer grubu için ortalaması doğrulayabilirsiniz.

Örnek 3-eksik değerleri Işleme

Bu örnek, koşullu olasılık puanları hesaplanırken eksik değerlerin (null değerler) sonuçlara nasıl yayılacağını gösterir.

Ayrık değer sütunu ve hesaplama arama sütunu eksik değerler içeriyorsa, eksik değerler yeni sütuna dağıtılır.
Ayrık değer sütunu yalnızca eksik değerler içeriyorsa, modül sütunu işleyemez ve bir hata iletisi görüntülenir.

X	Y	P (Y \| Sayı
1	Doğru	`P(Y=true\|X=1) = 1/2`
1	Yanlış	`P(Y=false\|X=1) = 1/2`
2	Doğru	`P(Y=true\|X=2) = 1/3`
2	Yanlış	`P(Y=false\|X=2) = 1/3`
2	Null	`P(Y=null\|X=2) = null`

Teknik notlar

Değiştirmek istediğiniz herhangi bir ayrık sütunun kategorik olduğundan emin olmanız gerekir, aksi bir deyişle modül bir hata döndürmeyecektir. Bunu yapmak için meta verileri Düzenle modülünü kullanın.
İkinci sütun Boole değerleri içeriyorsa, True-False değerleri, FALSE ile sayısal olarak işlenir ve sırasıyla 0 ve 1 ile doğru eşdeğerdir.
Standart sapma sütunu için formül, popülasyon standart sapmasını hesaplar. Bu nedenle, N, (N-1) yerine paydada kullanılır.
İkinci sütun kategorik olmayan veriler (sayısal veya Boole değerleri) içeriyorsa, modül verilen X değeri için Y 'nin ortalama ve standart sapmasını hesaplar.

Diğer bir deyişle, tarafından i dizinlenen veri kümesindeki her satır için:

Mean(Y│X)i = Mean(Y│X = Xi)

StdDev(Y│X)i = StdDev(Y│X = Xi)
İkinci sütun, sayısal veya Boole olmayan kategorik veriler veya değerler içeriyorsa, modül verilen X değeri için Y 'nin koşullu olasılığını hesaplar.
İkinci sütundaki herhangi bir Boole değeri, yanlış ile sayısal veriler olarak işlenir ve sırasıyla 0 ve 1 ile doğru eşdeğerdir.
Ayrık sütunda bir sınıf varsa, ikinci sütunda eksik değere sahip bir satır varsa, sınıf içindeki koşullu olasılıkların toplamı bir küçüktür.

Beklenen girişler

Ad	Tür	Description
Veri kümesi	Veri tablosu	Giriş veri kümesi

Modül parametreleri

Name	Aralık	Tür	Varsayılan	Description
Ayrık sütunlar	Herhangi biri	ColumnSelection		Ayrık değerler içeren sütunları seçer
Değiştirme sütunları	Herhangi biri	ColumnSelection		Ayrık değerler yerine kullanılacak verileri içeren sütunları seçer

Çıkışlar

Ad	Tür	Description
Takıma düzenlenmiş veri kümesi	Veri tablosu	Değiştirilmiş verileri olan veri kümesi
Transform işlevi	Iransform arabirimi	Diğer veri kümelerine uygulanabilen dönüştürme işlevinin tanımı

Özel durumlar

Özel durum	Description
Hata 0001	Veri kümesinin bir veya daha fazla belirtilen sütunu bulunamazsa özel durum oluşur.
Hata 0003	Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0020	Modüle geçirilen bazı veri kümelerinde sütun sayısı çok küçük olduğunda özel durum oluşur.
Hata 0021	Modüle geçirilen bazı veri kümelerinde satır sayısı çok küçük olduğunda özel durum oluşur.
Hata 0017	Belirtilen bir veya daha fazla sütunda geçerli modül tarafından desteklenmeyen bir tür varsa özel durum oluşur.
Hata 0026	Aynı ada sahip sütunlara izin verilmiyorsa özel durum oluşur.
Hata 0022	Giriş veri kümesindeki Seçili sütunların sayısı beklenen sayıya eşit değilse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

İstatistiksel Işlevler

X	Y	P (Y \| Sayı
Mavi	0	`P(Y=0\|X=Blue) = 0.5`
Mavi	1	`P(Y=1\|X=Blue) = 0.5`
Yeşil	0	`P(Y=0\|X=Green) = 2/3`
Yeşil	0	`P(Y=0\|X=Green) = 2/3`
Yeşil	1	`P(Y=1\|X=Green) = 1/3`
Kırmızı	0	`P(Y=0\|X=Red) = .75`
Kırmızı	0	`P(Y=0\|X=Red) = .75`
Kırmızı	1	`P(Y=1\|X=Red) = .25`
Kırmızı	0	`P(Y=0\|X=Red) = .75`

X	Y	P (Y \| Sayı
1	Doğru	`P(Y=true\|X=1) = 1/2`
1	Yanlış	`P(Y=false\|X=1) = 1/2`
2	Doğru	`P(Y=true\|X=2) = 1/3`
2	Yanlış	`P(Y=false\|X=2) = 1/3`
2	Null	`P(Y=null\|X=2) = null`