Ayrık değerleri Değiştir
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- makine öğrenimi projelerini ML Studio (klasik) konumundan Azure Machine Learning taşımaya yönelik bilgilerebakın.
- Azure Machine Learninghakkında daha fazla bilgi edinin.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Farklı değerleri bir sütundan farklı bir sütuna göre sayısal değerlerle değiştirir
Kategori: Istatistiksel işlevler
Not
uygulama hedefi: yalnızca Machine Learning Studio (klasik)
benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.
Modüle genel bakış
bu makalede, ayrı bir değeri temsil etmek üzere kullanılabilecek bir olasılık puanı oluşturmak için Machine Learning Studio 'da (klasik) ayrık değerleri değiştirme modülünün nasıl kullanılacağı açıklanır. Bu puan, ayrık değerlerin bilgi değerini anlamak için yararlı olabilir.
Nasıl çalışır?
Ayrık (veya kategorik) değeri içeren bir sütun seçin ve ardından başvuru için kullanılacak başka bir sütun seçin.
İkinci sütunun kategorik veya kategorilmemiş olmasına bağlı olarak, modül aşağıdaki değerlerden birini hesaplar:
- İkinci sütunun ilk sütunundaki değerleri verdiği koşullu olasılık .
- İlk sütundaki her bir değer grubu için Ortalama ve Standart sapma .
Modül, hem puanları olan bir veri kümesini hem de kaydedebilmeniz ve diğer veri kümelerine uygulayabileceğiniz bir işlevi çıktı.
Farklı değerleri değiştirme nasıl yapılandırılır
İpucu
Aynı anda yalnızca bir çift sütundan çalışmaktan çalıştığınızı öneririz. Analiz etmek için birden çok sütun seçerseniz modül bir hata oluşturmaz. Ancak, uygulamada birden çok sütun seçerseniz seçim sırasına göre değil, bir iç buluşsal yöntem ile eşleştirilir.
Bu nedenle, biri ayrı sütunlar ve değiştirme sütunlarıiçin olmak üzere her seferinde tek bir sütun çifti seçmenizi öneririz.
Birden çok sütun için puanlar oluşturmanız gerekiyorsa, farklı değerleri Değiştir' in ayrı örneklerini kullanın.
Farklı değerleri Değiştir modülünü denemenize ekleyin. bu modülü, Machine Learning Studio 'daki deneme öğeleri listesinde istatistiksel işlevler grubunda bulabilirsiniz (klasik).
kategorik verilerin en az bir sütununu içeren bir veri kümesi Bağlan.
Ayrık sütunlar: ayrık (veya kategorik) değerler içeren bir sütun seçmek için sütun seçiciyi Başlat ' a tıklayın.
Seçtiğiniz tüm ayrık sütunlar kategorik olmalıdır. Bir hata alırsanız, sütun türünü değiştirmek için meta verileri Düzenle modülünü kullanın.
Değiştirme sütunları: değiştirme puanı hesaplanırken kullanılacak değerleri içeren sütunu seçmek için, sütun seçiciyi Başlat ' a tıklayın.
Ayrık sütunlariçin birden çok sütun seçerseniz, aynı sayıda değiştirme sütunu seçmeniz gerekir.
Denemeyi çalıştırın.
Not
Hangi istatistiksel işlevin uygulanacağını seçemezsiniz. Modül, değiştirme sütunuiçin seçilen sütunun veri türüne göre uygun bir ölçü hesaplar.
Sonuçlar
Modül her sütun çifti için aşağıdaki değerlerden birini hesaplar:
İkinci sütun kategorik değerler içeriyorsa, modül ilk sütundaki değerler verildiğinde ikinci sütunun koşullu olasılığını hesaplar.
Örneğin, Census veri kümesinden ayrı sütun olarak seçtiğinizi
occupation
varsayın ve değiştirme sütunu olarak öğesini seçingender
. Modülün çıkışı şöyle olacaktır:P(gender | occupation)
İkinci sütun sayılara dönüştürülebilen kategorik olmayan değerler içeriyorsa (sayısal veya kategori olarak işaretlenmemiş değerler gibi), modül ilk sütundaki her bir değer grubu için Ortalama ve Standart sapmayı çıkarır.
Örneğin, ayrık sütun olarak kullandığınızı ve diğer sütunun ise sayısal sütunu
hours-per-week
olduğunu varsayalımoccupation
. Modül şu yeni değerleri çıktı:Mean(hours-per-week | occupation)
Std-Dev(hours-per-week | occupation)
Olasılık puanlarına ek olarak, modül dönüştürülmüş bir veri kümesi de verir. Bu veri kümesinde, değiştirme sütunları olarak seçilen sütun, hesaplanan puanları içeren bir sütunla değiştirilmiştir.
İpucu
Kaynak veri kümesindeki sütunlar gerçekte işlem tarafından değiştirilmez veya silinmez; puan sütunları, kaynak veriler yerine modül ve çıkış tarafından oluşturulan yeni değerlerdir.
Kaynak değerlerini olasılık puanlarla birlikte görüntülemek için, sütun Ekle modülünü kullanın.
Örnekler
Farklı değerleri Değiştir kullanımı, bazı basit örneklere göre gösterilebilir.
Örnek 1-bir kategorik değeri bir olasılık puanı ile değiştirme
Aşağıdaki tabloda kategorik bir sütun X ve kategorik değerler olarak kabul edilen true/false değerleri içeren bir sütun Y. Ayrık değerleri Değiştir' i kullandığınızda, üçüncü sütunda gösterildiği gibi Y X verilen bir olasılık için koşullu bir olasılık puanı hesaplar.
X | Y | P (Y | Sayı |
---|---|---|
Mavi | 0 | P(Y=0|X=Blue) = 0.5 |
Mavi | 1 | P(Y=1|X=Blue) = 0.5 |
Yeşil | 0 | P(Y=0|X=Green) = 2/3 |
Yeşil | 0 | P(Y=0|X=Green) = 2/3 |
Yeşil | 1 | P(Y=1|X=Green) = 1/3 |
Kırmızı | 0 | P(Y=0|X=Red) = .75 |
Kırmızı | 0 | P(Y=0|X=Red) = .75 |
Kırmızı | 1 | P(Y=1|X=Red) = .25 |
Kırmızı | 0 | P(Y=0|X=Red) = .75 |
Örnek 2-kategorik olmayan bir sütuna göre ortalama ve standart sapmayı hesaplama
İkinci sütun sayısal olduğunda, ayrık değerleri Değiştir koşullu bir olasılık puanı yerine ortalama ve standart sapmayı hesaplar.
Aşağıdaki örnek, otomatik fiyatlar örnek veri kümesini temel alarak aşağıdaki gibi basitleştirilmiştir:
Sütun küçük bir alt kümesi seçildi.
Bölüm ve örnek modülün Head seçeneği kullanılarak yalnızca ilk 30 satır ayıklandı.
Farklı değerleri Değiştir modülü, araç Curb ağırlığı için Ortalama ve Standart sapmayı hesaplamak üzere kullanılmıştır. Kategorik sütun olarak
num-of-doors
verilirler.
Aşağıdaki tabloda sonuçlar gösterilmektedir:
Gövde | Kapıların sayısı | Curb ağırlığı | Ortalama (Curb-ağırlık | kapıların sayısı) | STD-dev (Curb-ağırlık | kapıların sayısı) |
---|---|---|---|---|
std | iki | 2548 | 2429,785714 | 507,45699 |
std | dördü | 2337 | 2625,6 | 493,409877 |
std | iki | 2507 | 2429,785714 | 507,45699 |
Turbo | dördü | 3086 | 2625,6 5 | 493,409877 |
std | dördü | 1989 | 2625,6 | 493,409877 |
Turbo | 2191 | |||
std | dördü | 2535 | 2625,6 | 493,409877 |
Excel işlevini kullanarak AVERAGEIF
her bir değer grubu için ortalaması doğrulayabilirsiniz.
Örnek 3-eksik değerleri Işleme
Bu örnek, koşullu olasılık puanları hesaplanırken eksik değerlerin (null değerler) sonuçlara nasıl yayılacağını gösterir.
Ayrık değer sütunu ve hesaplama arama sütunu eksik değerler içeriyorsa, eksik değerler yeni sütuna dağıtılır.
Ayrık değer sütunu yalnızca eksik değerler içeriyorsa, modül sütunu işleyemez ve bir hata iletisi görüntülenir.
X | Y | P (Y | Sayı |
---|---|---|
1 | Doğru | P(Y=true|X=1) = 1/2 |
1 | Yanlış | P(Y=false|X=1) = 1/2 |
2 | Doğru | P(Y=true|X=2) = 1/3 |
2 | Yanlış | P(Y=false|X=2) = 1/3 |
2 | Null | P(Y=null|X=2) = null |
Teknik notlar
Değiştirmek istediğiniz herhangi bir ayrık sütunun kategorik olduğundan emin olmanız gerekir, aksi bir deyişle modül bir hata döndürmeyecektir. Bunu yapmak için meta verileri Düzenle modülünü kullanın.
İkinci sütun Boole değerleri içeriyorsa, True-False değerleri, FALSE ile sayısal olarak işlenir ve sırasıyla 0 ve 1 ile doğru eşdeğerdir.
Standart sapma sütunu için formül, popülasyon standart sapmasını hesaplar. Bu nedenle, N, (N-1) yerine paydada kullanılır.
İkinci sütun kategorik olmayan veriler (sayısal veya Boole değerleri) içeriyorsa, modül verilen X değeri için Y 'nin ortalama ve standart sapmasını hesaplar.
Diğer bir deyişle, tarafından
i
dizinlenen veri kümesindeki her satır için:Mean(Y│X)i = Mean(Y│X = Xi)
StdDev(Y│X)i = StdDev(Y│X = Xi)
İkinci sütun, sayısal veya Boole olmayan kategorik veriler veya değerler içeriyorsa, modül verilen X değeri için Y 'nin koşullu olasılığını hesaplar.
İkinci sütundaki herhangi bir Boole değeri, yanlış ile sayısal veriler olarak işlenir ve sırasıyla 0 ve 1 ile doğru eşdeğerdir.
Ayrık sütunda bir sınıf varsa, ikinci sütunda eksik değere sahip bir satır varsa, sınıf içindeki koşullu olasılıkların toplamı bir küçüktür.
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri tablosu | Giriş veri kümesi |
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Ayrık sütunlar | Herhangi biri | ColumnSelection | Ayrık değerler içeren sütunları seçer | |
Değiştirme sütunları | Herhangi biri | ColumnSelection | Ayrık değerler yerine kullanılacak verileri içeren sütunları seçer |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Takıma düzenlenmiş veri kümesi | Veri tablosu | Değiştirilmiş verileri olan veri kümesi |
Transform işlevi | Iransform arabirimi | Diğer veri kümelerine uygulanabilen dönüştürme işlevinin tanımı |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0001 | Veri kümesinin bir veya daha fazla belirtilen sütunu bulunamazsa özel durum oluşur. |
Hata 0003 | Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur. |
Hata 0020 | Modüle geçirilen bazı veri kümelerinde sütun sayısı çok küçük olduğunda özel durum oluşur. |
Hata 0021 | Modüle geçirilen bazı veri kümelerinde satır sayısı çok küçük olduğunda özel durum oluşur. |
Hata 0017 | Belirtilen bir veya daha fazla sütunda geçerli modül tarafından desteklenmeyen bir tür varsa özel durum oluşur. |
Hata 0026 | Aynı ada sahip sütunlara izin verilmiyorsa özel durum oluşur. |
Hata 0022 | Giriş veri kümesindeki Seçili sütunların sayısı beklenen sayıya eşit değilse özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.
apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.