Değerleri Kırpma

Aykırı değerleri ve klipleri algılar veya değerlerini değiştirir

Kategori: veri dönüştürme/ölçeklendirme ve azaltma

Not

Için geçerlidir: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgili. Benzer sürükle ve bırak modülleri bir tasarımcıya Azure Machine Learning eklendi. İki sürümü karşılaştıran bu makalede daha fazla bilgi bulabilirsiniz.

Modüle genel bakış

Bu makalede, belirtilen eşiğin üzerinde veya altında olan veri değerlerini tanımlamak ve isteğe bağlı olarak değiştirmek için Azure Machine Learning Studio (klasik) ' de klip değerleri modülünün nasıl kullanılacağı açıklanır. Bu, aykırı değerleri kaldırmak veya bir ortalama, bir sabit ya da başka bir alternatif değeri ile değiştirmek istediğinizde yararlıdır.

Modüle, kırpmak istediğiniz sayıları içeren bir veri kümesine bağlanırsınız, birlikte çalışmak istediğiniz sütunları seçin ve ardından bir eşik veya değer aralığı ve bir değiştirme yöntemi ayarlayın. Modül yalnızca sonuçları veya değiştirilen değerleri özgün veri kümesine eklenmiş şekilde yazabilir.

Klip değerlerini yapılandırma

Başlamadan önce, kırpmak istediğiniz sütunları ve kullanılacak yöntemi belirlemeniz gerekir. Önce küçük bir veri alt kümesinde herhangi bir kırpma yöntemini test etmenizi öneririz.

Modül, seçime dahil ettiğiniz Tüm sütunlara aynı ölçütleri ve değiştirme yöntemini uygular. Bu nedenle, değiştirmek istemediğiniz sütunları dışlediğinizden emin olun.

Bazı sütunlara kırpma yöntemleri veya farklı ölçütler uygulamanız gerekiyorsa, her bir benzer sütun kümesi için klip değerlerinin yeni bir örneğini kullanmanız gerekir.

  1. Denemenize Clip Values modülünü ekleyin ve değiştirmek istediğiniz veri kümesine bağlayın. Bu modülü, veri dönüştürme altında, ölçek ve azalt kategorisinde bulabilirsiniz.

  2. Sütun listesinde, kırpma değerlerinin uygulanacağı sütunları seçmek için sütun seçiciyi kullanın.

  3. Eşik kümesi için, açılan listeden aşağıdaki seçeneklerden birini seçin. Bu seçenekler, kabul edilebilir değerler ve kırpılmakta olması gereken değerler için üst ve alt sınırları nasıl ayarlayabileceğiniz belirlenir.

    • ClipPeaks: Değerleri en yüksek değerlere göre kırparak yalnızca bir üst sınır belirtirsiniz. Bu sınır değerinden büyük değerler değiştirilir veya kaldırılır.

    • ClipSubpeaks: Değerleri alt tepe değerlerine göre kırparak yalnızca daha düşük bir sınır belirtirsiniz. Bu sınır değerinden küçük değerler değiştirilir veya kaldırılır.

    • ClipPeaksAndSubpeaks: Değerleri en yüksek ve alt tepe değerlerine göre kırparak hem üst hem de alt sınırları belirtebilirsiniz. Bu aralığın dışındaki değerler değiştirilir veya kaldırılır. Sınır değerleriyle eşan değerler değişmez.

  4. Önceki adımda seçtiğiniz seçime bağlı olarak aşağıdaki eşik değerlerini ayarlayın:

    • Daha düşük eşik: Yalnızca ClipSubPeaks'ı seçerseniz görüntülenir
    • Üst eşik: Yalnızca ClipPeaks'i seçerseniz görüntülenir
    • Eşik: Yalnızca ClipPeaksAndSubPeaks'ı seçerseniz görüntülenir

    Her eşik türü için Sabit veya Yüzdebirlik seçin.

  5. Sabit'i seçersiniz, metin kutusuna maksimum veya minimum değeri yazın. Örneğin, 999 değerinin yer tutucu değer olarak kullanılmış olduğunu bildiğinizi varsayalım. Üst eşik için Sabit'i seçebilir ve üst eşiğin Sabit değeri olarak 999yazın.

  6. Yüzdebirlik'i seçerseniz sütun değerlerini yüzdebirlik aralığıyla kısıtlarsınız.

    Örneğin, yalnızca 10-80 yüzdebirlik aralıkta yer alan değerleri tutmak ve diğer tüm değerleri değiştirmek istediğiniz varsayın. Yüzdebirlik değerini seçer ve ardından daha düşük eşiğin Yüzdebirlik değeri için 10, üst eşiğin Yüzdebirlik değeri için 80 yazın.

    Yüzdebirlik aralıklarını kullanmayla ilgili bazı örnekler için yüzdebirlikler bölümüne bakın.

  7. Bir yedek değer tanımlayın.

    Az önce belirttiğiniz sınırlarla tam olarak eşleşen sayıların izin verilen değer aralığı içinde olduğu kabul edilir ve bu nedenle değiştirilmez veya kaldırılmaz. Belirtilen aralığın dışında kalan tüm sayılar değiştirme değeri ile değiştirilmiştir.

    • Tepe noktaları için yedek değer: belirtilen eşikten daha büyük olan tüm sütun değerlerinin yerine konacak değeri tanımlar.
    • Subpeaks Için ikame değer: belirtilen eşikten daha küçük olan tüm sütun değerleri için alternatif olarak kullanılacak değeri tanımlar.
    • Clippeaksandsubpeaks seçeneğini kullanırsanız, üst ve alt kırpılan değerler için ayrı bir değiştirme değeri belirtebilirsiniz.

    Aşağıdaki değiştirme değerleri desteklenir:

    • Eşik: kırpılan değerleri belirtilen eşik değeriyle değiştirir.

    • Ortalama: kırpılan değerleri sütun değerlerinin ortalaması ile değiştirir. Ortalama değerler kırpılmadan önce hesaplanır.

    • Ortanca: kırpılan değerleri sütun değerlerinin ortancası ile değiştirir. Ortanca değerler kırpılmadan önce hesaplanır.

    • Yok. Kırpılan değerleri eksik (boş) değeriyle değiştirir.

  8. Gösterge sütunları ekle: belirtilen kırpma işleminin o satırdaki verilere uygulanıp uygulanmadığını belirten yeni bir sütun oluşturmak istiyorsanız bu seçeneği belirleyin. Bu seçenek özellikle yeni bir kırpma ve değiştirme değerleri kümesini sınarken yararlı olur.

  9. Üzerine yazma bayrağı: yeni değerlerin nasıl oluşturulmasını istediğinizi belirtin. Varsayılan olarak, klip değerleri en yoğun değerleri istenen eşiğe kırparak yeni bir sütun oluşturur. Yeni değerler özgün sütunun üzerine yazılır.

    Özgün sütunu tutmak ve kırpılan değerlerle yeni bir sütun eklemek için bu seçeneğin seçimini kaldırın.

  10. Denemeyi çalıştırın.

    Clip Values modülünün çıktısına sağ tıklayın ve değerleri gözden geçirmek Için Görselleştir ' i seçin ve kırpma işleminin beklentilerinizi karşılamasını sağlayın.

Örnekler

Bu modülün makine öğrenmesi denemelerinde nasıl kullan olduğunu görmek için aşağıdaki Azure Yapay Zeka Galerisi:

  • Orman Yangını outliers:Veri biliminde EdX birlikte kullanımından alınan bu örnek, Orman Yangınları örnek veri kümesi kullanılarak kırpma yöntemlerini gösteriyor.

Yüzdebirlikleri kullanarak kırpma

Yüzdebirlik değerlerine göre kırpmanın nasıl çalıştığını anlamak için, 1-10 değerlerinden her biri bir örneği olan 10 satırlı bir veri kümesi düşünün.

  • Üst eşik olarak yüzdebirlik değeri kullanıyorsanız, 90. yüzdebirlik değerde, veri kümesinde yer alan tüm değerlerin yüzde 90'ı bu değerden küçük olması gerekir.

  • Yüzdebirlik değeri daha düşük eşik olarak kullanıyorsanız, 10. yüzdebirlik değerde veri kümesinde yer alan tüm değerlerin yüzde 10'uz o değerden küçük olması gerekir.

  1. Eşik kümesi için ClipPeaksAndSubPeaks'ı seçin.

  2. Üst eşik için Yüzdebirlik'i seçin ve Yüzdebirlik numarası için 90 yazın.

  3. Üst yedek değer için Eksik Değer'i seçin.

  4. Düşük eşik için Yüzdebirlik'i seçin ve Yüzdebirlik numarası için 10 yazın.

  5. Daha düşük yedek değer için Eksik Değer'i seçin.

  6. Bayrağın üzerine yaz seçeneğinin işaretini kaldırın ve Gösterge sütunu ekle seçeneğini belirleyin.

Şimdi üst yüzdebirlik eşik olarak 60 ve daha düşük yüzdebirlik eşik olarak 30 kullanarak aynı denemeyi deneyin ve değiştirme değeri olarak eşik değerini kullanın. Aşağıdaki tabloda bu iki sonuç karşılaştırıldı:

  1. yerine eksik; Üst eşik = 90; Düşük eşik = 10

  2. yerine eşik; Üst yüzdebirlik = 60; Daha düşük yüzdebirlik = 30

Özgün veriler yerine eksik eşiğiyle değiştirin
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, YANLıŞ

5, YANLıŞ

6, YANLıŞ

7, YANLıŞ

8, YANLıŞ

9, YANLıŞ

TRUE
4, DOĞRU

4, DOĞRU

4, DOĞRU

4, DOĞRU

5, YANLıŞ

6, YANLıŞ

7, DOĞRU

7, DOĞRU

7, DOĞRU

7, DOĞRU

Teknik notlar

  • Yalnızca sayı veya tarih/saat değerlerini içeren sütunlarda klip değerlerini kullanabilirsiniz.

  • Metin veya kategorik veri içeren sütunları eklerseniz, sütunlar atlanır.

  • Bir sütun için Ortalama veya ortanca değeri hesaplanmışsa eksik değerler yoksayılır.

  • Kırpma Değerleri, ordinal verileri desteklemez.

  • Çıkış veri kümesine yayıldıklarda eksik değerler değiştirilmez. Kırpılmış değerleri gösteren sütun, eksik değerler için her zaman FALSE içerir.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Gösterge sütunları ekleme TRUE/FALSE Boole FALSE Bir değerin kırpması için gösterge ek isteyip yapılmaz
Düşük eşik için sabit değer herhangi biri Float -1 Alt değerlerin kırpılmış olduğu değer
Üst eşik için sabit değer herhangi biri Float 1 En yüksek değerlerin kırpılmış olduğu değer
Düşük eşiğin sabit değeri herhangi biri Float -1 Alt değerlerin kırpılmış olduğu değer
Üst eşiğin sabit değeri >=1 Float 1 En yüksek değerlerin kırpılmış olduğu değer
Sütun listesi ColumnSelection Kırpmanız için sütun listesi
Daha düşük değiştirme değeri Eşik

Ortalama

Ortanca

Bulunmayan
SubstituteValues Eşik Kırpma alt tepe noktaları için kullanılan değer
Alt eşik Sabit

Özelliğindeki
Eşik modu Sabit Alt tepe noktaları kırpılacak olan değer
Üzerine yazma bayrağı DOĞRU/YANLıŞ Boole TRUE Kırpılan veri sütunların (s) giriş veri sütunları üzerine yazılması gerekip gerekmediğini belirtir
Alt eşik için yüzdebirlik sayısı [1; 99] Tamsayı 1 Alt tepe noktalarının kırpıldığı yüzdelik sayı
Üst eşik için yüzdebirlik sayısı [1; 99] Tamsayı 99 Üzerinde en üst sınırın kırpıldığı yüzdebirlik sayısı
Yüzdebirlik alt eşik sayısı [1;99] Tamsayı 1 Alt tırnakların kırpılmış olduğu yüzdebirlik sayı
Üst eşiğin yüzdebirlik sayısı [1;99] Tamsayı 99 En yüksek artışların kırpılmış olduğu yüzdebirlik sayı
Eşik kümesi ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Eşik Kümesi ClipPeaks Kullanmak istediğiniz eşiğin türünü belirtir
En yüksek değerlerin yerine değer kullanın Eşik

Ortalama

Ortanca

Eksik
SubstituteValues Eşik En yüksek kırpma sırasında kullanılan değer
Subpeaks için değeri değiştir Eşik

Ortalama

Ortanca

Eksik
SubstituteValues Eşik Alt kırpmalar sırasında kullanılan değer
Eşik Sabit

Özelliğindeki
Eşik modu Sabit Üst ve alt sınırın kırpıldığı ve altındaki değer
Üst yedek değer Eşik

Ortalama

Ortanca

Bulunmayan
Eşik Eşik Kırpma için kullanılan değer
Üst eşik Sabit

Özelliğindeki
Eşik modu Sabit En sivri düzeyin kırpıldığı değer

Çıkışlar

Ad Tür Description
Sonuç veri kümesi Veri tablosu Kırpılan sütunları olan veri kümesi

Özel durumlar

Özel durum Description
Hata 0011 Geçirilen sütun kümesi bağımsız değişkeni herhangi bir veri kümesi sütunu için uygulanmemişse özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütunda geçerli modülde desteklenmeyen tür varsa özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

Ölçeklendirme ve azaltma
A-Z Modül Listesi