Verileri Özetleme

Bir veri kümesindeki sütunlar için temel bir açıklayıcı istatistik raporu oluşturur

Kategori: Istatistiksel işlevler

Not

Için geçerlidir: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgili. Benzer sürükle ve bırak modülleri bir tasarımcıya Azure Machine Learning eklendi. İki sürümü karşılaştıran bu makalede daha fazla bilgi bulabilirsiniz.

Modüle genel bakış

Bu makalede, giriş tablosundaki her bir sütunu açıklayan bir dizi standart istatistiksel ölçü oluşturmak için Azure Machine Learning Studio (klasik) ' de özetleme verileri modülünün nasıl kullanılacağı açıklanır.

Bu tür Özet istatistikleri, tüm veri kümesinin özelliklerini anlamak istediğinizde faydalıdır. Örneğin, şunları bilmeniz gerekebilir:

  • Her sütunda kaç tane eksik değer var?
  • Bir özellik sütununda kaç benzersiz değer var?
  • Her sütun için Ortalama ve standart sapma nedir?

Modül her bir sütunun önemli puanlarını hesaplar ve giriş olarak girilen her değişken (veri sütunu) için bir Özet istatistikleri satırı döndürür.

İpucu

Daha önce, Studio 'daki (klasik) Görselleştir seçeneğini kullanarak bir istatistik listesinin kısa bir listesini alabileceğiniz zaten haberdar olabilirsiniz. Ancak, bu görselleştirme, bazı en çok sayıda satıra göre oluşturulur. Buna karşılık, özetleme verileri modülü tüm veri satırlarında istatistiklerini hesaplar.

Özet verileri kullanma

  1. Özet verileri modülünü denemenize ekleyin. Bu modülü, Studio 'daki Istatistiksel işlevler kategorisinde bulabilirsiniz (klasik).

  2. Rapor oluşturmak istediğiniz veri kümesini bağlayın.

    Yalnızca bazı sütunlara raporlamak istiyorsanız, birlikte çalışmak üzere bir sütun alt kümesini proje yapmak için veri kümesindeki sütunları seçme modülünü kullanın.

  3. Ek parametre gerekmez. Varsayılan olarak modül, giriş olarak sağlanan tüm sütunları analiz eder ve sütunlarda yer alan değerlerin türüne bağlı olarak Sonuçlar bölümünde açıklandığı gibi ilgili bir istatistik kümesi oluşturur.

  4. Denemeyi çalıştırın veya modüle sağ tıklayın ve Seçili çalıştır'ı seçin.

Sonuçlar

Modülden rapor aşağıdaki istatistikleri içerebilir.

  • Oluşturulan tam istatistikler sütun veri türüne bağlıdır. Ayrıntılar için Teknik notlar bölümüne bakın.

  • Örneklerin bir popülasyona ait temsili bir örneğine ait olduğu varsayımı yapılır. Bir popülasyona ilişkin istatistikleri hesaplamaya ihtiyacınız varsa, Örnek veya popülasyon istatistiklerini hesaplandıracak Basit İstatistikleri Hesaplama modülünde bulunan seçenekleri kullanın.

Sütun adı Description
Özellik Sütunun adı
Sayısı Tüm satırların sayısı
Benzersiz Değer Sayısı Sütundaki benzersiz değerlerin sayısı
Eksik Değer Sayısı Sütundaki benzersiz değerlerin sayısı
Dk Sütundaki en düşük değer
Max Sütundaki en yüksek değer
Demek Tüm sütun değerlerinin ortalaması
Ortalama sapma Sütun değerlerinin ortalama sapması
1. DÖRTTEBİRLİK İlk dörttebir değer
Ortanca Ortanca sütun değeri
3. DÖRTTEBİRLİK Üçüncü dörttebir değer
Mod Sütun değerlerinin modu
Aralık Maksimum ve minimum değerler arasındaki değer sayısını temsil eden tamsayı
Örnek varyans Sütun varyansı; bkz. nota
Örnek standart sapması Sütun için standart sapma; bkz. nota
Örnek çarpıklığı Sütun için çarpıklık; bkz. nota
Örnek basıklık Sütun için basıklık; bkz. nota
P 0,5 %0,5 yüzdebirlik
P1 %1 yüzdebirlik
P5 %5 yüzdebirlik
P95 %95 yüzdebirlik
P99.5 %99,5 yüzdebirlik

İpucu

BI raporlama araçlarında verileri kullanmak veya denemede başka bir işlem için giriş olarak değerleri kullanmak için istatistik raporunu tablosal veri kümesi olarak çıktıya ekleyin.

Örnekler

Bir denemede Verileri Özetle modülünü kullanma örnekleri için bkz. Azure Yapay Zeka Galerisi:

Teknik notlar

  • Sayısal ve Boole sütunları için ortalama, orta değer, mod ve standart sapma çıkışını çıkarabilirsiniz.

  • Sayısal olmayan sütunlar için yalnızca Sayı, Benzersiz değer sayısı ve Eksik değer sayısı değerleri hesaplanır. Diğer istatistikler için null değer döndürülür.

  • Boole değerleri içeren sütunlar şu kurallar kullanılarak işlenir:

    • Min hesaplanırken, mantıksal BIR AND uygulanır.

    • Maksimum hesaplanırken bir mantıksal OR uygulanır

    • Aralık hesaplanırken, modül ilk olarak sütundaki benzersiz değerlerin sayısının 2'ye eşit olup olmadığını denetler.

    • Kayan nokta hesaplamaları gerektiren herhangi bir istatistiği hesaplarken, true değeri 1,0 olarak değerlendirilir ve false değerleri 0,0 olarak değerlendirilir.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri tablosu Giriş veri kümesi

Çıktı

Ad Tür Description
Sonuç veri kümesi Veri tablosu Açıklayıcı istatistikleri içeren giriş veri kümesinin bir profili

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerinde sütun sayısı çok küçük olduğunda özel durum oluşur.
Hata 0021 Modüle geçirilen bazı veri kümelerinde satır sayısı çok küçük olduğunda özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

İstatistiksel Işlevler
İşlem öğesel Istatistiklerini hesaplama