Sorumlu bileşen analizi

Daha verimli öğrenme için daha az boyutlılık içeren bir özellikler kümesi hesaplar

Kategori: veri dönüştürme/örnekleme ve bölme

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu makalede, eğitim verilerinizin boyutunu azaltmak için Azure Machine Learning Studio (klasik) ' de sorumlu bileşen analizi modülünün nasıl kullanılacağı açıklanır. Modül, verilerinizi analiz eder ve veri kümesinde bulunan tüm bilgileri yakalayan, ancak daha az sayıda özelliği olan, azaltılmış bir özellik kümesi oluşturur.

Modül Ayrıca, ek eğitim gerektirmeden, özelliklerin boyutlılık ve sıkıştırmasında benzer bir azalma elde etmek için yeni verilere uygulayabileceğiniz bir dönüştürme de oluşturur.

Sorumlu bileşen analizi hakkında daha fazla bilgi

Sorumlu bileşen analizi (PCA) makine öğreniminde popüler bir tekniktir. Birçok vektör alanı verisi türünün sıkıştırıldığı ve bu sıkıştırmanın en verimli şekilde örneklemeyle elde edilebilme olgusuna dayanır.

PCA 'nın ek avantajları, veri görselleştirmesi ve öğrenme algoritması tarafından kaynak kullanımının iyileştirilmesi.

Azure Machine Learning Studio (klasik) içindeki sorumlu bileşen analiz modülü, belirtilen veri kümesinde bir özellik sütunları kümesi alır ve daha düşük boyutlılık içeren özellik alanı projeksiyonu oluşturur. Algoritma, tüm özellik matrisindeki bilgilerin çoğunu yakalayan bir özellik alt alanı tanımlamak için rastgele seçme tekniklerini kullanır. Bu nedenle, dönüştürülmüş veri matrisleri, gürültü etkisini azaltarak ve fazla ekleme riskini en aza indirerek orijinal verilerdeki varyansı yakalar.

Sorumlu bileşen analizi (PCA) hakkında genel bilgi için bu Vikipedi makalesinebakın. Bu modülde kullanılan PCA yaklaşımları hakkında daha fazla bilgi için şu makalelere bakın:

Asıl Bileşen Analizini yapılandırma

  1. Ana Bileşen Analizi modülünü denemenize ekleyin. Bunu, Veri Dönüştürme'nin altında Ölçek ve Azaltma kategorisinde bulabilirsiniz.

  2. Dönüştürmek istediğiniz veri kümesine bağlanarak analiz etmek istediğiniz özellik sütunlarını seçin.

    Hangi sütunların özellik olduğu ve hangi etiketlerin etiket olduğu henüz net değilse, sütunları önceden işaretlemek için Meta Verileri Düzenle modülünü kullanmamız önerilir.

  3. Azaltacak boyut sayısı: Son çıkışta istenen sütun sayısını yazın. Her sütun, giriş sütunlarında bilgilerin bir kısmını yakalayan bir boyutu temsil eder.

    Örneğin, kaynak veri kümesi sekiz sütuna sahipse ve siz yazsanız, seçilen sekiz sütunun bilgilerini yakalayan 3 üç yeni sütun döndürülür. Sütunlar , Col1 ve Col2 olarak adlandırılmış. Col3 Bu sütunlar doğrudan kaynak sütunlara eşlanmaz; bunun yerine sütunlar, özgün 1-8 sütunları tarafından açıklanan özellik alanı yaklaşık bir değeri içerir.

    İpucu

    Azaltılmış boyut sayısı özgün boyutlardan çok daha küçük olduğunda algoritma en uygun şekilde işlev gösterir.

  4. Yoğun veri kümesi ortalamayı sıfır olarak normalleştir: Veri kümesi yoğunsa, yani birkaç eksik değer içeriyorsa bu seçeneği belirleyin. Seçilirse modül, sütunlarda yer alan değerleri diğer işlemlerden önce sıfır olan bir ortalamayla normalleştirmektedir.

    Seyrek veri kümeleri için bu seçenek seçilmemiş olması gerekir. Seyrek bir veri kümesi algılanırsa, parametre geçersiz kılınır.

  5. Denemeyi çalıştırın.

Sonuçlar

Modül, model oluştururken kullanabileceğiniz azaltılmış bir sütun kümesi çıkışı sağlar. Çıktıyı yeni bir veri kümesi olarak kaydedebilir veya denemeniz için kullanabilirsiniz.

İsteğe bağlı olarak, uygulama dönüştürmekullanarak başka bir veri kümesine uygulamak için analiz işlemini kaydedilmiş bir dönüşüm olarak kaydedebilirsiniz.

Dönüşümü uyguladığınız veri kümesi, özgün veri kümesiyle aynı şemaya sahip olmalıdır.

Örnekler

Makine öğreniminde sorumlu bileşen analizinin nasıl kullanıldığı hakkında örnekler için Azure yapay zeka Galerisibakın:

  • Kümeleme: benzer şirketleri bul: metin madenciliği olan değer sayısını yönetilebilir özelliklerle azaltmak Için sorumlu bileşen analizini kullanır.

    Bu örnek PCA, özel bir R betiği kullanılarak uygulandığından, PCA 'nın tipik olarak nasıl kullanıldığını gösterir.

Teknik notlar

Düşük boyutlu bileşenleri hesaplamada iki aşama vardır.

  • Birincisi, matrisin eylemini yakalayan düşük boyutlu bir alt alan oluşturmak için kullanılır.
  • İkincisi, matrisi alt boşlukla kısıtlayıp daha sonra azaltılan matrisin standart bir kopyasını hesaplar.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri tablosu Boyutları azaltılacak olan veri kümesi

Modül parametreleri

Ad Tür Aralık İsteğe Bağlı Description Varsayılan
Seçili sütunlar ColumnSelection Gerekli PCA uygulanacak seçili sütunlar
Azaltılacağı boyut sayısı Tamsayı >= 1 Gerekli Azaltılmış veri kümesindeki istenen boyutların sayısı
Yoğun veri kümelerini sıfır ortalamaya normalleştirme Boole Gerekli true Giriş sütunlarının yoğun veri kümeleri için normalleştirilmiş ortalama olup olmadığını gösterir (seyrek veri parametresi için yoksayılır)

Çıkışlar

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Azaltılmış boyutlara sahip veri kümesi
PCA Dönüşümü ITransform arabirimi Veri kümesine uygulandığında azaltılmış boyutlara sahip yeni veri kümesine sahip olan dönüşüm

Özel durumlar

Özel durum Description
Hata 0001 Belirtilen bir veya daha fazla veri kümesi sütunu bulunamasa özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0004 Parametre belirli bir değerden küçük veya ona eşitse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Örnek ve Bölme
Özellik Seçimi