Temel Bileşen Analizi

Makale
05/06/2019

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
Daha fazla bilgi Azure Machine Learning.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Daha verimli öğrenme için boyutsallığı azaltılmış bir özellik kümesi hesaplama

Kategori: Veri Dönüştürme / Örnek ve Bölme

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, eğitim verilerinizin boyutsallıklarını azaltmak için Machine Learning Studio'da (klasik) Temel Bileşen Analizi modülünün nasıl kullanımı açıklanmıştır. Modül, verilerinizi analiz eder ve veri kümesinde yer alan ancak daha az sayıda özellik içeren tüm bilgileri yakalayan azaltılmış bir özellik kümesi oluşturur.

Modül ayrıca ek eğitime gerek kalmadan özelliklerin boyutsallığında ve sıkıştırmada benzer bir azalma elde etmek için yeni verilere uygulayabilecek bir dönüşüm oluşturur.

Temel Bileşen Analizi hakkında daha fazla bilgi

Temel Bileşen Analizi (PCA), makine öğrenmesinde popüler bir tekniktir. Birçok vektör alanı verisi türlerinin sıkıştırılabilir olması ve sıkıştırmanın örnekleme ile en verimli şekilde gerçeklenene kadar dayandırılır.

PCA'nın ek avantajları, geliştirilmiş veri görselleştirme ve öğrenme algoritması tarafından kaynak kullanımını iyileştirmedir.

Machine Learning Studio'daki (klasik) Temel Bileşen Analizi modülü, sağlanan veri kümesinde bir dizi özellik sütunu alır ve daha düşük boyutlu özellik alanı projeksiyonu oluşturur. Algoritma, tam özellik matrisinde bilgilerin çoğunu yakalayan bir özellik alt alanı tanımlamak için rastgele belirleme tekniklerini kullanır. Bu nedenle, dönüştürülen veri matrisleri özgün verilerde varyansı yakalarken kirliliğin etkisini azaltır ve fazla çalışma riskini en aza indirer.

Temel bileşen analizi (PCA) hakkında genel bilgi için bu Wikipedia makalesine bakın. Bu modülde kullanılan PCA yaklaşımları hakkında bilgi için şu makalelere bakın:

Rastgelelik ile Yapı Bulma: Yaklaşık Matris Ayrıştırmaları Oluşturmak için Olasılıksal Algoritmalar. Kamuo, Martinomi ve Tropp, 2010.
Büyük Ölçekli PCA'da Yapılandırılmış ve Yapılandırılmamış Rastgeleliği Birleştirme Büyük Ölçekli PCA'da Yapılandırılmış ve Yapılandırılmamış Rastgeleliği Birleştirme. Karampatirokis ve Mineiro, 2013.

Asıl Bileşen Analizini yapılandırma

Ana Bileşen Analizi modülünü denemenize ekleyin. Bunu, Veri Dönüştürme'nin altında Ölçek ve Azaltma kategorisinde bulabilirsiniz.
Bağlan veri kümesine tıklayın ve analiz etmek istediğiniz özellik sütunlarını seçin.

Hangi sütunların özellik olduğu ve hangi etiketlerin etiket olduğu henüz net değilse, sütunları önceden işaretlemek için Meta Verileri Düzenle modülünü kullanmamız önerilir.
Azaltacak boyut sayısı: Son çıkışta istenen sütun sayısını yazın. Her sütun, giriş sütunlarında bilgilerin bir kısmını yakalayan bir boyutu temsil eder.

Örneğin, kaynak veri kümesi 3sekiz sütuna sahipse ve siz yazsanız, seçilen sekiz sütunun bilgilerini yakalayan üç yeni sütun döndürülür. Sütunlar , Col1ve Col2olarak adlandırılmış.Col3 Bu sütunlar doğrudan kaynak sütunlara eşlanmaz; bunun yerine sütunlar, özgün 1-8 sütunları tarafından açıklanan özellik alanı yaklaşık bir değeri içerir.

İpucu

Azaltılmış boyut sayısı özgün boyutlardan çok daha küçük olduğunda algoritma en uygun şekilde işlev gösterir.
Yoğun veri kümesi ortalamayı sıfıra normalleştir: Veri kümesi yoğunsa, yani birkaç eksik değer içeriyorsa bu seçeneği belirleyin. Seçilirse modül, sütunlarda yer alan değerleri diğer işlemlerden önce sıfır olan bir ortalamayla normalleştirmektedir.

Seyrek veri kümeleri için bu seçenek seçilmemiş olması gerekir. Seyrek bir veri kümesi algılanırsa parametre geçersiz kılınır.
Denemeyi çalıştırın.

Sonuçlar

Modül, model oluştururken kullanabileceğiniz azaltılmış bir sütun kümesi çıkışı sağlar. Çıkışı yeni bir veri kümesi olarak kaydedebilir veya denemede kullanabilirsiniz.

İsteğe bağlı olarak, Dönüştürme Uygula'nın kullanarak başka bir veri kümesine uygulamak için analiz işlemini kaydedilmiş bir dönüşüm olarak kaydedebilirsiniz.

Dönüşümü uygulayan veri kümesi, özgün veri kümesiyle aynı şemaya sahip olmalıdır.

Örnekler

Temel Bileşen Analizi'nin makine öğrenmesinde nasıl kullanıldıklarının örnekleri için bkz . Azure Yapay Zeka Galerisi:

Kümeleme: Benzer Şirketleri Bul: Metin madenciliği değerlerinin sayısını yönetilebilir özellik sayısına azaltmak için Temel Bileşen Analizi'ni kullanır.

Bu örnek PCA özel R betiği kullanılarak uygulansa da, PCA'nın genel olarak nasıl uygulandığını göstermektedir.

Teknik notlar

Alt boyutlu bileşenleri hesaplamanın iki aşamasından oluşur.

Birincisi, matrisin eylemini yakalayan düşük boyutlu bir alt alan oluşturmaktır.
İkincisi, matrisi alt alanla kısıtlamak ve ardından azaltılmış matrisin standart bir çarpanlarına dönüştürmeyi hesaplamaktır.

Beklenen girişler

Ad	Tür	Description
Veri kümesi	Veri Tablosu	Boyutları azaltılmakta olan veri kümesi

Modül parametreleri

Ad	Tür	Aralık	İsteğe Bağlı	Description	Varsayılan
Seçili sütunlar	ColumnSelection		Gerekli		PCA'nın uygulanacak seçili sütunlar
Azaltılana boyut sayısı	Tamsayı	>=1	Gerekli		Azaltılmış veri kümesinde istenen boyut sayısı
Yoğun veri kümelerini sıfır ortalamaya normalleştirme	Boole		Gerekli	true	Giriş sütunlarının yoğun veri kümeleri için normalleştirilmiş ortalama olup olmadığını belirtir (seyrek veri parametresi için yoksayılır)

Çıkışlar

Ad	Tür	Description
Sonuç veri kümesi	Veri Tablosu	Azaltılmış boyutlara sahip veri kümesi
PCA Dönüşümü	ITransform arabirimi	Veri kümesine uygulandığında, daha az boyut içeren yeni veri kümesine izin veren dönüştürme

Özel durumlar

Özel durum	Description
Hata 0001	Belirli bir veya daha fazla veri kümesi sütunu bulunamazsa özel durum oluşur.
Hata 0003	Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0,0004	Parametre belirli bir değerden küçük veya ona eşitse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

Örnek ve bölünmüş
Özellik seçimi