Fisher doğrusal ayrılmış Minant Analizi

Verileri ayrı sınıflara en iyi şekilde gruplandırabilecek Özellik değişkenlerinin doğrusal birleşimini tanımlar

Kategori: Özellik seçimi modülleri

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu makalede, iki veya daha fazla sınıfı en iyi şekilde ayıran özelliklerin birleşimini yakalayan yeni bir özellik veri kümesi oluşturmak için Azure Machine Learning Studio (klasik) ' de Fisher doğrusal ayrılmış Minant çözümleme modülünün nasıl kullanılacağı açıklanır.

Bu yöntem genellikle Boyut azaltma için kullanılır, çünkü sınıflar arasında ayrım yapan bilgileri korurken daha küçük bir özellik alanı üzerinde bir özellikler kümesi proje yapar. Bu, yalnızca belirli bir sınıflandırma görevinin hesaplama maliyetlerini azaltır, ancak fazla sığdırmayı önlemeye yardımcı olabilir.

Puanları oluşturmak için, bir etiket sütunu ve sayısal Özellik sütunlarının bir kümesini giriş olarak sağlarsınız. Algoritma, her bir grup içindeki uzaklıkları en aza indirerek her bir veri grubunu doğrusal olarak ayıran giriş sütunlarının en iyi birleşimini belirler. Modül, farklı bir veri kümesine kaydedebilmeniz ve uygulayabileceğiniz bir dönüşümle birlikte, sıkıştırılmış, dönüştürülmüş özellikleri içeren bir veri kümesi döndürür.

Doğrusal ayrılmış minant analizi hakkında daha fazla bilgi

Doğrusal ayırt edici analiz, değişkenlerin anlamını karşılaştırarak çalıştığı fark (ANOVA) analizine benzer. ANOVA gibi, bu varsayımlar kullanır:

  • Önleyiciler bağımsızdır
  • Her bir örneğin koşullu olasılık yoğunluğu işlevleri normalde dağıtılır
  • Gruplar arasındaki farklar benzerdir

Doğrusal ayırt edici analizler bazen LDA olarak kısaltılır, ancak bu, görünmeyen Dirichlet ayırması ile kolayca karıştırılır. Teknikler tamamen farklıdır, bu nedenle bu belgelerde mümkün olan yerlerde tam adları kullanırız.

Doğrusal Ayrımcı Analizi yapılandırma

  1. Giriş veri kümenizi ekleyin ve giriş verilerinizin şu gereksinimleri karşılayana kadar olup olamay olduğunu kontrol edin:

    • Verileriniz mümkün olduğunca eksiksiz olmalı. Eksik değerler içeren satırlar yoksayılır.
    • Değerlerin normal bir dağılıma sahip olması beklenir. Linear Discriminant Analysis'i (Linear Linear Discriminant Analysis) kullanmadan önce verileri gözden geçirebilirsiniz veya dağıtımı test etmek için kullanılır.
    • Örneklerden daha az tahmine sahip olmak gerekir.
    • Sayısal olmayan sütunları kaldırın. Algoritma, girişlere dahil edilen tüm geçerli sayısal sütunları inceler ve geçersiz sütunlar dahil edilirse hata döndürür. Herhangi bir sayısal sütunu dışlamanız gerekirse, Yalnızca analiz etmek istediğiniz sütunları içeren bir görünüm oluşturmak için, Veri Kümesinde Sütunları Seçme modülünü Linear Discriminant Analysis'den önce ekleyin. Sütun Ekle'yi kullanarak sütunları daha sonra yeniden ekleyebilirsiniz. Satırların özgün sırası korunur.
  2. Giriş verilerini Linear Discriminant Analysis modülüne bağlama.

  3. Sınıf etiketleri sütunu için Sütun seçiciyi başlat'a tıklayın ve bir etiket sütunu seçin.

  4. Özellik ayıkıcı sayısı için sonuç olarak istediğiniz sütun sayısını yazın.

    Örneğin, veri kümeniz sekiz sayısal özellik sütunu içeriyorsa, bunları yalnızca üç sütundan yeni, azaltılmış bir özellik alanına daraltacak 3 şekilde yazabilirsiniz.

    Çıkış sütunlarının tam olarak giriş sütunlarına karşılık olmadığını, bunun yerine giriş sütunlarında yer alan değerlerin küçük bir dönüşüme karşılık gelir olduğunu anlamak önemlidir.

    Özellik ayıkıcı sayısı için 0 değerini kullanırsanız ve giriş olarak n sütun kullanılırsa, n boyutlu özellik alanı temsil eden yeni değerler içeren n özellik ayıkıcısı döndürülür.

  5. Denemeyi çalıştırın.

Sonuçlar

Algoritma, giriş sütunlarında her bir veri grubunu doğrusal olarak ayıran değerlerin bileşimini belirlerken her grup içindeki mesafeleri en aza indirerek iki çıkış oluşturur:

  • Dönüştürülen özellikler. Sütun1, col2, Col3 ve benzeri adlı özellik ayıklayıcısı sütunlarının belirtilen sayısını içeren bir veri kümesi. Çıktı ayrıca Class veya Label değişkenini de içerir.

    Bir modeli eğitmek için bu sıkıştırılmış değer kümesini kullanabilirsiniz.

  • Fisher doğrusal ayrılmış minant analiz dönüştürmesi. Kaydedebilmeniz ve aynı şemaya sahip bir veri kümesine uygulayabileceğiniz bir dönüşüm. Aynı türden birçok veri kümesini analiz ediyorsanız ve her birine aynı özellik azaltmaya uygulamak istiyorsanız, bu yararlıdır. Bunu uyguladığınız veri kümesi aynı şemaya sahip olmalıdır.

Örnekler

Machine Learning 'de Özellik seçimi örnekleri için Azure yapay zeka Galerisibakın:

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

Kullanım ipuçları

  • Bu yöntem yalnızca sürekli değişkenlerde, kategorik veya sıralı değişkenler için geçerlidir.

  • Dönüştürme matrisi hesaplanırken eksik değerleri olan satırlar yok sayılır.

  • Bir deneyden dönüşüm kaydederseniz, özgün deneyden hesaplanan Dönüşümler her yeni veri kümesine yeniden uygulanır ve yeniden hesaplanmaz. Bu nedenle, her bir veri kümesi için yeni bir özellik kümesi hesaplamak istiyorsanız, her veri kümesi için yeni bir Fisher doğrusal ayırt edici Analizi örneği kullanın.

Uygulama ayrıntıları

Özellik veri kümesi, ıdgenvektör'ler kullanılarak dönüştürülür. Giriş veri kümesi için eigenvektörler, ayrılmış bir matris matrisi olarak da adlandırılan, sunulan özellik sütunları temel alınarak hesaplanır.

Modülün dönüştürme çıktısı, aynı şemaya sahip başka bir veri kümesini dönüştürmek için uygulanabilecek bu eigenvektörlerini içerir.

Egenvalues 'ların nasıl hesaplandığı hakkında daha fazla bilgi için bu sayfaya (PDF) bakın: Sınıflandırma Için Egenvektör tabanlı özellik ayıklama. Tymbal, Puhonen ve diğer.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Sınıf etiketleri sütunu ColumnSelection Gerekli Hiçbiri Kategorik sınıf etiketlerini içeren sütunu seçin
Özellik ayıkıcı sayısı Tamsayı >=0 Gerekli 0 Kullanmak için özellik ayıkıcı sayısı. Sıfır ise, tüm özellik ayıkıcıları kullanılır

Çıkışlar

Ad Tür Description
Dönüştürülen özellikler Veri Tablosu Doğrusal doğrusal ayrımcı analiz özellikleri, esnek alana dönüştürülen
Doğrusal doğrusal ayrımcı analiz dönüşümü ITransform arabirimi Linear discriminant analysis'in (Linear linear discriminant analysis) dönüşümü

Özel durumlar

Özel durum Description
Hata 0001 Belirtilen bir veya daha fazla veri kümesi sütunu bulunamasa özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütunda geçerli modülde desteklenmeyen tür varsa özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

Özellik seçimi
Filtre tabanlı özellik seçimi
Sorumlu bileşen analizi