doğrusal bağıntıyı hesaplama

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Veri kümesindeki sütun değerleri arasındaki doğrusal bağıntıyı hesaplar

Kategori: İstatistiksel İşlevler

Not

Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)

Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısında da kullanılabilir.

Modüle genel bakış

Bu makalede, giriş veri kümesindeki her olası değişken çifti için pearson bağıntı katsayıları kümesini hesaplamak için Machine Learning Studio'da (klasik) İşlem Doğrusal Bağıntı modülünün nasıl kullanılacağı açıklanmaktadır.

Pearson'un R testi olarak da adlandırılan Pearson korelasyon katsayısı, iki değişken arasındaki doğrusal ilişkiyi ölçen istatistiksel bir değerdir. Katsayı değerlerini inceleyerek, iki değişken arasındaki ilişkinin gücü ve bunların pozitif bağıntılı mı yoksa negatif bağıntılı mı olduğu hakkında bir şey çıkarabilirsiniz.

Doğrusal Bağıntıyı yapılandırma

Bağıntı katsayısını hesaplamadan önce verilerinizi temizleme ve değişkenler arasındaki ilişkinin bu modül için uygun olduğunu doğrulama gibi bazı önkoşullar vardır. Ayrıca eksik değerleri kaldırmanız veya açma/kapatmanız gerekir.

Bu modül kullanılırken aşağıdaki kısıtlamalar geçerlidir:

  • İşlem Doğrusal Bağıntı modülü yalnızca sayısal değerleri işleyebilir. Eksik değerler, sayısal olmayan değerler ve kategorik değerler de dahil olmak üzere diğer tüm değer türleri NaN olarak değerlendirilir.

  • Pearson'ın bağıntısı, veri kümesindeki giriş olarak geçirilen tüm sayısal sütunlar için hesaplanır. Bu çözümleme için uygun olan tüm sütunları hariç tutmayı unutmayın.

  • İşlem Doğrusal Bağıntısı eksik değerleri olan verilerle kullanılamaz.

1. Adım: Doğrusallığı belirleme

Test ettiğiniz sütunların bir tür doğrusal ilişkiye sahip olması beklenmiyorsa, bu katsayıyı oluşturmanın bir anlamı yoktur. Bu nedenle, önce sütunları test etmek, doğru türde verilere ve genel olarak doğru dağıtım türüne sahip olup olmadıklarını görmek iyi bir fikirdir.

Sütunlar arasındaki ilişkinin kabaca doğrusal olup olmadığını saptamanın çeşitli yolları vardır:

  • Veri kümesindeki Görselleştir seçeneğini kullanarak Studio'da (klasik) değişkenlerin dağılım grafiğini oluşturun. Sayısal değişken sütunlarından birine tıklayın, Görselleştirmeler'i genişletin ve karşılaştır'a tıklayın. Farklı bir değişken seçtiğinizde dağılım grafiği otomatik olarak oluşturulur. Farklı bir çizim türü oluşturulursa, en az bir sütunun farklı (sayısal olmayan) bir veri türü olduğu anlamına gelir.

  • İki değişken için regresyon denklemi hesaplama. Bunu destekleyen ve R Betiği Yürütme modülünde yükleyip kullanabileceğiniz birçok R paketi vardır.

2. Adım: Verileri temizleme

Eksik değerleri kaldırmanız veya doldurmanız, aykırı değerleri kaldırmanız veya kırpmanız ve sütunların doğru veri türüne sahip olduğundan emin olmanız gerekir.

Bu modülü kullanmadan önce yer tutucuları denetlemeyi ve bu değeri diğer uygun değerlerle değiştirmeyi unutmayın. Veri kümesi kaynaktan yüklendiğinde eksik değerler için AD'ler eklendiyse hataya neden olabilir. veya -1 gibi 999 yer tutucu değerler de hatalı sonuçlara neden olabilir.

Verilerinizi hazırlamak için şu modülleri kullanabilirsiniz:

Meta Verileri Düzenle'yi kullanarak sütunların veri türünü ayarlayabilirsiniz. Çözümlemek istediğiniz sütunların özellik sütunları olarak işaretlendiğinden emin olun.

3. Adım: Katsayıyı oluşturma

  1. Denemenize İşlem Doğrusal Bağıntı modülünü ekleyin. Bu modülü Machine Learning Studio'daki İstatistiksel İşlevler kategorisinde bulabilirsiniz (klasik).

  2. Analiz etmek istediğiniz veri kümesini ekleyin.

  3. Gereksiz sütunları kaldırmak için veri kümeniz ile İşlem Doğrusal Bağıntı modülü arasına Veri Kümesindeki Sütunları Seçme modülü eklemenizi öneririz. Veri Kümesindeki Sütunları Seçme modülünü yalnızca katsayılarını hesaplamak istediğiniz iki sayısal sütunu alacak şekilde yapılandırın.

    Aksi takdirde İşlem Doğrusal Bağıntı modülü birçok NaN sütunu oluşturabilir.

  4. Bu modül için ayarlanacağı parametre yok. Ancak, giriş olarak geçirdiğiniz sütunlar gereksinimleri karşılamıyorsa başarısız olur.

  5. Denemeyi çalıştırın.

İki sütun için sonuçlar

İki özellik sütunu göz önünde bulundurulduğunda İşlem Doğrusal Bağıntı modülü skaler Pearson ürün momenti (örnek) korelasyon katsayısını döndürür. Pearson korelasyon katsayısı (genellikle r olarak belirtilir) +1 ile -1 arasındaki değerlerdir.

  • +1 güçlü pozitif doğrusal ilişkiyi gösterir

  • -1 güçlü negatif doğrusal bağıntıyı gösterir

  • 0 iki değişken arasında doğrusal ilişki olmadığını belirtir.

Katsayıların yorumu, modelleme yaptığınız soruna ve üzerinde çalıştığınız değişkenlere çok bağlıdır. Bu nedenle Pearson korelasyon katsayısını bildirirken ve yorumlarken verilerin bağlamını anlamak önemlidir.

  • Değişkenlerin ilişkisiz olduğundan eminseniz ve Pearson'un korelasyon katsayısı güçlü pozitifse (r.5 > veya daha fazla), daha fazla araştırma yapmanız gerekir.

  • Mükemmel bağıntılı olduğunu bildiğiniz iki değişkende doğrusal bağıntı kullanıyorsanız ve katsayı değerleri beklediğiniz gibi değilse, verilerde bir sorun olduğunu gösterebilir.

İkiden fazla sütunun sonuçları

Bir matris (yani ikiden fazla özellik sütunu) verildiğinde İşlem Doğrusal Bağıntı modülü, her özellik sütunu çifti arasında pearson ürün momenti bağıntıları kümesini döndürür.

Bu nedenle, sonuç n sütunlarının her birleşimi için katsayıları içeren bir n x n tablodur. Herhangi bir sütun ölçütleri karşılamıyorsa, bir NaN ("sayı değil" değeri) döndürülür.

Örneğin, iki sayısal sütunu ve curb-weight bir kategorik sütunu wheel-basemake (Automobile price veri kümesinden) geçirdiğinizi varsayalım. Sonuç, giriş sütunlarının olası tüm birleşimleri için katsayıların 3x3 tablosudur:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

Bu tabloda satırlar, ve değişkenlerininmakewheel-basecurb-weight her birini bu sırada temsil eder.

  • kendisiyle bağıntısının wheel-base r değeri 1'dir.
  • ile bağıntısının wheel-basecurb-weight r değeri 0,776386'dır.
  • Bir dize özelliği olduğundanmake, sütun make sonucunu içeren tüm bağıntılar, kendisiyle bağıntı da dahil olmak üzere NaN sonucunu verir.

Birçok anlamsız değer içeren karmaşık tablolardan kaçınmak için sayısal olmayan sütunları kaldırmanızı öneririz.

Örnekler

Bu modülün makine öğrenmesi denemelerinde nasıl kullanıldığını görmek için bkz. Azure AI Galerisi:

Teknik notlar

Bu bölüm uygulama ayrıntılarını, ipuçlarını ve sık sorulan soruların yanıtlarını içerir.

Uygulama ayrıntıları

Giriş olarak geçirilen sütun skaler içeriyorsa, giriş dizileri (x ve y) vektör olarak kabul edilir ve Pearson ürün momenti bağıntısı aşağıdaki gibi hesaplanır:

linear correlation formula

Bu formülde her dizi n öğe içerir ve x ve y örneklerinin ortalamaları sırasıyla μx ve μy'tir.

Matris için, her sütunun bir değer vektörünün temsil ettiği veri matrisi (X) girişidir. Veri matrisi n-by-m olmalıdır. Çıkış, tarafından tanımlanan m-by-m matrisidir, R

formula for linear correlation

Bu formülde μx, xi sütununun ortalama değerini temsil eder. I,j'deki öğeler her zaman 1'e eşittir, bir vektörünün kendisiyle bağıntısını temsil eder.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Çıkışlar

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Bağıntılar matrisi

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerindeki sütun sayısı çok küçükse özel durum oluşur.
Hata 0021 Modüle geçirilen bazı veri kümelerindeki satır sayısı çok küçükse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. hata kodları Machine Learning.

API özel durumlarının listesi için bkz. MACHINE LEARNING REST API Hata Kodları.

Ayrıca bkz.

İstatistiksel İşlevler
A-Z Modül Listesi