Birden çok doğrusal regresyon ve R karesi

Tamamlandı

Bu ünitede, birden çok doğrusal regresyon ile basit doğrusal regresyon karşıtlığı yapacağız. Doğrusal regresyon modelinin kalitesini değerlendirmek için yaygın olarak kullanılan R2 adlı ölçüme de göz atacağız.

Çoklu doğrusal regresyon

Birden çok doğrusal regresyon , birkaç özellik ile tek bir değişken arasındaki ilişkiyi modeller. Matematiksel olarak, basit doğrusal regresyonla aynıdır ve genellikle aynı maliyet işlevi kullanılarak ancak daha fazla özellik kullanılarak uygundur.

Tek bir ilişkiyi modellemek yerine, bu teknik aynı anda birbirinden bağımsız olarak ele aldığı birden çok ilişkiyi modeller. Örneğin, bir köpeğin yaşına ve body_fat_percentage göre ne kadar hasta olduğunu tahmin ediyorsak iki ilişki bulunur:

  • Yaş, hastalığı nasıl artırır veya azaltır?
  • body_fat_percentage hastalığı nasıl artırır veya azaltır?

Yalnızca iki özellik ile çalışıyorsak, basit doğrusal regresyonu çizgi olarak modellediğimiz gibi modelimizi düzlem (düz bir 2B yüzey) olarak görselleştirebiliriz. Sonraki alıştırmada bunu keşfedeceğiz.

Birden çok doğrusal regresyonda varsayımlar vardır

Modelin özelliklerin bağımsız olmasını beklemesi model varsayımı olarak adlandırılır. Model varsayımları doğru olmadığında model yanıltıcı tahminlerde bulunabilir.

Örneğin, yaş muhtemelen yaşlı köpekler daha fazla hastalandıkça köpeklerin nasıl hasta olduğunu tahmin eder ve köpeklere frizbi oynamanın öğretilip öğretilmediğini; büyük köpekler muhtemelen frizbi oynamayı biliyordur. Modelimize yaş ve knows_frisbee özellik olarak eklemiş olsaydık, büyük olasılıkla knows_frisbee bir hastalığın iyi bir tahmincisi olduğunu ve yaşın önemini küçümsediğini söyler. Bu biraz saçma, çünkü frizbi bilmek hastalığa neden olmaz. Buna karşılık, dog_breed iyi bir hastalık tahmincisi de olabilir, ancak yaşın dog_breed tahmin ettiğine inanmak için bir neden yoktur, bu nedenle her ikisini de bir modele dahil etmek güvenlidir.

Uygunluk: R2

Maliyet işlevlerinin, modelin eğitildiği verilere ne kadar uygun olduğunu değerlendirmek için kullanılabileceğini biliyoruz. Doğrusal regresyon modellerinin R 2 (Rkaresi) adlı özel bir ilişkili ölçüsü vardır. R2 , doğrusal regresyon modelinin verilere ne kadar uygun olduğunu belirten 0 ile 1 arasında bir değerdir. İnsanlar bağıntıların güçlü olduğundan bahsettiğinde genellikle R2 değerinin büyük olduğu anlamına gelir.

R2 , bu kursta ele almak istediğimizin ötesinde matematik kullanır, ancak bunu sezgisel olarak düşünebiliriz. Yaş ve core_temperature arasındaki ilişkiyi incelediğimiz önceki alıştırmayı ele alalım. 1'in R2'si , kimin yüksek sıcaklığa ve kimin düşük sıcaklığa sahip olduğunu tahmin etmek için yılların kullanılabileceğini gösterir. Buna karşılık, 0, yıl ve sıcaklık arasında hiçbir ilişki olmadığı anlamına gelir.

Diagram showing a goodness of fit graph with many plot points.

Gerçeklik arada bir yerde. Modelimiz sıcaklığı bir dereceye kadar tahmin edebilir (dolayısıyla R2 = 0'dan daha iyidir), ancak noktalar bu tahminden biraz farklıydı (dolayısıyla R2=1'den küçüktür).

R2 hikayenin sadece yarısı.

R2 değerleri yaygın olarak kabul edilir, ancak yalıtımda kullanabileceğimiz mükemmel bir ölçü değildir. Dört sınırlamaları vardır:

  • R2'nin hesaplanma şekli nedeniyle ne kadar fazla örneğimiz varsa R2 o kadar yüksek olur. Bu, R2 değerlerinin farklı miktarlarda veri kullanılarak hesaplanmış olması nedeniyle bir modelin başka bir modelden (aynı) daha iyi olduğunu düşünmemize neden olabilir.
  • R2 değerleri, modelin yeni, daha önce görünmeyen verilerle ne kadar iyi çalışacağını bize söylemez. İstatistikçiler, p değeri olarak adlandırılan ve burada ele almayacağımız ek bir ölçü hesaplayarak bunun üstesinden gelir. Makine öğrenmesinde genellikle modelimizi başka bir veri kümesinde açıkça test ederiz.
  • R2 değerleri bize ilişkinin yönünü söylemez. Örneğin, 0,8 R2 değeri, çizginin yukarı veya aşağı doğru eğimli olup olmadığını bize göstermez. Ayrıca çizginin ne kadar eğimli olduğunu da göstermez.

R 2 değerini "yeterince iyi" yapanevrensel ölçütler olmadığını da unutmayın. Örneğin, fiziğin çoğunda, 1'e çok yakın olmayan bağıntıların kullanışlı kabul edilme olasılığı düşüktür, ancak karmaşık sistemleri modellerken, 0,3 kadar düşük R2 değerlerinin mükemmel olduğu düşünülebilir.