Regresyon nedir?

Tamamlandı

Regresyon basit, yaygın ve son derece kullanışlı bir veri analizi tekniğidir ve genellikle "çizgi uydurma" olarak adlandırılır. En basit haliyle regresyon, bir değişken (özellik) ile başka bir değişken (etiket) arasında düz bir çizgiye sığar. Daha karmaşık biçimlerde regresyon, tek bir etiketle birden çok özellik arasındaki doğrusal olmayan ilişkileri bulabilir.

Basit doğrusal regresyon

Basit doğrusal regresyon, tek bir özellik ile genellikle sürekli bir etiket arasındaki doğrusal ilişkiyi modelleyerek özelliğin etiketi tahmin etmesine olanak tanır. Görsel olarak şuna benzer olabilir:

Diagram of a simple linear regression graph on the relationship between age and body temperature.

Basit doğrusal regresyonun iki parametresi vardır: bir kesme noktası (c), özelliğin sıfır olarak ayarlandığında etiketin değerini gösteren kesme noktası (c) ve özellikteki her bir nokta artışı için etiketin ne kadar artacağını gösteren eğim (m).

Matematiksel olarak düşünmek isterseniz, bu basitçe:

y=mx+c

Burada y sizin etiketiniz, x ise sizin özelliğinizdir.

Örneğin, senaryomuzda hangi hastaların yaşlarına göre ateşin yükseldiği bir vücut sıcaklığına sahip olacağını tahmin etmeye çalışsaydık, modele sahip olurduk:

temperature=m*age+c

Ve montaj işlemi sırasında m ve c değerlerini bulmak gerekir. m = 0,5 ve c = 37 bulursak, bunu şu şekilde görselleştirebiliriz:

Diagram showing a simple linear regression graph, of the relationship between age and body temperature with a sharper line.

Bu, her yaş yılının 37°C'lik bir başlangıç noktası ile 0,5°C vücut sıcaklığı artışı ile ilişkili olduğu anlamına gelir.

Doğrusal regresyonu sığdırma

Normalde regresyon modellerini bizim için sığdırmak için mevcut kitaplıkları kullanırız. Regresyon genellikle en az hata üreten satırı bulmayı hedefler; burada hata, gerçek veri noktası değeri ile tahmin edilen değer arasındaki fark anlamına gelir. Örneğin, aşağıdaki görüntüde siyah çizgi tahmin, kırmızı çizgi ve bir gerçek değer arasındaki hatayı gösterir: nokta.

Diagram showing fitting a linear regression graph with plot points and a black line to indicate error.

Bu iki noktaya y ekseninde baktığımızda tahminin 39,5 olduğunu ancak gerçek değerin 41 olduğunu görebiliriz.

Diagram showing fitting a linear regression graph with plot points and a dotted black line to measure error.

Bu nedenle model, bu veri noktası için 1,5 ile hatalıydı.

En yaygın olarak, karelerin artık toplamını en aza indirerek bir modeli sığdırıyoruz. Bu, maliyet işlevinin şu şekilde hesaplandığını gösterir:

  1. Her veri noktası için gerçek ve tahmin edilen değerler (daha önce olduğu gibi) arasındaki farkı hesaplayın.
  2. Bu değerlerin karesi.
  3. Bu kare değerleri toplama (veya ortalama).

Bu kareleme adımı, tüm noktaların çizgiye eşit şekilde katkıda bulunmadığı anlamına gelir: aykırı değerler (beklenen desende düşmeyen noktalardır), orantısız olarak daha büyük bir hataya sahiptir ve bu da çizginin konumunu etkileyebilir.

Regresyonun güçlü yanları

Regresyon teknikleri, daha karmaşık modellerin sahip olmadığı birçok güçlü güce sahiptir.

Tahmin edilebilir ve yorumlanabilmesi kolay

Regresyonları yorumlamak kolaydır çünkü genellikle grafını çizebileceğimiz basit matematiksel denklemleri açıklarlar. Daha karmaşık modeller genellikle kara kutu çözümleri olarak adlandırılır, çünkü tahminde bulunmalarını veya belirli girişlerle nasıl davranacaklarını anlamak zordur.

Tahmin etmek kolay

Regresyonlar, tahminde bulunmayı kolaylaştırır; veri kümemizin aralığının dışındaki değerler için tahminlerde bulunmak için. Örneğin, önceki örneğimizde dokuz yaşındaki bir köpeğin 40,5°C sıcaklığa sahip olacağını tahmin etmek kolaydır. Tahmine her zaman dikkat etmelisiniz: Bu model, 90 yaşındaki bir çocukta suyu kaynatacak kadar sıcak bir sıcaklığa sahip olacağını tahmin eder.

En uygun bağlantı genellikle garanti edilir

Çoğu makine öğrenmesi modeli, gradyan azalma algoritmasını ayarlamayı içeren ve en uygun çözümün bulunacağı garantisini vermeyen modelleri sığdırmak için gradyan azalmasını kullanır. Buna karşılık, maliyet işlevi olarak karelerin toplamını kullanan doğrusal regresyonun yinelemeli gradyan azalma yordamına ihtiyacı yoktur. Bunun yerine akıllı matematik, yerleştirilecek çizginin en uygun konumunu hesaplamak için kullanılabilir. Matematik bu modülün kapsamı dışındadır, ancak doğrusal regresyonun (örnek boyutu çok büyük olmadığı sürece) uygun işleme özel dikkat edilmesi gerekmediğinden ve en uygun çözümün garanti edildiğinden emin olmak yararlıdır.