Gradyan azalmayı kullanarak modelleri iyileştirme

Tamamlandı

Maliyet işlevlerinin, verileri kullanarak modellerin ne kadar iyi performans sergilediği konusunda nasıl bir değerlendirme sağladığını gördük. İyileştirici, bulmacanın son parçasıdır.

İyileştiricinin rolü, modeli performansını artıracak şekilde değiştirmektir. Bu değişikliği model çıkışlarını ve maliyetini inceleyerek ve model için yeni parametreler önererek yapar.

Örneğin, çiftçilik senaryomuzda doğrusal modelimizin iki parametresi vardır: çizginin kesme noktası ve çizginin eğimi. Çizginin kesme noktası yanlışsa model ortalama olarak sıcaklıkları hafife alır veya aşırı tahmin eder. Eğim yanlış ayarlanırsa model, 1950'lerden bu yana sıcaklıkların nasıl değiştiğini göstermek için iyi bir iş yapmaz. İyileştirici bu iki parametreyi değiştirerek zaman içinde sıcaklıkları modelleme konusunda en uygun işi yapmalarını sağlar.

Diagram that shows the optimizer part of the machine-learning lifecycle.

Gradyan azalma

Günümüzde en yaygın iyileştirme algoritması gradyan azalmadır. Bu algoritmanın çeşitli varyantları vardır, ancak hepsi aynı temel kavramları kullanır.

Gradyan azalma, her parametrenin değiştirilmesinin maliyeti nasıl değiştirip değiştiremini tahmin etmek için calculus kullanır. Örneğin, maliyeti azaltmak için bir parametrenin artırılması tahmin edilebilir.

Gradyan azalma, her model parametresi ile maliyet arasındaki ilişkinin gradyanını (eğimi) hesapladığı için bu şekilde adlandırılır. Ardından parametreler bu eğimden aşağı doğru hareket etmek için değiştirilir.

Bu algoritma basit ve güçlüdür, ancak maliyeti en aza indiren en uygun model parametrelerini bulmak garanti değildir. İki ana hata kaynağı yerel minim ve kararlılıktır.

Yerel minima

Önceki örneğimiz, parametre 0'dan küçük veya 10'dan büyük olduğunda maliyetin artmaya devam edeceğini varsayarak iyi bir iş çıkardı:

Plot of cost versus model parameter, with a minima for cost when the model parameter is five.

Sıfırdan küçük veya 10'dan büyük parametreler şu görüntüdeki gibi daha düşük maliyetlerle sonuçlanmış olsaydı bu iş bu kadar harika olmazdı:

Plot of cost versus model parameter, with a local minima for cost when the model parameter is five but a lower cost when the model parameter is at negative six.

Önceki grafikte negatif yedi parametre değeri, maliyeti daha düşük olduğundan beşten daha iyi bir çözüm olurdu. Gradyan azalma, her parametre ve maliyet arasındaki tam ilişkiyi (noktalı çizgiyle gösterilir) önceden bilmez. Bu nedenle, yerel minima bulmaya açıktır: en iyi çözüm olmayan parametre tahminleri, ancak gradyan sıfırdır.

Istikrarsız -lık

İlgili bir sorun, gradyan azalmanın bazen dengesizlik göstermesidir. Bu kararsızlık genellikle adım boyutu veya öğrenme hızı (her parametrenin her yineleme tarafından ayarlandığı miktar) çok büyük olduğunda oluşur. Ardından parametreler her adımda çok fazla ayarlanır ve model her yinelemede daha da kötüleşir:

Plot of cost versus model parameter, which shows cost moving in large steps with minimal decrease in cost.

Öğrenme hızının daha yavaş olması bu sorunu çözebilir, ancak sorunlara da neden olabilir. İlk olarak, daha fazla adım gerektiğinden, daha yavaş öğrenme oranları eğitimin uzun sürmesi anlamına gelebilir. İkincisi, daha küçük adımlar atılması eğitimin yerel bir minima yerleşme olasılığını artırır:

Plot of cost versus model parameter, showing small movements in cost.

Buna karşılık, daha hızlı bir öğrenme oranı yerel minima çarpmaktan kaçınmayı kolaylaştırabilir, çünkü daha büyük adımlar yerel maxima'yı atlayabilir:

Plot of cost versus model parameter, with regular movements in cost until a minima is reached.

Sonraki alıştırmada göreceğimiz gibi, her sorun için en uygun adım boyutu vardır. Bu optimumu bulmak genellikle deneme gerektiren bir şeydir.