Pekiştirici Öğrenme nedir?

Makale
01/19/2024

Önemli

20 Eylül 2023 tarihinden itibaren yeni Kişiselleştirme kaynakları oluşturamayacaksınız. Kişiselleştirme hizmeti 1 Ekim 2026'da kullanımdan kaldırılıyor.

Pekiştirici Öğrenme, kullanımlarından geri bildirim alarak davranışları öğrenen bir makine öğrenmesi yaklaşımıdır.

Pekiştirme Öğrenmesi şu şekilde çalışır:

Karar alma veya seçim yapma gibi bir davranışı hayata geçirme fırsatı veya özgürlük derecesi sağlama.
Ortam ve seçenekler hakkında bağlamsal bilgiler sağlama.
Davranışın belirli bir hedefe ne kadar iyi ulaştığı hakkında geri bildirim sağlama.

Pekiştirme öğrenmesinin birçok alt türü ve stili olsa da, kavram Kişiselleştirme'de şu şekilde çalışır:

Uygulamanız, alternatifler listesinden tek bir içerik gösterme fırsatı sunar.
Uygulamanız her alternatif ve kullanıcının bağlamı hakkında bilgi sağlar.
Uygulamanız bir ödül puanı hesaplar.

Öğrenmeyi pekiştirmeye yönelik bazı yaklaşımlardan farklı olarak, Kişiselleştirme'nin çalışması için bir simülasyon gerekmez. Öğrenme algoritmaları, dış dünyaya tepki vermek (kontrol etmek yerine) ve her veri noktasından, oluşturması gereken zamana ve paraya mal olan benzersiz bir fırsat olduğunu ve iyi olmayan bir performans olması durumunda sıfır olmayan bir pişmanlık (olası ödül kaybı) olduğunu anlamak için tasarlanmıştır.

Kişiselleştirme hangi tür pekiştirici öğrenme algoritmalarını kullanır?

Kişiselleştirici'nin geçerli sürümü, belirli bir bağlamda ayrık eylemler arasında karar veya seçim yapma çerçevesinde çerçevelenmiş bir öğrenme yaklaşımı olan bağlamsal eşkıyaları kullanır.

Bir bağlam göz önünde bulundurulduğunda mümkün olan en iyi kararı yakalamak için eğitilmiş olan model olan karar belleği, bir dizi doğrusal modeli kullanır. Bunlar iş sonuçlarını tekrar tekrar göstermiştir ve kısmen de çok geçişli eğitime gerek kalmadan gerçek dünyadan çok hızlı bir şekilde öğrenebildiği ve denetimli öğrenme modellerini ve derin sinir ağı modellerini tamamlayabildiği için kanıtlanmış bir yaklaşımdır.

Araştırma/en iyi eylem trafiği ayırma, araştırma için ayarlanan yüzdenin ardından rastgele yapılır ve araştırma için varsayılan algoritma epsilon-greedy'dir.

Bağlamsal Eşkıyaların Tarihi

John Langford, bağlamsal eşkıyalar (Langford ve Zhang [2007]) adını, pekiştirici öğrenmenin uygulanabilir bir alt kümesini tanımlamak için yaptı ve bu paradigmada nasıl öğrenilir anlayışımızı geliştiren yarım düzine makale üzerinde çalıştı:

Beygelzimer ve diğerleri [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer ve Langford [2009]
Li ve ark. [2010]

John daha önce Ortak Tahmin (ICML 2015), BağlamSal Eşkıya Teorisi (NIPS 2013), Etkin Öğrenme (ICML 2009) ve Örnek Karmaşıklık Sınırları (ICML 2003) gibi konularda da çeşitli öğreticiler vermiştir.

Kişiselleştirme hangi makine öğrenmesi çerçevelerini kullanır?

Kişiselleştirici şu anda makine öğrenmesinin temeli olarak Vowpal Wabbit kullanıyor. Bu çerçeve, kişiselleştirme dereceleri oluştururken ve modeli tüm olaylarla eğitirken en yüksek aktarım hızına ve en düşük gecikme süresine olanak tanır.

Başvurular

Sonraki adımlar

Çevrimdışı değerlendirme