Pekiştirmeye dayalı Learning nedir?
pekiştirmeye dayalı Learning, bir makine öğrenimine, kullanım kaynağından geri bildirim alarak, davranışları öğrenir.
pekiştirmeye dayalı Learning şu şekilde geçerlidir:
- Kararlar veya seçimler yapma gibi bir davranışı harekete geçmek için bir fırsat veya serbestlik derecesi sağlama.
- Ortam ve seçimler hakkında bağlamsal bilgiler sağlama.
- Davranışın belirli bir amaca ne kadar iyi elde olduğu hakkında geri bildirim sağlama.
Pekiştirmeye dayalı Learning 'in birçok alt türleri ve stilleri olsa da, kavram kişiselleştirici içinde nasıl çalıştığı aşağıda gösterilmiştir:
- Uygulamanız, alternatifler listesinden bir içerik parçasını gösterme fırsatı sağlar.
- Uygulamanız, her bir alternatif ve kullanıcının bağlamı hakkında bilgi sağlar.
- Uygulamanız bir ödül puanı hesaplar.
Pekiştirmeye dayalı Learning 'teki bazı yaklaşımlardan farklı olarak, kişiselleştirici içinde çalışmak için bir benzetim gerektirmez. Öğrenme algoritmaları, bir dış dünyaya yanıt vermek için tasarlanmıştır (denetimi buna karşı) ve her bir veri noktasından, oluşturulacak maliyet süresi ve para (olası bir tepki kaybı) olduğunu anlamak için, bir dış dünyaya yönelik olarak tasarlanmıştır.
Kişiselleştirici ne tür bir pekiştirmeye dayalı öğrenme algoritması kullanıyor?
Geçerli kişiselleştirici sürümü, belirli bir bağlamda ayrı eylemler arasında kararlar veya seçimler yapma etrafında çerçeveli bir pekiştirmeye dayalı öğrenimine yönelik bağlamsal Bandits kullanır.
Karar belleği, bir bağlam verildiğinde mümkün olan en iyi kararı yakalamak için eğitilen model, doğrusal modeller kümesi kullanır. Bunlar, sürekli olarak çok hızlı bir şekilde gösterilen iş sonuçları ve kendini kanıtlamış bir yaklaşım, kısmen de gerçek dünyadan çok hızlı bir şekilde eğitim sağlayabildiğinden ve kısmen denetlenen öğrenme modellerini ve derin sinir ağ modellerini tamamlayabilir.
Keşfet/Exploit trafik ayırması, araştırma için ayarlanan yüzdeden sonra rastgele yapılır ve araştırma için varsayılan algoritma Epsilon-Greedy ' dir.
Bağlamsal Bandits geçmişi
John Langford, pekiştirmeye dayalı Learning 'in bir tractable alt kümesini anlatmak için bağlamsal Bandits (Langford ve Zasılı [2007]) adını kullandı ve bu paradigma hakkında öğrendiğimiz bir yarı düzine İnceleme üzerinde çalıştı:
- Beygelzimer et al. [2011]
- Dudík et al. [2011A, b]
- Agarwal et al. [2014, 2012]
- Beygelzimer ve Langford [2009]
- Li et al. [2010]
John, daha önce birleşik tahmin (ICML 2015), bağlamsal bandıt teorisi (nıp 2013), Active Learning (icml 2009) ve örnek karmaşıklık sınırları (icml 2003) gibi konularda daha fazla öğretici de vermiş.
Kişiselleştirici hangi makine öğrenimi çerçeveler kullanır?
Kişiselleştirici Şu anda makine öğrenimi için temel olarak Vowpal Wabbit kullanır. Bu çerçeve, kişiselleştirme dereceleri yaparken en yüksek aktarım hızı ve en düşük gecikme süresine izin verir ve modeli tüm etkinliklerle eğitme.
Başvurular
- Düşük Teknik borç ile bağlamsal kararlar sağlama
- Dengeli bir sınıflandırmayla bir azaltmada yaklaşım
- Sabit olmayan wordl 'de verimli bağlamsal Bandits
- Fazlalık kayıp tahmini: pekiştirmeye dayalı: artımlı geri bildirim olmadan öğrenme
- Pekiştirmeye dayalı Learning ile eylemlerle yönergeler ve görsel gözlemleri eşleme
- Learning öğretenden daha iyi arama yapmak için