Apa itu Pembelajaran Penguatan?

Artikel
01/19/2024

Penting

Mulai tanggal 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan pada tanggal 1 Oktober 2026.

Reinforcement Learning adalah pendekatan pembelajaran komputer yang mempelajari perilaku dengan mendapatkan tanggapan dari penggunaannya.

Pembelajaran Penguatan bekerja dengan:

Memberikan kesempatan atau derajat kebebasan untuk melakukan suatu perilaku - seperti membuat keputusan atau pilihan.
Memberikan informasi kontekstual tentang lingkungan dan pilihan.
Memberikan tanggapan tentang seberapa baik perilaku mencapai tujuan tertentu.

Meskipun ada banyak subjenis dan gaya pembelajaran penguatan, beginilah cara kerja konsep di Personalisasi:

Aplikasi Anda memberikan kesempatan untuk menampilkan satu konten dari daftar alternatif.
Aplikasi Anda menyediakan informasi tentang setiap alternatif dan konteks pengguna.
Aplikasi Anda menghitung skor hadiah.

Tidak seperti beberapa pendekatan untuk pembelajaran penguatan, Personalizer tidak memerlukan simulasi untuk bekerja. Algoritma pembelajarannya dirancang untuk bereaksi terhadap dunia luar (dibandingkan mengendalikannya) dan belajar dari setiap poin data dengan pemahaman bahwa itu adalah peluang unik yang membutuhkan waktu dan uang untuk menciptakannya, dan bahwa ada penyesalan yang tidak nol (kemungkinan kerugian imbalan) jika performa suboptimal terjadi.

Apa jenis algoritma pembelajaran penguatan yang digunakan untuk Personalisasi?

Versi Personalisasi saat ini menggunakan bandit kontekstual, sebuah pendekatan untuk pembelajaran penguatan yang dibingkai di sekitar pengambilan keputusan atau pilihan antara tindakan diskrit, dalam konteks tertentu.

Memori keputusan, model yang telah dilatih untuk menangkap keputusan sebaik mungkin, berdasarkan konteksnya, menggunakan serangkaian model linier. Hal ini telah berulang kali menunjukkan hasil bisnis dan merupakan pendekatan yang terbukti, sebagian karena mereka dapat belajar dari dunia nyata dengan sangat cepat tanpa memerlukan pelatihan multi-pass, dan sebagian karena mereka dapat melengkapi model pembelajaran terawasi dan model jaringan saraf dalam.

Alokasi lalu lintas eksplorasi / tindakan terbaik dibuat secara acak mengikuti persentase yang ditetapkan untuk eksplorasi, dan algoritma default untuk eksplorasi adalah epsilon-serakah.

Riwayat Bandit Kontekstual

John Langford menciptakan nama Bandit Kontekstual (Langford dan Zhang [2007]) untuk menggambarkan subset pembelajaran penguatan yang dapat diteladani dan telah mengerjakan setengah lusin makalah yang meningkatkan pemahaman kita tentang cara belajar dalam paradigma ini:

Beygelzimer dkk. [2011]
Dudík et al. [2011a, b]
Agarwal dkk. [2014, 2012]
Beygelzimer dan Langford [2009]
Li dkk. [2010]

John juga telah memberikan beberapa tutorial sebelumnya tentang topik seperti Prediksi Bersama (ICML 2015), Teori Bandit Kontekstual (NIPS 2013), Pembelajaran Aktif (ICML 2009), dan Batas Kompleksitas Sampel (ICML 2003)

Kerangka kerja pembelajaran komputer apa yang digunakan Personalisasi?

Personalisasi saat ini menggunakan Vowpal Wabbit sebagai dasar untuk pembelajaran komputer. Kerangka kerja ini memungkinkan throughput maksimum dan latensi terendah saat membuat pangkat personalisasi dan melatih model dengan semua peristiwa.

Referensi

Langkah berikutnya

Evaluasi offline