Mengonfigurasi perilaku pembelajaran Personalizer

Artikel
01/19/2024

Penting

Mulai tanggal 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan pada tanggal 1 Oktober 2026.

Mode Magang memberi Anda kepercayaan dan keyakinan pada layanan Personalizer dan kemampuan pembelajaran mesinnya, dan memberikan jaminan bahwa layanan dikirimi informasi yang dapat dipelajari - tanpa mempertaruhkan lalu lintas online.

Mengonfigurasi mode Magang

Masuk ke portal Azure, untuk sumber daya Personalizer Anda.
Pada halaman Penyetelan , pada tab Pengaturan model , pilih Mode magang lalu pilih Simpan.

Screenshot of configuring apprentice mode learning behavior in Azure portal

Perubahan pada aplikasi yang ada

Aplikasi Anda yang ada seharusnya tidak mengubah cara memilih tindakan saat ini untuk ditampilkan atau cara aplikasi menentukan nilai, reward dari tindakan tersebut. Satu-satunya perubahan yang mungkin pada aplikasi adalah urutan tindakan yang dikirim ke Personalizer Rank API. Tindakan yang saat ini ditampilkan aplikasi Anda dikirim sebagai tindakan pertama dalam daftar tindakan. Rank API menggunakan tindakan pertama ini untuk melatih model Personalizer Anda.

Mengonfigurasi aplikasi Anda untuk memanggil Rank API

Untuk menambahkan Personalizer ke aplikasi, Anda harus memanggil Rank dan Reward API.

Tambahkan panggilan Rank API setelah titik dalam logika aplikasi yang ada saat Anda menentukan daftar tindakan dan fiturnya. Tindakan pertama dalam daftar tindakan harus menjadi tindakan yang dipilih oleh logika Anda yang sudah ada.
Konfigurasikan kode Anda untuk menampilkan tindakan yang terkait dengan ID Tindakan Reward respons Rank API.

Mengonfigurasi aplikasi Anda untuk memanggil Reward API

Catatan

Panggilan REWARD API tidak memengaruhi pelatihan saat dalam mode Magang. Layanan ini belajar dengan mencocokkan logika aplikasi Anda saat ini, atau tindakan default. Namun, menerapkan panggilan Reward pada tahap ini memang membantu memastikan transisi yang lancar ke mode Online nanti dengan pengalih sederhana di portal Azure. Selain itu, hadiah akan dicatat, lalu Anda dapat menganalisis seberapa baik performa logika saat ini dan berapa banyak hadiah yang diterima.

Gunakan logika bisnis Anda yang ada untuk menghitung reward tindakan yang ditampilkan. Nilainya harus dalam rentang 0 hingga 1. Kirim reward ini ke Personalizer menggunakan Reward API. Nilai hadiah tidak diharapkan segera dan dapat ditunda selama periode waktu - tergantung pada logika bisnis Anda.
Jika Anda tidak menampilkan reward dalam Waktu tunggu rewardyang dikonfigurasi, hadiah default akan dicatat sebagai gantinya.

Mengevaluasi mode Magang

Di portal Azure, pada halaman Monitor untuk sumber daya Personalizer Anda, tinjau performa Pencocokan.

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

Mode Apprentice menyediakan metrik evaluasi berikut:

Garis besar - hadiah rata-rata: Hadiah rata-rata dari default aplikasi (garis besar).
Personalizer - hadiah rata-rata: Rata-rata total hadiah Personalizer akan berpotensi tercapai.
Rasio pencapaian reward atas 1000 peristiwa terbaru: Rasio garis besar dan reward Personalizer - dinormalisasi selama 1000 peristiwa terbaru.

Beralih perilaku ke mode Online

Saat Anda menentukan Personalizer dilatih dengan rata-rata 75-85% rata-rata bergulir, model siap untuk beralih ke mode Online.

Di portal Azure untuk sumber daya Personalizer Anda, pada halaman Penyiapan, pada tab Pengaturan model, pilih *Mode online lalu pilih Simpan.

Anda tidak perlu membuat perubahan apa pun pada panggilan Rank dan Reward API.

Langkah berikutnya

Mengelola pengaturan model dan pembelajaran