Skóre odměn značí úspěch přizpůsobení

Článek
01/19/2024

Důležité

Od 20. září 2023 nebudete moct vytvářet nové prostředky personalizace. Služba Personalizace se vyřadí z provozu 1. října 2026.

Skóre odměny určuje, jak dobře byla volba přizpůsobení , RewardsActionID, výsledkem uživatele. Hodnota skóre odměny je určena vaší obchodní logikou na základě pozorování chování uživatele.

Personalizace trénuje své modely strojového učení vyhodnocením odměn.

Zjistěte , jak nakonfigurovat výchozí skóre odměn na webu Azure Portal pro prostředek Personalizace.

Použití rozhraní API pro odměnu k odeslání skóre odměny do personalizace

Program Rewards se odesílá do personalizace pomocí rozhraní API odměny. Odměna je obvykle číslo od 0 do 1. Záporná odměna s hodnotou -1 je možná v určitých scénářích a měla by být použita pouze v případě, že máte zkušenosti s výztužným učením (RL). Personalizace trénuje model, aby dosáhl nejvyššího možného součtu odměn v průběhu času.

Odměny se odesílají poté, co dojde k chování uživatele, což může být později. Maximální doba, po kterou personalizace počká, dokud se událost nepovažuje za žádnou odměnu nebo se na webu Azure Portal nakonfiguruje výchozí odměna s dobou čekání na odměnu.

Pokud se skóre odměny pro událost nedostalo v rámci doby čekání na odměnu, použije se výchozí odměna . Výchozí odměna je obvykle nakonfigurovaná na nulu.

Chování a data, která je potřeba zvážit pro odměny

Zvažte tyto signály a chování pro kontext skóre odměny:

Přímé zadání uživatele pro návrhy, když se objeví možnosti ("Myslíte X?").
Délka relace.
Doba mezi relacemi.
Analýza mínění interakce uživatele
Přímé dotazy a miniprůzkumu, ve kterých robot požádá uživatele o zpětnou vazbu ohledně užitečnosti a přesnosti.
Reakce na výstrahy nebo zpoždění reakce na výstrahy

Psaní skóre odměny

Skóre odměny se musí vypočítat v obchodní logice. Skóre může být reprezentováno takto:

Jedno číslo odeslané jednou
Skóre se odeslalo okamžitě (například 0,8) a další skóre odeslané později (obvykle 0,2).

Výchozí odměny

Pokud není v rámci doby čekání na odměnu přijata žádná odměna, doba trvání od volání pořadí, Personalizace implicitně použije výchozí odměnu na tuto událost pořadí.

Sestavování odměn s několika faktory

Pro efektivní přizpůsobení můžete vytvořit skóre odměny na základě více faktorů.

Můžete například použít tato pravidla pro přizpůsobení seznamu videa:

Chování uživatele	Částečná hodnota skóre
Uživatel klikl na horní položku.	+0,5 odměna
Uživatel otevřel skutečný obsah dané položky.	+0,3 odměna
Uživatel sledoval 5 minut obsahu nebo 30 %, podle toho, co je delší.	+0,2 odměna

Pak můžete do rozhraní API odeslat celkovou odměnu.

Volání rozhraní API odměny několikrát

Můžete také volat rozhraní API odměny pomocí stejného ID události a odesílat různé skóre odměny. Když personalizace získá tyto odměny, určí konečnou odměnu pro danou událost tím, že je agreguje podle konfigurace Personalizace.

Hodnoty agregace:

První: Vezme první skóre odměny přijaté pro událost a zahodí zbytek.
Součet: Vezme všechny skóre odměny shromážděné pro id události a sečte je dohromady.

Všechny odměny za událost, které jsou přijaty po době čekání na odměnu, jsou zahozeny a nemají vliv na trénování modelů.

Když sčítáte skóre odměny, může být konečná odměna mimo očekávaný rozsah skóre. Tím nedojde k selhání služby.

Osvědčené postupy pro výpočet skóre odměny

Zvažte skutečné indikátory úspěšného přizpůsobení: Je snadné si myslet na kliknutí, ale dobrá odměna je založená na tom, co chcete, aby vaši uživatelé dosáhli místo toho, co chcete, aby lidé dělali. Například odměny po kliknutí můžou vést k výběru obsahu, který je náchylný clickbait.
Použijte skóre odměny pro to, jak dobré přizpůsobení fungovalo: Přizpůsobení návrhu filmu by snad vedlo k tomu, že uživatel bude sledovat film a dát mu vysoké hodnocení. Vzhledem k tomu, že hodnocení filmu pravděpodobně závisí na mnoha věcech (kvalita herectví, nálada uživatele), není to dobrý signál odměny pro to, jak dobře personalizace fungovala. Uživatel sleduje několik prvních minut filmu, ale může být lepší signál o efektivitě přizpůsobení a odeslání odměny 1 po 5 minutách bude lepší signál.
Odměny se vztahují pouze na RewardsActionID: Personalizace použije odměny, aby porozuměla účinnosti akce zadané v RewardsActionID. Pokud se rozhodnete zobrazit další akce a uživatel je vybere, měla by být odměna nula.
Zvažte nezamýšlené důsledky: Vytvářejte funkce odměn, které vedou k zodpovědným výsledkům pomocí etiky a zodpovědného používání.
Použití přírůstkových odměn: Přidání částečných odměn za menší chování uživatelů pomáhá personalizaci dosáhnout lepších odměn. Tato přírůstková odměna umožňuje algoritmus zjistit, že se blíží zapojení uživatele do konečného požadovaného chování.
- Pokud zobrazujete seznam filmů, pokud uživatel najede myší na první na chvíli, abyste viděli další informace, můžete zjistit, že došlo k určité zapojení uživatelů. Chování se může spočítat s skóre odměny 0,1.
- Pokud uživatel stránku otevřel a pak ukončil, může být skóre odměny 0,2.

Doba čekání na odměnu

Personalizace bude korelovat informace o volání Rank s odměnami odeslanými ve volání odměny k trénování modelu, který může přijít v různých časech. Personalizace čeká na skóre odměny po definovanou omezenou dobu, počínaje tím, kdy došlo k odpovídajícímu volání pořadí. To se provádí i v případě, že volání pořadí bylo provedeno pomocí odložené aktivace](concept-active-inactive-events.md).

Pokud vyprší platnost doby čekání na odměnu a nebyly k dispozici žádné informace o odměně, použije se na tuto událost výchozí odměna pro školení. Můžete vybrat dobu čekání na odměnu 10 minut, 4 hodiny, 12 hodin nebo 24 hodin. Pokud váš scénář vyžaduje delší dobu čekání na odměnu (např. pro marketingové e-mailové kampaně), nabízíme privátní náhled delší doby čekání. Na webu Azure Portal otevřete lístek podpory, abyste se mohli spojit s týmem a zjistit, jestli máte nárok, a můžete vám ho nabídnout.

Osvědčené postupy pro dobu čekání na odměnu

Pokud chcete dosáhnout lepších výsledků, postupujte podle těchto doporučení.

Nastavte dobu čekání na odměnu tak krátkou, jak můžete, a zároveň nechte dostatek času na získání zpětné vazby uživatelů.
Nevybírejte dobu trvání, která je kratší než doba potřebná k získání zpětné vazby. Pokud například některé z vašich odměn přicházejí poté, co uživatel sleduje 1 minutu videa, měla by být délka experimentu alespoň dvojnásobná.