Konfigurace chování výuky personalizátoru
režim Výuka vám dá důvěru ve službu Personalizér a její možnosti strojového učení a poskytuje záruku, že se služba odesílá informace, ze které se můžete poučit – bez rizika online provozu.
Důležité
Režim učně (v Public Preview) je dostupný jenom v cenové úrovni E0. Podrobnosti najdete v článku ceny. Můžete vybrat úroveň E0 při vytváření prostředků nebo upgradovat na E0 na kartě předplatná v Azure Portal. Pokud jste na jiné úrovni a upgradujete na E0, budou se existující prostředky přizpůsobené automaticky migrovat do úrovně E0.
Konfigurace režim Výuka
Přihlaste se k Azure Portalpro váš prostředek Personalizéru.
Na stránce Konfigurace na kartě Učení nastavení vyberte Vrátit akci směrného plánu, naučte se jako správce a pak vyberte Uložit.

Změny existující aplikace
Vaše stávající aplikace by neměla měnit způsob, jakým aktuálně vybírá akce k zobrazení nebo jak aplikace určuje hodnotu a odměnu za tuto akci. Jedinou změnou aplikace může být pořadí akcí odeslaných do rozhraní API pro řazení personalizátoru. Akce, kterou vaše aplikace aktuálně zobrazuje, se odesílá jako první akce v seznamu akcí. Rozhraní API pořadí používá tuto první akci k trénování modelu personalizátoru.
Konfigurace aplikace pro volání rozhraní API pro pořadí
Pokud chcete do své aplikace přidat Personalizér, musíte volat rozhraní RANK API a Reward API.
Přidejte volání rozhraní API Rank za bod v existující aplikační logice, kde určíte seznam akcí a jejich funkcí. První akcí v seznamu akcí musí být akce vybraná vaší stávající logikou.
Nakonfigurujte kód tak, aby se pro akci přidruženou k ID akce Reward Action v odpovědi rozhraní API pro pořadí zobrazuje.
Konfigurace aplikace pro volání rozhraní Reward API
Použijte existující obchodní logiku k výpočtu odměny za zobrazenou akci. Hodnota musí být v rozsahu od 0 do 1. Tuto odměnu odešlete do služby Personalizer pomocí rozhraní Reward API. Hodnota odměny se neočekává okamžitě a může být zpožděna v časovém období – v závislosti na vaší obchodní logice.
Pokud nevrátíte odměnu v rámci nakonfigurované doby čekání programu Reward, použije se místo toho výchozí odměna.
Vyhodnocení režim Výuka
V Azure Portal na stránce Vyhodnocení vašeho prostředku Personalizátoru si prohlédněte aktuální výkon chování při učení.

režim Výuka poskytuje následující metriky vyhodnocení:
- Baseline – average reward : Average rewards of the application's default (baseline) (Směrný plán – průměrná odměna: Průměrná odměna výchozího nastavení aplikace (směrný plán).
- Personalizér – průměrná odměna: Potenciálně by dosáhla průměrná hodnota celkových odměn, které by personalizátor dosáhl.
- Poměr dosažených úspěchů při posledních 1 000 událostech: Poměr základních a personalizačních odměn – normalizovaný u posledních 1 000 událostí.
Přepnutí chování do online režimu
Když určíte, že personalizátor se trénuje s průměrem 75–85 % klouzavým průměrem, je model připravený na přepnutí do online režimu.
Na kartě Azure Portal prostředku Služby personalizátoru na stránce Konfigurace na kartě Učení chování vyberte Vrátit nejlepší akci a pak vyberte Uložit.
Ve voláních rozhraní Rank a Reward API není nutné provádět žádné změny.