Konfigurace chování výuky personalizátoru

režim Výuka vám dá důvěru ve službu Personalizér a její možnosti strojového učení a poskytuje záruku, že se služba odesílá informace, ze které se můžete poučit – bez rizika online provozu.

Důležité

Režim učně (v Public Preview) je dostupný jenom v cenové úrovni E0. Podrobnosti najdete v článku ceny. Můžete vybrat úroveň E0 při vytváření prostředků nebo upgradovat na E0 na kartě předplatná v Azure Portal. Pokud jste na jiné úrovni a upgradujete na E0, budou se existující prostředky přizpůsobené automaticky migrovat do úrovně E0.

Konfigurace režim Výuka

  1. Přihlaste se k Azure Portalpro váš prostředek Personalizéru.

  2. Na stránce Konfigurace na kartě Učení nastavení vyberte Vrátit akci směrného plánu, naučte se jako správce a pak vyberte Uložit.

Snímek obrazovky s konfigurací chování učení v režimu údržby v Azure Portal

Změny existující aplikace

Vaše stávající aplikace by neměla měnit způsob, jakým aktuálně vybírá akce k zobrazení nebo jak aplikace určuje hodnotu a odměnu za tuto akci. Jedinou změnou aplikace může být pořadí akcí odeslaných do rozhraní API pro řazení personalizátoru. Akce, kterou vaše aplikace aktuálně zobrazuje, se odesílá jako první akce v seznamu akcí. Rozhraní API pořadí používá tuto první akci k trénování modelu personalizátoru.

Konfigurace aplikace pro volání rozhraní API pro pořadí

Pokud chcete do své aplikace přidat Personalizér, musíte volat rozhraní RANK API a Reward API.

  1. Přidejte volání rozhraní API Rank za bod v existující aplikační logice, kde určíte seznam akcí a jejich funkcí. První akcí v seznamu akcí musí být akce vybraná vaší stávající logikou.

  2. Nakonfigurujte kód tak, aby se pro akci přidruženou k ID akce Reward Action v odpovědi rozhraní API pro pořadí zobrazuje.

Konfigurace aplikace pro volání rozhraní Reward API

  1. Použijte existující obchodní logiku k výpočtu odměny za zobrazenou akci. Hodnota musí být v rozsahu od 0 do 1. Tuto odměnu odešlete do služby Personalizer pomocí rozhraní Reward API. Hodnota odměny se neočekává okamžitě a může být zpožděna v časovém období – v závislosti na vaší obchodní logice.

  2. Pokud nevrátíte odměnu v rámci nakonfigurované doby čekání programu Reward, použije se místo toho výchozí odměna.

Vyhodnocení režim Výuka

V Azure Portal na stránce Vyhodnocení vašeho prostředku Personalizátoru si prohlédněte aktuální výkon chování při učení.

Snímek obrazovky s vyhodnocením chování učení v režimu spánku v Azure Portal

režim Výuka poskytuje následující metriky vyhodnocení:

  • Baseline – average reward : Average rewards of the application's default (baseline) (Směrný plán – průměrná odměna: Průměrná odměna výchozího nastavení aplikace (směrný plán).
  • Personalizér – průměrná odměna: Potenciálně by dosáhla průměrná hodnota celkových odměn, které by personalizátor dosáhl.
  • Poměr dosažených úspěchů při posledních 1 000 událostech: Poměr základních a personalizačních odměn – normalizovaný u posledních 1 000 událostí.

Přepnutí chování do online režimu

Když určíte, že personalizátor se trénuje s průměrem 75–85 % klouzavým průměrem, je model připravený na přepnutí do online režimu.

Na kartě Azure Portal prostředku Služby personalizátoru na stránce Konfigurace na kartě Učení chování vyberte Vrátit nejlepší akci a pak vyberte Uložit.

Ve voláních rozhraní Rank a Reward API není nutné provádět žádné změny.

Další kroky