Terminologie personalizace

Článek
01/19/2024

Důležité

Od 20. září 2023 nebudete moct vytvářet nové prostředky personalizace. Služba Personalizace se vyřadí z provozu 1. října 2026.

Personalizace využívá terminologii z výztuže. Tyto termíny se používají na webu Azure Portal a v rozhraních API.

Koncepční terminologie

smyčka Učení: Vytvoříte prostředek personalizace označovaný jako smyčka učení pro každou část aplikace, která může těžit z přizpůsobení. Pokud máte více možností přizpůsobení, vytvořte smyčku pro každou z nich.
Model: Model personalizace zachycuje všechna data o chování uživatelů, získávání trénovacích dat z kombinace argumentů odesílaných do volání Rank a Rewards a s trénovacím chováním určeným zásadami Učení.
Online režim: Výchozí chování při učení pro personalizaci, ve kterém se smyčka učení používá k vytvoření modelu, který predikuje hlavní akci pro váš obsah.
Apprentice mode: Chování učení, které pomáhá zahajovat model personalizace pro trénování, aniž by to mělo vliv na výsledky a akce aplikací.

chování Učení:

Online režim: Vrátí nejlepší akci. Váš model bude reagovat na volání Rank s nejlepší akcí a bude používat bonusové hovory k učení a zlepšování svých výběrů v průběhu času.
Režim učňů: Naučte se jako učňátku. Váš model se naučí sledováním chování stávajícího systému. Volání pořadí vždy vrátí výchozí akci aplikace (směrný plán).

Konfigurace personalizace

Personalizace se konfiguruje na webu Azure Portal.

Rewards: Nakonfigurujte výchozí hodnoty pro dobu čekání na odměnu, výchozí odměnu a zásady agregace odměn.
Průzkum: Nakonfigurujte procento volání pořadí, která se mají použít k prozkoumání.
Frekvence aktualizace modelu: Jak často se model přetrénuje.
Uchovávání dat: Kolik dní stojí za uložení dat. To může mít vliv na offline vyhodnocení, která se používají ke zlepšení smyčky učení.

Použití rozhraní API pro hodnocení a odměny

Pořadí: Vzhledem k akcím s funkcemi a kontextovými funkcemi použijte prozkoumat nebo zneužít k vrácení hlavní akce (položky obsahu).
- Akce: Akce jsou položky obsahu, jako jsou produkty nebo propagační akce, ze které si můžete vybrat. Personalizace zvolí hlavní akci (ID vrácené akce odměny), která se zobrazí uživatelům prostřednictvím rozhraní Rank API.
- Kontext: Pokud chcete poskytnout přesnější pořadí, zadejte informace o kontextu, například:
  - Váš uživatel.
  - Zařízení, na které jsou zapnuté.
  - Aktuální čas.
  - Další data o aktuální situaci.
  - Historická data o uživateli nebo kontextu
  Vaše konkrétní aplikace může mít jiné kontextové informace.
- Funkce: Jednotka informací o položce obsahu nebo kontextu uživatele. Ujistěte se, že používáte jenom funkce, které jsou agregované. Jako funkce nepoužívejte konkrétní časy, ID uživatelů ani jiná neagregovaná data.
  - Funkce akce je metadata o obsahu.
  - Kontextová funkce je metadata o kontextu, ve kterém se obsah prezentuje.
Průzkum: Služba Personalizace zkoumá, kdy místo vrácení nejlepší akce zvolí pro uživatele jinou akci. Služba Personalizace se vyhne posunu, nečinnosti a může se přizpůsobit průběžnému chování uživatelů prozkoumáním.
Naučená nejlepší akce: Služba Personalizace používá aktuální model k rozhodování o nejlepší akci na základě minulých dat.
Doba trvání experimentu: Doba, po kterou služba Personalizace čeká na odměnu, počínaje okamžikem, kdy se pro danou událost stalo volání Rank.
Neaktivní události: Neaktivní událost je jedna, ve které jste volali pořadí, ale nejste si jistí, že uživatel někdy uvidí výsledek z důvodu rozhodnutí klientských aplikací. Neaktivní události umožňují vytvářet a ukládat výsledky přizpůsobení a pak se rozhodnout je později zahodit, aniž by to mělo vliv na model strojového učení.
Odměna: Míra toho, jak uživatel odpověděl na ID vrácené akce v rozhraní Rank API, jako skóre mezi 0 a 1. Hodnota 0 až 1 je nastavená vaší obchodní logikou na základě toho, jak volba pomohla dosáhnout vašich obchodních cílů přizpůsobení. Smyčka učení neukládá tuto odměnu jako historii jednotlivých uživatelů.

Hodnocení

Offline vyhodnocení

Vyhodnocení: Offline vyhodnocení určuje nejlepší zásady výuky pro vaši smyčku na základě dat vaší aplikace.
Učení zásady: Způsob, jakým personalizace trénuje model na každou událost, se určí některými parametry, které ovlivňují fungování algoritmu strojového učení. Nová smyčka učení začíná výchozím Učení Policy, což může přinést mírný výkon. Při spuštění vyhodnocení personalizace vytvoří nové zásady výuky, které jsou speciálně optimalizované pro případy použití smyčky. Personalizace bude výrazně lépe fungovat se zásadami optimalizovanými pro každou konkrétní smyčku vygenerovanou během vyhodnocení. Zásady výuky se nazývají nastavení učení v nastavení modelu a učení pro prostředek Personalizace na webu Azure Portal.

Vyhodnocení režimu učňů

Režim učňů poskytuje následující metriky vyhodnocení:

Směrný plán – průměrná odměna: Průměrné odměny výchozího nastavení aplikace (směrný plán).
Personalizace – průměrná odměna: Průměr celkové odměny Personalizace odměn by potenciálně dosáhl.
Průměrná průběžná odměna: Poměr odměny podle směrného plánu a personalizace – normalizován v posledních 1 000 událostech.

Další kroky

Informace o etice a zodpovědném používání

Sdílet prostřednictvím