Konfigurace smyčky učení personalizátoru

Konfigurace služby zahrnuje, jak služba zachází s odměnami, jak často služba prozkoumá, jak často se model znovu trénuje a kolik dat se ukládá.

Nakonfigurujte smyčku učení na stránce Konfigurace v části Azure Portal pro tento prostředek personalizátoru.

Plánování změn konfigurace

Vzhledem k tomu, že některé změny konfigurace resetují model, měli byste naplánovat změny konfigurace.

Pokud máte v plánu použít režim Výuka,nezapomeňte si před přepnutím na režim Výuka.

Nastavení, které zahrnují resetování modelu

Následující akce aktivují opětovné trénování modelu s využitím dat dostupných až do posledních 2 dnů.

  • Odměna
  • Průzkum

Pokud chcete vymazat všechna data, použijte stránku Nastavení modelu a učení.

Konfigurace programu Rewards pro smyčku zpětné vazby

Nakonfigurujte službu pro využití odměn ve smyčce učení. Změny následujících hodnot resetují aktuální model Personalizátoru a znovu ho vytrénují s daty za poslední 2 dny.

Konfigurace hodnot odměn pro smyčku zpětné vazby

Hodnota Účel
Doba čekání na odměnu Nastaví dobu, po kterou bude personalizátor shromažďovat hodnoty odměn pro volání rank (pořadí), a to od okamžiku, kdy dojde k volání pořadí. Tato hodnota se nastaví tak, že se zeptáte: "Jak dlouho má personalizátor čekat na volání odměn?" Jakákoli odměna přicházející po tomto okně se zaprotokoluje, ale nebude se používat pro výuku.
Výchozí odměna Pokud personalizér neobdrží během časového období čekání na odměnu přidruženého k volání ranku žádný hovor k odměně, personalizátor přiřadí výchozí odměnu. Ve výchozím nastavení a ve většině scénářů je výchozí odměna nula (0).
Agregace odměn Pokud za stejné volání rozhraní API Rank obdržíte více odměn, použije se tato metoda agregace: součet nebo nejstarší hodnota . Earliest vybere nejstarší přijaté skóre a zbytek zahodí. To je užitečné, pokud chcete jedinečnou odměnu mezi pravděpodobně duplicitními voláními.

Po změně těchto hodnot nezapomeňte vybrat Uložit.

Konfigurace průzkumu, aby se smyčka učení mohla adaptovat

Přizpůsobení dokáže zjišťovat nové vzory a přizpůsobovat se změnám chování uživatelů v průběhu času prozkoumáváním alternativ namísto použití předpovědi natrénovaných modelů. Hodnota Exploration (Průzkum) určuje, jaké procento volání Rank (Pořadí) se zodpovídá průzkumem.

Změny této hodnoty resetují aktuální model personalizátoru a znovu ho vytrénují daty za poslední 2 dny.

Hodnota průzkumu určuje, jaké procento volání Rank (Pořadí) je zodpovězeno průzkumem.

Po změně této hodnoty nezapomeňte vybrat Uložit.

Konfigurace frekvence aktualizace modelu pro trénování modelu

Frekvence aktualizace modelu určuje, jak často se model trénuje.

Nastavení frekvence Účel
1 min. Frekvence aktualizace po minutách jsou užitečné při ladění kódu aplikace pomocí personalizátoru, provádění ukázek nebo interaktivním testování aspektů strojového učení.
15 minut Vysoké frekvence aktualizace modelu jsou užitečné v situacích, kdy chcete pečlivě sledovat změny chování uživatelů. Mezi příklady patří weby, které běží na živých zprávách, virálním obsahu nebo živých produktových biddingech. V těchto scénářích byste mohli použít 15minutovou frekvenci.
1 hodina Ve většině případů použití je frekvence aktualizací nižší.

Frekvence aktualizace modelu nastavuje, jak často se nový model Personalizéru znovu trénuje.

Po změně této hodnoty nezapomeňte vybrat Uložit.

Uchovávání dat

Doba uchovávání dat určuje, kolik dní personalizátor uchovává datové protokoly. K provádění offline vyhodnocení, která sepoužívají k měření efektivity služby Personalizér a optimalizaci služby Učení Policy, se vyžaduje starší datové protokoly.

Po změně této hodnoty nezapomeňte vybrat Uložit.

Další kroky

Zjistěte, jak spravovat model.