Co je zpětná Učení?

Zpětnovazební Učení je přístup ke strojovému učení, který se učí chování získáním zpětné vazby z jeho použití.

Zpětná Učení funguje podle:

  • Poskytování příležitosti nebo míry volnosti k chování – například rozhodování nebo rozhodování
  • Poskytování kontextových informací o prostředí a možnostech
  • Poskytnutí zpětné vazby o tom, jak dobře chování dosáhne určitého cíle.

I když existuje mnoho podtypů a stylů zpětnizačního učení, tento koncept funguje v Personalizéru:

  • Vaše aplikace nabízí možnost zobrazit jeden obsah ze seznamu alternativ.
  • Vaše aplikace poskytuje informace o jednotlivých alternativách a kontextu uživatele.
  • Vaše aplikace vypočítá skóre odměny.

Na rozdíl od některých přístupů k zpětná zožení nevyžaduje Personalizační metoda simulaci, ve které by fungovala. Jeho algoritmy učení jsou navržené tak, aby reagovaly na vnější svět (místo kontroly) a učit se z každého datového bodu s pochopením, že je to jedinečná příležitost, která stojí čas a peníze na vytvoření, a že v případě neoptimálního výkonu existuje nenulová ztráta (ztráta možné odměny).

Jaký typ algoritmů zpět zpětnického učení personalizátor používá?

Aktuální verze personalizátoru používá kontextové signály, což je přístup k zpět zpětná učení, který je v daném kontextu založený na rozhodování nebo rozhodování mezi diskrétními akcemi.

Rozhodovací paměť, model, který byl vytrénován k zachycení nejlepšího možného rozhodnutí za použití kontextu, používá sadu lineárních modelů. Ty opakovaně ukázaly obchodní výsledky a jsou osvědčeným přístupem, částečně proto, že se mohou velmi rychle učit z reálného světa bez nutnosti trénování s více průchody, a částečně proto, že mohou doplňovat modely učení pod dohledem a modely hluboké neurální sítě.

Přidělení provozu pro zkoumání/zneužití se provádí náhodně po sadě procent pro zkoumání a výchozí algoritmus pro zkoumání je epsilon-greedy.

Historie kontextových tesáků

John Langford se shodoval s názvem Contextual Můžetes (Langford a Zhang [2007]) a popsal podmnožinu zpětnového učení a pracoval na půl desítkě dokumentů, které zlepšují naše porozumění tomu, jak se v tomto paradigmatu naučit:

  • Beygelzimer et al. [2011]
  • Dud ét al. [2011a,b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer a Langford [2009]
  • Li et al. [2010]

Jan také předal několik kurzů k tématům, jako jsou Joint Prediction (ICML 2015), Contextual Připová teorie (NIPS 2013), Active Učení (ICML 2009) a Sample Complexity Bounds (ICML 2003).

Jaké architektury strojového učení personalizátor používá?

Personalizační služba v současné době používá Vowpal Wabbit jako základ pro strojové učení. Tato rozhraní umožňuje maximální propustnost a nejnižší latenci při vytváření pořadí přizpůsobení a trénování modelu se všemi událostmi.

Reference

Další kroky

Offline vyhodnocení