Co je zpětná Učení?
Zpětnovazební Učení je přístup ke strojovému učení, který se učí chování získáním zpětné vazby z jeho použití.
Zpětná Učení funguje podle:
- Poskytování příležitosti nebo míry volnosti k chování – například rozhodování nebo rozhodování
- Poskytování kontextových informací o prostředí a možnostech
- Poskytnutí zpětné vazby o tom, jak dobře chování dosáhne určitého cíle.
I když existuje mnoho podtypů a stylů zpětnizačního učení, tento koncept funguje v Personalizéru:
- Vaše aplikace nabízí možnost zobrazit jeden obsah ze seznamu alternativ.
- Vaše aplikace poskytuje informace o jednotlivých alternativách a kontextu uživatele.
- Vaše aplikace vypočítá skóre odměny.
Na rozdíl od některých přístupů k zpětná zožení nevyžaduje Personalizační metoda simulaci, ve které by fungovala. Jeho algoritmy učení jsou navržené tak, aby reagovaly na vnější svět (místo kontroly) a učit se z každého datového bodu s pochopením, že je to jedinečná příležitost, která stojí čas a peníze na vytvoření, a že v případě neoptimálního výkonu existuje nenulová ztráta (ztráta možné odměny).
Jaký typ algoritmů zpět zpětnického učení personalizátor používá?
Aktuální verze personalizátoru používá kontextové signály, což je přístup k zpět zpětná učení, který je v daném kontextu založený na rozhodování nebo rozhodování mezi diskrétními akcemi.
Rozhodovací paměť, model, který byl vytrénován k zachycení nejlepšího možného rozhodnutí za použití kontextu, používá sadu lineárních modelů. Ty opakovaně ukázaly obchodní výsledky a jsou osvědčeným přístupem, částečně proto, že se mohou velmi rychle učit z reálného světa bez nutnosti trénování s více průchody, a částečně proto, že mohou doplňovat modely učení pod dohledem a modely hluboké neurální sítě.
Přidělení provozu pro zkoumání/zneužití se provádí náhodně po sadě procent pro zkoumání a výchozí algoritmus pro zkoumání je epsilon-greedy.
Historie kontextových tesáků
John Langford se shodoval s názvem Contextual Můžetes (Langford a Zhang [2007]) a popsal podmnožinu zpětnového učení a pracoval na půl desítkě dokumentů, které zlepšují naše porozumění tomu, jak se v tomto paradigmatu naučit:
- Beygelzimer et al. [2011]
- Dud ét al. [2011a,b]
- Agarwal et al. [2014, 2012]
- Beygelzimer a Langford [2009]
- Li et al. [2010]
Jan také předal několik kurzů k tématům, jako jsou Joint Prediction (ICML 2015), Contextual Připová teorie (NIPS 2013), Active Učení (ICML 2009) a Sample Complexity Bounds (ICML 2003).
Jaké architektury strojového učení personalizátor používá?
Personalizační služba v současné době používá Vowpal Wabbit jako základ pro strojové učení. Tato rozhraní umožňuje maximální propustnost a nejnižší latenci při vytváření pořadí přizpůsobení a trénování modelu se všemi událostmi.
Reference
- Kontextová rozhodnutí s nízkým technickým dluhem
- Přístup ke snížení spravedlivé klasifikace
- Efektivní kontextová řešení v ne stationárních světech
- Předpověď zbytkové ztráty: Zpětná vazba: učení bez přírůstkové zpětné vazby
- Mapování instrukcí a vizuálních pozorování na akce s zpětná Učení
- Učení pro lepší hledání než váš učitel