Vad är Learning?

Förstärkt Learning är en metod för maskininlärning som lär sig beteenden genom att få feedback från dess användning.

Förstärkt Learning fungerar genom att:

  • Att tillhandahålla en möjlighet eller grad av frihet att anta ett beteende – till exempel att fatta beslut eller välja.
  • Tillhandahålla sammanhangsbaserad information om miljö och val.
  • Ge feedback om hur väl beteendet uppnår ett visst mål.

Det finns många undertyper och format för förstärkt inlärning, men så här fungerar konceptet i Personanpassare:

  • Ditt program ger möjlighet att visa ett innehåll från en lista med alternativ.
  • Ditt program innehåller information om varje alternativ och kontexten för användaren.
  • Ditt program beräknar en belöningspoäng.

Till skillnad från vissa metoder för förstärkt inlärning kräver Personanpassare inte någon simulering för att arbeta i. Dess inlärningsalgoritmer är utformade för att reagera på en värld utanför (kontra kontroll) och lära sig från varje datapunkt med förståelse för att det är en unik möjlighet som kostar tid och pengar att skapa, och att det inte finns någon nolla (förlust av möjlig belöning) om en icke-optimal prestanda inträffar.

Vilken typ av algoritmer för förstärkt inlärning använder Personanpassare?

I den aktuella versionen av Personanpassare används kontextuella mönster , en metod för förstärkt inlärning som är inramad i att fatta beslut eller välja mellan diskreta åtgärder i en viss kontext.

Beslutsminnet, den modell som har tränats för att samla in det bästa möjliga beslutet, i en kontext, använder en uppsättning linjära modeller. Dessa har visat affärsresultat upprepade gånger och är en beprövad metod, delvis eftersom de kan lära sig från den verkliga världen mycket snabbt utan att behöva träning med flera pass, och delvis eftersom de kan komplettera övervakade inlärningsmodeller och modeller för djupa neurala nätverk.

Trafikallokeringen utforska/utnyttja görs slumpmässigt efter den procentandel som angetts för utforskning, och standardalgoritmen för utforskning är epsilon-greedy.

Historik över kontextuella historik

John Langford myntade namnet Contextual Bridges (Langford och Zhang [2007]) för att beskriva en användbar delmängd av förstärkt inlärning och har arbetat med ett halvdussin dokument som förbättrar vår förståelse av hur vi ska lära oss i det här paradigmet:

  • Beygelzimer et al. [2011]
  • Dudék et al. [2011a,b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer och Langford [2009]
  • Li et al. [2010]

John har också gett flera självstudier tidigare om ämnen som Gemensam förutsägelse (ICML 2015), Contextual Theory (NIPS 2013), Active Learning (ICML 2009) och Sample Complexity Bounds (ICML 2003)

Vilka ramverk för maskininlärning använder Personanpassare?

Personanpassaren använder för närvarande Vowpal Wabbit som grund för maskininlärning. Det här ramverket möjliggör maximalt dataflöde och kortast svarstid när personanpassning rangordnas och modellen tränas med alla händelser.

Referenser

Nästa steg

Offlineutvärdering