Wat is Reinforcement Learning?

Reinforcement Learning is een benadering voor machine learning die gedrag leert door feedback te krijgen van het gebruik ervan.

Bekrachtigings-Learning werkt als:

  • Het bieden van een kans of mate van vrijheid om een gedrag op te nemen, zoals het nemen van beslissingen of keuzes.
  • Contextuele informatie over de omgeving en keuzes bieden.
  • Feedback geven over hoe goed het gedrag een bepaald doel bereikt.

Hoewel er veel subtypen en stijlen van bekrachtigings learning zijn, werkt het concept op deze manier in Personalizer:

  • Uw toepassing biedt de mogelijkheid om één stukje inhoud uit een lijst met alternatieven weer te geven.
  • Uw toepassing biedt informatie over elk alternatief en de context van de gebruiker.
  • Uw toepassing berekent een beloningsscore.

In tegenstelling tot sommige benaderingen voor bekrachtigingstraining is voor Personalizer geen simulatie nodig om in te werken. De leeralgoritmen zijn ontworpen om te reageren op een externe wereld (versus deze te controleren) en te leren van elk gegevenspunt met de kennis dat het een unieke kans is die tijd en geld kost om te maken, en dat er een niet-nul-kostenpost (verlies van mogelijke beloning) is als suboptimale prestaties optreden.

Welk type bekrachtigingsalgoritmen gebruikt Personalizer?

De huidige versie van Personalizer maakt gebruik van contextuele bandits, een benadering voor bekrachtiging van leren die is omkaderd bij het nemen van beslissingen of keuzes tussen discrete acties, in een bepaalde context.

Het beslissingsgeheugen, het model dat is getraind om de best mogelijke beslissing vast te leggen, maakt, gezien een context, gebruik van een set lineaire modellen. Deze hebben herhaaldelijk bedrijfsresultaten laten zien en zijn een bewezen benadering, deels omdat ze zeer snel kunnen leren van de echte wereld zonder dat er training met meerdere pass-passs nodig is, en deels omdat ze de gecontroleerde leermodellen en deep neural network-modellen kunnen aanvullen.

De toewijzing van verken-/exploitverkeer wordt willekeurig gemaakt volgens het percentage dat is ingesteld voor verkenning en het standaardalgoritme voor verkenning is epsilon-inhalig.

Geschiedenis van contextuele bandits

John Langford bedacht de naam Contextual Bandits (Langford en Paradigma [2007]) om een deelbare subset van bekrachtigings learning te beschrijven en heeft aan een half tiental documenten gewerkt om ons inzicht in het leren in dit paradigma te verbeteren:

  • Beygelzimer et al. [2011]
  • Duduak et al. [2011a,b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer en Langford [2009]
  • Li et al. [2010]

John heeft eerder ook verschillende zelfstudies gegeven over onderwerpen als Gezamenlijke voorspelling (ICML 2015), Contextual Bandit Theory (NIPS 2013), Active Learning (ICML 2009) en Sample Complexity Bounds (ICML 2003)

Welke machine learning gebruikt Personalizer?

Personalizer gebruikt momenteel Vowpal Wabbit als basis voor de machine learning. Dit framework biedt maximale doorvoer en laagste latentie bij het maken van persoonlijke voorkeur en het trainen van het model met alle gebeurtenissen.

Referenties

Volgende stappen

Offline-evaluatie