Vedere le informazioni su cos'è l'apprendimento per rinforzo

Importante

A partire dal 20 settembre 2023 non sarà possibile creare nuove risorse di Personalizza esperienze. Il servizio Personalizza esperienze viene ritirato il 1° ottobre 2026.

L'apprendimento per rinforzo è un approccio di Machine Learning che riconosce i comportamenti acquisendo feedback dal relativo uso.

L'apprendimento per rinforzo:

  • Fornisce un'opportunità o un grado di libertà per attuare un comportamento, ad esempio prendere decisioni o effettuare scelte.
  • Fornisce informazioni contestuali sull'ambiente e le scelte.
  • Fornisce feedback sull'efficacia del comportamento al fine di perseguire un determinato obiettivo.

Anche se l'apprendimento per rinforzo include molti sottotipi e stili, ecco come funziona questo concetto in Personalizza esperienze:

  • L'applicazione offre l'opportunità di mostrare un contenuto da un elenco di alternative.
  • L'applicazione fornisce informazioni su ogni alternativa e sul contesto dell'utente.
  • L'applicazione calcola un punteggio di ricompensa.

A differenza di alcuni approcci all'apprendimento per rinforzo, Personalizza esperienze non richiede un funzionamento della simulazione. I suoi algoritmi di apprendimento sono progettati per reagire a un mondo esterno (rispetto a controllarlo) e imparare da ogni punto dati con una comprensione che è un'opportunità unica che costa tempo e denaro da creare e che ci sia un rimpianto diverso da zero (perdita di possibili ricompense) se si verificano prestazioni non ottimali.

Quali tipi di algoritmi di apprendimento per rinforzo si usano in Personalizza esperienze?

Nella versione corrente di Personalizza esperienze si usano i banditi contestuali, un approccio all'apprendimento per rinforzo che si basa sul prendere decisioni o effettuare scelte tra azioni distinte in uno specifico contesto.

La memoria delle decisioni, ossia il modello sottoposto a training per acquisire la migliore decisione possibile, dato un contesto, usa una serie di modelli lineari, che si sono ripetutamente dimostrati validi per i risultati aziendali e come approccio comprovato, sia perché sono in grado di apprendere rapidamente dal mondo reale senza la necessità di più passaggi di training e sia perché possono integrare modelli di apprendimento supervisionati e modelli di reti neurali profonde.

L'allocazione del traffico di esplorazione/azione migliore viene eseguita in modo casuale dopo la percentuale impostata per l'esplorazione e l'algoritmo predefinito per l'esplorazione è epsilon-greedy.

Storia dei banditi contestuali

John Langford ha coniato il termine Contextual Bandits (Langford and Zhang [2007]), ossia banditi contestuali, per descrivere un sottoinsieme gestibile dell'apprendimento per rinforzo e ha condotto diversi studi per spiegare come funziona l'apprendimento con questo paradigma:

  • Beygelzimer et al. [2011]
  • Dudík et al. [2011a, b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer e Langford [2009]
  • Li et al. [2010]

In precedenza Langford ha anche fornito diverse esercitazioni su argomenti come Joint Prediction (previsione congiunta, ICML 2015), Contextual Bandit Theory (teoria dei banditi contestuali, NIPS 2013), Active Learning (apprendimento attivo, ICML 2009) e Sample Complexity Bounds (esempi di limiti di complessità, ICML 2003)

Quali framework di Machine Learning si usano per Personalizza esperienze?

La base di Machine Learning per Personalizza esperienze è attualmente Vowpal Wabbit. Questo framework assicura la velocità effettiva massima e la latenza minima per l'esecuzione di classifiche di personalizzazione e per il training del modello con tutti gli eventi.

Riferimenti

Passaggi successivi

Valutazione offline