O que é o aprendizado de reforço?

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

O aprendizado de reforço é uma abordagem do aprendizado de máquina que aprende comportamentos obtendo comentários de seu uso.

O aprendizado de reforço funciona por meio do seguinte:

Fornecendo uma oportunidade ou um grau de liberdade para representar um comportamento – como tomar decisões ou fazer escolhas.
Fornecendo informações contextuais sobre o ambiente e as opções.
Fornecendo comentários sobre se o comportamento atinge determinada meta de maneira satisfatória.

Embora haja muitos subtipos e estilos de aprendizado de reforço, é assim que o conceito funciona no Personalizador:

Seu aplicativo fornece a oportunidade de mostrar uma parte do conteúdo de uma lista de alternativas.
Seu aplicativo fornece informações sobre cada alternativa e o contexto do usuário.
Seu aplicativo computa uma pontuação de recompensa.

Ao contrário de algumas abordagens do aprendizado de reforço, o Personalizador não exige uma simulação para funcionar. Seus algoritmos de aprendizado foram projetados para responder a um mundo exterior (em vez de controlá-lo) e aprender com cada ponto de dados com um entendimento de que ele é uma oportunidade única que custa tempo e dinheiro para ser criada e que há um arrependimento diferente de zero (perda de possível recompensa) caso ocorra um desempenho abaixo do ideal.

Quais tipos de algoritmos de aprendizado de reforço o Personalizador usa?

A versão atual do Personalizador usa bandidos contextuais, uma abordagem do aprendizado de reforço que é estruturada em torno da tomada de decisões ou da realização de escolhas entre ações discretas, em determinado contexto.

A memória de decisões, o modelo que foi treinado para capturar a melhor decisão possível, em um dado contexto, usa um conjunto de modelos lineares. Eles mostraram resultados de negócios repetidamente e são uma abordagem comprovada, parcialmente, pois podem aprender com o mundo real muito rapidamente sem a necessidade de treinamento em vários passos e, parcialmente, porque podem complementar modelos de aprendizado supervisionado e modelos de rede neural profunda.

A alocação do tráfego de investigação/melhor ação é feita aleatoriamente seguindo o percentual definido para a exploração, e o algoritmo padrão para a exploração é o epsílon Greedy.

Histórico de bandidos contextuais

John Langford cunhou o nome Bandidos Contextuais (Langford e Zhang [2007]) para descrever um subconjunto manejável de aprendizado de reforço e trabalhou em meia dúzia de artigos que melhoram nossa compreensão de como aprender nesse paradigma:

Beygelzimer et al. [2011]
Dudík et al. [2011a,b]
Agarwal et al. [2014, 2012]
Beygelzimer e Langford [2009]
Li et al. [2010]

John também forneceu vários tutoriais anteriormente sobre tópicos como Previsão Conjunta (ICML 2015), Teoria de Bandidos Contextuais (NIPS 2013), Aprendizado Ativo (ICML 2009) e Limites da Complexidade de Amostras (ICML 2003)

Quais estruturas de aprendizado de máquina o Personalizador usa?

Atualmente, o Personalizador usa o Vowpal Wabbit como a base para o aprendizado de máquina. Essa estrutura permite a taxa de transferência máxima e a menor latência ao fazer classificações de personalização e treinar o modelo com todos os eventos.

Referências

Próximas etapas

Avaliação offline