O que é a Aprendizagem por Reforço?

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

A Aprendizagem por Reforço é uma abordagem à aprendizagem automática que aprende comportamentos obtendo feedback da sua utilização.

A Aprendizagem por Reforço funciona por:

Proporcionar uma oportunidade ou um grau de liberdade para adotar um comportamento - como tomar decisões ou escolhas.
Fornecer informações contextuais sobre o ambiente e as escolhas.
Fornecer feedback sobre o quão bem o comportamento atinge um determinado objetivo.

Embora existam muitos subtipos e estilos de aprendizagem por reforço, é assim que o conceito funciona no Personalizador:

Seu aplicativo oferece a oportunidade de mostrar um conteúdo de uma lista de alternativas.
Seu aplicativo fornece informações sobre cada alternativa e o contexto do usuário.
A sua candidatura calcula uma pontuação de recompensa.

Ao contrário de algumas abordagens à aprendizagem por reforço, o Personalizer não requer uma simulação para trabalhar. Seus algoritmos de aprendizagem são projetados para reagir a um mundo exterior (versus controlá-lo) e aprender com cada ponto de dados com a compreensão de que é uma oportunidade única que custa tempo e dinheiro para criar, e que há um arrependimento diferente de zero (perda de possível recompensa) se o desempenho abaixo do ideal acontecer.

Que tipo de algoritmos de aprendizagem por reforço o Personalizer usa?

A versão atual do Personalizer usa bandidos contextuais, uma abordagem de aprendizagem por reforço que é enquadrada em torno da tomada de decisões ou escolhas entre ações discretas, em um determinado contexto.

A memória de decisão, o modelo que foi treinado para capturar a melhor decisão possível, dado um contexto, usa um conjunto de modelos lineares. Estes têm repetidamente mostrado resultados de negócios e são uma abordagem comprovada, em parte porque eles podem aprender com o mundo real muito rapidamente sem a necessidade de treinamento multi-passe, e em parte porque eles podem complementar modelos de aprendizagem supervisionada e modelos de redes neurais profundas.

A alocação de tráfego de exploração/melhor ação é feita aleatoriamente seguindo a porcentagem definida para exploração, e o algoritmo padrão para exploração é ganancioso de epsilon.

História dos Bandidos Contextuais

John Langford cunhou o nome Contextual Bandits (Langford e Zhang [2007]) para descrever um subconjunto tratável de aprendizagem por reforço e trabalhou em meia dúzia de artigos melhorando nossa compreensão de como aprender neste paradigma:

[2011]
[2011a, b]
[2014, 2012]
Beygelzimer e Langford [2009]
[2010]

John também deu vários tutoriais anteriormente sobre tópicos como Previsão Conjunta (ICML 2015), Teoria do Bandido Contextual (NIPS 2013), Aprendizagem Ativa (ICML 2009) e Limites de Complexidade de Amostra (ICML 2003)

Quais estruturas de aprendizado de máquina o Personalizer usa?

Atualmente, o Personalizer usa o Vowpal Wabbit como base para o aprendizado de máquina. Essa estrutura permite a taxa de transferência máxima e a menor latência ao fazer classificações de personalização e treinar o modelo com todos os eventos.

Referências

Próximos passos

Avaliação offline