Como funciona o PersonalizadorHow Personalizer works

O recurso personalizador, seu loop de aprendizado, usa o Machine Learning para criar o modelo que prevê a ação principal para seu conteúdo.The Personalizer resource, your learning loop, uses machine learning to build the model that predicts the top action for your content. O modelo é treinado exclusivamente em seus dados que você enviou a ele com as chamadas de classificação e recompensa .The model is trained exclusively on your data that you sent to it with the Rank and Reward calls. Cada loop é completamente independente um do outro.Every loop is completely independent of each other.

As APIs de classificação e recompensa afetam o modeloRank and Reward APIs impact the model

Você envia ações com recursos e recursos de contexto para a API de classificação.You send actions with features and context features to the Rank API. A API de Classificação decide usar:The Rank API decides to use either:

  • Exploração: o modelo atual para decidir a melhor ação com base nos dados anteriores.Exploit: The current model to decide the best action based on past data.
  • Explorar: selecione uma ação diferente em vez da ação superior.Explore: Select a different action instead of the top action. Você configura esse percentual para o recurso personalizado no portal do Azure.You configure this percentage for your Personalizer resource in the Azure portal.

Você determina a pontuação de recompensa e envia essa pontuação para a API de recompensa.You determine the reward score and send that score to the Reward API. A API de Recompensa:The Reward API:

  • Coleta dados para treinar o modelo gravando os recursos e as pontuações de recompensa de cada chamada de classificação.Collects data to train the model by recording the features and reward scores of each rank call.
  • Usa esses dados para atualizar o modelo com base na configuração especificada na política de aprendizado.Uses that data to update the model based on the configuration specified in the Learning Policy.

Seu sistema chamando personalizadorYour system calling Personalizer

A seguinte imagem mostra o fluxo de arquitetura das chamadas de Classificação e Recompensa:The following image shows the architectural flow of calling the Rank and Reward calls:

alt textalt text

  1. Você envia ações com recursos e recursos de contexto para a API de classificação.You send actions with features and context features to the Rank API.

    • O personalizador decide se você deve explorar o modelo atual ou explorar novas opções para o modelo.Personalizer decides whether to exploit the current model or explore new choices for the model.
    • O resultado de classificação é enviado ao EventHub.The ranking result is sent to EventHub.
  2. A classificação superior é retornada ao seu sistema como ID de ação de recompensa.The top rank is returned to your system as reward action ID. Seu sistema apresenta esse conteúdo e determina uma pontuação de recompensa com base em suas próprias regras de negócio.Your system presents that content and determines a reward score based on your own business rules.

  3. Seu sistema retorna a pontuação de recompensa para o loop de aprendizado.Your system returns the reward score to the learning loop.

    • Quando Personalizador receber a recompensa, a recompensa será enviada ao EventHub.When Personalizer receives the reward, the reward is sent to EventHub.
    • A classificação e a recompensa são correlacionadas.The rank and reward are correlated.
    • O modelo de IA é atualizado de acordo com os resultados de correlação.The AI model is updated based on the correlation results.
    • O mecanismo de inferência é atualizado com o novo modelo.The inference engine is updated with the new model.

O personalizador retreina seu modeloPersonalizer retrains your model

O personalizador retreina seu modelo com base em sua configuração de atualização de frequência de modelo no recurso personalizado na portal do Azure.Personalizer retrains your model based on your Model frequency update setting on your Personalizer resource in the Azure portal.

O personalizador usa todos os dados atualmente retidos, com base na configuração de retenção de dados , em número de dias no recurso personalizado no portal do Azure.Personalizer uses all the data currently retained, based on the Data retention setting in number of days on your Personalizer resource in the Azure portal.

A pesquisa por trás do PersonalizadorResearch behind Personalizer

O Personalizador se baseia em ciência e pesquisa de ponta na área de Aprendizado de Reforço, incluindo artigos, atividades de pesquisa e áreas contínuas de exploração do Microsoft Research.Personalizer is based on cutting-edge science and research in the area of Reinforcement Learning including papers, research activities, and ongoing areas of exploration in Microsoft Research.

Próximas etapasNext steps

Saiba mais sobre os principais cenários do personalizadorLearn about top scenarios for Personalizer