Como funciona o Personalizador

O recurso Personalizador, o seu loop de aprendizado, usa machine learning para criar o modelo que prevê a ação principal do seu conteúdo. O modelo é treinado exclusivamente nos dados que você enviou a ele por meio das chamadas de Classificação e Recompensa. Os loops são totalmente independentes uns dos outros.

As APIs de Classificação e Recompensa afetam o modelo

Você envia ações com recursos e recursos de contexto à API de Classificação. A API de Classificação decide usar:

  • Aproveitar: o modelo atual para decidir a melhor ação com base em dados passados.
  • Explorar: selecione uma ação diferente em vez da ação principal. Você configura esse percentual para o recurso Personalizador do portal do Azure.

Você determina a pontuação de recompensa e envia essa pontuação à API de Recompensa. A API de Recompensa:

  • Coleta dados para treinar o modelo gravando os recursos e as pontuações de recompensa de cada chamada de classificação.
  • Usa esses dados para atualizar o modelo com base na configuração especificada na Política de aprendizado.

O seu sistema chamando o Personalizador

A seguinte imagem mostra o fluxo de arquitetura das chamadas de Classificação e Recompensa:

alt text

  1. Você envia ações com recursos e recursos de contexto à API de Classificação.

    • O Personalizador decide se vai aproveitar o modelo atual ou explorar novas opções para o modelo.
    • O resultado de classificação é enviado ao EventHub.
  2. A principal classificação é enviada ao sistema como uma ID de ação de recompensa. O sistema apresenta esse conteúdo e determina uma pontuação de recompensa com base nas suas regras de negócio.

  3. O sistema exibe a pontuação de recompensa para o loop de aprendizado.

    • Quando Personalizador receber a recompensa, a recompensa será enviada ao EventHub.
    • A classificação e a recompensa são correlacionadas.
    • O modelo de IA é atualizado de acordo com os resultados de correlação.
    • O mecanismo de inferência é atualizado com o novo modelo.

O Personalizador treina o seu modelo novamente

O Personalizador treina o seu modelo novamente com base na configuração de Atualização de frequência do modelo no recurso Personalizador do portal do Azure.

Ele usa todos os dados treinados novamente no momento, com base na configuração de Retenção de dados em número de dias no recurso Personalizador do portal do Azure.

A pesquisa por trás do Personalizador

O Personalizador se baseia em ciência e pesquisa de ponta na área de Aprendizado de Reforço, incluindo artigos, atividades de pesquisa e áreas contínuas de exploração do Microsoft Research.

Próximas etapas

Veja os principais cenários do Personalizador