Terminologia do personalizador

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

O Personalizer utiliza terminologia da aprendizagem por reforço. Esses termos são usados no portal do Azure e nas APIs.

Terminologia conceptual

Ciclo de aprendizagem: você cria um recurso do personalizador, chamado loop de aprendizagem, para cada parte do seu aplicativo que pode se beneficiar da personalização. Se você tiver mais de uma experiência para personalizar, crie um loop para cada uma.
Modelo: Um modelo de Personalizador captura todos os dados aprendidos sobre o comportamento do usuário, obtendo dados de treinamento a partir da combinação dos argumentos que você envia para chamadas de Classificação e Recompensa e com um comportamento de treinamento determinado pela Política de Aprendizagem.
Modo online: o comportamento de aprendizagem padrão para o Personalizador, onde seu loop de aprendizado usa o aprendizado de máquina para criar o modelo que prevê a ação principal para seu conteúdo.
Modo aprendiz: um comportamento de aprendizagem que ajuda a aquecer um modelo de Personalizador para treinar sem afetar os resultados e as ações das aplicações.

Comportamento de Aprendizagem:

Modo online: Devolve a melhor ação. Seu modelo responderá às chamadas de Rank com a melhor ação e usará as chamadas de Recompensa para aprender e melhorar suas seleções ao longo do tempo.
Modo aprendiz: Aprenda como aprendiz. Seu modelo aprenderá observando o comportamento do seu sistema existente. As chamadas de classificação sempre retornarão a ação padrão do aplicativo (linha de base).

Configuração do personalizador

O Personalizer é configurado a partir do portal do Azure.

Recompensas: configure os valores padrão para tempo de espera de recompensa, recompensa padrão e política de agregação de recompensa.
Exploração: configure a porcentagem de chamadas de classificação a serem usadas para exploração
Frequência de atualização do modelo: com que frequência o modelo é retreinado.
Retenção de dados: quantos dias de dados para armazenar. Isso pode afetar as avaliações off-line, que são usadas para melhorar seu ciclo de aprendizagem.

Use APIs de classificação e recompensa

Classificação: Dadas as ações com recursos e os recursos de contexto, use explorar ou explorar para retornar a ação principal (item de conteúdo).
- Ações: Ações são os itens de conteúdo, como produtos ou promoções, para escolher. O Personalizador escolhe a ação principal (ID de ação de recompensa retornada) para mostrar aos seus usuários por meio da API de classificação.
- Contexto: Para fornecer uma classificação mais precisa, forneça informações sobre o seu contexto, por exemplo:
  - O seu utilizador.
  - O dispositivo em que eles estão.
  - A hora atual.
  - Outros dados sobre a situação atual.
  - Dados históricos sobre o usuário ou contexto.
  Seu aplicativo específico pode ter informações de contexto diferentes.
- Características: uma unidade de informações sobre um item de conteúdo ou um contexto de usuário. Certifique-se de usar apenas os recursos agregados. Não use horários específicos, IDs de usuário ou outros dados não agregados como recursos.
  - Um recurso de ação são metadados sobre o conteúdo.
  - Um recurso de contexto são metadados sobre o contexto no qual o conteúdo é apresentado.
Exploração: O serviço Personalizador está explorando quando, em vez de retornar a melhor ação, escolhe uma ação diferente para o usuário. O serviço Personalizador evita derivas, estagnação e pode se adaptar ao comportamento contínuo do usuário explorando.
Melhor ação aprendida: o serviço Personalizador usa o modelo atual para decidir a melhor ação com base em dados passados.
Duração do Experimento: A quantidade de tempo que o serviço Personalizador espera por uma recompensa, a partir do momento em que a chamada de Rank aconteceu para aquele evento.
Eventos inativos: um evento inativo é aquele em que você chamou Rank, mas você não tem certeza de que o usuário verá o resultado, devido a decisões do aplicativo cliente. Os eventos inativos permitem criar e armazenar resultados de personalização e, em seguida, decidir descartá-los mais tarde sem afetar o modelo de aprendizado de máquina.
Recompensa: uma medida de como o usuário respondeu ao ID de ação de recompensa retornado da API de classificação, como uma pontuação entre 0 e 1. O valor de 0 para 1 é definido pela sua lógica de negócios, com base em como a escolha ajudou a alcançar seus objetivos de personalização de negócios. O ciclo de aprendizagem não armazena essa recompensa como histórico de usuário individual.

Avaliações

Avaliações offline

Avaliação: Uma avaliação offline determina a melhor política de aprendizagem para o seu ciclo com base nos dados da sua aplicação.
Política de Aprendizagem: Como o Personalizer treina um modelo em cada evento será determinado por alguns parâmetros que afetam como o algoritmo de aprendizado de máquina funciona. Um novo ciclo de aprendizagem começa com uma Política de Aprendizagem padrão, que pode produzir um desempenho moderado. Ao executar Avaliações, o Personalizer cria novas políticas de aprendizagem especificamente otimizadas para os casos de uso do seu ciclo. O Personalizer terá um desempenho significativamente melhor com políticas otimizadas para cada loop específico, geradas durante a Avaliação. A política de aprendizagem é denominada configurações de aprendizagem no Modelo e configurações de aprendizagem para o recurso Personalizador no portal do Azure.

Avaliações do modo aprendiz

O modo aprendiz fornece as seguintes métricas de avaliação:

Linha de base – recompensa média: recompensas médias do padrão do aplicativo (linha de base).
Personalizador – recompensa média: Média do total de recompensas que o Personalizador teria potencialmente alcançado.
Recompensa rolante média: Proporção de recompensa da linha de base e do personalizador – normalizada ao longo dos 1000 eventos mais recentes.

Próximos passos

Saiba mais sobre ética e uso responsável