Configurar o loop de aprendizagem do Personalizer

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

A configuração do serviço inclui como o serviço trata as recompensas, com que frequência o serviço explora, com que frequência o modelo é retreinado e quantos dados são armazenados.

Configure o loop de aprendizagem na página Configuração , no portal do Azure para esse recurso do Personalizador.

Planejando alterações de configuração

Como algumas alterações de configuração redefinem seu modelo, você deve planejar suas alterações de configuração.

Se planeia utilizar o modo Aprendiz, certifique-se de que revê a configuração do Personalizador antes de mudar para o modo Aprendiz.

Configurações que incluem a redefinição do modelo

As ações a seguir desencadeiam um retreinamento do modelo usando dados disponíveis até os últimos 2 dias.

Recompensa
Exploração

Para limpar todos os seus dados, use a página Modelo e configurações de aprendizagem.

Configurar recompensas para o ciclo de feedback

Configure o serviço para o uso de recompensas do seu ciclo de aprendizagem. As alterações nos valores a seguir redefinirão o modelo atual do Personalizador e o treinarão novamente com os últimos 2 dias de dados.

Configure the reward values for the feedback loop

Valor	Objetivo
Tempo de espera de recompensa	Define o período de tempo durante o qual o Personalizador irá recolher valores de recompensa para uma chamada de Classificação, a partir do momento em que a chamada de Classificação acontece. Esse valor é definido perguntando: "Quanto tempo o Personalizador deve esperar por chamadas de recompensas?" Qualquer recompensa que chegue após esta janela será registada, mas não utilizada para aprendizagem.
Recompensa padrão	Se nenhuma chamada de recompensa for recebida pelo Personalizador durante a janela de Tempo de Espera de Recompensa associada a uma chamada de Classificação, o Personalizador atribuirá a Recompensa Padrão. Por padrão, e na maioria dos cenários, a Recompensa Padrão é zero (0).
Agregação de recompensas	Se várias recompensas forem recebidas pela mesma chamada da API de classificação, este método de agregação será usado: soma ou antes. A primeira escolhe a primeira pontuação recebida e descarta o restante. Isso é útil se você quiser uma recompensa única entre chamadas possivelmente duplicadas.

Depois de alterar esses valores, selecione Salvar.

Configurar a exploração para permitir que o ciclo de aprendizagem se adapte

A personalização é capaz de descobrir novos padrões e se adaptar às mudanças de comportamento do usuário ao longo do tempo, explorando alternativas em vez de usar a previsão do modelo treinado. O valor de Exploração determina qual a percentagem de chamadas de Rank que são atendidas com a exploração.

As alterações nesse valor redefinirão o modelo atual do Personalizador e o treinarão novamente com os últimos 2 dias de dados.

The exploration value determines what percentage of Rank calls are answered with exploration

Depois de alterar esse valor, certifique-se de selecionar Salvar.

Configurar a frequência de atualização do modelo para o treinamento do modelo

A frequência de atualização do modelo define a frequência com que o modelo é treinado.

Definição de frequência	Objetivo
1 minuto	As frequências de atualização de um minuto são úteis ao depurar o código de um aplicativo usando o Personalizer, fazer demonstrações ou testar interativamente aspetos de aprendizado de máquina.
15 minutos	Altas frequências de atualização de modelo são úteis para situações em que você deseja acompanhar de perto as alterações nos comportamentos do usuário. Os exemplos incluem sites que são executados em notícias ao vivo, conteúdo viral ou lances de produtos ao vivo. Você pode usar uma frequência de 15 minutos nesses cenários.
1 hora	Para a maioria dos casos de uso, uma frequência de atualização mais baixa é eficaz.

Model update frequency sets how often a new Personalizer model is retrained.

Depois de alterar esse valor, certifique-se de selecionar Salvar.

Retenção de dados

O período de retenção de dados define quantos dias o Personalizer mantém registros de dados. Logs de dados anteriores são necessários para realizar avaliações off-line, que são usadas para medir a eficácia do Personalizador e otimizar a Política de Aprendizagem.

Depois de alterar esse valor, certifique-se de selecionar Salvar.

Próximos passos

Saiba como gerir o seu modelo

Share via

Configurar o loop de aprendizagem do Personalizer

Planejando alterações de configuração

Configurações que incluem a redefinição do modelo

Configurar recompensas para o ciclo de feedback

Configurar a exploração para permitir que o ciclo de aprendizagem se adapte

Configurar a frequência de atualização do modelo para o treinamento do modelo

Retenção de dados

Próximos passos

Recursos adicionais