O que é o Personalizador?

Artigo
01/19/2024

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

Nota

A partir de julho de 2023, os serviços de IA do Azure abrangem todos os que eram anteriormente conhecidos como Serviços Cognitivos e Serviços de IA Aplicada do Azure. Não há alterações nos preços. Os nomes Serviços Cognitivos e IA Aplicada do Azure continuam a ser usados na faturação do Azure, na análise de custos, na lista de preços e nas APIs de preços. Não há alterações significativas nas interfaces de programação de aplicativos (APIs) ou SDKs.

O Azure AI Personalizer é um serviço de IA em que as suas aplicações tomam decisões mais inteligentes em escala utilizando a aprendizagem por reforço. O Personalizer processa informações sobre o estado do seu aplicativo, cenário e/ou usuários (contextos) e um conjunto de possíveis decisões e atributos relacionados (ações) para determinar a melhor decisão a ser tomada. O feedback da sua candidatura (recompensas) é enviado para o Personalizer para saber como melhorar a sua capacidade de tomada de decisão quase em tempo real.

O personalizador pode determinar as melhores ações a serem tomadas em uma variedade de cenários:

E-commerce: Qual produto deve ser mostrado aos clientes para maximizar a probabilidade de uma compra?
Recomendação de conteúdo: Qual artigo deve ser mostrado para aumentar a taxa de cliques?
Design de conteúdo: Onde deve ser colocado um anúncio para otimizar o envolvimento do usuário em um site?
Comunicação: Quando e como deve ser enviada uma notificação para maximizar as hipóteses de resposta?

Para começar a usar o Personalizador, siga o guia de início rápido ou experimente o Personalizador no seu navegador com esta demonstração interativa.

Esta documentação contém os seguintes tipos de artigos:

Os guias de início rápido fornecem instruções passo a passo para guiá-lo através da configuração e do código de exemplo para começar a fazer solicitações de API para o serviço.
Os guias de instruções contêm instruções para usar os recursos do Personalizador e os recursos avançados.
Exemplos de código demonstram como usar o Personalizer e ajudá-lo a interagir facilmente seu aplicativo com o serviço.
Os tutoriais são passos a passo mais longos implementando o Personalizer como parte de uma solução de negócios mais ampla.
Os conceitos fornecem mais detalhes sobre os recursos, recursos e fundamentos do Personalizador.

Como funciona o Personalizador?

O Personalizer usa a aprendizagem por reforço para selecionar a melhor ação para um determinado contexto em todos os usuários, a fim de maximizar uma recompensa média.

Contexto: informações que descrevem o estado do seu aplicativo, cenário ou usuário que podem ser relevantes para tomar uma decisão.
- Exemplo: a localização, o tipo de dispositivo, a idade e os tópicos favoritos dos utilizadores que visitam um Web site.
Ações: Um conjunto discreto de itens que podem ser escolhidos, juntamente com atributos que descrevem cada item.
- Exemplo: Um conjunto de artigos de notícias e os tópicos que são discutidos em cada artigo.
Recompensa: Uma pontuação numérica entre 0 e 1 que indica se a decisão foi ruim (0) ou boa (1)
- Exemplo: Um "1" indica que um usuário clicou no artigo sugerido, enquanto um "0" indica que o usuário não clicou.

APIs de classificação e recompensa

O Personalizer permite que você aproveite o poder e a flexibilidade da aprendizagem por reforço usando apenas duas APIs principais.

A API de classificaçãoé chamada pelo seu aplicativo cada vez que há uma decisão a ser tomada. O aplicativo envia um JSON contendo um conjunto de ações, recursos que descrevem cada ação e recursos que descrevem o contexto atual. Cada chamada de API de classificação é conhecida como um evento e anotada com um ID de evento exclusivo. Em seguida, o personalizador retorna o ID da melhor ação que maximiza a recompensa média total, conforme determinado pelo modelo subjacente.

A API de Recompensaé chamada pelo seu aplicativo sempre que há feedback que pode ajudar o Personalizador a saber se o ID da ação retornado na chamada Rank forneceu valor. Por exemplo, se um usuário clicou na notícia sugerida ou concluiu a compra de um produto sugerido. Uma chamada para a API de Recompensa pode ser em tempo real (logo após a chamada de Classificação ser feita) ou atrasada para melhor atender às necessidades do cenário. A pontuação de recompensa é determinada pelas métricas e objetivos do seu negócio e pode ser gerada por um algoritmo ou regras na sua aplicação. A pontuação é um número de valor real entre 0 e 1.

Modos de aprendizagem

Modo Aprendiz Semelhante a como um aprendiz aprende um ofício observando um especialista, o modo Aprendiz permite que o Personalizador aprenda observando a lógica de decisão atual do seu aplicativo. Isso ajuda a mitigar o chamado problema de "partida a frio" com um novo modelo não treinado e permite validar os recursos de ação e contexto que são enviados para o Personalizador. No modo Aprendiz, cada chamada para a API de classificação retorna a ação de linha de base ou a ação padrão que é a ação que o aplicativo teria executado sem usar o Personalizador. Isso é enviado pelo seu aplicativo para o Personalizer na API de classificação como o primeiro item no conjunto de ações possíveis.
O modo online Personalizer retornará a melhor ação, dado o contexto, conforme determinado pelo modelo RL subjacente e explora outras ações possíveis que podem melhorar o desempenho. O Personalizer aprende com o feedback fornecido em chamadas para a API de recompensa.

Observe que o Personalizer usa informações coletivas em todos os usuários para aprender as melhores ações com base no contexto atual. O serviço não:

Persista e gerencie as informações do perfil do usuário. IDs de usuário exclusivos não devem ser enviados para o Personalizador.
Registre as preferências ou dados históricos de usuários individuais.

Cenários de exemplo

Aqui estão alguns exemplos em que o Personalizador pode ser usado para selecionar o melhor conteúdo para renderizar para um usuário.

Tipo de conteúdo	Ações {features}	Recursos de contexto	ID de ação de recompensa devolvido (exibir este conteúdo)
Artigos de notícias	a. `The president...`, {nacional, política, [texto]} b. `Premier League ...` {global, esportes, [texto, imagem, vídeo]} c. `Hurricane in the ...` {regional, meteorologia, [texto,imagem]}	País='EUA', Recent_Topics=('política', 'negócios'), Mês='Outubro'	um `The president...`
Filmes	1. `Star Wars` {1977, [ação, aventura, fantasia], George Lucas} 2. `Hoop Dreams` {1994, [documentário, esportes], Steve James} 3. `Casablanca` {1942, [romance, drama, guerra], Michael Curtiz}	Device='smart TV', Screen_Size='grande', Favorite_Genre='clássicos'	3. `Casablanca`
Produtos de E-commerce	i. `Product A` {3 kg, $$$$, entregar em 1 dia} ii. `Product B` {20 kg, $$, entregar em 7 dias} iii. `Product C` {3 kg, $$$, entregar em 2 dias}	Device='iPhone', Spending_Tier='baixo', Mês='Junho'	ii. `Product B`

Requisitos do cenário

Use o Personalizador quando o seu cenário tiver:

Um conjunto limitado de ações ou itens para selecionar em cada evento de personalização. Recomendamos não mais do que ~50 ações em cada chamada de API de classificação. Se você tiver um conjunto maior de ações possíveis, sugerimos usar um mecanismo de recomendação ou outro mecanismo para reduzir a lista de ações antes de chamar a API de classificação.
Informações que descrevem as ações (características da ação).
Informações que descrevem o contexto atual (características contextuais).
Volume de dados suficiente para permitir que o Personalizer aprenda. Em geral, recomendamos um mínimo de ~1.000 eventos por dia para permitir que o Personalizador aprenda de forma eficaz. Se o Personalizador não receber dados suficientes, o serviço levará mais tempo para determinar as melhores ações.

Utilização responsável da IA

Na Microsoft, estamos comprometidos com o avanço da IA impulsionada por princípios que colocam as pessoas em primeiro lugar. Modelos de IA como os disponíveis no serviço Personalizer têm benefícios potenciais significativos, mas sem um design cuidadoso e mitigações cuidadosas, esses modelos têm o potencial de gerar conteúdo incorreto ou até mesmo prejudicial. A Microsoft fez investimentos significativos para ajudar a proteger contra abusos e danos não intencionais, incorporando os princípios da Microsoft para o uso responsável de IA, criando filtros de conteúdo para dar suporte aos clientes e fornecendo orientação responsável de implementação de IA para clientes integrados. Consulte os documentos de IA responsável para o Personalizador.

Integrar o Personalizer em um aplicativo

Conceber e planear as ações e o contexto. Determine como interpretar o feedback como uma pontuação de recompensa .

Cada Recurso Personalizador que você cria é definido como um Ciclo de Aprendizagem. O loop receberá as chamadas de Rank e Reward para esse conteúdo ou experiência do usuário e treinará um modelo RL subjacente. Existem

Tipo de recurso	Objetivo
Modo Aprendiz - `E0`	Treine o Personalizer para imitar sua lógica de tomada de decisão atual sem afetar seu aplicativo existente, antes de usar o modo Online para aprender melhores políticas em um ambiente de produção.
Modo online - Padrão, `S0`	O Personalizer usa RL para determinar as melhores ações na produção.
Modo Online - Gratuito, `F0`	Experimente o Personalizer em um ambiente de não produção limitado.

Adicione o Personalizer ao seu aplicativo, site ou sistema:

Adicione uma chamada de classificação ao Personalizador em seu aplicativo, site ou sistema para determinar a melhor ação.
Use a melhor ação, conforme especificado como um ID de ação de recompensa em seu cenário.

Aplique a lógica de negócios ao comportamento do usuário ou aos dados de feedback para determinar a pontuação de recompensa . Por exemplo:

Comportamento	Pontuação de recompensa calculada
O usuário selecionou uma notícia sugerida pelo Personalizer	1
O usuário selecionou uma notícia não sugerida pelo Personalizer	0
O usuário hesitou em selecionar uma notícia, rolou indecisamente e, finalmente, selecionou a notícia sugerida pelo Personalizer	0.5

Adicionar uma chamada de recompensa enviando uma pontuação de recompensa entre 0 e 1
- Imediatamente após o feedback ser recebido.
- Ou algum tempo depois, em cenários onde o feedback atrasado é esperado.
Avalie o seu ciclo com uma avaliação offline após um período de tempo em que o Personalizer recebeu dados significativos para tomar decisões online. Uma avaliação offline permite testar e avaliar a eficácia do Serviço Personalizador sem alterações de código ou impacto no usuário.

Próximos passos

Guia de início rápido do personalizador