Avaliar Recomendador

Avalia a precisão das previsões do modelo recomendador

Categoria: Machine Learning / Avaliar

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo De Avaliação DeResímos no Azure Machine Learning Studio (clássico), para medir a precisão das previsões feitas por um modelo de recomendação. Utilizando este módulo, pode evalir quatro tipos diferentes de recomendações:

  • Classificações previstas para um determinado utilizador e item

  • Itens recomendados para um determinado utilizador

  • Uma lista de utilizadores encontradas relacionadas com um determinado utilizador

  • Uma lista de itens encontrados relacionados com um determinado item

Quando cria previsões usando um modelo de recomendação, os resultados ligeiramente diferentes são devolvidos para cada um destes tipos de previsão suportados. O módulo Deresendador de Avaliação deduz o tipo de previsão do formato de coluna do conjunto de dados pontuado. Por exemplo, o conjunto de dados marcado pode conter:

  • utilizadores-item-classificação triplos
  • utilizadores e seus itens recomendados
  • utilizadores e seus utilizadores relacionados
  • itens e seus itens relacionados

O módulo também aplica as métricas de desempenho apropriadas, com base no tipo de previsão que está sendo feita.

Dica

Saiba tudo o que precisa de saber sobre a experiência de ponta a ponta de construir um sistema de recomendação neste tutorial da equipa de desenvolvimento .NET. Inclui o código de amostra e a discussão de como chamar Azure Machine Learning a partir de uma aplicação.

Motor de recomendação de construção para aplicações .NET usando Azure Machine Learning

Como configurar avaliar o Recomendador

O módulo Avaliador Recomendador compara a saída das previsões por um modelo de recomendação com os dados correspondentes da "verdade do solo". Por exemplo, o módulo 'Recomendador' Score Matchbox produz conjuntos de dados pontuados que podem ser analisados com o Avaliador.

Requisitos

Avaliar o Recomendador requer os seguintes conjuntos de dados como entrada.

Conjunto de dados de teste

O conjunto de dados de teste contém os dados da "verdade do solo" sob a forma de triplos de classificação de artigos de utilizador.

Se já tiver um conjunto de dados que contenha triplos de classificação de produto do utilizador, pode aplicar o módulo De Dados Divididos, utilizando a opção RecomendadoraSplit, para criar um conjunto de dados de formação e um conjunto de testes relacionados a partir do conjunto de dados existente.

Conjunto de dados pontuado

O conjunto de dados pontuado contém as previsões que foram geradas pelo modelo de recomendação.

As colunas deste segundo conjunto de dados dependem do tipo de previsão que estava a fazer durante a pontuação. Por exemplo, o conjunto de dados marcado pode conter qualquer um dos seguintes:

  • Utilizadores, itens e classificações que o utilizador provavelmente daria para o item
  • Uma lista de utilizadores e itens recomendados para eles
  • Uma lista de utilizadores, com utilizadores que provavelmente são semelhantes a eles
  • Uma lista de itens, juntamente com itens smiliar

Métricas

As métricas de desempenho do modelo são geradas com base no tipo de entrada. Para mais detalhes, consulte estas secções:

Avaliar as classificações previstas

Ao avaliar as classificações previstas, o conjunto de dados pontuado (a segunda entrada para avaliar o Recomendador) deve conter triplos de classificação de produto do utilizador, cumprindo estes requisitos:

  • A primeira coluna do conjunto de dados contém identificadores de utilizador.

  • A segunda coluna contém os identificadores de item.

  • A terceira coluna contém as classificações correspondentes de artigos de utilizador.

Importante

Para que a avaliação tenha sucesso, os nomes das colunas devem ser User Item , Rating e, respectivamente.

Avaliar o Recomendador compara as classificações no conjunto de dados da verdade no solo com as classificações previstas do conjunto de dados pontuados, e calcula o erro absoluto médio (MAE) e o erro quadrado médio de raiz (RMSE).

Os outros parâmetros do Avaliador não têm qualquer efeito na avaliação das previsões de classificação.

Avaliar recomendações de artigos

Ao avaliar a recomendação do artigo, utilize um conjunto de dados pontuado que inclua os itens recomendados para cada utilizador:

  • A primeira coluna do conjunto de dados deve conter o identificador do utilizador.

  • Todas as colunas subsequentes devem conter os correspondentes identificadores de artigo recomendado, encomendados pela relevância de um artigo para o utilizador.

    Antes de ligar este conjunto de dados, recomendamos que serdene o conjunto de dados de modo a que os itens mais relevantes venham em primeiro lugar.

Os outros parâmetros do Avaliador não têm qualquer efeito na avaliação das recomendações do artigo.

Importante

Para avaliar o Recomendador a funcionar, os nomes das colunas devem ser User , , e assim por Item 1 Item 2 Item 3 diante.

Avaliar o Recomendador calcula o ganho acumulado médio normalizado (NDCG) e devolve-o no conjunto de dados de saída.

Uma vez que é impossível saber a verdadeira "verdade básica" para os itens recomendados, o Assess Recommender utiliza as classificações de produto do utilizador no conjunto de dados de teste como ganhos no cálculo do NDCG. Para avaliar, o módulo de pontuação recomendador só deve produzir recomendações para itens com classificações de verdade no solo (no conjunto de dados de teste).

Ao avaliar as previsões dos utilizadores relacionados, utilize um conjunto de dados pontuado que contenha os utilizadores relacionados para cada utilizador de interesse:

  • A primeira coluna deve conter os identificadores para cada utilizador de interesse.

  • Todas as colunas subsequentes contêm os identificadores para os utilizadores relacionados previstos. Os utilizadores relacionados são encomendados pela força da realização (a maioria dos utilizadores relacionados em primeiro lugar).

  • Para avaliar o Recomendador a funcionar, os nomes das colunas devem ser User , , e assim por Related User 1 Related User 2 Related User 3 diante.

Dica

Pode influenciar a avaliação definindo o número mínimo de itens que um utilizador de interesse e seus utilizadores relacionados devem ter em comum.

A Assess Recommender calcula o ganho acumulado normalizado normalizado (NDCG), com base em Manhattan (L1 Sim NDCG) e Euclidean (L2 Sim NDCG) distâncias, e devolve ambos os valores no conjunto de dados de saída. Como não existe uma verdade básica para os utilizadores relacionados, o Assess Recommender utiliza o seguinte procedimento para calcular os NDCGs médios.

Para cada utilizador de interesse no conjunto de dados pontuado:

  1. Encontre todos os itens no conjunto de dados de teste que tenham sido avaliados tanto pelo utilizador de interesse como pelo utilizador relacionado em consideração.

  2. Crie dois vetores a partir das classificações destes itens: um para o utilizador de interesse, e outro para o utilizador relacionado em consideração.

  3. Calcular o ganho como a semelhança dos dois vetores de classificação resultantes, em termos da sua distância de Manhattan (L1) ou Euclidean (L2).

  4. Computação do L1 Sim NDCG e do L2 Sim NDCG, utilizando os ganhos de todos os utilizadores relacionados.

  5. Os valores médios do NDCG sobre todos os utilizadores no conjunto de dados pontuados.

Por outras palavras, o ganho é calculado como a semelhança (distâncias normalizadas de Manhattan ou euclidiana) entre um utilizador de interesse (a entrada na primeira coluna de conjunto de dados pontuado) e um dado utilizador relacionado (a entrada na coluna n-th do conjunto de dados pontuado). O ganho deste par de utilizadores é calculado utilizando todos os itens para os quais ambos os itens foram classificados nos dados originais (conjunto de testes). O NDCG é então calculado agregando os ganhos individuais para um único utilizador de interesse e todos os utilizadores relacionados, utilizando descontos logarítmicos. Ou seja, um valor NDCG é calculado para cada utilizador de interesse (cada linha no conjunto de dados pontuado). O número que é finalmente reportado é a média aritmética sobre todos os utilizadores de interesse no conjunto de dados pontuado (ou seja, as suas linhas).

Assim, para avaliar, o módulo de pontuação recomendador deve apenas prever utilizadores relacionados que tenham itens com classificações de verdade no solo (no conjunto de dados de teste).

Ao avaliar a previsão de itens relacionados, utilize um conjunto de dados pontuado que contenha os itens relacionados para cada item de interesse:

  • A primeira coluna deve conter identificadores para os elementos de interesse.

  • Todas as colunas subsequentes devem conter identificadores para os itens relacionados previstos, ordenados pela sua relação com o item de interesse (primeiro item mais relacionado).

  • Para avaliar o Recomendador a funcionar, os nomes das colunas devem ser Item , , e assim por Related Item 1 Related Item 2 Related Item 3 diante.

Dica

Pode influenciar a avaliação definindo o número mínimo de utilizadores que um item de interesse e seus itens relacionados devem ter em comum.

A Assess Recommender calcula o ganho acumulado normalizado normalizado (NDCG) com base em Manhattan (L1 Sim NDCG) e Euclidean (L2 Sim NDCG) distâncias e devolve ambos os valores no conjunto de dados de saída. Como não existe uma verdade básica para os itens relacionados, avaliar o Recomendador calcula os NDCGs médios da seguinte forma:

Para cada item de interesse no conjunto de dados pontuado:

  1. Encontre todos os utilizadores no conjunto de dados de teste que avaliaram tanto o item de interesse como o item relacionado em consideração.

  2. Crie dois vetores a partir das classificações destes utilizadores, um para o item de interesse e para o item relacionado em consideração.

  3. Calcular o ganho como a semelhança dos dois vetores de classificação resultantes em termos da sua distância de Manhattan (L1) ou Euclidean (L2).

  4. Computação do L1 Sim NDCG e do L2 Sim NDCG utilizando os ganhos de todos os itens relacionados.

  5. Os valores médios do NDCG sobre todos os itens de interesse no conjunto de dados pontuados.

Por outras palavras, o ganho é calculado como a semelhança (distâncias normalizadas de Manhattan ou euclidiana) entre um item de interesse (a entrada na primeira coluna de conjunto de dados pontuado) e um determinado item relacionado (a entrada na coluna n-th do conjunto de dados pontuado). O ganho deste par de artigos é calculado utilizando todos os utilizadores que avaliaram ambos estes itens nos dados originais (conjunto de teste). O NDCG é então calculado agregando os ganhos individuais para um único item de interesse e todos os seus itens relacionados, utilizando descontos logarítmicos. Ou seja, um valor NDCG é calculado para cada item de interesse (cada linha no conjunto de dados pontuado). O número que é finalmente reportado é a média aritmética sobre todos os itens de interesse no conjunto de dados pontuado (ou seja, as suas linhas).

Por isso, para avaliar, o módulo de pontuação do recomendador só deve prever itens relacionados com classificações de verdade terrestre (no conjunto de dados de teste).

Exemplos

Por exemplo, como os modelos de recomendação são usados em Azure Machine Learning, consulte a Galeria Azure AI:

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados de teste Tabela de Dados Conjunto de dados de teste
Conjunto de dados pontuado Tabela de Dados Conjunto de dados pontuado

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Número mínimo de itens que o utilizador de consulta e o utilizador relacionado devem ter avaliado em comum >=1 Número inteiro 2 Especificar o número mínimo de itens que devem ter sido avaliados tanto pelo utilizador de consulta como pelo utilizador relacionado

Este parâmetro é opcional
Número mínimo de utilizadores que o item de consulta e o item relacionado devem ter sido avaliados em comum >=1 Número inteiro 2 Especificar o número mínimo de utilizadores que devem ter avaliado tanto o item de consulta como o item relacionado

Este parâmetro é opcional

Saídas

Nome Tipo Descrição
Métrica Tabela de Dados Uma tabela de métricas de avaliação

Exceções

Exceção Descrição
Erro 0022 A exceção ocorre se o número de colunas selecionadas no conjunto de dados de entrada não for igual ao número esperado.
Erro 0003 A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0017 A exceção ocorre se uma ou mais colunas especificadas tiverem o tipo não suportado pelo módulo atual.
Erro 0034 A exceção ocorre se existir mais de uma classificação para um determinado par de artigos de utilizador.
Erro 0018 A exceção ocorre se o conjunto de dados de entrada não for válido.
Erro 0002 A exceção ocorre se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo de método-alvo.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Recomendador da caixa de fósforos do comboio
Pontuar Matchbox Recomendador