Seleção de recursos baseada em filtro

Este artigo descreve como usar o módulo Seleção de recursos baseada em filtro no designer do Azure Machine Learning. Este módulo ajuda você a identificar as colunas em seu conjuntos de dados de entrada que têm a maior potência preditiva.

Em geral, a seleção de recursos se refere ao processo de aplicação de testes estatísticos às entradas, dada uma saída especificada. O objetivo é determinar quais colunas são mais previsíveis na saída. O módulo Seleção de recursos baseada em filtro fornece diversos algoritmos de seleção de recursos para escolher. O módulo inclui métodos de correlação, como os valores de correlação Pearson e qui-quadrado.

Ao usar o módulo Seleção de recursos baseada em filtro, você fornece um conjunto de dados e identifica a coluna que contém o rótulo ou a variável dependente. Em seguida, especifique um único método a ser usado para medir a importância do recurso.

O módulo produz um conjunto de dados que contém as melhores colunas de recursos, conforme classificado pelo poder preditivo. Ele também gera os nomes dos recursos e suas pontuações a partir da métrica selecionada.

O que é a Seleção de recursos baseada em filtro

Este módulo para seleção de recursos é chamado de "baseado em filtro" porque a métrica selecionada é usada para encontrar atributos irrelevantes. Em seguida, filtre as colunas redundantes do modelo. Você escolhe uma medida estatística única que atenda aos seus dados e o módulo calcula uma pontuação para cada coluna de recurso. As colunas são retornadas com a classificação feita por suas pontuações de recursos.

Escolhendo os recursos corretos, você melhorará muito a precisão e a eficiência da classificação.

Normalmente, você usa somente as colunas com as melhores pontuações para criar seu modelo de previsão. Colunas com pontuações de seleção de recursos insuficientes podem ser deixadas no conjunto de dados e ignoradas quando você constrói um modelo.

Como escolher uma métrica de seleção de recursos

A Seleção de recursos baseada em filtro fornece uma variedade de métricas para avaliar o valor das informações em cada coluna. Esta seção fornece uma descrição geral de cada métrica e como ela é aplicada. É possível encontrar requisitos adicionais para usar cada métrica nas notas técnicas e nas instruções para configurar cada módulo.

  • Correlação de Pearson

    A estatística de correlação de Pearson ou o coeficiente de correlação de Pearson também é conhecido em modelos estatísticos como o valor r. Para duas variáveis quaisquer, ele retorna um valor que indica a intensidade da correlação.

    O coeficiente de correlação de Pearson é calculado usando a covariância de duas variáveis e dividindo-se pelo produto de seus desvios padrão. As alterações de escala nas duas variáveis não afetam o coeficiente.

  • Qui-quadrado

    O teste qui-quadrado bidirecional é um método estatístico que mede o quão distante os valores esperados estão dos resultados reais. O método pressupõe que variáveis são aleatórias e desenha a partir de um exemplo adequado das variáveis independentes. A estatística qui-quadrada resultante indica o quão longe os resultados estão do resultado esperado (aleatório).

Dica

Se você precisar de uma opção diferente para o método personalizado de seleção de recurso, use o módulo Executar script R.

Como configurar a Seleção de recursos baseada em filtro

Você escolhe uma métrica estatística padrão. O módulo calcula a correlação entre um par de colunas: a coluna de rótulo e uma coluna de recurso.

  1. Adicione o módulo Seleção de recursos baseada em filtro ao seu pipeline. É possível encontrá-lo na categoria Seleção de recursos no designer.

  2. Conecte um conjunto de dados de entrada que contenha pelo menos duas colunas que consistam em recursos potenciais.

    Para garantir que uma coluna seja analisada e uma pontuação de recurso seja gerada, use o módulo Editar metadados para definir o atributo IsFeature.

    Importante

    Verifique se as colunas que você está fornecendo como entrada são recursos potenciais. Por exemplo, uma coluna que contém um único valor não tem nenhum valor de informação.

    Caso algumas colunas gerem recursos inválidos, é possível removê-las da seleção de coluna. Também é possível usar o módulo Editar metadados para sinalizá-las como Categóricas.

  3. Para o Método de pontuação de recurso, escolha um dos métodos estatísticos estabelecidos a seguir para usar no cálculo de pontuações.

    Método Requisitos
    Correlação de Pearson O rótulo pode ser numérico ou um texto. Os recursos devem ser numéricos.
    Qui-quadrado Os rótulos e os recursos podem ser numéricos ou em texto. Use esse método para calcular a importância do recurso para duas colunas categóricas.

    Dica

    Ao alterar a métrica selecionada, todas as outras seleções são redefinidas. Portanto, certifique-se de definir essa opção primeiro.

  4. Selecione a opção Operar somente em colunas de recurso para gerar uma pontuação somente para colunas que foram marcadas anteriormente como recursos.

    Se essa opção for desmarcada, o módulo criará uma pontuação para qualquer coluna que atenda aos critérios, até o número de colunas especificado em Número de recursos desejados.

  5. Em Coluna de destino, selecione Iniciar seletor de coluna para escolher a coluna de rótulo por nome ou índice. (Os índices são baseados em um.)
    Uma coluna de rótulo é necessária para todos os métodos que envolvem a correlação estatística. O módulo retornará um erro de tempo de design se você não escolher nenhuma coluna de rótulo ou diversas.

  6. Para Número de recursos desejados, insira o número de colunas de recurso que você deseja retornar como resultado:

    • O número mínimo de recursos que você pode especificar é 1, mas é recomendável aumentar esse valor.

    • Se o número de recursos desejados especificado for maior que o número de colunas no conjunto de dados, todos os recursos serão retornados. Até mesmo recursos com sem pontuações são retornados.

    • Se você especificar menos colunas de resultado do que colunas de recurso, os recursos serão classificados por pontuação decrescente. Somente os principais recursos são retornados.

  7. Envie o pipeline.

Importante

Para usar a Seleção de recurso baseada em filtro na inferência, use Selecionar transformação de colunas para armazenar o resultado selecionado do recurso e Aplicar transformação para aplicar a transformação selecionada do recurso ao conjunto de dados de pontuação.

Consulte a captura de tela a seguir para criar seu pipeline, a fim de garantir que as seleções de coluna sejam as mesmas para o processo de pontuação.

Amostra do pipeline

Resultados

Depois da conclusão do processamento:

  • Para ver uma lista completa das colunas de recursos analisadas e suas pontuações, clique com o botão direito no módulo e selecione Visualizar.

  • Para exibir o conjuntos de dados com base em seus critérios de seleção de recursos, clique com o botão direito no módulo e selecione Visualizar.

Se o conjuntos de dados contiver menos colunas do que o esperado, verifique as configurações do módulo. Verifique também os tipos de dados das colunas fornecidas como entrada. Por exemplo, se o Número de recursos desejados for configurado para 1, o conjunto de dados de saída conterá apenas duas colunas: a coluna de rótulo e a coluna de recurso com classificação mais alta.

Observações técnicas

Detalhes de implementação

Para usar a correlação de Pearson em um recurso numérico e um rótulo categórico, a pontuação do recurso é calculada da seguinte maneira:

  1. Para cada nível na coluna categórica, calcule a média condicional da coluna numérica.

  2. Correlacione a coluna de meios condicionais com a coluna numérica.

Requisitos

  • Uma pontuação de seleção de recurso não pode ser gerada para qualquer coluna designada como um Rótulo ou uma Pontuação.

  • Se você tentar usar um método de pontuação com uma coluna de um tipo de dados ao qual o método não dá suporte, o módulo gerará um erro. Também é possível que uma pontuação zero seja atribuída à coluna.

  • Se uma coluna contiver valores lógicos (verdadeiro/falso), eles serão processados como True = 1 e False = 0.

  • Uma coluna não poderá ser um recurso se ela tiver sido designada como um Rótulo ou uma Pontuação.

Como os valores ausentes são tratados

  • Não é possível especificar como coluna de destino (rótulo) qualquer coluna que tenha todos os valores ausentes.

  • Se uma coluna contiver valores ausentes, o módulo os ignorará quando estiver calculando a pontuação da coluna.

  • Se uma coluna designada como de recursos tiver todos os valores ausentes, uma classificação de zero será atribuída.

Próximas etapas

Confira o conjunto de módulos disponíveis no Azure Machine Learning.