Seleção de recursos baseada em filtro

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Identifica os recursos em um conjunto de dados com o maior poder de previsão

Categoria: Módulos de Seleção de Recursos

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Seleção de Recursos Baseado em Filtro no Machine Learning Studio (clássico) para identificar as colunas no seu conjuntos de dados de entrada que têm a maior potência preditiva.

Em geral, a seleção de recursos refere-se ao processo de aplicação de testes estatísticos a entradas, dada uma saída especificada, para determinar quais colunas são mais preditivas da saída. O módulo Seleção de Recursos Baseados em Filtro fornece vários algoritmos de seleção de recursos para escolher, incluindo métodos de correlação, como correlação de Ou de Pearsons, pontuações de informações mútuas e valores qui-quadrados. Machine Learning também dá suporte a contagens de valor de recurso como um indicador de valor de informações.

Ao usar o módulo Seleção de Recursos Baseado em Filtro, você fornece um conjuntos de dados, identifica a coluna que contém o rótulo ou a variável dependente e, em seguida, especifica um único método a ser usado para medir a importância do recurso.

O módulo produz um conjunto de dados que contém as melhores colunas de recursos, conforme classificado pelo poder preditivo. Ele também gera os nomes dos recursos e suas pontuações a partir da métrica selecionada.

O que é a seleção de recursos baseada em filtro e por que usá-la?

Este módulo para seleção de recursos é chamado de "baseado em filtro" porque você usa a métrica selecionada para identificar atributos irrelevantes e filtrar colunas redundantes do modelo. Você escolhe uma medida estatística única que atenda aos seus dados e o módulo calcula uma pontuação para cada coluna de recurso. As colunas são retornadas com a classificação feita por suas pontuações de recursos.

Escolhendo os recursos corretos, você melhorará muito a precisão e a eficiência da classificação.

Normalmente, você usa somente as colunas com as melhores pontuações para criar seu modelo de previsão. Colunas com pontuações de seleção de recursos insuficientes podem ser deixadas no conjunto de dados e ignoradas quando você constrói um modelo.

Como escolher uma métrica de seleção de recursos

A Seleção de Recursos Baseados em Filtro fornece uma variedade de métricas para avaliar o valor das informações em cada coluna. Esta seção fornece uma descrição geral de cada métrica e como ela é aplicada. Requisitos adicionais para usar cada métrica são declarados na seção Notas Técnicas e nas instruções para configurar cada módulo.

Correlação de Pearson

A estatística de correlação de Pearson ou o coeficiente de correlação de Pearson também é conhecido em modelos estatísticos como o valor r. Para duas variáveis, ela retorna um valor que indica a força da correlação

O coeficiente de correlação de Pearson é calculado usando a covariância de duas variáveis e dividindo-se pelo produto de seus desvios padrão. O coeficiente não é afetado por alterações de escala nas duas variáveis.
Informações mútuas

A pontuação de informações mútuas mede a contribuição de uma variável para reduzir a incerteza sobre o valor de outra variável: ou seja, o rótulo. Muitas variações da classificação de informações mútuas têm sido planejadas para atender a diferentes distribuições.

A classificação de informações mútuas é particularmente útil na seleção de recursos porque maximiza as informações mútuas entre a união de variáveis de destino e de distribuição em conjuntos de dados com várias dimensões.
Correlação Kendall

Correlação de classificação de Kendall é uma das várias estatísticas que medem a relação entre classificações de diferentes variáveis ordinais ou classificações diferentes da mesma variável. Em outras palavras, ela mede a semelhança de ordenações quando classificadas pelas quantidades. Esse coeficiente e o coeficiente de correlação de Spearman são projetados para uso com dados não paramétricos e não distribuídos normalmente.
Correlação Spearman

O coeficiente de Spearman é uma medida não paramétrica de dependência estatística entre as duas variáveis e, às vezes, é indicado pela letra grega rho. O coeficiente de Spearman expressa o grau ao qual as duas variáveis estão relacionadas de forma monotônica. Ele é chamado também de correlação de classificação Spearman, pois pode ser usado com variáveis ordinais.
Chi Squared

O teste qui-quadrado bidirecional é um método estatístico que mede o quão distante os valores esperados estão dos resultados reais. O método pressupõe que variáveis são aleatórias e desenha a partir de um exemplo adequado das variáveis independentes. A estatística qui-quadrada resultante indica o quão longe os resultados estão do resultado esperado (aleatório).
Classificação Fisher

A classificação Fisher (também chamada de método Fisher ou classificação de probabilidade combinada com Fisher) às vezes é chamada de classificação de informações, pois ela representa a quantidade de informações que uma variável fornece sobre algum parâmetro desconhecido dos quais ela depende.

A classificação é calculada medindo-se o desvio entre o valor esperado das informações e o valor observado. Quando o desvio for minimizado, as informações são maximizadas. Como a expectativa da classificação é zero, as informações de Fisher também são o desvio da classificação.
Baseado na contagem

Seleção de recursos com base na contagem é uma maneira relativamente eficaz embora simples de localizar informações sobre previsões. A ideia básica subjacente de recursos baseados em contagem é simples: calculando contagens de valores individuais em uma coluna, você pode ter uma ideia da distribuição e do peso dos valores e, com isso, entender quais colunas contêm as informações mais importantes.

A seleção de recursos baseada em contagem é um método não supervisionado de seleção de recursos, o que significa que você não precisa de uma coluna de rótulo. Esse método também reduz a dimensionalidade dos dados sem perder informações.

Para obter mais informações sobre como os recursos baseados em contagem são criados e por que eles são úteis no aprendizado de máquina, consulte Learning com contagens.

Dica

Se você precisar de uma opção diferente para o método de seleção de recursos personalizado, use o módulo Executar Script R .

Como configurar a Seleção de recursos baseada em filtro

Este módulo fornece dois métodos para determinar pontuações de recursos:

Gerar pontuações de recursos usando uma métrica estatística tradicional

Você escolhe uma métrica estatística padrão e o módulo calcula a correlação entre um par de colunas, a coluna de rótulo e uma coluna de recurso
Usar seleção de recursos baseada em contagem

Com o método baseado em contagem, o módulo calcula uma pontuação com base apenas nos valores na coluna.

Gerar pontuações de recursos usando uma métrica estatística tradicional

Adicione o módulo Seleção de Recursos Baseado em Filtro ao seu experimento. Você pode encontrá-lo na categoria Seleção de Recursos no Studio (clássico).
Conecte um conjunto de dados de entrada que contenha pelo menos duas colunas que consistam em recursos potenciais.

Para garantir que uma coluna deve ser analisada e uma pontuação de recurso gerada, use o módulo Editar Metadados para definir o atributo IsFeature .

Importante

Verifique se as colunas que você está fornecendo como entrada são recursos potenciais. Por exemplo, uma coluna que contém um único valor não tem nenhum valor de informação.

Se você sabe que há colunas que seriam recursos ruins, você pode removê-las da seleção de coluna. Você também pode usar o módulo Editar Metadados para sinaltá-los como Categóricos.

Para o Método de pontuação de recurso, escolha um dos métodos estatísticos estabelecidos a seguir para usar no cálculo de pontuações.

Método	Requisitos
Correlação de Pearson	O rótulo pode ser numérico ou um texto. Os recursos devem ser numéricos.
Informações mútuas	Os rótulos e os recursos podem ser numéricos ou em texto. Use esse método para calcular a importância do recurso para duas colunas categóricas.
Correlação Kendall	O rótulo pode ser texto ou numérico, mas os recursos devem ser numéricos.
Correlação Spearman	O rótulo pode ser texto ou numérico, mas os recursos devem ser numéricos.
Qui-quadrada	Os rótulos e os recursos podem ser numéricos ou em texto. Use esse método para calcular a importância do recurso para duas colunas categóricas.
Classificação Fisher	O rótulo pode ser texto ou numérico, mas os recursos devem ser numéricos.
Counts	Consulte: Para usar a seleção Count-Based recurso

Dica

Se você alterar a métrica selecionada, todas as outras seleções serão redefinidas, portanto, certifique-se de definir essa opção primeiro!)

Selecione a opção Operar somente em colunas de recurso para gerar uma pontuação somente para as colunas que foram marcadas anteriormente como recursos.

Se você desmarcar essa opção, o módulo criará uma pontuação para qualquer coluna que atenda aos critérios, até o número de colunas especificado em Número de recursos desejados.
Para Coluna de destino, clique em Iniciar seletor de coluna para escolher a coluna de rótulo por nome ou por seu índice (os índices são baseados em um).

Uma coluna de rótulo é necessária para todos os métodos que envolvem a correlação estatística. O módulo retornará um erro de tempo de design se você não escolher nenhuma coluna de rótulo ou diversas.
Em Número de recursos desejados, digite o número de colunas de recurso que você deseja retornar como resultado.
- O número mínimo de recursos que você pode especificar é 1, mas é recomendável que você aumente esse valor.
- Se o número especificado de recursos desejados for maior que o número de colunas no conjuntos de dados, todos os recursos serão retornados, mesmo aqueles com zero pontuações.
- Se você especificar menos colunas de resultado do que as colunas de recurso, os recursos serão classificados por pontuação decrescente e somente os principais recursos serão retornados.
Execute o experimento ou selecione o módulo Seleção de Recursos Baseado em Filtro e clique em Executar selecionado.

Resultados da seleção de recursos

Depois da conclusão do processamento:

Para ver uma lista completa das colunas de recursos que foram analisadas e suas pontuações, clique com o botão direito do mouse no módulo, selecione Recursos e clique em Visualizar.
Para exibir o conjuntos de dados gerado com base em seus critérios de seleção de recursos, clique com o botão direito do mouse no módulo, selecione Conjuntos de dados e clique em Visualizar.

Se o conjuntos de dados contiver menos colunas do que o esperado, verifique as configurações do módulo e os tipos de dados das colunas fornecidas como entrada. Por exemplo, se o Número de recursos desejados for configurado para 1, o conjunto de dados de saída conterá apenas duas colunas: a coluna de rótulo e a coluna de recurso com classificação mais alta.

Usar seleção de recursos baseada em contagem

Adicione o módulo Seleção de Recursos Baseado em Filtro ao seu experimento. Você pode encontrá-lo na lista de módulos no Studio (clássico), no grupo Seleção de Recursos.
Conexão um conjuntos de dados de entrada que contém pelo menos duas colunas que são recursos possíveis.
Selecione Contagem Com base na lista de métodos estatísticos na lista suspenso Método de pontuação de recursos.
Para Número mínimo de elementos diferentes de zero, indique o número mínimo de colunas de recurso a incluir na saída.

Por padrão, o módulo saída todas as colunas que atendem aos requisitos. O módulo não pode sair de nenhuma coluna que obtém uma pontuação de zero.
Execute o experimento ou selecione apenas o módulo e clique em Executar Selecionado.

Resultados da seleção de recursos baseada em contagem

Para ver a lista de colunas de recursos com suas pontuações, clique com o botão direito do mouse no módulo, selecione Recursos e clique em Visualizar .
Para ver o conjuntos de dados que contém as colunas analisadas, clique com o botão direito do mouse no módulo, selecione Dataset e clique em Visualizar.

Ao contrário de outros métodos, o método de seleção de recursos Baseado em Contagem não classifica as variáveis por pontuações mais altas, mas retorna todas as variáveis com uma pontuação diferente de zero, em sua ordem original.

Os recursos de cadeia de caracteres sempre têm uma pontuação de zero (0) e, portanto, não são saídas.

Exemplos

Você pode ver exemplos de como a seleção de recursos é usada no Galeria de IA do Azure:

Classificação de texto; Na terceira etapa deste exemplo, a Seleção de Recursos Baseada em Filtro é usada para identificar os 15 melhores recursos. O hash de recursos é usado para converter os documentos de texto em vetores numéricos. A correlação de Pearson é usada nos recursos de vetor.
Seleção de recursos de machine learning e engenharia de recursos: este artigo fornece uma introdução à seleção de recursos e à engenharia de recursos no aprendizado de máquina.

Para ver exemplos de pontuações de recursos, consulte Tabela de pontuações comparadas.

Observações técnicas

Você pode encontrar este módulo em Transformação de Dados, na categoria Filtros .

Detalhes de implementação

Se você usar Correlação de Pearson, Correlação de Pearson ou Correlação de Spearman em um recurso numérico e um rótulo categórico, a pontuação do recurso será calculada da seguinte forma:

Para cada nível na coluna categórica, calcule a média condicional da coluna numérica.
Correlacione a coluna de meios condicionais com a coluna numérica.

Requisitos

Uma pontuação de seleção de recursos não pode ser gerada para nenhuma coluna designada como um rótulo ou como uma coluna de pontuação.
Se tentar usar um método de classificação com uma coluna de um tipo de dados sem suporte pelo método, o módulo irá gerar um erro ou uma classificação de zero será atribuída à coluna.
Se uma coluna contiver valores lógicos (true/false), eles serão processados como True = 1 e False = 0.
Uma coluna não pode ser um recurso se ela tiver sido designada como um Rótulo ou uma Pontuação.

Como os valores ausentes são tratados

Não é possível especificar como uma coluna de destino (rótulo) qualquer coluna que tenha todos os valores ausentes.
Se uma coluna contiver valores ausentes, eles serão ignorados ao calcular a classificação da coluna.
Se uma coluna designada como uma coluna de recursos tiver todos os valores ausentes, uma classificação de zero será atribuída.

Tabela de pontuações comparadas

Para dar uma ideia de como as pontuações são comparadas ao usar métricas diferentes, a tabela a seguir apresenta algumas pontuações de seleção de recursos de vários recursos no conjuntos de dados de preços de automóveis, considerando a variável dependente highway-mpg.

Coluna de recurso	Pontuação de Pearson	Pontuação de contagem	Pontuação de Placar	Informações mútuas
highway-mpg	1	205	1	1
mpg na cidade	0.971337	205	0.892472	0.640386
peso de meio-fio	0.797465	171	0.673447	0.326247
horsepower	0.770908	203	0.728289	0.448222
price	0.704692	201	0.651805	0.321788
comprimento	0.704662205	205	0.53193	0.281317
engine-size	0.67747	205	0.581816	0.342399
width	0.677218	205	0.525585	0.285006
diâmetro	0.594572	201	0.467345	0.263846
wheel-base	0.544082	205	0.407696	0.250641
taxa de compactação	0.265201	205	0.337031	0.288459
fuel-system	na	na	na	0.308135
Make	na	na	na	0.213872
drive-wheels	na	na	na	0.213171
altura	na	na	na	0.1924
normalized-losses	na	na	na	0.181734
simbologia	na	na	na	0.159521
num-of-cilindros	na	na	na	0.154731
tipo de mecanismo	na	na	na	0.135641
Aspiração	na	na	na	0.068217
body-style	na	na	na	0.06369
tipo de combustível	na	na	na	0.049971
num-of-doors	na	na	na	0.017459
engine-location	na	na	na	0.010166

As pontuações de informações mútuas podem ser criadas para todos os tipos de coluna, incluindo cadeias de caracteres.
As outras pontuações incluídas nesta tabela, como a correlação de Pearson ou a seleção de recursos baseadas em contagem, exigem valores numéricos. Os recursos de cadeia de caracteres têm uma pontuação de 0 e, portanto, não estão incluídos na saída. Para exceções, consulte a seção Notas técnicas.
O método baseado em contagem não trata uma coluna de rótulo de forma diferente das colunas de recurso.

Entradas esperadas

Nome	Tipo	Descrição
Dataset	Tabela de Dados	Conjunto de dados de entrada

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Método de classificação de recursos	Lista	Método de pontuação		Escolha o método a ser usado para classificação
Operar somente em colunas de recursos	Qualquer	Boolean	true	Indique se deseja usar apenas as colunas de recursos no processo de classificação
Coluna de destino	Qualquer	ColumnSelection	Nenhum	Especificar a coluna de destino
Número de recursos desejados	>=1	Integer	1	Especifique o número de recursos na saída dos resultados
Número mínimo de elementos diferentes de zero	>=1	Integer	1	Especifique o número de recursos para a saída (para o método CountBased)

Saídas

Nome	Tipo	Descrição
Conjunto de dados filtrado	Tabela de Dados	Conjunto de dados filtrado
Recursos	Tabela de Dados	Nomes de colunas de saída e classificações de seleção de recursos

Exceções

Exceção	Descrição
Erro 0001	Ocorrerá uma exceção se uma ou mais das colunas especificadas do conjunto de dados não puder ser encontrada.
Erro 0003	Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.
Erro 0004	Ocorrerá uma exceção se o parâmetro for inferior ou igual ao valor específico.
Erro 0017	Ocorrerá uma exceção se uma ou mais das colunas especificadas tiver um tipo sem suporte por módulo atual.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Seleção de recursos
Análise Discriminante Linear da Fisher
Lista de Módulo A-Z