Seleção de funcionalidades baseadas em filtro

Identifica as características num conjunto de dados com o maior poder preditivo

Categoria: Módulos de Seleção de Recursos

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo de seleção de recursos baseado em filtro no Azure Machine Learning Studio (clássico), para identificar as colunas no seu conjunto de dados de entrada que têm a maior potência preditiva.

Em geral, a seleção de recursos refere-se ao processo de aplicação de testes estatísticos às entradas, dada uma determinada saída, para determinar quais as colunas mais preditivas da saída. O módulo de seleção de recursos baseado em filtros fornece vários algoritmos de seleção de recursos para escolher, incluindo métodos de correlação como a correlação de Pearsons ou Kendall, pontuações de informação mútua e valores chi-quadrados. O Azure Machine Learning também suporta a contagem de valor de recurso como um indicador do valor da informação.

Quando utilizar o módulo de seleção de recursos baseado em filtro, fornece um conjunto de dados, identifica a coluna que contém o rótulo ou variável dependente e, em seguida, especifica um único método para usar na medição da importância da funcionalidade.

O módulo produz um conjunto de dados que contém as melhores colunas de recurso, classificadas pela potência preditiva. Também produz os nomes das funcionalidades e as suas pontuações a partir da métrica selecionada.

O que é a seleção de recursos baseada em filtros e por que usá-lo?

Este módulo para a seleção de funcionalidades chama-se "baseado em filtros" porque utiliza a métrica selecionada para identificar atributos irrelevantes e filtra colunas redundantes do seu modelo. Você escolhe uma única medida estatística que se adequa aos seus dados, e o módulo calcula uma pontuação para cada coluna de recurso. As colunas são devolvidas classificadas pelas suas pontuações de recurso.

Ao escolher as características certas, pode potencialmente melhorar a precisão e eficiência da classificação.

Normalmente, usa-se apenas as colunas com as melhores pontuações para construir o seu modelo preditivo. Colunas com pontuações de seleção de recursos deficientes podem ser deixadas no conjunto de dados e ignoradas quando se constrói um modelo.

Como escolher uma métrica de seleção de recursos

A Seleção de Recursos Baseadas em Filtros fornece uma variedade de métricas para avaliar o valor da informação em cada coluna. Esta secção fornece uma descrição geral de cada métrica, e como é aplicada. Os requisitos adicionais para a utilização de cada métrica estão indicados na secção notas técnicas e nas instruções para configurar cada módulo.

  • Correlação Pearson

    A estatística de correlação de Pearson, ou coeficiente de correlação de Pearson, também é conhecida nos modelos estatísticos como o r valor. Para qualquer duas variáveis, devolve um valor que indica a força da correlação

    O coeficiente de correlação de Pearson é calculado tomando a covariância de duas variáveis e dividindo-se pelo produto dos seus desvios padrão. O coeficiente não é afetado por alterações de escala nas duas variáveis.

  • Informação Mútua

    A pontuação da informação mútua mede o contributo de uma variável para reduzir a incerteza sobre o valor de outra variável: a saber, o rótulo. Muitas variações da pontuação da informação mútua foram concebidas de acordo com diferentes distribuições.

    A pontuação de informação mútua é particularmente útil na seleção de recursos porque maximiza a informação mútua entre a distribuição conjunta e variáveis-alvo em conjuntos de dados com muitas dimensões.

  • Correlação Kendall

    A correlação de classificação de Kendall é uma das várias estatísticas que medem a relação entre classificações de diferentes variáveis ordináeis ou diferentes rankings da mesma variável. Por outras palavras, mede a semelhança das encomendas quando classificadas pelas quantidades. Tanto este coeficiente como o coeficiente de correlação de Spearman são concebidos para utilização com dados não paramétricos e não normalmente distribuídos.

  • Correlação de Spearman

    O coeficiente de Spearman é uma medida nãoparamétrica de dependência estatística entre duas variáveis, e é por vezes denotado pela letra grega rho. O coeficiente do Spearman expressa o grau em que duas variáveis estão monotonicamente relacionadas. Também é chamada de correlação de classificação de Spearman, porque pode ser usada com variáveis ordinais.

  • Chi Quadrado

    O teste chi-quadrado de duas vias é um método estatístico que mede a proximidade dos valores esperados aos resultados reais. O método pressupõe que as variáveis são aleatórias e extraídas de uma amostra adequada de variáveis independentes. A estatística chi-quadrada resultante indica a distância dos resultados do resultado esperado (aleatório).

  • Pontuação de Pescador

    A pontuação fisher (também chamada de método Fisher, ou pontuação combinada de probabilidade de Fisher) é por vezes denominada a pontuação da informação, porque representa a quantidade de informação que uma variável fornece sobre algum parâmetro desconhecido de que depende.

    A pontuação é calculada medindo a variação entre o valor esperado da informação e o valor observado. Quando a variação é minimizada, a informação é maximizada. Como a expectativa do resultado é zero, a informação dos Fisher é também a variação da pontuação.

  • Baseado em Contagem

    A seleção de recursos baseados no conde é uma forma simples, mas relativamente poderosa, de encontrar informações sobre preditores. A ideia básica subjacente à conte-composição é simples: ao calcular as contagens de valores individuais dentro de uma coluna, pode-se ter uma ideia da distribuição e peso dos valores, e a partir daí, compreender quais as colunas que contêm a informação mais importante.

    A seleção de recursos baseada em contagem é um método não supervisionado de seleção de recursos, o que significa que você não precisa de uma coluna de etiqueta. Este método também reduz a dimensionalidade dos dados sem perder informação.

    Para obter mais informações sobre como as funcionalidades baseadas na contagem são criadas e por que são úteis na aprendizagem automática, consulte Learning with Counts.

Dica

Se precisar de uma opção diferente para o método de seleção de funcionalidades personalizadas, utilize o módulo Executar R Script.

Como configurar a seleção de recursos Filter-Based

Este módulo fornece dois métodos para determinar pontuações de funcionalidades:

Gerar pontuações de recursos usando uma métrica estatística tradicional

  1. Adicione o módulo de seleção de recursos baseado em filtro à sua experiência. Pode encontrá-lo na categoria de Seleção de Recursos em Estúdio (clássico).

  2. Conecte um conjunto de dados de entrada que contenha pelo menos duas colunas que são funcionalidades potenciais.

    Para garantir que uma coluna deve ser analisada e uma pontuação de funcionalidade gerada, utilize o módulo editar metadados para definir o atributo IsFeature.

    Importante

    Certifique-se de que as colunas que está a fornecer como entrada são características potenciais. Por exemplo, uma coluna que contenha um único valor não tem valor de informação.

    Se souber que existem colunas que fariam más características, pode removê-las da seleção da coluna. Também pode utilizar o módulo editar metadados para os sinalizar como Categorical.

  3. Para o método de pontuação de recurso, escolha um dos seguintes métodos estatísticos estabelecidos para utilizar no cálculo das pontuações.

    Método Requisitos
    Correlação Pearson A etiqueta pode ser texto ou numérico. As características devem ser numéricas.
    Informação Mútua As etiquetas e funcionalidades podem ser texto ou numérico. Utilize este método para calcular a importância do recurso para duas colunas categóricas.
    Correlação Kendall A etiqueta pode ser texto ou numérico, mas as características devem ser numéricas.
    Correlação de Spearman A etiqueta pode ser texto ou numérico, mas as características devem ser numéricas.
    Chi Quadrado As etiquetas e funcionalidades podem ser texto ou numérico. Utilize este método para calcular a importância do recurso para duas colunas categóricas.
    Pontuação de Pescador A etiqueta pode ser texto ou numérico, mas as características devem ser numéricas.
    Contagens Ver: Utilizar Count-Based Seleção de Recursos

    Dica

    Se alterar a métrica selecionada, todas as outras seleções serão reiniciadas, por isso certifique-se de definir esta opção primeiro!)

  4. Selecione a opção 'Operar' apenas para gerar uma pontuação apenas para as colunas que foram previamente marcadas como funcionalidades.

    Se desmarcar esta opção, o módulo criará uma pontuação para qualquer coluna que, de outra forma, satisfaça os critérios, até ao número de colunas especificadas no Número de características desejadas.

  5. Para a coluna Target, clique no seletor de colunas de lançamento para escolher a coluna de etiquetas pelo nome ou pelo seu índice (os índices são de uma base).

    É necessária uma coluna de etiquetas para todos os métodos que envolvam correlação estatística. O módulo devolve um erro de tempo de conceção se não escolher nenhuma coluna de etiqueta ou várias colunas de etiquetas.

  6. Para o Número de funcionalidades desejadas, digite o número de colunas de funcionalidades que pretende devolvidas como resultado.

    • O número mínimo de funcionalidades que pode especificar é 1, mas recomendamos que aumente este valor.

    • Se o número especificado de características desejadas for maior do que o número de colunas no conjunto de dados, então todas as funcionalidades são devolvidas, mesmo aquelas com pontuações zero.

    • Se especificar menos colunas de resultados do que as colunas de funcionalidades, as funcionalidades são classificadas por pontuação descendente e apenas as características superiores são devolvidas.

  7. Executar a experiência ou selecione o módulo de seleção de funcionalidades baseadas no filtro e, em seguida, clique em Executar selecionado.

Resultados da seleção de recursos

Após o processamento estar concluído:

  • Para ver uma lista completa das colunas de funcionalidades analisadas e as suas pontuações, clique com o botão direito no módulo, selecione Funcionalidadese clique em Visualizar.

  • Para ver o conjunto de dados gerado com base nos critérios de seleção de recursos, clique no módulo, selecione Datasete clique em Visualizar.

Se o conjunto de dados contiver menos colunas do que o esperado, verifique as definições do módulo e os tipos de dados das colunas fornecidas como entrada. Por exemplo, se definir Número de características desejadas para 1, o conjunto de dados de saída contém apenas duas colunas: a coluna de etiquetas e a coluna de características mais bem classificada.

Utilize a seleção de recursos baseados na contagem

  1. Adicione o módulo de seleção de recursos baseado em filtro à sua experiência. Pode encontrá-lo na lista de módulos em Studio (clássico), no grupo De seleção de recursos.

  2. Conecte um conjunto de dados de entrada que contenha pelo menos duas colunas que são possíveis.

  3. Selecione Count Com base na lista de métodos estatísticos na lista de redução do método de pontuação de recurso.

  4. Para o número mínimo de elementos não nulos, indique o número mínimo de colunas de características a incluir na saída.

    Por predefinição, o módulo produz todas as colunas que satisfaçam os requisitos. O módulo não pode desausso de qualquer coluna que obtenha uma pontuação de zero.

  5. Executar a experiência, ou selecionar apenas o módulo, e clique em Executar Selecionado.

Resultados da seleção de recursos baseados na contagem

  • Para ver a lista de colunas de funcionalidades com as suas pontuações, clique com o botão direito no módulo, selecione Funcionalidadese clique em Visualizar .
  • Para ver o conjunto de dados que contém as colunas analisadas, clique com o botão direito no módulo, selecione Datasete clique em Visualizar.

Ao contrário de outros métodos, o método de seleção de recursos Count Based não classifica as variáveis por pontuações mais altas, mas devolve todas as variáveis com uma pontuação não-zero, na sua ordem original.

As características das cordas obtêm sempre uma pontuação zero (0) e, portanto, não são saídas.

Exemplos

Pode ver exemplos de como a seleção de recursos é usada na Galeria Azure AI:

  • Classificação de Texto; No terceiro passo desta amostra, a Seleção de Recursos Baseada em Filtros é usada para identificar as 15 melhores funcionalidades. O hashing de recurso é usado para converter os documentos de texto em vetores numéricos. A correlação de Pearson é então usada nas características do vetor.

  • Machine learning feature selection and feature engineering: Este artigo fornece uma introdução à seleção de recursos e engenharia de recursos em machine learning.

Para ver exemplos de pontuações de funcionalidades, consulte tabela de pontuações em comparação.

Notas técnicas

Pode encontrar este módulo na categoria De Transformação de Dados, na categoria Filtros.

Detalhes de implementação

Se utilizar a Correlação Pearson, a Correlação Kendall ou a Correlação de Spearman numa característica numérica e num rótulo categórico, a pontuação de recurso é calculada da seguinte forma:

  1. Para cada nível na coluna categórica, calcule a média condicional da coluna numérica.

  2. Correlacionar a coluna dos meios condicional com a coluna numérica.

Requisitos

  • Uma pontuação de seleção de recursos não pode ser gerada para qualquer coluna que seja designada como uma etiqueta ou como uma coluna de pontuação.

  • Se tentar utilizar um método de pontuação com uma coluna de um tipo de dado não suportado pelo método, ou o módulo levantará um erro, ou uma pontuação zero será atribuída à coluna.

  • Se uma coluna contiver valores lógicos (verdadeiros/falsos), são processados como Verdadeiro = 1 e Falso = 0.

  • Uma coluna não pode ser uma característica se tiver sido designada como Etiqueta ou Pontuação.

Como os valores em falta são tratados

  • Não é possível especificar como coluna alvo (etiqueta) qualquer coluna que tenha todos os valores em falta.

  • Se uma coluna contiver valores em falta, são ignorados ao calcular a pontuação para a coluna.

  • Se uma coluna designada como coluna de recurso tiver todos os valores em falta, é atribuída uma pontuação zero.

Tabela de pontuações comparadas

Para lhe dar uma ideia de como as pontuações se comparam ao utilizar métricas diferentes, a tabela seguinte apresenta algumas pontuações de seleção de recursos de várias funcionalidades no conjunto de dados de preços do automóvel, dada a variável dependente highway-mpg.

Coluna de recursos Pontuação de Pearson Contagem de pontuação Pontuação de Kendall Informação mútua
km/l em autoestrada 1 205 1 1
city-mpg 0.971337 205 0.892472 0.640386
curb-weight 0.797465 171 0.673447 0.326247
potência 0.770908 203 0.728289 0.448222
preço 0.704692 201 0.651805 0.321788
length 0.704662205 205 0.53193 0.281317
tamanho do motor 0.67747 205 0.581816 0.342399
largura 0.677218 205 0.525585 0.285006
bore 0.594572 201 0.467345 0.263846
distância entre os eixos 0.544082 205 0.407696 0.250641
compression-ratio 0.265201 205 0.337031 0.288459
sistema de combustível na na na 0.308135
modelo na na na 0.213872
rodas de unidade na na na 0.213171
altura na na na 0.1924
perdas normalizadas na na na 0.181734
symboling na na na 0.159521
num-de-cilindros na na na 0.154731
tipo de motor na na na 0.135641
aspiração na na na 0.068217
estilo de carroçaria na na na 0.06369
tipo de combustível na na na 0.049971
num-de-portas na na na 0.017459
Localização do motor na na na 0.010166
  • As pontuações de informação mútua podem ser criadas para todos os tipos de colunas, incluindo cordas.

  • As outras pontuações incluídas nesta tabela, como a correlação de Pearson ou a seleção de recursos baseados na contagem, requerem valores numéricos. As características de corda obtêm uma pontuação de 0 e, portanto, não estão incluídas na saída. Para exceções, consulte a secção Notas Técnicas.

  • O método baseado na contagem não trata uma coluna de etiquetas de forma diferente das colunas de características.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Método de pontuação de recursos Lista Método de pontuação Escolha o método a utilizar para marcar
Operar apenas em colunas de recurso Qualquer Booleano true Indicar se deve usar apenas colunas de recurso no processo de pontuação
Coluna-alvo Qualquer Seleção de Colunas Nenhum Especificar a coluna-alvo
Número de características desejadas >=1 Número inteiro 1 Especificar o número de funcionalidades para a produção nos resultados
Número mínimo de elementos não nulos >=1 Número inteiro 1 Especificar o número de funcionalidades de saída (para o método CountBased)

Saídas

Nome Tipo Descrição
Conjunto de dados filtrado Tabela de Dados Conjunto de dados filtrado
Funcionalidades Tabela de Dados Nomes das colunas de saída e pontuações de seleção de recursos

Exceções

Exceção Descrição
Erro 0001 A exceção ocorre se uma ou mais colunas especificadas de conjunto de dados não puderem ser encontradas.
Erro 0003 A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0004 A exceção ocorre se o parâmetro for inferior ou igual ao valor específico.
Erro 0017 A exceção ocorre se uma ou mais colunas especificadas tiverem o tipo não suportado pelo módulo atual.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Seleção de Recursos
Análise Discriminante Linear de Fisher
Lista de Módulos A-Z