Módulos de seleção de recursos

Este artigo descreve os módulos no Azure Machine Learning Studio (clássico) que pode utilizar para a seleção de recursos.

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

A seleção de recursos é uma ferramenta importante na aprendizagem automática. O Machine Learning Studio (clássico) fornece vários métodos para a seleção de recursos. Escolha um método de seleção de recursos com base no tipo de dados que tem e nos requisitos da técnica estatística que é aplicada.

Este artigo abrange:

Cada módulo de seleção de recursos no Machine Learning Studio (clássico) utiliza um conjunto de dados como entrada. Em seguida, o módulo aplica métodos estatísticos bem conhecidos às colunas de dados que são fornecidas como entrada. A saída é um conjunto de métricas que podem ajudá-lo a identificar as colunas que têm o melhor valor de informação.

Sobre a seleção de recursos

Na aprendizagem automática e nas estatísticas, a seleção de recursos é o processo de seleção de um subconjunto de funcionalidades relevantes e úteis para usar na construção de um modelo analítico. A seleção de recursos ajuda a reduzir o campo de dados às entradas mais valiosas. Reduzir o campo de dados ajuda a reduzir o ruído e a melhorar o desempenho do treino.

Muitas vezes, as funcionalidades são criadas a partir de dados brutos através de um processo de engenharia de recursos. Por exemplo, um carimbo de tempo por si só pode não ser útil para modelação até que a informação seja transformada em unidades de dias, meses ou categorias relevantes para o problema, como férias versus dia de trabalho.

Novos utilizadores de machine learning podem ser tentados a incluir todos os dados disponíveis. Podem esperar que o algoritmo encontre algo interessante usando mais dados. No entanto, a seleção de recursos pode geralmente melhorar o seu modelo e prevenir problemas comuns:

  • Os dados contêm funcionalidades redundantes ou irrelevantes, que não fornecem mais informações do que as funcionalidades atualmente selecionadas.
  • Os dados contêm funcionalidades irrelevantes que não fornecem nenhuma informação útil em qualquer contexto. A inclusão de campos irrelevantes não só aumenta o tempo necessário para treinar os dados, como também pode levar a maus resultados.
  • Com alguns algoritmos, ter informações duplicadas nos dados de treino pode levar a um fenómeno chamado multicollinearidade. Na multicollinearidade, a presença de duas variáveis altamente correlacionadas pode fazer com que os cálculos para outras variáveis se tornem muito menos precisos.

Dica

Alguns algoritmos de aprendizagem automática no Machine Learning Studio (clássico) também usam a seleção de recursos ou redução de dimensionalidade como parte do processo de treino. Quando utilizar estes alunos, pode ignorar o processo de seleção de funcionalidades e deixar que o algoritmo decida as melhores entradas.

Utilize a seleção de recursos numa experiência

Normalmente, a seleção de recursos é realizada quando está a explorar dados e a desenvolver um novo modelo. Tenha estas dicas em mente quando utilizar a seleção de funcionalidades:

  • Ao testar, adicione a seleção de funcionalidades à sua experiência para gerar pontuações que informem a sua decisão de quais colunas utilizar.
  • Remova a seleção de funcionalidades da experiência quando operacionalizar um modelo.
  • Executar a seleção de recursos periodicamente para garantir que os dados e as melhores funcionalidades não foram alterados.

A seleção de recursos é diferente da engenharia de recursos, que se foca na criação de novas funcionalidades a partir dos dados existentes.

Recursos

Métodos de seleção de recursos no Machine Learning Studio (clássico)

Os seguintes módulos de seleção de recursos são fornecidos no Machine Learning Studio (clássico).

Seleção de funcionalidades baseadas em filtro

Quando utilizar o módulo de seleção de recursos baseado em filtros, pode escolher entre métodos de seleção de recursos bem conhecidos. O módulo produz tanto as estatísticas de seleção de recursos como o conjunto de dados filtrado.

A escolha de um método de seleção de filtros depende, em parte, do tipo de dados de entrada que tem.

Método Entradas de recursos suportadas Etiquetas suportadas
A correlação de Pearson Colunas numéricas e lógicas apenas Uma única coluna numérica ou lógica
Pontuação de informação mútua Todos os tipos de dados Uma única coluna de qualquer tipo de dados
Coeficiente de correlação de Kendall Colunas numéricas e lógicas apenas Uma única coluna numérica ou lógica

Colunas devem ter valores que podem ser classificados
Coeficiente de correlação de Spearman Colunas numéricas e lógicas apenas Uma única coluna numérica ou lógica
Estatística chi-quadrada Todos os tipos de dados Uma única coluna de qualquer tipo de dados
Pontuação de pescador Colunas numéricas e lógicas apenas Uma única coluna numérica ou lógica

As colunas de cordas são atribuídas uma pontuação de 0
Seleção de recursos baseados em contagem Todos os tipos de dados Não é necessária uma coluna de etiquetas

Análise Discriminante Linear de Fisher

Linear Discriminant Analysis é uma técnica de aprendizagem supervisionada que pode usar para classificar variáveis numéricas em conjunto com um único alvo categórico. O método é útil para a seleção de recursos porque identifica a combinação de características ou parâmetros que melhor separam os grupos.

Pode utilizar o módulo de Análise Discriminante Linear de Fisher para gerar um conjunto de pontuações para revisão, ou pode utilizar o conjunto de dados de substituição gerado pelo módulo para treino.

Importância da funcionalidade de permutação

Utilize o módulo De Importância da Característica Permutação para simular o efeito de qualquer conjunto de funcionalidades no seu conjunto de dados. O módulo calcula as pontuações de desempenho de um modelo baseado na baralhada aleatória dos valores de recurso.

As pontuações que o módulo devolve representam a potencial alteração na precisão de um modelo treinado se os valores mudarem. Pode utilizar as pontuações para determinar o efeito das variáveis individuais no modelo.

Algoritmos de aprendizagem automática que incorporam a seleção de recursos

Alguns algoritmos de aprendizagem automática no Machine Learning Studio (clássico) otimizam a seleção de recursos durante o treino. Também podem fornecer parâmetros que ajudam na seleção de recursos. Se está a usar um método que tem o seu próprio heurístico para escolher funcionalidades, muitas vezes é melhor confiar nesse heurístico em vez de pré-seleção de funcionalidades.

Estes algoritmos e métodos de seleção de recursos são utilizados internamente:

  • Modelos de árvores de decisão reforçadas para classificação e regressão

    Nestes módulos, é criado um resumo de recurso internamente. Características que têm um peso de 0 não são usadas por nenhuma divisão de árvores. Quando visualizas o modelo mais bem treinado, podes olhar para cada uma das árvores. Se uma característica nunca for utilizada em nenhuma árvore, a funcionalidade é provavelmente um candidato à remoção. Para otimizar a seleção, também é uma boa ideia usar a varredura de parâmetros.

  • Modelos de regressão logística e modelos lineares

    Os módulos para a regressão logística multiclasse e binária suportam a regularização L1 e L2. A regularização é uma forma de adicionar constrangimentos durante o treino para especificar manualmente um aspeto do modelo aprendido. Normalmente, a regularização é utilizada para evitar a sobremontagem. O Machine Learning Studio (clássico) suporta a regularização das normas L1 ou L2 do vetor de peso em algoritmos de classificação linear:

    • A regularização L1 é útil se o objetivo é ter um modelo o mais escasso possível.
    • A regularização L2 impede que qualquer coordenada única no vetor de peso cresça demasiado em magnitude. É útil se o objetivo é ter um modelo com pequenos pesos globais.
    • A regressão logística regularizada pela L1 é mais agressiva na atribuição de um peso de 0 às características. É útil na identificação de funcionalidades que podem ser removidas.

Notas técnicas

Todos os módulos de seleção de recursos e métodos analíticos que suportam colunas numéricas e lógicas também suportam colunas de data e timepan. Estas colunas são tratadas como colunas numéricas simples em que cada valor é igual ao número de carrapatos.

Os seguintes módulos não estão na categoria De Seleção de Recursos, mas pode usá-los para tarefas relacionadas. Os módulos podem ajudá-lo a reduzir a dimensionalidade dos seus dados ou encontrar correlações:

Se tiver um conjunto de dados que tenha muitas colunas, utilize o módulo principal de Análise de Componentes para detetar as colunas que contêm mais informações sobre os dados originais.

Este módulo está na categoria de Transformação de Dados, em Escala e Redução.

A caracterização baseada no conde é uma nova técnica que pode usar para determinar funcionalidades úteis usando grandes conjuntos de dados. Utilize estes módulos para analisar conjuntos de dados para encontrar as melhores funcionalidades, guardar um conjunto de funcionalidades para usar com novos dados ou atualizar um conjunto de funcionalidades existente.

Utilize este módulo para calcular um conjunto de coeficientes de correlação Pearson para cada par possível de variáveis no conjunto de dados de entrada. O coeficiente de correlação pearson, também chamado teste R de Pearson, é um valor estatístico que mede a relação linear entre duas variáveis.

Este módulo está na categoria Funções Estatísticas.

Lista de módulos

A categoria de Seleção de Recursos inclui estes módulos:

Ver também