Módulos de seleção de recursos

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

este artigo descreve os módulos no Machine Learning Studio (clássico) que você pode usar para a seleção de recursos.

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

A seleção de recursos é uma ferramenta importante no aprendizado de máquina. o Machine Learning Studio (clássico) fornece vários métodos para executar a seleção de recursos. Escolha um método de seleção de recursos com base no tipo de dados que você tem e nos requisitos da técnica estatística aplicada.

Este artigo cobre:

cada módulo de seleção de recursos no Machine Learning Studio (clássico) usa um conjunto de dados como entrada. Em seguida, o módulo aplica métodos estatísticos bem conhecidos às colunas de dados que são fornecidas como entrada. A saída é um conjunto de métricas que podem ajudá-lo a identificar as colunas que têm o melhor valor de informações.

Sobre a seleção de recursos

No aprendizado de máquina e nas estatísticas, a seleção de recursos é o processo de selecionar um subconjunto de recursos relevantes e úteis a serem usados na criação de um modelo analítico. A seleção de recursos ajuda a restringir o campo de dados para as entradas mais valiosas. Restringir o campo de dados ajuda a reduzir o ruído e a melhorar o desempenho de treinamento.

Geralmente, os recursos são criados a partir de dados brutos por meio de um processo de engenharia de recursos. Por exemplo, um carimbo de data/hora pode não ser útil para modelagem até que as informações sejam transformadas em unidades de dias, meses ou categorias relevantes para o problema, como feriado versus dia útil.

Os novos usuários do Machine Learning podem ser tentados a incluir todos os dados disponíveis. Eles podem esperar que o algoritmo encontre algo interessante usando mais dados. No entanto, a seleção de recursos pode geralmente melhorar seu modelo e evitar problemas comuns:

  • Os dados contêm recursos redundantes ou irrelevantes, que não fornecem mais informações do que os recursos selecionados no momento.
  • Os dados contêm recursos irrelevantes que não fornecem informações úteis em nenhum contexto. A inclusão de campos irrelevantes não apenas aumenta o tempo necessário para treinar os dados, mas também pode levar a resultados insatisfatórios.
  • Com alguns algoritmos, ter informações duplicadas nos dados de treinamento pode levar a um fenômeno chamado Multicolinearidade. No Multicolinearidade, a presença de duas variáveis altamente correlacionadas pode fazer com que os cálculos para outras variáveis se tornem muito menos precisos.

Dica

alguns algoritmos de aprendizado de máquina no Machine Learning Studio (clássico) também usam seleção de recursos ou redução de dimensionalidade como parte do processo de treinamento. Quando você usa esses aprendizes, é possível ignorar o processo de seleção de recurso e permitir que o algoritmo decida as melhores entradas.

Usar a seleção de recursos em um experimento

A seleção de recursos normalmente é executada quando você está explorando dados e desenvolvendo um novo modelo. Tenha essas dicas em mente ao usar a seleção de recursos:

  • Ao testar, adicione a seleção de recursos ao seu experimento para gerar pontuações que informam a sua decisão sobre quais colunas usar.
  • Remova a seleção de recursos do experimento ao colocar um modelo em operação.
  • Execute a seleção de recursos periodicamente para garantir que os dados e os melhores recursos não foram alterados.

A seleção de recursos é diferente da engenharia de recursos, que se concentra na criação de novos recursos de dados existentes.

Recursos

métodos de seleção de recursos no Machine Learning Studio (clássico)

os módulos de seleção de recursos a seguir são fornecidos no Machine Learning Studio (clássico).

Seleção de recursos baseada em filtro

Ao usar o módulo seleção de recursos baseada em filtro , você pode escolher entre os métodos de seleção de recursos conhecidos. O módulo gera as estatísticas de seleção de recursos e o conjunto de texto filtrado.

Sua escolha de um método de seleção de filtro depende, em parte, do tipo de dados de entrada que você tem.

Método Entradas de recursos com suporte Rótulos com suporte
Correlação de Pearson Somente colunas numéricas e lógicas Uma única coluna numérica ou lógica
Pontuação de informações mútuas Todos os tipos de dados Uma única coluna de qualquer tipo de dados
Coeficiente de correlação de Kendall Somente colunas numéricas e lógicas Uma única coluna numérica ou lógica

As colunas devem ter valores que possam ser classificados
Coeficiente de correlação de Spearman Somente colunas numéricas e lógicas Uma única coluna numérica ou lógica
Estatística qui-quadrada Todos os tipos de dados Uma única coluna de qualquer tipo de dados
Clssificação Fisher Somente colunas numéricas e lógicas Uma única coluna numérica ou lógica

Colunas de cadeia de caracteres recebem uma pontuação de 0
Seleção de recursos com base na contagem Todos os tipos de dados Uma coluna de rótulo não é necessária

Análise Discriminante Linear da Fisher

A análise de discriminante linear é uma técnica de aprendizado supervisionada que você pode usar para classificar variáveis numéricas em conjunto com um único destino categórico. O método é útil para seleção de recursos porque ele identifica a combinação de recursos ou parâmetros que melhor separa os grupos.

Você pode usar o módulo de análise de discriminante linear Fisher para gerar um conjunto de pontuações para revisão ou pode usar o conjunto de resultados de substituição gerado pelo módulo para treinamento.

Importância do recurso de permuta

Use o módulo importância do recurso de permuta para simular o efeito de qualquer conjunto de recursos em seu conjunto de seus conjuntos de seus. O módulo computa as pontuações de desempenho de um modelo com base em embaralhamento aleatórios de valores de recursos.

As pontuações que o módulo retorna representam a alteração potencial na precisão de um modelo treinado se os valores forem alterados. Você pode usar as pontuações para determinar o efeito de variáveis individuais no modelo.

Algoritmos de aprendizado de máquina que incorporam a seleção de recursos

alguns algoritmos de aprendizado de máquina no Machine Learning Studio (clássico) otimizam a seleção de recursos durante o treinamento. Eles também podem fornecer parâmetros que ajudam com a seleção de recursos. Se você estiver usando um método que tenha seu próprio heurístico para escolher recursos, geralmente é melhor contar com essa heurística em vez de selecionar recursos.

Esses algoritmos e métodos de seleção de recursos são usados internamente:

  • Modelos de árvore de decisão impulsionados para classificação e regressão

    Nesses módulos, um resumo de recursos é criado internamente. Recursos que têm um peso de 0 não são usados por nenhuma divisão de árvore. Ao visualizar o modelo mais bem treinado, você pode analisar cada uma das árvores. Se um recurso nunca for usado em nenhuma árvore, o recurso provavelmente será um candidato para remoção. Para otimizar a seleção, também é uma boa ideia usar a limpeza de parâmetros.

  • Modelos de regressão logística e modelos lineares

    Os módulos para regressão logística binária e multiclasse são suportados pela regularização L1 e L2. A regularização é uma maneira de adicionar restrições durante o treinamento para especificar manualmente um aspecto do modelo aprendido. A regularização normalmente é usada para evitar sobreajuste. Machine Learning Studio (clássico) dá suporte à regularização para as normas L1 ou L2 do vetor de peso em algoritmos de classificação linear:

    • A regularização L1 será útil se a meta for ter um modelo o mais esparso possível.
    • A regularização L2 impede o crescimento excessivo de qualquer coordenada única em magnitude. É útil se a meta é ter um modelo com pesos gerais pequenos.
    • A regressão logística regularizada por L1 é mais agressiva quanto à atribuição de um peso de 0 aos recursos. É útil para identificar recursos que podem ser removidos.

Observações técnicas

Todos os módulos de seleção de recursos e métodos analíticos que suportam colunas numéricas e lógicas também suportam colunas de data e hora e período de tempo. Essas colunas são tratadas como colunas numéricas simples nas quais cada valor é igual ao número de tiques.

Os módulos a seguir não estão na categoria Seleção de Recursos, mas você pode usá-los para tarefas relacionadas. Os módulos podem ajudá-lo a reduzir a dimensionalidade de seus dados ou encontrar correlações:

Se você tiver um conjuntos de dados com muitas colunas, use o módulo Análise de Componente Principal para detectar as colunas que contêm mais informações sobre os dados originais.

Este módulo está na categoria Transformação de Dados , em Escala e Redução.

A definição de recursos baseada em contagem é uma nova técnica que você pode usar para determinar recursos úteis usando grandes conjuntos de dados. Use esses módulos para analisar conjuntos de dados para encontrar os melhores recursos, salvar um conjunto de recursos a ser usado com novos dados ou atualizar um conjunto de recursos existente.

Use este módulo para calcular um conjunto de coeficientes de correlação de Pearson para cada par possível de variáveis no conjunto de dados de entrada. O coeficiente de correlação de Pearson, também chamado de teste R de Pearson, é um valor estatístico que mede a relação linear entre duas variáveis.

Este módulo está na categoria Funções Estatísticas .

Lista de módulos

A categoria Seleção de Recursos inclui estes módulos:

Confira também