Análise Discriminante Linear da Fisher

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Identifica a combinação linear das variáveis de recurso que melhor agrupam dados em classes separadas

Categoria: Módulos de Seleção de Recursos

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Análise Discriminante Linear linear de Linear de Linear no Machine Learning Studio (clássico) para criar um novo conjunto de dados de recursos que captura a combinação de recursos que melhor separa duas ou mais classes.

Esse método é geralmente usado para redução de dimensionalidade, pois ele projeta um conjunto de recursos em um espaço menor de recursos enquanto preserva as informações que discriminam entre classes. Isso não só reduz os custos de computação de uma determinada tarefa de classificação, mas pode ajudar a evitar o superajuste.

Para gerar as pontuações, você fornece uma coluna de rótulo e um conjunto de colunas de recursos numéricos como entradas. O algoritmo determina a combinação ideal de colunas de entrada que separa linearmente cada grupo de dados enquanto minimiza as distâncias em cada grupo. O módulo retorna um conjuntos de dados que contém os recursos compactos e transformados, juntamente com uma transformação que você pode salvar e aplicar a outro.

Mais sobre a análise discriminatória linear

A análise discriminante linear é semelhante à análise de variância (ANOVA) em que ela funciona comparando os meios das variáveis. Assim como o ANOVA, ele se baseia nessas suposições:

  • As previsões são independentes
  • As funções de densidade de probabilidade condicional de cada amostra normalmente são distribuídas
  • As variações entre os grupos são semelhantes

A Análise Discriminante Linear às vezes é abreviada como LDA, mas isso é facilmente confundido com a Alocação de Dirichlet Latente. As técnicas são completamente diferentes, portanto, nesta documentação, usamos os nomes completos sempre que possível.

Como configurar a análise discriminatória linear

  1. Adicione seu conjuntos de dados de entrada e verifique se os dados de entrada cumprem estes requisitos:

    • Seus dados devem ser o mais completos possível. Linhas com valores ausentes são ignoradas.
    • Espera-se que os valores tenham uma distribuição normal. Antes de usar a análise discriminatória linear linear de linear, revise os dados em busca de outliers ou teste a distribuição.
    • Você deve ter menos previsões do que exemplos.
    • Remova as colunas não numéricas. O algoritmo examina todas as colunas numéricas válidas incluídas nas entradas e retorna um erro se colunas inválidas são incluídas. Se você precisar excluir colunas numéricas, adicione um módulo Selecionar Colunas no Dataset antes da Análise Discriminante Linear de Linear, para criar uma exibição que contenha apenas as colunas que você deseja analisar. Você pode reatar as colunas posteriormente usando Adicionar Colunas. A ordem original das linhas é preservada.
  2. Conexão os dados de entrada para o módulo Análise Discriminante Linear de Linear de Linear.

  3. Para a coluna Rótulos de classe, clique em Iniciar seletor de coluna e escolha uma coluna de rótulo.

  4. Em Número de extratores de recursos, digite o número de colunas que você deseja como resultado.

    Por exemplo, se o seu conjuntos de dados contiver oito colunas de recursos numéricos, 3 você poderá digitar para reuná-las em um espaço de recurso novo e reduzido de apenas três colunas.

    É importante entender que as colunas de saída não correspondem exatamente às colunas de entrada, mas representam uma transformação compacta dos valores nas colunas de entrada.

    Se você usar 0 como o valor de Número de extratores de recursos e n colunas são usadas como entrada, n extratores de recursos serão retornados, contendo novos valores que representam o espaço de recurso ndimensional.

  5. Execute o experimento.

Resultados

O algoritmo determina a combinação de valores nas colunas de entrada que separa linearmente cada grupo de dados, minimizando as distâncias em cada grupo e cria duas saídas:

  • Recursos transformados. Um conjuntos de dados que contém o número especificado de colunas do extrator de recursos, chamadas col1, col2, col3 e assim por diante. A saída também inclui a classe ou a variável de rótulo.

    Você pode usar esse conjunto compacto de valores para treinar um modelo.

  • Transformação de análise discriminante linear de linear. Uma transformação que você pode salvar e aplicar a um conjuntos de dados que tem o mesmo esquema. Isso será útil se você estiver analisando muitos conjuntos de dados do mesmo tipo e quiser aplicar a mesma redução de recursos a cada um. O conjuntos de dados ao que você o aplica deve ter o mesmo esquema.

Exemplos

Para exemplos de seleção de recursos no aprendizado de máquina, consulte o Galeria de IA do Azure:

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

  • Esse método funciona somente em variáveis contínuas, não em variáveis categóricas ou ordinais.

  • Linhas com valores ausentes são ignoradas ao calcular a matriz de transformação.

  • Se você salvar uma transformação de um experimento, as transformações computadas do experimento original serão reaplicadas a cada novo conjunto de dados e não serão recomputadas. Portanto, se você quiser calcular um novo conjunto de recursos para cada conjunto de dados, use uma nova instância da Análise Discriminatória Linear de Linear para cada conjunto de dados.

Detalhes de implementação

O conjuntos de dados de recursos é transformado usando eigenvectors. Os eigenvectors para o conjuntos de dados de entrada são calculados com base nas colunas de recurso fornecidas, também chamadas de matriz de discriminações.

A saída de transformação pelo módulo contém esses eigenvectors, que podem ser aplicados para transformar outro conjuntos de dados que tem o mesmo esquema.

Para obter mais informações sobre como os eigenvalues são calculados, consulte este documento (PDF): Extração de recursos baseada em Eigenvector para classificação. Tymbal, Puuronen e outros.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Tipo Intervalo Opcional Padrão Descrição
Coluna de rótulos de classe ColumnSelection Obrigatório Nenhum Selecione a coluna que contém os rótulos de classe categórica
Número de extratores de recurso Inteiro >=0 Necessária 0 Número de extratores de recurso para usar. Se for zero, todos os extratores de recurso serão usados

Saídas

Nome Tipo Descrição
Recursos transformados Tabela de Dados Recursos de análise discriminantes lineares de lineares transformados em espaço eigenvector
Transformação de análise do discriminador linear Fisher Interface ITransform Transformação de análise de discriminador linear Fisher

Exceções

Exceção Descrição
Erro 0001 Ocorrerá uma exceção se uma ou mais das colunas especificadas do conjunto de dados não puder ser encontrada.
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.
Erro 0017 Ocorrerá uma exceção se uma ou mais das colunas especificadas tiver um tipo sem suporte por módulo atual.

Para ver uma lista de erros específicos dos módulos do Studio (clássico), consulte Machine Learning Códigos de erro.

Para ver uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Confira também

Seleção de recursos
Seleção de Recursos Baseada em Filtro
Análise de componente principal