Análisis discriminante lineal de Fisher

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Identifica la combinación lineal de las variables de características que mejor agrupan los datos en clases independientes

Categoría: Módulos de selección de características

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Linear Discriminant Analysis de Linear de Machine Learning Studio (clásico) para crear un nuevo conjunto de datos de características que capture la combinación de características que mejor separa dos o más clases.

Este método se usa a menudo para la reducción de dimensionalidad porque proyecta un conjunto de características en un espacio de características más pequeño conservando al mismo tiempo la información que discrimina entre clases. Esto no solo reduce los costos de cálculo para una tarea de clasificación determinada, sino que puede ayudar a prevenir el sobreajuste.

Para generar las puntuaciones, proporcione una columna de etiqueta y un conjunto de columnas de características numéricas como entradas. El algoritmo determina la combinación óptima de las columnas de entrada que separa linealmente cada grupo de datos minimizando al mismo tiempo las distancias dentro de cada grupo. El módulo devuelve un conjunto de datos que contiene las características compactas y transformadas, junto con una transformación que puede guardar y aplicar a otro conjunto de datos.

Más información sobre el análisis discriminador lineal

El análisis discriminante lineal es similar al análisis de varianza (ANOVA) en que funciona comparando los medios de las variables. Al igual que ANOVA, se basa en estas suposiciones:

  • Los predictores son independientes
  • Las funciones de densidad de probabilidad condicional de cada muestra se distribuyen normalmente
  • Las variaciones entre grupos son similares

El análisis discriminante lineal a veces se abrevia a LDA, pero esto se confunde fácilmente con la asignación de dirichlet latente. Las técnicas son completamente diferentes, por lo que en esta documentación, usamos los nombres completos siempre que sea posible.

Configuración del análisis discriminante lineal

  1. Agregue el conjunto de datos de entrada y compruebe que los datos de entrada cumplen estos requisitos:

    • Los datos deben ser lo más completos posible. Se omiten las filas con valores que faltan.
    • Se espera que los valores tengan una distribución normal. Antes de usar El análisis discriminante lineal de Linear de Linear, revise los datos en busca de valores atípicos o pruebe la distribución.
    • Debe tener menos predictores que los ejemplos.
    • Quite las columnas no numéricas. El algoritmo examina todas las columnas numéricas válidas incluidas en las entradas y devuelve un error si se incluyen columnas no válidas. Si necesita excluir columnas numéricas, agregue un módulo Seleccionar columnas en el conjunto de datos antes de Análisis discriminante lineal de Linear Desenlaz, para crear una vista que contenga solo las columnas que desea analizar. Puede volver a unirse a las columnas más adelante mediante Agregar columnas. Se conserva el orden original de las filas.
  2. Conectar los datos de entrada al módulo Linear Discriminant Analysis (Análisis discriminante lineal de Linear Linear).

  3. En Columna Etiquetas de clase, haga clic en Iniciar selector de columnas y elija una columna de etiqueta.

  4. En Number of feature extractors (Número de extractores de características), escriba el número de columnas que desea como resultado.

    Por ejemplo, si el conjunto de datos contiene ocho columnas de características numéricas, 3 podría escribir para contraerlas en un nuevo espacio de características reducido de solo tres columnas.

    Es importante comprender que las columnas de salida no se corresponden exactamente con las columnas de entrada, sino que representan una transformación compacta de los valores de las columnas de entrada.

    Si usa 0 como valor para Number of feature extractors (Número de extractores de características) y n columnas se usan como entrada, se devuelven n extractores de características, que contienen nuevos valores que representan el espacio de características de n dimensiones.

  5. Ejecute el experimento.

Results

El algoritmo determina la combinación de valores en las columnas de entrada que separa linealmente cada grupo de datos al tiempo que minimiza las distancias dentro de cada grupo y crea dos salidas:

  • Características transformadas. Conjunto de datos que contiene el número especificado de columnas extractora de características, denominadas col1, col2, col3, etc. La salida también incluye la variable de clase o etiqueta.

    Puede usar este conjunto compacto de valores para entrenar un modelo.

  • Transformación de análisis discriminante lineal de Linear Desenlaz. Transformación que puede guardar y aplicar a un conjunto de datos que tenga el mismo esquema. Esto resulta útil si está analizando muchos conjuntos de datos del mismo tipo y desea aplicar la misma reducción de características a cada uno. El conjunto de datos al que se aplica debe tener el mismo esquema.

Ejemplos

Para obtener ejemplos de selección de características en el aprendizaje automático, consulte el Azure AI Gallery:

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Consejos de uso

  • Este método solamente funciona en variables continuas, no en las variables de categorías u ordinales.

  • Las filas con valores que faltan se omiten cuando se calcula la matriz de transformación.

  • Si guarda una transformación de un experimento, las transformaciones calculadas a partir del experimento original se vuelve a aplicar a cada nuevo conjunto de datos y no se vuelve a calcular. Por lo tanto, si desea calcular un nuevo conjunto de características para cada conjunto de datos, use una nueva instancia de Linear Discriminant Analysis para cada conjunto de datos.

Detalles de la implementación

El conjunto de datos de características se transforma mediante eigenvectors. Los vectores del conjunto de datos de entrada se calculan en función de las columnas de características proporcionadas, también denominadas matriz de discriminación.

La salida de transformación del módulo contiene estos eigenvectores, que se pueden aplicar para transformar otro conjunto de datos que tenga el mismo esquema.

Para obtener más información sobre cómo se calculan los valores eigenvalues, consulte este documento (PDF): Extracción de características basada en Eigenvector para clasificación. Tymbal, Puuronen et al.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Tipo Intervalo Opcional Valor predeterminado Descripción
Columna de etiquetas de clase ColumnSelection Obligatorio Ninguno Seleccionar la columna que contiene las etiquetas de categoría de categorías
Número de extractores de características Entero >=0 Obligatorio 0 Número de extractores de características que se usarán. Si es cero, se utilizarán todos los extractores de características.

Salidas

Nombre Tipo Descripción
Características transformadas Tabla de datos Características de análisis discriminadores lineales de Linear de Linear Transformed to eigenvector space
Transformación de análisis discriminante lineal de Fisher Interfaz ITransform Transformación de análisis discriminante lineal de Fisher

Excepciones

Excepción Descripción
Error 0001 Se produce una excepción si no se encontraron una o más columnas especificadas del conjunto de datos.
Error 0003 Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0017 Se produce una excepción si una o varias columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Selección de características
Selección de características basada en filtros
Análisis de componentes principales