Selección de características basada en filtro

Identifica las características en un conjunto de datos con la mayor potencia predictiva

Categoría: módulos de selección de características

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo de selección de características basada en filtro en Azure machine learning Studio (clásico) para identificar las columnas del conjunto de datos de entrada que tienen la máxima eficacia predictiva.

En general, la Selección de características hace referencia al proceso de aplicar pruebas estadísticas a las entradas, dada una salida especificada, para determinar qué columnas son más predecibles de la salida. El módulo selección de características basada en filtros proporciona varios algoritmos de selección de características entre los que elegir, incluidos los métodos de correlación como la correlación de Pearsons o Kendall, puntuaciones de información mutua y valores Chi cuadrado. Azure Machine Learning también admite recuentos de valores de características como un indicador de valor de información.

Al usar el módulo de Selección de características basada en filtro, se proporciona un conjunto de datos, se identifica la columna que contiene la etiqueta o la variable dependiente y, a continuación, se especifica un único método que se va a usar para medir la importancia de la característica.

El módulo genera un conjunto de datos que contiene las mejores columnas de características, tal y como se clasifica por la potencia de predicción. También genera los nombres de las características y sus puntuaciones de la métrica seleccionada.

¿Qué es la selección de características basada en filtros y por qué usarla?

Este módulo para la selección de características se denomina "basado en filtro" porque se usa la métrica seleccionada para identificar atributos irrelevantes y se filtran las columnas redundantes del modelo. Se elige una única medida estadística que se adapta a los datos y el módulo calcula una puntuación para cada columna de característica. Las columnas se devuelven según sus puntuaciones de características.

Al elegir las características correctas, puede mejorar la precisión y la eficacia de la clasificación.

Normalmente, solo se usan las columnas con las mejores puntuaciones para crear el modelo predictivo. Las columnas con puntuaciones de selección de características deficientes se pueden dejar en el conjunto de datos y omitirse al generar un modelo.

Cómo elegir una métrica de selección de características

La Selección de características basada en filtros proporciona una variedad de métricas para evaluar el valor de la información de cada columna. En esta sección se proporciona una descripción general de cada métrica y cómo se aplica. Los requisitos adicionales para usar cada métrica se indican en la sección Notas técnicas y en las Instrucciones para configurar cada módulo.

  • Correlación de Pearson

    La estadística de correlación de Pearson o el coeficiente de correlación de Pearson, también se conoce en modelos estadísticos como el valor de r. Para dos variables cualesquiera, devuelve un valor que indica la fuerza de la correlación

    El coeficiente de correlación de Pearson se calcula tomando la covarianza de dos variables y dividiendo por el producto de sus desviaciones estándar. El coeficiente no se ve afectado por los cambios de escala en las dos variables.

  • Información mutua

    La puntuación de información mutua mide la contribución de una variable para reducir la incertidumbre sobre el valor de otra variable: es decir, la etiqueta. Muchas variaciones de la puntuación de información mutua se han diseñado para adaptarse a diferentes distribuciones.

    La puntuación de información mutua es especialmente útil en selección de características, ya que maximiza la información mutua entre la distribución conjunta y las variables de destino en conjuntos de datos con muchas dimensiones.

  • Correlación de Kendall

    La correlación de rangos de Kendall es una de varias estadísticas que miden la relación entre clasificaciones de distintas variables ordinales o diferentes clasificaciones de la misma variable. En otras palabras, mide la similitud de las ordenaciones cuando se clasifican por las cantidades. Tanto este coeficiente como el coeficiente de correlación de Spearman están diseñados para su uso con datos no paramétricos y no normalmente distribuidos.

  • Correlación de Spearman

    El coeficiente de Spearman es una medida no paramétrica de dependencia estadística entre dos variables, que a veces se denota mediante la letra griega ro. El coeficiente de Spearman expresa el grado en el que dos variables se relacionan monotónicamente. También se denomina correlación de rangos de Spearman, porque se puede usar con variables ordinales.

  • Chi cuadrado

    La prueba chi cuadrado bidireccional es un método estadístico que mide el modo en que los valores esperados cercanos son los resultados reales. El método supone que las variables son aleatorias y se dibujan a partir de un ejemplo adecuado de variables independientes. La estadística chi cuadrado resultante indica cuántos resultados provienen del resultado esperado (aleatorio).

  • Puntuación de Fisher

    La puntuación de Fisher (también llamada método de Fisher o puntuación de probabilidad combinada de Fisher) a veces se denomina puntuación de la información, ya que representa la cantidad de información que una variable proporciona sobre algún parámetro desconocido del que depende.

    La puntuación se calcula midiendo la varianza entre el valor esperado de la información y el valor observado. Cuando la varianza se minimiza, la información se maximiza. Puesto que la esperanza de la puntuación es cero, la información de Fisher también es la varianza de la puntuación.

  • Basada en recuento

    La selección de características basada en recuento es una manera sencilla y, al mismo, relativamente eficaz de encontrar información acerca de los elementos de predicción. La idea básica de características basada en recuentos subyacente es sencilla: al calcular recuentos de valores individuales dentro de una columna, puede hacerse una idea de la distribución y el peso de los valores, y de esto, comprender qué columnas contienen la información más importante.

    La selección de características basada en recuentos es un método no supervisado de selección de características, lo que significa que no se necesita una columna de etiqueta. Este método también reduce la dimensionalidad de los datos sin perder información.

    Para obtener más información sobre cómo se crean las características basadas en recuentos y por qué son útiles en el aprendizaje automático, consulte aprendizaje con recuentos.

Sugerencia

Si necesita una opción diferente para el método de selección de características personalizado, use el módulo Ejecutar script de R.

Configuración de la selección de características de Filter-Based

Este módulo proporciona dos métodos para determinar las puntuaciones de las características:

Generar puntuaciones de características mediante una métrica estadística tradicional

  1. Agregue el módulo de selección de características basada en filtros al experimento. Puede encontrarlo en la categoría selección de características en Studio (clásico).

  2. Conecte un conjunto de datos de entrada que contenga al menos dos columnas que sean características potenciales.

    Para asegurarse de que se debe analizar una columna y generar una puntuación de características, use el módulo Editar metadatos para establecer el atributo IsFeature.

    Importante

    Asegúrese de que las columnas que va a proporcionar como entrada son características potenciales. Por ejemplo, una columna que contiene un valor único no tiene ningún valor de información.

    Si sabe que hay columnas que crearían características incorrectas, puede quitarlas de la selección de columnas. También puede usar el módulo Editar metadatos para marcarlos como Categóricos.

  3. Para el Método de puntuación de características, elija uno de los siguientes métodos estadísticos establecidos para usar en el cálculo de puntuaciones.

    Método Requisitos
    Correlación de Pearson La etiqueta puede ser de texto o numérica. Las características deben ser numéricas.
    Información mutua Las etiquetas y características pueden ser de texto o numéricas. Use este método para calcular la importancia de las características para dos columnas de categorías.
    Correlación de Kendall La etiqueta puede ser de texto o numérica, pero las características deben ser numéricas.
    Correlación de Spearman La etiqueta puede ser de texto o numérica, pero las características deben ser numéricas.
    Chi cuadrado Las etiquetas y características pueden ser de texto o numéricas. Use este método para calcular la importancia de las características para dos columnas de categorías.
    Puntuación de Fisher La etiqueta puede ser de texto o numérica, pero las características deben ser numéricas.
    Recuentos Vea: para usar Count-Based selección de características

    Sugerencia

    Si cambia la métrica seleccionada, se restablecerán todas las demás selecciones, así que asegúrese de establecer esta opción en primer lugar)

  4. Seleccione la opción Operan solo en las columnas de característica para generar una puntuación solo para las columnas que se han marcado previamente como características.

    Si anula la selección de esta opción, el módulo creará una puntuación para cualquier columna que cumpla los criterios de otro modo, hasta el número de columnas especificado en Número de características deseadas.

  5. En Columna de destino, haga clic en Iniciar selector de columnas para elegir la columna de etiqueta por nombre o por su índice (los índices están basados en uno).

    Se requiere una columna de etiqueta para todos los métodos que impliquen correlación estadística. El módulo devuelve un error en tiempo de diseño si no elige ninguna columna de etiqueta o varias columnas de etiqueta.

  6. Para un Número de características deseadas, escriba el número de columnas de características que desea que se devuelvan como resultado.

    • El número mínimo de características que puede especificar es 1, pero se recomienda que aumente este valor.

    • Si el número especificado de características deseadas es mayor que el número de columnas del conjunto de datos, se devuelven todas las características, incluso las que tienen puntuaciones cero.

    • Si especifica menos columnas de resultados que columnas de características, las características se clasifican por puntuación descendente y solo se devuelven las características principales.

  7. Ejecute el experimento o seleccione el módulo selección de características basada en filtro y haga clic en Ejecutar seleccionado.

Resultados de la selección de características

Una vez completado el procesamiento:

  • Para ver una lista completa de las columnas de características que se han analizado y sus puntuaciones, haga clic con el botón derecho en el módulo, seleccione Características y haga clic en Visualizar.

  • Para ver el conjunto de datos que se genera en función de los criterios de selección de características, haga clic con el botón derecho en el módulo, seleccione Conjunto de datos y haga clic en visualizar.

Si el conjunto de datos contiene menos columnas de las esperadas, compruebe la configuración del módulo y los tipos de datos de las columnas proporcionadas como entrada. Por ejemplo, si establece Número de características deseadas en 1, el conjunto de datos de salida solo contiene dos columnas: la columna de etiqueta y la columna de características con mayor grado de clasificación.

Usar la selección de características basada en recuento

  1. Agregue el módulo de selección de características basada en filtros al experimento. Puede encontrarla en la lista de módulos en Studio (clásico), en el grupo selección de características .

  2. Conecte un conjunto de datos de entrada que contenga al menos dos columnas que sean posibles características.

  3. Seleccione recuento basado en la lista de métodos estadísticos en la lista desplegable método de puntuación de características .

  4. En número mínimo de elementos distintos de cero, indique el número mínimo de columnas de características que se van a incluir en la salida.

    De forma predeterminada, el módulo genera todas las columnas que cumplen los requisitos. El módulo no puede generar ninguna columna que obtenga una puntuación de cero.

  5. Ejecute el experimento o seleccione solo el módulo y haga clic en Ejecutar seleccionado.

Resultados de la selección de características basada en recuento

  • Para ver la lista de columnas de características con sus puntuaciones, haga clic con el botón derecho en el módulo, seleccione características y, a continuación, haga clic en visualizar .
  • Para ver el conjunto de elementos que contiene las columnas analizadas, haga clic con el botón secundario en el módulo, seleccione conjunto de elementos y haga clic en visualizar.

A diferencia de otros métodos, el método de selección de características basada en recuentos no clasifica las variables por puntuaciones más altas, pero devuelve todas las variables con una puntuación distinta de cero, en su orden original.

Las características de cadena siempre obtienen una puntuación de cero (0) y, por tanto, no se generan.

Ejemplos

Puede ver ejemplos de cómo se usa la selección de características en el Azure AI Gallery:

  • Clasificación de texto; En el tercer paso de este ejemplo, la selección de características basada en filtros se usa para identificar las 15 características más adecuadas. El hash de características se usa para convertir los documentos de texto en vectores numéricos. La correlación de Pearson se usa después en las características del vector.

  • Selección de características de machine learning e ingeniería de características: en este artículo se proporciona una introducción a la selección de características y al diseño de características en aprendizaje automático.

Para ver ejemplos de puntuaciones de características, vea la tabla de puntuaciones comparadas.

Notas técnicas

Puede encontrar este módulo en transformación de datos, en la categoría filtros .

Detalles de la implementación

Si usa la correlación de Pearson, la correlación de Kendall o la correlación de la sonda en una característica numérica y una etiqueta de categoría, la puntuación de características se calcula de la siguiente manera:

  1. Para cada nivel de la columna categórica, calcule la media condicional de la columna numérica.

  2. Correlacione la columna de medias condicionales con la columna numérica.

Requisitos

  • No se puede generar una puntuación de selección de características para ninguna columna designada como etiqueta o como columna de puntuación.

  • Si intenta usar un método de puntuación con una columna de un tipo de datos no admitido por el método, el módulo generará un error o se asignará una puntuación de cero a la columna.

  • Si una columna contiene valores lógicos (verdadero/falso), se procesan como Verdadero = 1 y Falso = 0.

  • Una columna no puede ser una función si se ha designado como Label o como Score.

Cómo se controlan los valores que faltan

  • No se puede especificar como columna de destino (etiqueta) cualquier columna que tenga todos los valores que faltan.

  • Si una columna contiene valores que faltan, se omiten al calcular la puntuación de la columna.

  • Si una columna designada como columna de característica tiene todos los valores que faltan, se asigna una puntuación de cero.

Tabla de puntuaciones comparadas

Para darle una idea de cómo se comparan las puntuaciones al usar distintas métricas, en la tabla siguiente se presentan algunas puntuaciones de selección de características de varias características del conjunto de información de precios de automóviles, dada la variable dependiente autopista-MPG.

Columna de características Puntuación de Pearson Puntuación de recuento Puntuación Kendall Información mutua
highway-mpg 1 205 1 1
city-mpg 0,971337 205 0,892472 0,640386
curb-weight 0,797465 171 0,673447 0,326247
horsepower 0,770908 203 0,728289 0,448222
price 0,704692 201 0,651805 0,321788
length 0,704662205 205 0,53193 0,281317
engine-size 0,67747 205 0,581816 0,342399
width 0,677218 205 0,525585 0,285006
bore 0,594572 201 0,467345 0,263846
wheel-base 0,544082 205 0,407696 0,250641
compression-ratio 0,265201 205 0,337031 0,288459
sistema de combustible na na na 0,308135
make na na na 0,213872
ruedas na na na 0,213171
height na na na 0,1924
normalizados: pérdidas na na na 0,181734
symboling na na na 0,159521
número de cilindros na na na 0,154731
tipo de motor na na na 0,135641
aspiración na na na 0,068217
body-style na na na 0,06369
tipo de combustible na na na 0,049971
número de puertas na na na 0,017459
motor: ubicación na na na 0,010166
  • Las puntuaciones de información mutua se pueden crear para todos los tipos de columna, incluidas las cadenas.

  • Las demás puntuaciones incluidas en esta tabla, como la selección de características de la correlación o el recuento de Pearson, requieren valores numéricos. Las características de cadena obtienen una puntuación de 0 y, por lo tanto, no se incluyen en la salida. Para ver las excepciones, consulte la sección notas técnicas .

  • El método basado en recuento no trata ninguna columna de etiqueta de forma distinta de las columnas de características.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Método de puntuación de características List Método de puntuación Elegir el método que se utilizará para puntuar
Operar solo en columnas de características Any Boolean true Indicar si se van a usar solamente columnas de característica en el proceso de puntuación
Columna de destino Any ColumnSelection Ninguno Especificar la columna de destino
Número de características deseadas >=1 Entero 1 Especificar el número de características para la salida en los resultados
Número mínimo de elementos distintos de cero >=1 Entero 1 Especificar el número de características para la salida (método Basada en recuento)

Salidas

Nombre Tipo Descripción
Conjunto de datos filtrado Tabla de datos Conjunto de datos filtrado
Características Tabla de datos Nombres de columnas de salida y puntuaciones de la selección de características

Excepciones

Excepción Descripción
Error 0001 Se produce una excepción si no se encontraron una o más columnas especificadas del conjunto de datos.
Error 0003 Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0004 Se produce una excepción si el parámetro es menor o igual que el valor especificado.
Error 0017 Se produce una excepción si una o varias columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de los errores específicos de los módulos de Studio (clásico), consulte Machine Learning de los códigos de error.

Para obtener una lista de excepciones de API, consulte códigos de error de la API de REST de machine learning.

Vea también

Selección de características
Análisis Discriminantente lineal de Fisher
Lista de módulos A-Z