Selección de características basada en filtro

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Identifica las características en un conjunto de datos con la mayor potencia predictiva

Categoría: Módulos de selección de características

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Selección de características basada en filtros de Machine Learning Studio (clásico) para identificar las columnas del conjunto de datos de entrada que tienen la mayor potencia predictiva.

En general, la Selección de características hace referencia al proceso de aplicar pruebas estadísticas a las entradas, dada una salida especificada, para determinar qué columnas son más predecibles de la salida. El módulo Selección de características basada en filtros proporciona varios algoritmos de selección de características entre los que elegir, incluidos métodos de correlación como la correlación de Pearsons o Kendall, las puntuaciones de información mutua y los valores chi cuadrados. Machine Learning también admite recuentos de valores de características como un indicador del valor de información.

Al usar el módulo de Selección de características basada en filtro, se proporciona un conjunto de datos, se identifica la columna que contiene la etiqueta o la variable dependiente y, a continuación, se especifica un único método que se va a usar para medir la importancia de la característica.

El módulo genera un conjunto de datos que contiene las mejores columnas de características, tal y como se clasifica por la potencia de predicción. También genera los nombres de las características y sus puntuaciones de la métrica seleccionada.

¿Qué es la selección de características basada en filtros y por qué usarla?

Este módulo para la selección de características se denomina "basado en filtro" porque se usa la métrica seleccionada para identificar atributos irrelevantes y se filtran las columnas redundantes del modelo. Se elige una única medida estadística que se adapta a los datos y el módulo calcula una puntuación para cada columna de característica. Las columnas se devuelven según sus puntuaciones de características.

Al elegir las características correctas, puede mejorar la precisión y la eficacia de la clasificación.

Normalmente, solo se usan las columnas con las mejores puntuaciones para crear el modelo predictivo. Las columnas con puntuaciones de selección de características deficientes se pueden dejar en el conjunto de datos y omitirse al generar un modelo.

Cómo elegir una métrica de selección de características

La Selección de características basada en filtros proporciona una variedad de métricas para evaluar el valor de la información de cada columna. En esta sección se proporciona una descripción general de cada métrica y cómo se aplica. Los requisitos adicionales para usar cada métrica se indican en la sección Notas técnicas y en las Instrucciones para configurar cada módulo.

Correlación de Pearson

La estadística de correlación de Pearson o el coeficiente de correlación de Pearson, también se conoce en modelos estadísticos como el valor de r. Para dos variables cualesquiera, devuelve un valor que indica la fuerza de la correlación

El coeficiente de correlación de Pearson se calcula tomando la covarianza de dos variables y dividiendo por el producto de sus desviaciones estándar. El coeficiente no se ve afectado por los cambios de escala en las dos variables.
Información mutua

La puntuación de información mutua mide la contribución de una variable a la reducción de la incertidumbre sobre el valor de otra variable: es decir, la etiqueta . Muchas variaciones de la puntuación de información mutua se han diseñado para adaptarse a diferentes distribuciones.

La puntuación de información mutua es especialmente útil en selección de características, ya que maximiza la información mutua entre la distribución conjunta y las variables de destino en conjuntos de datos con muchas dimensiones.
Correlación de Kendall

La correlación de rangos de Kendall es una de varias estadísticas que miden la relación entre clasificaciones de distintas variables ordinales o diferentes clasificaciones de la misma variable. En otras palabras, mide la similitud de las ordenaciones cuando se clasifican por las cantidades. Tanto este coeficiente como el coeficiente de correlación de Spearman están diseñados para su uso con datos no paramétricos y no normalmente distribuidos.
Correlación de Spearman

El coeficiente de Spearman es una medida no paramétrica de dependencia estadística entre dos variables, que a veces se denota mediante la letra griega ro. El coeficiente de Spearman expresa el grado en el que dos variables se relacionan monotónicamente. También se denomina correlación de rangos de Spearman, porque se puede usar con variables ordinales.
Chi cuadrado

La prueba chi cuadrado bidireccional es un método estadístico que mide el modo en que los valores esperados cercanos son los resultados reales. El método supone que las variables son aleatorias y se dibujan a partir de un ejemplo adecuado de variables independientes. La estadística chi cuadrado resultante indica cuántos resultados provienen del resultado esperado (aleatorio).
Score de Score

La puntuación de Fisher (también llamada método de Fisher o puntuación de probabilidad combinada de Fisher) a veces se denomina puntuación de la información, ya que representa la cantidad de información que una variable proporciona sobre algún parámetro desconocido del que depende.

La puntuación se calcula midiendo la varianza entre el valor esperado de la información y el valor observado. Cuando la varianza se minimiza, la información se maximiza. Puesto que la esperanza de la puntuación es cero, la información de Fisher también es la varianza de la puntuación.
Basada en recuento

La selección de características basada en recuento es una manera sencilla y, al mismo, relativamente eficaz de encontrar información acerca de los elementos de predicción. La idea básica subyacente de la caracterización basada en recuentos es sencilla: al calcular los recuentos de valores individuales dentro de una columna, puede obtener una idea de la distribución y el peso de los valores y, a partir de esto, comprender qué columnas contienen la información más importante.

La selección de características basada en recuento es un método no supervisado de selección de características, lo que significa que no se necesita una columna de etiqueta. Este método también reduce la dimensionalidad de los datos sin perder información.

Para obtener más información sobre cómo se crean las características basadas en recuento y por qué son útiles en el aprendizaje automático, consulte Learning con recuentos.

Sugerencia

Si necesita una opción diferente para el método de selección de características personalizado, use el módulo Ejecutar script de R.

Cómo configurar de la selección de características basada en filtros

Este módulo proporciona dos métodos para determinar las puntuaciones de características:

Generación de puntuaciones de características mediante una métrica estadística tradicional

Elija una métrica estadística estándar y el módulo calcula la correlación entre un par de columnas, la columna de etiqueta y una columna de características.
Uso de la selección de características basada en recuento

Con el método basado en recuento, el módulo calcula una puntuación basada exclusivamente en los valores de la columna.

Generación de puntuaciones de características mediante una métrica estadística tradicional

Agregue el módulo Selección de características basada en filtros al experimento. Puede encontrarlo en la categoría Selección de características de Studio (clásico).
Conecte un conjunto de datos de entrada que contenga al menos dos columnas que sean características potenciales.

Para asegurarse de que se debe analizar una columna y generar una puntuación de características, use el módulo Editar metadatos para establecer el atributo IsFeature.

Importante

Asegúrese de que las columnas que va a proporcionar como entrada son características potenciales. Por ejemplo, una columna que contiene un valor único no tiene ningún valor de información.

Si sabe que hay columnas que crearían características incorrectas, puede quitarlas de la selección de columnas. También puede usar el módulo Editar metadatos para marcarlos como Categóricos.

Para el Método de puntuación de características, elija uno de los siguientes métodos estadísticos establecidos para usar en el cálculo de puntuaciones.

Método	Requisitos
Correlación de Pearson	La etiqueta puede ser de texto o numérica. Las características deben ser numéricas.
Información mutua	Las etiquetas y características pueden ser de texto o numéricas. Use este método para calcular la importancia de las características para dos columnas de categorías.
Correlación de Kendall	La etiqueta puede ser texto o numérico, pero las características deben ser numéricas.
Correlación de Spearman	La etiqueta puede ser texto o numérico, pero las características deben ser numéricas.
Chi cuadrado	Las etiquetas y características pueden ser de texto o numéricas. Use este método para calcular la importancia de las características para dos columnas de categorías.
Puntuación de Fisher	La etiqueta puede ser texto o numérico, pero las características deben ser numéricas.
Recuentos	Vea: Para usar la selección Count-Based características

Sugerencia

Si cambia la métrica seleccionada, se restablecerán todas las demás selecciones, así que asegúrese de establecer esta opción en primer lugar)

Seleccione la opción Operan solo en las columnas de característica para generar una puntuación solo para las columnas que se han marcado previamente como características.

Si anula la selección de esta opción, el módulo creará una puntuación para cualquier columna que cumpla los criterios de otro modo, hasta el número de columnas especificado en Número de características deseadas.
En Columna de destino, haga clic en Iniciar selector de columnas para elegir la columna de etiqueta por nombre o por su índice (los índices están basados en uno).

Se requiere una columna de etiqueta para todos los métodos que impliquen correlación estadística. El módulo devuelve un error en tiempo de diseño si no elige ninguna columna de etiqueta o varias columnas de etiqueta.
Para un Número de características deseadas, escriba el número de columnas de características que desea que se devuelvan como resultado.
- El número mínimo de características que puede especificar es 1, pero se recomienda que aumente este valor.
- Si el número especificado de características deseadas es mayor que el número de columnas del conjunto de datos, se devuelven todas las características, incluso las que tienen puntuaciones cero.
- Si especifica menos columnas de resultados que columnas de características, las características se clasifican por puntuación descendente y solo se devuelven las características principales.
Ejecute el experimento o seleccione el módulo Selección de características basada en filtros y, a continuación, haga clic en Ejecutar seleccionado.

Resultados de la selección de características

Una vez completado el procesamiento:

Para ver una lista completa de las columnas de características que se han analizado y sus puntuaciones, haga clic con el botón derecho en el módulo, seleccione Característicasy haga clic en Visualizar.
Para ver el conjunto de datos que se genera en función de los criterios de selección de características, haga clic con el botón derecho en el módulo, seleccione Conjunto de datosy haga clic en visualizar.

Si el conjunto de datos contiene menos columnas de las esperadas, compruebe la configuración del módulo y los tipos de datos de las columnas proporcionadas como entrada. Por ejemplo, si establece Número de características deseadas en 1, el conjunto de datos de salida solo contiene dos columnas: la columna de etiqueta y la columna de características con mayor grado de clasificación.

Uso de la selección de características basada en recuentos

Agregue el módulo Selección de características basada en filtros al experimento. Puede encontrarlo en la lista de módulos de Studio (clásico), en el grupo Selección de características.
Conectar conjunto de datos de entrada que contiene al menos dos columnas que son características posibles.
Seleccione Recuento basado en en la lista de métodos estadísticos de la lista desplegable Método de puntuación de características.
En Minimum number of non-zero elements (Número mínimo de elementos distintos de cero), indique el número mínimo de columnas de características que se incluirán en la salida.

De forma predeterminada, el módulo genera todas las columnas que cumplen los requisitos. El módulo no puede generar ninguna columna que obtiene una puntuación de cero.
Ejecute el experimento o seleccione solo el módulo y haga clic en Ejecutar seleccionado.

Resultados de la selección de características basada en recuento

Para ver la lista de columnas de características con sus puntuaciones, haga clic con el botón derecho en el módulo, seleccione Características y haga clic en Visualizar .
Para ver el conjunto de datos que contiene las columnas analizadas, haga clic con el botón derecho en el módulo, seleccione Conjunto de datos y haga clic en Visualizar.

A diferencia de otros métodos, el método de selección de características Count Based no clasifica las variables por puntuaciones más altas, pero devuelve todas las variables con una puntuación distinta de cero, en su orden original.

Las características de cadena siempre obtienen una puntuación de cero (0) y, por tanto, no son de salida.

Ejemplos

Puede ver ejemplos de cómo se usa la selección de características en el Azure AI Gallery:

Clasificación de texto; En el tercer paso de este ejemplo, la selección de características basada en filtros se usa para identificar las 15 mejores características. El hash de características se usa para convertir los documentos de texto en vectores numéricos. A continuación, la correlación de Pearson se usa en las características vectoriales.
Selección de características de aprendizaje automático e ingeniería de características: en este artículo se proporciona una introducción a la selección de características y a la ingeniería de características en el aprendizaje automático.

Para ver ejemplos de puntuaciones de características, consulte Tabla de puntuaciones comparadas.

Notas técnicas

Puede encontrar este módulo en Transformación de datos, en la categoría Filtros.

Detalles de la implementación

Si usa correlación de Pearson, correlación de Kendall o correlación de Spearman en una característica numérica y una etiqueta de categorías, la puntuación de la característica se calcula de la siguiente manera:

Para cada nivel de la columna categórica, calcule la media condicional de la columna numérica.
Correlacione la columna de medias condicionales con la columna numérica.

Requisitos

No se puede generar una puntuación de selección de características para ninguna columna designada como etiqueta o como columna de puntuación.
Si intenta usar un método de puntuación con una columna de un tipo de datos no admitido por el método, el módulo generará un error o se asignará una puntuación de cero a la columna.
Si una columna contiene valores lógicos (verdadero/falso), se procesan como Verdadero = 1 y Falso = 0.
Una columna no puede ser una función si se ha designado como Label o como Score.

Cómo se controlan los valores que faltan

No se puede especificar como columna de destino (etiqueta) cualquier columna que tenga todos los valores que faltan.
Si una columna contiene valores que faltan, se omiten al calcular la puntuación de la columna.
Si una columna designada como columna de característica tiene todos los valores que faltan, se asigna una puntuación de cero.

Tabla de puntuaciones comparadas

Para darle una idea de cómo se comparan las puntuaciones al usar métricas diferentes, en la tabla siguiente se presentan algunas puntuaciones de selección de características de varias características del conjunto de datos de precios de automóviles, dada la variable dependiente highway-mpg.

Columna de características	Puntuación de Pearson	Puntuación de recuento	Puntuación de Kendall	Información mutua
highway-mpg	1	205	1	1
city-mpg	0.971337	205	0.892472	0.640386
curb-weight	0.797465	171	0.673447	0.326247
horsepower	0.770908	203	0.728289	0.448222
price	0.704692	201	0.651805	0.321788
length	0.704662205	205	0.53193	0.281317
engine-size	0.67747	205	0.581816	0.342399
width	0.677218	205	0.525585	0.285006
bore	0.594572	201	0.467345	0.263846
wheel-base	0.544082	205	0.407696	0.250641
compression-ratio	0.265201	205	0.337031	0.288459
sistema de combustible	na	na	na	0.308135
make	na	na	na	0.213872
ruedas de unidad	na	na	na	0.213171
height	na	na	na	0.1924
normalized-losses	na	na	na	0.181734
symboling	na	na	na	0.159521
num-of-cylinders	na	na	na	0.154731
tipo de motor	na	na	na	0.135641
Aspiración	na	na	na	0.068217
body-style	na	na	na	0.06369
tipo de combustible	na	na	na	0.049971
num-of-doors	na	na	na	0.017459
engine-location	na	na	na	0.010166

Se pueden crear puntuaciones de información mutua para todos los tipos de columna, incluidas las cadenas.
Las demás puntuaciones incluidas en esta tabla, como la correlación de Pearson o la selección de características basadas en recuento, requieren valores numéricos. Las características de cadena obtienen una puntuación de 0 y, por tanto, no se incluyen en la salida. Para ver las excepciones, consulte la sección Notas técnicas.
El método basado en recuento no trata una columna de etiqueta de forma diferente a las columnas de características.

Entradas esperadas

Nombre	Tipo	Descripción
Dataset	Tabla de datos	Conjunto de datos de entrada

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Método de puntuación de características	Lista	Método de puntuación		Elegir el método que se utilizará para puntuar
Operar solo en columnas de características	Any	Boolean	true	Indicar si se van a usar solamente columnas de característica en el proceso de puntuación
Columna de destino	Any	ColumnSelection	Ninguno	Especificar la columna de destino
Número de características deseadas	>=1	Entero	1	Especificar el número de características para la salida en los resultados
Número mínimo de elementos distintos de cero	>=1	Entero	1	Especificar el número de características para la salida (método Basada en recuento)

Salidas

Nombre	Tipo	Descripción
Conjunto de datos filtrado	Tabla de datos	Conjunto de datos filtrado
Características	Tabla de datos	Nombres de columnas de salida y puntuaciones de la selección de características

Excepciones

Excepción	Descripción
Error 0001	Se produce una excepción si no se encontraron una o más columnas especificadas del conjunto de datos.
Error 0003	Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0004	Se produce una excepción si el parámetro es menor o igual que el valor especificado.
Error 0017	Se produce una excepción si una o varias columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Selección de características
Análisis discriminante lineal de Fisher
Lista de módulos A-Z