Módulos de selección de características

En este artículo se describen los módulos de Azure Machine Learning Studio (clásico) que puede usar para la selección de características.

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

La selección de características es una herramienta importante del aprendizaje automático. Machine Learning Studio (clásico) proporciona varios métodos para realizar la selección de características. Elija un método de selección de características en función del tipo de datos que tenga y de los requisitos de la técnica estadística que se aplica.

En este artículo se describe:

Cada módulo de selección de características en Machine Learning Studio (clásico) utiliza un conjunto de datos como entrada. A continuación, el módulo aplica métodos estadísticos conocidos a las columnas de datos que se proporcionan como entrada. La salida es un conjunto de métricas que puede ayudarle a identificar las columnas que tienen el mejor valor de información.

Acerca de la selección de características

En machine learning y las estadísticas, la selección de características es el proceso de selección de un subconjunto de características relevantes y útiles para la creación de un modelo analítico. La selección de características ayuda a reducir el campo de los datos a las entradas más valiosas. Restringir el campo de los datos ayuda a reducir el ruido y mejorar el rendimiento del entrenamiento.

A menudo, las características se crean a partir de datos sin procesar a través de un proceso de ingeniería de características. Por ejemplo, una marca de tiempo propiamente dicha podría no ser útil para el modelado hasta que la información se transforme en unidades de días, meses o categorías relevantes para el problema, como vacaciones frente al día laborable.

Es posible que los nuevos usuarios de machine learning estén tentados a incluir todos los datos que están disponibles. Podrían esperar que el algoritmo encuentre algo interesante mediante el uso de más datos. Sin embargo, la selección de características normalmente puede mejorar el modelo y evitar problemas comunes:

  • Los datos contienen características redundantes o irrelevantes, que no proporcionan más información que las características seleccionadas actualmente.
  • Los datos contienen características irrelevantes que no proporcionan información útil en ningún contexto. La inclusión de campos irrelevantes no solo aumenta el tiempo necesario para entrenar los datos, sino que también puede dar lugar a resultados deficientes.
  • Con algunos algoritmos, la existencia de información duplicada en los datos de entrenamiento puede conducir a un fenómeno llamado multicolinealidad. En multicolinealidad, la presencia de dos variables muy correlacionadas puede hacer que los cálculos de otras variables sean mucho menos precisos.

Sugerencia

Algunos algoritmos de aprendizaje automático de Machine Learning Studio (clásico) también usan la selección de características o la reducción de dimensionalidad como parte del proceso de entrenamiento. Cuando se usan estos aprendices, puede omitir el proceso de selección de características y dejar que el algoritmo decida las mejores entradas.

Usar la selección de características en un experimento

La selección de características se realiza normalmente cuando se exploran datos y se desarrolla un nuevo modelo. Tenga en cuenta estas sugerencias cuando use la selección de características:

  • Al realizar las pruebas, agregue la selección de características al experimento para generar puntuaciones que informan sobre las columnas que se deben usar.
  • Quitar la selección de características del experimento al poner en marcha un modelo.
  • Ejecute la selección de características periódicamente para asegurarse de que los datos y las mejores características no hayan cambiado.

La selección de características es diferente de la ingeniería de características, que se centra en la creación de nuevas características a partir de los datos existentes.

Recursos

  • Para obtener una explicación de las distintas formas en que puede diseñar características o seleccionar las mejores características como parte del proceso de ciencia de datos, consulte ingeniería de características en ciencia de datos.
  • Para ver un tutorial de selección de características en el proceso de ciencia de datos, consulte características de filtro de la selecciónde características de datos.

Métodos de selección de características en Machine Learning Studio (clásico)

Los siguientes módulos de selección de características se proporcionan en Machine Learning Studio (clásico).

Selección de características basada en filtro

Al usar el módulo selección de características basada en filtro , puede elegir entre los métodos de selección de características conocidos. El módulo genera las estadísticas de selección de características y el conjunto de resultados filtrado.

La elección de un método de selección de filtro depende en parte de qué tipo de datos de entrada tiene.

Método Entradas de característica admitidas Etiquetas admitidas
Correlación de Pearson Solo columnas numéricas y lógicas Una sola columna numérica o lógica
Puntuación de información mutua Todos los tipos de datos Una sola columna de cualquier tipo de datos
Coeficiente de correlación de Kendall Solo columnas numéricas y lógicas Una sola columna numérica o lógica

Las columnas deben tener valores que se puedan clasificar
Coeficiente de correlación de Spearman Solo columnas numéricas y lógicas Una sola columna numérica o lógica
Estadística de chi cuadrado Todos los tipos de datos Una sola columna de cualquier tipo de datos
Puntuación de Fisher Solo columnas numéricas y lógicas Una sola columna numérica o lógica

A las columnas de cadena se les asigna una puntuación de 0
Selección de características basada en recuento Todos los tipos de datos No se requiere una columna de etiqueta

Análisis discriminante lineal de Fisher

El análisis de discriminante lineal es una técnica de aprendizaje supervisado que se puede usar para clasificar variables numéricas junto con un único destino de categoría. El método es útil para la selección de características porque identifica la combinación de características o parámetros que mejor separa los grupos.

Puede usar el módulo Fisher linear discriminante Analysis para generar un conjunto de puntuaciones para su revisión, o bien puede usar el conjunto de los conjuntos de resultados que genera el módulo para el entrenamiento.

Importancia de la característica de permutación

Use el módulo importancia de la característica de permutación para simular el efecto de cualquier conjunto de características en el conjunto de elementos. El módulo calcula las puntuaciones de rendimiento de un modelo según la orden aleatorio aleatoria de los valores de las características.

Las puntuaciones que devuelve el módulo representan el posible cambio en la precisión de un modelo entrenado si cambian los valores. Puede utilizar las puntuaciones para determinar el efecto de las variables individuales en el modelo.

Algoritmos de aprendizaje automático que incorporan la selección de características

Algunos algoritmos de aprendizaje automático en Machine Learning Studio (clásico) optimizan la selección de características durante el entrenamiento. También pueden proporcionar parámetros que ayuden a la selección de características. Si usa un método que tiene su propia heurística para elegir características, a menudo es mejor confiar en esa heurística en lugar de en las características que se preseleccionan.

Estos algoritmos y métodos de selección de características se usan internamente:

  • Modelos de árbol de decisión mejorados para la clasificación y la regresión

    En estos módulos, se crea internamente un resumen de características. Las características que tienen un peso de 0 no se usan en las divisiones de árbol. Cuando visualice el mejor modelo entrenado, puede examinar cada uno de los árboles. Si una característica no se usa nunca en ningún árbol, es probable que la característica sea candidata para su eliminación. Para optimizar la selección, también es una buena idea usar el barrido de parámetros.

  • Modelos de regresión logística y modelos lineales

    Los módulos para la regresión logística multiclase y binaria admiten los regularizacións L1 y L2. Regularización es una manera de agregar restricciones durante el entrenamiento para especificar manualmente un aspecto del modelo aprendido. Normalmente, regularización se usa para evitar el sobreajuste. Machine Learning Studio (clásico) admite regularización para las normativas L1 o L2 del vector de peso en los algoritmos de clasificación lineal:

    • L1 regularización es útil si el objetivo es tener un modelo lo más disperso posible.
    • La regularización L2 impide que una única coordenada del vector de peso crezca demasiado en magnitud. Resulta útil si el objetivo es tener un modelo con pesos generales reducidos.
    • L1: la regresión logística normal es más agresiva con respecto a la asignación de un peso de 0 a las características. Es útil para identificar las características que se pueden quitar.

Notas técnicas

Todos los módulos de selección de características y los métodos analíticos que admiten columnas numéricas y lógicas también admiten columnas de fecha y hora y de intervalo de tiempo. Estas columnas se tratan como columnas numéricas simples en las que cada valor es igual al número de pasos.

Los siguientes módulos no están en la categoría selección de características , pero puede usarlos para tareas relacionadas. Los módulos pueden ayudarle a reducir la dimensionalidad de los datos o a encontrar correlaciones:

Si tiene un conjunto de datos que tiene muchas columnas, use el módulo de análisis de componentes principales para detectar las columnas que contienen más información sobre los datos originales.

Este módulo se encuentra en la categoría transformación de datos , en escala y reducir.

La características basada en recuento es una técnica nueva que puede usar para determinar características útiles usando grandes conjuntos de valores. Use estos módulos para analizar los conjuntos de datos con el fin de encontrar las mejores características, guardar un conjunto de características para usarlas con los nuevos datos o actualizar un conjunto de características existente.

Use este módulo para calcular un conjunto de coeficientes de correlación de Pearson para cada par de variables posible del conjunto de datos de entrada. El coeficiente de correlación de Pearson, también denominado prueba de R de Pearson, es un valor estadístico que mide la relación lineal entre dos variables.

Este módulo se encuentra en la categoría funciones estadísticas .

Lista de módulos

La categoría selección de características incluye estos módulos:

Vea también