Regresión de bosque de decisión

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Crea un modelo de regresión con el algoritmo de bosque de decisión

Categoría: Inicializar modelo : regresión

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Regresión del bosque de decisión en Machine Learning Studio (clásico) para crear un modelo de regresión basado en un conjunto de árboles de decisión.

Una vez que haya configurado el modelo, debe entrenarlo mediante un conjunto de datos etiquetado y el módulo Entrenar modelo. A continuación, el modelo entrenado podrá usarse para realizar predicciones. Como alternativa, el modelo sin entrenar se puede pasar al modelo de validación cruzada para la validación cruzada en un conjunto de datos etiquetado.

Cómo funcionan los bosques de decisión en las tareas de regresión

Los árboles de decisión son modelos no paramétricos que llevan a cabo una secuencia de pruebas simples para cada instancia, atravesando una estructura de datos de árbol binario hasta alcanzar un nodo hoja (decisión).

Los árboles de decisión tienen las siguientes ventajas:

Son eficientes tanto en el cálculo como en la utilización de la memoria durante el entrenamiento y la predicción.
Pueden representar límites de decisión no lineales.
Realizan una clasificación y selección de características integradas y son resistentes en presencia de características ruidosas.

Este modelo de regresión consta de un conjunto de árboles de decisión. Cada árbol de un bosque de decisión de regresión da como resultado una predicción en forma de distribución gaussiana. Se realiza una agregación sobre el conjunto de árboles para buscar la distribución gaussiana más cercana a la distribución combinada de todos los árboles del modelo.

Para obtener más información sobre el marco teórico para este algoritmo y su implementación, vea este artículo: Bosques de decisión: un marco unificado para clasificación, regresión, estimación de densidad, Learning y Semi-Supervised Learning

Cómo configurar el modelo de regresión de bosque de decisión

Agregue el módulo Decision Forest Regression (Regresión de bosque de decisión) al experimento. Puede encontrar el módulo en Studio (clásico) en Machine Learning, Inicializar modelo y Regresión.
Abra las propiedades del módulo y, para Resampling method (Método de nuevo muestreo), elija el método utilizado para crear los árboles individuales. Puede elegir entre Bagging (Agregación) o Replicate (Replicación).
- Bagging (agregación): la agregación también se denomina agregación de arranque. Cada árbol de un bosque de decisión de regresión da como resultado una predicción en forma de distribución gaussiana. La agregación consiste en encontrar una distribución gaussiana cuyos dos primeros momentos coincidan con los momentos de la mezcla de distribuciones gaussianas determinada combinando todas las distribuciones gaussianas devueltas por los árboles individuales.
  
  Para obtener más información, consulte la entrada de Wikipedia sobre la agregación de arranque.
- Replicate (replicación): en la replicación, cada árbol se entrena exactamente con los mismos datos de entrada. La determinación de qué predicado de división se utiliza para cada nodo de árbol sigue siendo aleatoria y los árboles serán diversos.
  
  Para obtener más información sobre el proceso de entrenamiento con la opción Replicate (Replicación), consulte Bosques de decisión para Computer Vision y análisis de imágenes médicas. Criminisi y J. Shotton. Springer 2013. .
Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).
- Single Parameter (Parámetro único)
  
  Si sabe cómo quiere configurar el modelo, puede proporcionar un conjunto específico de valores como argumentos. Es posible que haya obtenido estos valores mediante experimentación o que los haya recibido como guía.
- Intervalo de parámetros
  
  Si no está seguro de los mejores parámetros, puede encontrar los parámetros óptimos especificando varios valores y usando un barrido de parámetros para encontrar la configuración óptima.
  
  Ajustar los hiperparámetros del modelo recorrerá en iteración todas las combinaciones posibles de la configuración proporcionada y determinará la combinación de configuración que genera los resultados óptimos.
Para Number of decision trees (Número de árboles de decisión), indique el número total de árboles de decisión que se creará en el conjunto. Si crea más árboles de decisión, puede obtener una cobertura potencialmente mejor, pero aumentará el tiempo de entrenamiento.

Sugerencia

Este valor también controla el número de árboles que se muestran al visualizar el modelo entrenado. Si desea ver o imprimir un único árbol, puede establecer el valor en 1; sin embargo, esto significa que solo se producirá un único árbol (el árbol con el conjunto inicial de parámetros) y que no se realizarán más iteraciones.
En Maximum depth of the decision trees (Profundidad máxima de los árboles de decisión), escriba un número para limitar la profundidad máxima de cualquier árbol de decisión. Al aumentar la profundidad del árbol podría aumentar la precisión, a riesgo de que se produzca un sobreajuste y aumente el tiempo de entrenamiento.
En Number of random splits per node (Número de divisiones aleatorias por nodo), escriba el número de divisiones que se usarán al crear cada nodo del árbol. Una división significa que las características de cada nivel del árbol (nodo) se dividen al azar.
En Minimum number of samples per leaf node (Número mínimo de muestras por nodo hoja), indique el número mínimo de casos que son necesarios para crear cualquier nodo terminal (hoja) en un árbol.

Al aumentar este valor, aumenta el umbral para crear reglas nuevas. Por ejemplo, con el valor predeterminado de 1, incluso un solo caso puede provocar que se cree una regla nueva. Si aumenta el valor a 5, los datos de entrenamiento tienen que contener, como mínimo, cinco casos que cumplan las mismas condiciones.
Seleccione la opción Permitir valores desconocidos para las características categóricas para crear un grupo de valores desconocidos en los conjuntos de entrenamiento o validación.

Si la desactiva, el modelo podrá aceptar únicamente los valores incluidos en los datos de entrenamiento. En el primer caso, es posible que el modelo sea menos preciso con los valores conocidos, pero proporcione mejores predicciones para los valores nuevos (desconocidos).
Conectar un conjunto de datos etiquetado, seleccione una sola columna de etiqueta que no contenga más de dos resultados y conecte Train Model (Entrenar modelo) o Tune Model Hyperparameters (Optimizar hiperparámetros del modelo).
- Si establece la opción Create trainer mode (Crear modo de entrenador) en Single Parameter (Parámetro único), entrene el modelo usando el módulo Entrenar modelo.
- Si establece la opción Create trainer mode (Crear modo de instructor) en Parameter Range (Intervalo de parámetros), entrena el modelo mediante Tune Model Hyperparameters (Optimizar hiperparámetros del modelo).
Ejecute el experimento.

Results

Una vez completado el entrenamiento:

Para ver el árbol que se ha creado en cada iteración, haga clic con el botón derecho en el resultado del módulo de entrenamiento y seleccione Visualizar.
Para ver las reglas de cada nodo, haga clic en cada árbol y explore en profundidad las divisiones.
Para guardar una instantánea del modelo entrenado, haga clic con el botón derecho en la salida del módulo de entrenamiento y seleccione Guardar como modelo entrenado. Esta copia del modelo no se actualiza en ejecuciones sucesivas del experimento.

Ejemplos

Para obtener ejemplos de modelos de regresión, consulte estos experimentos de ejemplo en la galería Cortana Intelligence:

Ejemplo comparar modelos de regresión: contrasta varios tipos diferentes de modelos de regresión.
Ejemplo de análisis de sentimiento: usa varios modelos de regresión diferentes para generar clasificaciones de predicción.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Si pasa un intervalo de parámetros a Entrenar modelo, solo usará el primer valor de la lista de intervalos de parámetros.
Si pasa un único conjunto de valores de parámetro al módulo Optimizar hiperparámetros del modelo, cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.
Si selecciona la opción Intervalo de parámetros y escribe un valor único para cualquier parámetro, ese valor único que especificó se usará a lo largo del barrido, incluso si otros parámetros cambian en un intervalo de valores.

Consejos de uso

Si tiene datos limitados o desea reducir el tiempo empleado en entrenar el modelo, pruebe estas configuraciones:

Conjunto de entrenamiento limitado. Si el conjunto de entrenamiento contiene un número limitado de instancias:

Crear el bosque de decisión usando un número grande de árboles de decisión (más de 20, por ejemplo)
Usar la opción Bagging para volver a muestrear
Especificar un gran número de divisiones aleatorias por nodo (por ejemplo, más de 1000)

Tiempo de entrenamiento limitado. Si el conjunto de entrenamiento contiene un número grande de instancias y el tiempo de entrenamiento es limitado:

Crear el bosque de decisión usando pocos árboles de decisión (entre 5 y 10, por ejemplo)
Usar la opción Replicar para volver a muestrear
Especificar un número pequeño de divisiones aleatorias por nodo (menos de 100, por ejemplo)

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Método para volver a muestrear	cualquiera	ResamplingMethod	Bagging	Elegir un método para volver a muestrear
Número de árboles de decisión	>=1	Entero	8	Especificar el número de árboles de decisión para crear en el conjunto
Profundidad máxima de los árboles de decisión	>=1	Entero	32	Especificar la profundidad máxima de cualquier árbol de decisión que se pueden crear en el conjunto
Número de divisiones aleatorias por nodo	>=1	Entero	128	Especificar el número de divisiones generadas por nodo, a partir de las cuales se selecciona la división óptima
Número mínimo de muestras por nodo hoja	>=1	Entero	1	Especificar el número mínimo de muestras de entrenamiento necesario para generar un nodo hoja
Permitir valores desconocidos para características de categorías	cualquiera	Boolean	true	Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Salidas

Nombre	Tipo	Descripción
Modelo no entrenado	Interfaz ILearner	Un modelo de regresión no entrenado

Consulte también

Regresión

Lista de módulos A-Z