Regresión de bosque de decisión

Crea un modelo de regresión con el algoritmo de bosque de decisión

Categoría: inicializar modelo-regresión

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo regresión de bosque de decisión en Azure machine learning Studio (clásico) para crear un modelo de regresión basado en un conjunto de árboles de decisión.

Una vez que haya configurado el modelo, debe entrenarlo mediante un conjunto de datos etiquetado y el módulo Entrenar modelo. A continuación, el modelo entrenado podrá usarse para realizar predicciones. Como alternativa, el modelo no entrenado puede pasarse al modelo de validación cruzada para la validación cruzada en un conjunto de datos etiquetado.

Cómo funcionan los bosques de decisión en las tareas de regresión

Los árboles de decisión son modelos no paramétricos que llevan a cabo una secuencia de pruebas simples para cada instancia, atravesando una estructura de datos de árbol binario hasta alcanzar un nodo hoja (decisión).

Los árboles de decisión tienen las siguientes ventajas:

  • Son eficientes tanto en el cálculo como en la utilización de la memoria durante el entrenamiento y la predicción.

  • Pueden representar límites de decisión no lineales.

  • Realizan una clasificación y selección de características integradas y son resistentes en presencia de características ruidosas.

Este modelo de regresión consta de un conjunto de árboles de decisión. Cada árbol de un bosque de decisión de regresión da como resultado una predicción en forma de distribución gaussiana. Se realiza una agregación sobre el conjunto de árboles para buscar la distribución gaussiana más cercana a la distribución combinada de todos los árboles del modelo.

Para obtener más información sobre el marco de trabajo teórico para este algoritmo y su implementación, consulte este artículo: bosques de decisión: un marco unificado para la clasificación, regresión, estimación de densidad, aprendizaje de colectores y aprendizaje de Semi-Supervised

Cómo configurar el modelo de regresión de bosque de decisión

  1. Agregue el módulo Decision Forest Regression (Regresión de bosque de decisión) al experimento. Puede encontrar el módulo en Studio (clásico) en machine learning, inicializar modelo y regresión.

  2. Abra las propiedades del módulo y, para Resampling method (Método de nuevo muestreo), elija el método utilizado para crear los árboles individuales. Puede elegir entre Bagging (Agregación) o Replicate (Replicación).

    • Bagging (agregación): la agregación también se denomina agregación de arranque. Cada árbol de un bosque de decisión de regresión da como resultado una predicción en forma de distribución gaussiana. La agregación consiste en encontrar una distribución gaussiana cuyos dos primeros momentos coincidan con los momentos de la mezcla de distribuciones gaussianas determinada combinando todas las distribuciones gaussianas devueltas por los árboles individuales.

      Para obtener más información, consulte la entrada de Wikipedia sobre la agregación de arranque.

    • Replicate (replicación): en la replicación, cada árbol se entrena exactamente con los mismos datos de entrada. La determinación de qué predicado de división se utiliza para cada nodo de árbol sigue siendo aleatoria y los árboles serán diversos.

      Para obtener más información sobre el proceso de entrenamiento con la opción Replicate (Replicación), consulte Bosques de decisión para Computer Vision y análisis de imágenes médicas. Criminisi y J. Shotton. Springer 2013..

  3. Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).

    • Single Parameter (Parámetro único)

      Si sabe cómo quiere configurar el modelo, puede proporcionar un conjunto específico de valores como argumentos. Es posible que haya obtenido estos valores mediante experimentación o que los haya recibido como guía.

    • Intervalo de parámetros

      Si no está seguro de los mejores parámetros, puede encontrar los parámetros óptimos mediante la especificación de varios valores y el uso de un barrido de parámetros para encontrar la configuración óptima.

      Optimizar los hiperparámetros del modelo iterará todas las posibles combinaciones de los valores de configuración proporcionados y determinará la combinación de valores que generan los resultados óptimos.

  4. Para Number of decision trees (Número de árboles de decisión), indique el número total de árboles de decisión que se creará en el conjunto. Si crea más árboles de decisión, puede obtener una cobertura potencialmente mejor, pero aumentará el tiempo de entrenamiento.

    Sugerencia

    Este valor también controla el número de árboles que se muestran al visualizar el modelo entrenado. Si desea ver o imprimir un único árbol, puede establecer el valor en 1; sin embargo, esto significa que solo se producirá un único árbol (el árbol con el conjunto inicial de parámetros) y que no se realizarán más iteraciones.

  5. En Maximum depth of the decision trees (Profundidad máxima de los árboles de decisión), escriba un número para limitar la profundidad máxima de cualquier árbol de decisión. Al aumentar la profundidad del árbol podría aumentar la precisión, a riesgo de que se produzca un sobreajuste y aumente el tiempo de entrenamiento.

  6. En Number of random splits per node (Número de divisiones aleatorias por nodo), escriba el número de divisiones que se usarán al crear cada nodo del árbol. Una división significa que las características de cada nivel del árbol (nodo) se dividen al azar.

  7. En Minimum number of samples per leaf node (Número mínimo de muestras por nodo hoja), indique el número mínimo de casos que son necesarios para crear cualquier nodo terminal (hoja) en un árbol.

    Al aumentar este valor, aumenta el umbral para crear reglas nuevas. Por ejemplo, con el valor predeterminado de 1, incluso un solo caso puede provocar que se cree una regla nueva. Si aumenta el valor a 5, los datos de entrenamiento tienen que contener, como mínimo, cinco casos que cumplan las mismas condiciones.

  8. Seleccione la opción Permitir valores desconocidos para las características categóricas para crear un grupo de valores desconocidos en los conjuntos de entrenamiento o validación.

    Si la desactiva, el modelo podrá aceptar únicamente los valores incluidos en los datos de entrenamiento. En el primer caso, es posible que el modelo sea menos preciso con los valores conocidos, pero proporcione mejores predicciones para los valores nuevos (desconocidos).

  9. Conecte un conjunto de DataSet con etiqueta, seleccione una columna de una sola etiqueta que no contenga más de dos resultados y conecte los hiperparámetros entrenar modelo o ajustar modelo.

    • Si establece la opción Create trainer mode (Crear modo de entrenador) en Single Parameter (Parámetro único), entrene el modelo usando el módulo Entrenar modelo.

    • Si establece la opción crear modo de profesor en intervalo de parámetros, entrenar el modelo mediante el uso de los hiperparámetros del modelo de optimización.

  10. Ejecute el experimento.

Results

Una vez completado el entrenamiento:

  • Para ver el árbol que se ha creado en cada iteración, haga clic con el botón derecho en el resultado del módulo de entrenamiento y seleccione Visualizar.

  • Para ver las reglas de cada nodo, haga clic en cada árbol y explore en profundidad las divisiones.

  • Para guardar una instantánea del modelo entrenado, haga clic con el botón derecho en el resultado del módulo de entrenamiento y seleccione Guardar como modelo entrenado. Esta copia del modelo no se actualiza en ejecuciones sucesivas del experimento.

Ejemplos

Para ver ejemplos de modelos de regresión, consulte estos experimentos de ejemplo en la Galería de Cortana Intelligence:

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

  • Si pasa un intervalo de parámetros a entrenar modelo, usará solo el primer valor de la lista de intervalos de parámetros.

  • Si pasa un único conjunto de valores de parámetro al módulo ajustar los hiperparámetros del modelo , cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.

  • Si selecciona la opción intervalo de parámetros y especifica un valor único para cualquier parámetro, ese valor único que haya especificado se usará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.

Consejos de uso

Si tiene datos limitados o desea reducir el tiempo empleado en entrenar el modelo, pruebe estas configuraciones:

Conjunto de entrenamiento limitado. Si el conjunto de entrenamiento contiene un número limitado de instancias:

  • Crear el bosque de decisión usando un número grande de árboles de decisión (más de 20, por ejemplo)

  • Usar la opción Bagging para volver a muestrear

  • Especifique un número grande de divisiones aleatorias por nodo (por ejemplo, más de 1000)

Tiempo de entrenamiento limitado. Si el conjunto de entrenamiento contiene un número grande de instancias y el tiempo de entrenamiento es limitado:

  • Crear el bosque de decisión usando pocos árboles de decisión (entre 5 y 10, por ejemplo)

  • Usar la opción Replicar para volver a muestrear

  • Especificar un número pequeño de divisiones aleatorias por nodo (menos de 100, por ejemplo)

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Método para volver a muestrear cualquiera ResamplingMethod Bagging Elegir un método para volver a muestrear
Número de árboles de decisión >=1 Entero 8 Especificar el número de árboles de decisión para crear en el conjunto
Profundidad máxima de los árboles de decisión >=1 Entero 32 Especificar la profundidad máxima de cualquier árbol de decisión que se pueden crear en el conjunto
Número de divisiones aleatorias por nodo >=1 Entero 128 Especificar el número de divisiones generadas por nodo, a partir de las cuales se selecciona la división óptima
Número mínimo de muestras por nodo hoja >=1 Entero 1 Especificar el número mínimo de muestras de entrenamiento necesario para generar un nodo hoja
Permitir valores desconocidos para características de categorías cualquiera Boolean true Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Salidas

Nombre Tipo Descripción
Modelo no entrenado Interfaz ILearner Un modelo de regresión no entrenado

Consulte también

Regresión

Lista de módulos A-Z