Bosque de decisión multiclase

Crea un modelo de clasificación multiclase mediante el algoritmo de bosque de decisión

Categoría: machine learning/inicializar modelo/clasificación

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo bosque de decisión multiclase en Azure machine learning Studio (clásico) para crear un modelo de aprendizaje automático basado en el algoritmo de bosque de decisión de. Un bosque de decisión es un modelo de conjunto que crea muy rápidamente una serie de árboles de decisión, mientras aprende de los datos etiquetados.

Más información sobre los bosques de decisión

Este algoritmo de bosque de decisión es un método de aprendizaje de conjunto para la clasificación. El algoritmo crea varios árboles de decisión y después se vota la clase de resultado más popular. Votar es una forma de agregación en la que cada árbol de un bosque de decisión de clasificación produce un histograma de etiquetas de frecuencia no normalizada. El proceso de agregación suma estos histogramas y normaliza el resultado para obtener las "probabilidades" de cada etiqueta. Los árboles con un nivel alto de confianza en la predicción tienen un peso mayor en la decisión final del conjunto.

Los árboles de decisión en general son modelos no paramétricos, lo que significa que admiten datos con distribuciones variadas. En cada árbol se ejecuta una secuencia de pruebas simples para cada clase, lo que aumenta los niveles de la estructura de árbol hasta que se alcanza un nodo hoja (decisión).

Los árboles de decisión tienen muchas ventajas:

  • Pueden representar límites de decisión no lineales.
  • Son eficientes tanto en el cálculo como en la utilización de la memoria durante el entrenamiento y la predicción.
  • Realizan la selección y clasificación de características integradas.
  • Son resistentes en presencia de características ruidosas.

El clasificador de bosques de decisión en Azure Machine Learning Studio (clásico) consta de un conjunto de árboles de decisión. Por lo general, los modelos de conjunto proporcionan mejor cobertura y precisión que los árboles de decisión únicos. Para más información, vea Bosques de decisión.

Cómo configurar un bosque de decisión multiclase

Sugerencia

Si no está seguro de cuáles son los mejores parámetros, se recomienda usar el módulo optimizar los hiperparámetros del modelo para entrenar y probar varios modelos y encontrar los parámetros óptimos.

  1. Agregue el módulo bosque de decisión multiclase al experimento en Studio (clásico). Puede encontrar este módulo en Machine Learning, Inicializar modelo y Clasificación.

  2. Haga doble clic en el módulo para abrir el panel Propiedades.

  3. Para obtener información sobre el método de nuevo muestreo, elija el método utilizado para crear los árboles individuales. Puede elegir entre agregación o replicación.

    • Bagging (agregación): la agregación también se denomina agregación de arranque. En este método, cada árbol crece en una muestra nueva, creada al muestrear de forma aleatoria el conjunto de datos original con el conjunto de reemplazo hasta que haya un conjunto de datos con el tamaño del original. Los resultados de los modelos se combinan mediante votación, que es una forma de agregación. Para obtener más información, consulte la entrada de Wikipedia sobre la agregación de arranque.

    • Replicate (replicación): en la replicación, cada árbol se entrena exactamente con los mismos datos de entrada. La determinación de qué predicado de división se utiliza para cada nodo de árbol sigue siendo aleatoria, lo que crea árboles diversos.

    Consulte la sección configuración de un modelo de bosque de decisión multiclase para obtener instrucciones.

  4. Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).

    • Single Parameter (Parámetro único): seleccione esta opción si sabe cómo quiere configurar el modelo y proporcione un conjunto de valores como argumentos.

    • Intervalo de parámetros: Utilice esta opción si no está seguro de cuáles son los mejores parámetros y desea usar un barrido de parámetros.

  5. Número de árboles de decisión: escriba el número máximo de árboles de decisión que se pueden crear en el conjunto. Si crea más árboles de decisión, puede obtener potencialmente mejor cobertura, pero puede aumentar el tiempo de entrenamiento.

    Este valor también controla el número de árboles que se muestran en los resultados al visualizar el modelo entrenado. Para ver o imprimir un único árbol, puede establecer el valor en 1; sin embargo, esto significa que solo se puede producir un único árbol (el árbol con el conjunto inicial de parámetros) y que no se realizan más iteraciones.

  6. Profundidad máxima de los árboles de decisión: escriba un número para limitar la profundidad máxima de cualquier árbol de decisión. Al aumentar la profundidad del árbol podría aumentar la precisión, a riesgo de que se produzca un sobreajuste y aumente el tiempo de entrenamiento.

  7. Número de divisiones aleatorias por nodo: escriba el número de divisiones que se usarán al crear cada nodo del árbol. Una división significa que las características de cada nivel del árbol (nodo) se dividen al azar.

  8. Número mínimo de muestras por nodo hoja: indique el número mínimo de casos necesarios para crear un nodo terminal (hoja) en un árbol. Al aumentar este valor, aumenta el umbral para crear reglas nuevas.

    Por ejemplo, con el valor predeterminado de 1, incluso un solo caso puede provocar que se cree una regla nueva. Si aumenta el valor a 5, los datos de entrenamiento tienen que contener, como mínimo, cinco casos que cumplan las mismas condiciones.

  9. Permitir valores desconocidos para las características de categorías: Seleccione esta opción para crear un grupo para los valores desconocidos en los conjuntos de entrenamiento o de validación. El modelo podría ser menos preciso con valores conocidos, pero puede proporcionar mejores predicciones para los valores nuevos (desconocidos).

    Si anula la selección de esta opción, el modelo solo puede aceptar los valores que se encuentran en los datos de entrenamiento.

  10. Conecte un conjuntos con etiqueta y uno de los módulos de entrenamiento:

    • Si establece Create trainer mode (Crear modo entrenador) en Single Parameter (Parámetro único), use el módulo Entrenar modelo.

    • Si establece la opción crear modo de profesor en intervalo de parámetros, use el módulo ajustar hiperparámetros de modelo . Con esta opción, el instructor puede iterar varias combinaciones de la configuración y determinar los valores de parámetro que producen el mejor modelo.

    Nota

    Si pasa un intervalo de parámetros a Entrenar modelo, solo utiliza el primer valor en la lista del intervalo de parámetros.

    Si pasa un único conjunto de valores de parámetro al módulo Optimizar los hiperparámetros del modelo, cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.

    Si selecciona la opción Parameter Range (Intervalo de parámetros) y especifica un valor único para algún parámetro, ese valor único que haya especificado se utilizará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.

  11. Ejecute el experimento.

Results

Una vez completado el entrenamiento:

  • Para ver el árbol que se creó en cada iteración, haga clic con el botón derecho en entrenar modelo módulo y seleccione modelo entrenado para visualizar. Si usa los hiperparámetros del modelo de optimización, haga clic con el botón secundario en el módulo y seleccione modelo mejor entrenado para visualizar el mejor modelo. Haga clic en cada árbol para explorar en profundidad las divisiones y ver las reglas de cada nodo.

Ejemplos

Para ver ejemplos de cómo se usan los bosques de decisión en el aprendizaje automático, consulte la Azure AI Gallery:

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Detalles de la implementación

Cada árbol de un bosque de decisión de clasificación da como resultado un histograma de frecuencia no normalizado de etiquetas. En el proceso de agregación se suman estos histogramas y se normalizan para obtener las "probabilidades" de cada etiqueta. De esta manera, los árboles con confianza de predicción alta tienen un mayor peso en la decisión final del conjunto.

Para obtener más información acerca del proceso de entrenamiento con la opción replicar , consulte:

Cómo configurar un modelo de bosque de decisión multiclase

Puede cambiar la forma en que se configura el módulo para acomodar escenarios como, por ejemplo, demasiado pocos datos o tiempo limitado para el entrenamiento.

Tiempo de entrenamiento limitado

Si el conjunto de entrenamiento contiene un gran número de instancias, pero el tiempo que tiene disponible para entrenar el modelo es limitado, pruebe a usar estas opciones:

  • Cree un bosque de decisión que use un número pequeño de árboles de decisión (entre 5 y 10, por ejemplo).
  • Use la opción Replicar para volver a muestrear.
  • Especifique un número más pequeño de divisiones aleatorias por nodo (menos de 100, por ejemplo).

Conjunto de entrenamiento limitado

Si el conjunto de entrenamiento contiene un número limitado de instancias, pruebe a usar estas opciones:

  • Cree un bosque de decisión que use un número grande de árboles de decisión (más de 20, por ejemplo).
  • Use la opción Bagging para volver a muestrear.
  • Especifique un número grande de divisiones aleatorias por nodo (más de 1.000, por ejemplo).

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Método para volver a muestrear Any ResamplingMethod Bagging Elegir un método de remuestreo: bagging o replicate
Número de árboles de decisión >=1 Entero 8 Especificar el número de árboles de decisión para crear en el conjunto
Profundidad máxima de los árboles de decisión >=1 Entero 32 Especificar la profundidad máxima de cualquier árbol de decisión que se pueda crear
Número de divisiones aleatorias por nodo >=1 Entero 128 Especificar el número de divisiones generadas por nodo, a partir de las cuales se selecciona la división óptima
Número mínimo de muestras por nodo hoja >=1 Entero 1 Especificar el número mínimo de muestras de entrenamiento necesario para generar un nodo hoja
Permitir valores desconocidos para características de categorías Any Boolean True Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Salidas

Nombre Tipo Descripción
Modelo no entrenado Interfaz ILearner Un modelo de clasificación multiclase no entrenado

Consulta también

Nomenclatura
Bosque de decisión de dos clases
Regresión de bosque de decisión
Lista de módulos A-Z