Bosque de decisión multiclase

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Crea un modelo de clasificación multiclase mediante el algoritmo de bosque de decisión

Categoría: Machine Learning/ Inicializar modelo/Clasificación

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Bosque de decisión multiclase de Machine Learning Studio (clásico) para crear un modelo de aprendizaje automático basado en el algoritmo de bosque de decisión. Un bosque de decisión es un modelo de conjunto que crea rápidamente una serie de árboles de decisión, a la vez que aprende de los datos etiquetados.

Más información sobre los bosques de decisión

Este algoritmo de bosque de decisión es un método de aprendizaje de conjunto para la clasificación. El algoritmo crea varios árboles de decisión y después se vota la clase de resultado más popular. Votar es una forma de agregación en la que cada árbol de un bosque de decisión de clasificación produce un histograma de etiquetas de frecuencia no normalizada. El proceso de agregación suma estos histogramas y normaliza el resultado para obtener las "probabilidades" de cada etiqueta. Los árboles con un nivel alto de confianza en la predicción tienen un peso mayor en la decisión final del conjunto.

Los árboles de decisión en general son modelos no paramétricos, lo que significa que admiten datos con distribuciones variadas. En cada árbol se ejecuta una secuencia de pruebas simples para cada clase, lo que aumenta los niveles de la estructura de árbol hasta que se alcanza un nodo hoja (decisión).

Los árboles de decisión tienen muchas ventajas:

Pueden representar límites de decisión no lineales.
Son eficientes tanto en el cálculo como en la utilización de la memoria durante el entrenamiento y la predicción.
Realizan la selección y clasificación de características integradas.
Son resistentes en presencia de características ruidosas.

El clasificador de bosque de decisión Machine Learning Studio (clásico) consta de un conjunto de árboles de decisión. Por lo general, los modelos de conjunto proporcionan mejor cobertura y precisión que los árboles de decisión únicos. Para más información, vea Bosques de decisión.

Cómo configurar un bosque de decisión multiclase

Sugerencia

Si no está seguro de los mejores parámetros, se recomienda usar el módulo Optimizar hiperparámetros del modelo para entrenar y probar varios modelos y encontrar los parámetros óptimos .

Agregue el módulo Bosque de decisión multiclase al experimento en Studio (clásico). Puede encontrar este módulo en Machine Learning, Inicializar modelo y Clasificación.
Haga doble clic en el módulo para abrir el panel Propiedades.
Para obtener información sobre el método de nuevo muestreo, elija el método utilizado para crear los árboles individuales. Puede elegir entre agregación o replicación.
- Bagging (agregación): la agregación también se denomina agregación de arranque. En este método, cada árbol crece en una muestra nueva, creada al muestrear de forma aleatoria el conjunto de datos original con el conjunto de reemplazo hasta que haya un conjunto de datos con el tamaño del original. Los resultados de los modelos se combinan mediante votación, que es una forma de agregación. Para obtener más información, consulte la entrada de Wikipedia sobre la agregación de arranque.
- Replicate (replicación): en la replicación, cada árbol se entrena exactamente con los mismos datos de entrada. La determinación de qué predicado de división se utiliza para cada nodo de árbol sigue siendo aleatoria, lo que crea árboles diversos.
Consulte la sección How to Configure a Multiclass Decision Forest Model (Cómo configurar un modelo de bosque de decisión multiclase ) para obtener instrucciones.
Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).
- Single Parameter (Parámetro único): seleccione esta opción si sabe cómo quiere configurar el modelo y proporcione un conjunto de valores como argumentos.
- Intervalo de parámetros: use esta opción si no está seguro de los mejores parámetros y desea usar un barrido de parámetros.
Número de árboles de decisión: escriba el número máximo de árboles de decisión que se pueden crear en el conjunto. Si crea más árboles de decisión, puede obtener potencialmente mejor cobertura, pero puede aumentar el tiempo de entrenamiento.

Este valor también controla el número de árboles que se muestran en los resultados al visualizar el modelo entrenado. Para ver o imprimir un único árbol, puede establecer el valor en 1; sin embargo, esto significa que solo se puede producir un único árbol (el árbol con el conjunto inicial de parámetros) y que no se realizan más iteraciones.
Profundidad máxima de los árboles de decisión: escriba un número para limitar la profundidad máxima de cualquier árbol de decisión. Al aumentar la profundidad del árbol podría aumentar la precisión, a riesgo de que se produzca un sobreajuste y aumente el tiempo de entrenamiento.
Número de divisiones aleatorias por nodo: escriba el número de divisiones que se usarán al crear cada nodo del árbol. Una división significa que las características de cada nivel del árbol (nodo) se dividen al azar.
Número mínimo de muestras por nodo hoja: indique el número mínimo de casos necesarios para crear un nodo terminal (hoja) en un árbol. Al aumentar este valor, aumenta el umbral para crear reglas nuevas.

Por ejemplo, con el valor predeterminado de 1, incluso un solo caso puede provocar que se cree una regla nueva. Si aumenta el valor a 5, los datos de entrenamiento tienen que contener, como mínimo, cinco casos que cumplan las mismas condiciones.
Permitir valores desconocidos para características de categorías: seleccione esta opción para crear un grupo para valores desconocidos en los conjuntos de entrenamiento o validación. El modelo podría ser menos preciso con valores conocidos, pero puede proporcionar mejores predicciones para los valores nuevos (desconocidos).

Si anula la selección de esta opción, el modelo solo puede aceptar los valores que están presentes en los datos de entrenamiento.
Conectar un conjunto de datos etiquetado y uno de los módulos de entrenamiento:
- Si establece Create trainer mode (Crear modo entrenador) en Single Parameter (Parámetro único), use el módulo Entrenar modelo.
- Si establece la opción Create trainer mode (Crear modo de instructor) en Parameter Range (Intervalo de parámetros), use el módulo Tune Model Hyperparameters (Optimizar hiperparámetros del modelo). Con esta opción, el instructor puede recorrer en iteración varias combinaciones de la configuración y determinar los valores de parámetro que producen el mejor modelo.
Nota:

Si pasa un intervalo de parámetros a Entrenar modelo, solo utiliza el primer valor en la lista del intervalo de parámetros.

Si pasa un único conjunto de valores de parámetro al módulo Optimizar los hiperparámetros del modelo, cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.

Si selecciona la opción Parameter Range (Intervalo de parámetros) y especifica un valor único para algún parámetro, ese valor único que haya especificado se utilizará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.
Ejecute el experimento.

Results

Una vez completado el entrenamiento:

Para ver el árbol que se creó en cada iteración, haga clic con el botón derecho en el módulo Entrenar modelo y seleccione Modelo entrenado para visualizarlo. Si usa Optimizar hiperparámetros del modelo, haga clic con el botón derecho en el módulo y seleccione Trained best model (Mejor modelo entrenado) para visualizar el mejor modelo. Haga clic en cada árbol para explorar en profundidad las divisiones y ver las reglas de cada nodo.

Ejemplos

Para obtener ejemplos de cómo se usan los bosques de decisión en el aprendizaje automático, consulte el Azure AI Gallery:

Ejemplo de comparación de clasificadores multiclase: usa varios algoritmos y analiza sus ventajas y desventajas.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Detalles de la implementación

Cada árbol de un bosque de decisión de clasificación genera un histograma de frecuencia no normalizada de etiquetas. En el proceso de agregación se suman estos histogramas y se normalizan para obtener las "probabilidades" de cada etiqueta. De esta manera, los árboles que tienen una confianza de predicción alta tienen un mayor peso en la decisión final del conjunto.

Para obtener más información sobre el proceso de entrenamiento con la opción Replicar , vea:

Bosques de decisión para computer vision y análisis de imágenes médicas. Criminisi y Shotton. Springer 2013.

Configuración de un modelo de bosque de decisión multiclase

Puede cambiar la forma en que se configura el módulo para dar cabida a escenarios como demasiados datos o un tiempo limitado para el entrenamiento.

Tiempo de entrenamiento limitado

Si el conjunto de entrenamiento contiene un gran número de instancias, pero el tiempo que tiene disponible para entrenar el modelo es limitado, pruebe a usar estas opciones:

Cree un bosque de decisión que use un número pequeño de árboles de decisión (entre 5 y 10, por ejemplo).
Use la opción Replicar para volver a muestrear.
Especifique un número más pequeño de divisiones aleatorias por nodo (menos de 100, por ejemplo).

Conjunto de entrenamiento limitado

Si el conjunto de entrenamiento contiene un número limitado de instancias, pruebe a usar estas opciones:

Cree un bosque de decisión que use un número grande de árboles de decisión (más de 20, por ejemplo).
Use la opción Bagging para volver a muestrear.
Especifique un número grande de divisiones aleatorias por nodo (más de 1.000, por ejemplo).

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Método para volver a muestrear	Any	ResamplingMethod	Bagging	Elección de un método de remuestreo: etiquetado oreplicación
Número de árboles de decisión	>=1	Entero	8	Especificar el número de árboles de decisión para crear en el conjunto
Profundidad máxima de los árboles de decisión	>=1	Entero	32	Especificar la profundidad máxima de cualquier árbol de decisión que se pueda crear
Número de divisiones aleatorias por nodo	>=1	Entero	128	Especificar el número de divisiones generadas por nodo, a partir de las cuales se selecciona la división óptima
Número mínimo de muestras por nodo hoja	>=1	Entero	1	Especificar el número mínimo de muestras de entrenamiento necesario para generar un nodo hoja
Permitir valores desconocidos para características de categorías	Any	Boolean	True	Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Salidas

Nombre	Tipo	Descripción
Modelo no entrenado	Interfaz ILearner	Un modelo de clasificación multiclase no entrenado

Consulte también

Clasificación
Bosque de decisión de dos clases
Regresión de bosque de decisión
Lista de módulos A-Z