Selva de decisión multiclase

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Crea un modelo de clasificación multiclase mediante el algoritmo de selva de decisión.

Categoría: Machine Learning/ Inicializar modelo/Clasificación

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Multiclass Decision Module de Machine Learning Studio (clásico) para crear un modelo de aprendizaje automático basado en un algoritmo de aprendizaje supervisado denominado "decision- ús".

Defina el modelo y sus parámetros mediante este módulo y, a continuación, conecte un conjunto de datos de entrenamiento etiquetado para entrenar el modelo mediante uno de los módulos de entrenamiento. El modelo entrenado se puede usar para predecir un destino que tiene varios valores.

Más información sobre las decisiones

Los bosques de decisión son una extensión reciente de los bosques de decisión. Una selva de decisión consta de un conjunto de grafos acíclicos dirigidos (DAG) de decisión.

Las selvas de decisión tienen las siguientes ventajas:

Permitiendo tres ramas para combinar, un DAG de decisión normalmente tiene menor consumo de memoria y mejor rendimiento de generalización que un árbol de decisión, aunque sea a costa de un mayor tiempo de entrenamiento.
Las selvas de decisión son modelos no paramétricos que pueden representar límites de decisión no lineales.
Realizan una clasificación y selección de características integradas y son resistentes en presencia de características ruidosas.

Para obtener más información sobre la investigación detrás de este algoritmo de aprendizaje automático, vea Decision Alcándanos: Modelos compactos y enriquecidos para clasificación (PDF descargable).

Cómo configurar el modelo de decisión multiclase de decisión

Agregue el módulo Multiclass Decision Module al experimento en Studio (clásico). Puede encontrar este módulo en Machine Learning, Inicializar modelo y Clasificación.
Haga doble clic en el módulo para abrir el panel Propiedades.
Método de remuestreo, elija el método para crear varios árboles, ya sea etiquetado o replicación.
- Etiquetado: seleccione esta opción para usar el etiquetado, también denominado agregación de arranque.
  
  Cada árbol de un bosque de decisión da como resultado una predicción en forma de distribución gaussiana. La agregación consiste en encontrar una distribución gaussiana cuyos dos primeros momentos coincidan con los momentos de la mezcla de distribuciones gaussianas determinada combinando todas las distribuciones gaussianas devueltas por los árboles individuales.
- Replicar: seleccione esta opción para usar la replicación. En este método, cada árbol se entrena exactamente en los mismos datos de entrada. La determinación de qué predicado de división se usa para cada nodo de árbol sigue siendo aleatoria, por lo que se crean árboles diversos.
Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).
- Parámetro único: use esta opción cuando sepa cómo desea configurar el modelo.
- Intervalo de parámetros: use esta opción si no está seguro de los mejores parámetros y desea usar un barrido de parámetros.
Número de DAG de decisión: indica el número máximo de gráficos que se pueden crear en el conjunto.
Profundidad máxima de los DAG de decisión: especifique la profundidad máxima de cada gráfico.
Ancho máximo de los DAG de decisión: especifique el ancho máximo de cada gráfico.
Número de pasos de optimización por capa de DAG de decisión: indique cuántas iteraciones sobre los datos se realizarán al compilar cada DAG.
Permitir valores desconocidos para características de categorías: seleccione esta opción para crear un grupo para valores desconocidos en los datos de prueba o validación. El modelo podría ser menos preciso con valores conocidos, pero puede proporcionar mejores predicciones para los valores nuevos (desconocidos).

Si anula la selección de esta opción, el modelo solo puede aceptar los valores que estaban presentes en los datos de entrenamiento.
Conecte un conjunto de datos etiquetados y uno de los módulos de entrenamiento:
- Si establece Create trainer mode (Crear modo entrenador) en Single Parameter (Parámetro único), use el módulo Entrenar modelo.
- Si establece Create trainer mode (Crear modo entrenador) para Parameter Range (Intervalo de parámetros), use el módulo Optimizar los hiperparámetros del modelo. Con esta opción, el algoritmo recorre en iteración varias combinaciones de la configuración proporcionada y determina la combinación de valores que genera el mejor modelo.
Nota:

Si pasa un intervalo de parámetros a Entrenar modelo, solo utiliza el primer valor en la lista del intervalo de parámetros.

Si pasa un único conjunto de valores de parámetro al módulo Optimizar los hiperparámetros del modelo, cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.

Si selecciona la opción Parameter Range (Intervalo de parámetros) y especifica un valor único para algún parámetro, ese valor único que haya especificado se utilizará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.
Ejecute el experimento.

Results

Una vez completado el entrenamiento:

Para usar el modelo para la puntuación, conéctelo a Score Model (Modelo de puntuación) para predecir los valores de ejemplos de nuevas entradas.

Ejemplos

Para obtener ejemplos de cómo se usan los bosques de decisión en el aprendizaje automático, consulte el Azure AI Gallery:

Ejemplo de comparación de clasificadores multiclase: usa varios algoritmos y analiza sus ventajas y desventajas.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Para obtener más información sobre el proceso de entrenamiento con la opción Replicar , vea:

Bosques de decisión para computer vision y análisis de imágenes médicas. Criminisi y Shotton. Springer 2013

Consejos de uso

Si tiene datos limitados o quiere minimizar el tiempo dedicado a entrenar el modelo, pruebe estas recomendaciones:

Conjunto de entrenamiento limitado

Si el conjunto de entrenamiento contiene un número limitado de instancias:

Crear la selva de decisión usando un número grande de DAG de decisión (más de 20, por ejemplo)
Use la opción Bagging para volver a muestrear.
Especifique un número grande de pasos de optimización por nivel de DAG (por ejemplo, más de 10 000).

Tiempo de entrenamiento limitado

Si el conjunto de entrenamiento contiene un número grande de instancias y el tiempo de entrenamiento es limitado:

Cree el círculo de decisión que usa un número menor de DAG de decisión (por ejemplo, 5-10).
Use la opción Replicar para volver a muestrear.
Especifique un número más pequeño de pasos de optimización por nivel de DAG (por ejemplo, menos de 2000).

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Método para volver a muestrear	Any	ResamplingMethod	Bagging	Elegir un método para volver a muestrear
Número de DAG de decisión	>=1	Entero	8	Especificar el número de grafos de decisión que se pueden crear en el conjunto
Profundidad máxima de DAG de decisión	>=1	Entero	32	Especificar la profundidad máxima de los grafos de decisión para crear en el conjunto
Ancho máximo de DAG de decisión	>=8	Entero	128	Especificar el ancho máximo de los grafos de decisión para crear en el conjunto
Número de pasos de optimización por nivel de DAG de decisión	>=1000	Entero	2048	Especificar el número de pasos que se deben seguir para optimizar cada nivel de los grafos de decisión
Permitir valores desconocidos para características de categorías	Any	Boolean	True	Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Salidas

Nombre	Tipo	Descripción
Modelo no entrenado	Interfaz ILearner	Un modelo de clasificación multiclase no entrenado

Consulte también

Selva de decisión de dos clases
Clasificación
Lista de módulos A-Z