Selva de decisión multiclase

Crea un modelo de clasificación multiclase mediante el algoritmo de selva de decisión.

Categoría: machine learning/inicializar modelo/clasificación

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo selva de decisión multiclase en Azure machine learning Studio (clásico) para crear un modelo de aprendizaje automático basado en un algoritmo de aprendizaje supervisado denominado selvas de decisión.

Defina el modelo y sus parámetros mediante este módulo y, a continuación, conecte un conjunto de datos de entrenamiento etiquetado para entrenar el modelo mediante uno de los módulos de entrenamiento. El modelo entrenado se puede usar para predecir un destino que tiene varios valores.

Más información acerca de las selvas de decisión

Las selvas de decisión son una extensión reciente de los bosques de decisión. Una selva de decisión consta de un conjunto de grafos acíclicos dirigidos (DAG) de decisión.

Las selvas de decisión tienen las siguientes ventajas:

  • Permitiendo tres ramas para combinar, un DAG de decisión normalmente tiene menor consumo de memoria y mejor rendimiento de generalización que un árbol de decisión, aunque sea a costa de un mayor tiempo de entrenamiento.

  • Las selvas de decisión son modelos no paramétricos que pueden representar límites de decisión no lineales.

  • Realizan una clasificación y selección de características integradas y son resistentes en presencia de características ruidosas.

Para obtener más información acerca de la investigación que subyace a este algoritmo de aprendizaje automático, consulte selvas de decisión: modelos compactos y completos para la clasificación (PDF descargable).

Cómo configurar el modelo de la selva de decisión multiclase

  1. Agregue el módulo selva de decisión multiclase a su experimento en Studio (clásico). Puede encontrar este módulo en Machine Learning, Inicializar modelo y Clasificación.

  2. Haga doble clic en el módulo para abrir el panel Propiedades.

  3. Método de remuestreo, elija el método para crear varios árboles, ya sea bagging o Replication.

    • Bagging: Seleccione esta opción para usar bagging, también denominado agregación de bootstrap.

      Cada árbol de un bosque de decisión genera una distribución gaussiano por medio de una predicción. La agregación consiste en encontrar una distribución gaussiana cuyos dos primeros momentos coincidan con los momentos de la mezcla de distribuciones gaussianas determinada combinando todas las distribuciones gaussianas devueltas por los árboles individuales.

    • Replicar: Seleccione esta opción para usar la replicación. En este método, cada árbol se entrena exactamente en los mismos datos de entrada. La determinación del predicado de división que se usa para cada nodo de árbol permanece aleatoria, por lo que se crean árboles diversos.

  4. Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).

    • Parámetro único: Use esta opción cuando sepa cómo desea configurar el modelo.

    • Intervalo de parámetros: Utilice esta opción si no está seguro de cuáles son los mejores parámetros y desea usar un barrido de parámetros.

  5. Número de Dag de decisión: indique el número máximo de gráficos que se pueden crear en el conjunto.

  6. Profundidad máxima de los Dag de decisión: especifique la profundidad máxima de cada gráfico.

  7. Ancho máximo de los Dag de decisión: especifique el ancho máximo de cada gráfico.

  8. Número de pasos de optimización por nivel de Dag de decisión: indique el número de iteraciones sobre los datos que se deben realizar al compilar cada Dag.

  9. Permitir valores desconocidos para las características de categorías: Seleccione esta opción para crear un grupo de valores desconocidos en los datos de prueba o validación. El modelo podría ser menos preciso con valores conocidos, pero puede proporcionar mejores predicciones para los valores nuevos (desconocidos).

    Si anula la selección de esta opción, el modelo solo puede aceptar los valores que estaban presentes en los datos de entrenamiento.

  10. Conecte un conjunto de datos etiquetados y uno de los módulos de entrenamiento:

    • Si establece Create trainer mode (Crear modo entrenador) en Single Parameter (Parámetro único), use el módulo Entrenar modelo.

    • Si establece Create trainer mode (Crear modo entrenador) para Parameter Range (Intervalo de parámetros), use el módulo Optimizar los hiperparámetros del modelo. Con esta opción, el algoritmo recorre en iteración varias combinaciones de los valores proporcionados y determina la combinación de valores que genera el mejor modelo.

    Nota

    Si pasa un intervalo de parámetros a Entrenar modelo, solo utiliza el primer valor en la lista del intervalo de parámetros.

    Si pasa un único conjunto de valores de parámetro al módulo Optimizar los hiperparámetros del modelo, cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.

    Si selecciona la opción Parameter Range (Intervalo de parámetros) y especifica un valor único para algún parámetro, ese valor único que haya especificado se utilizará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.

  11. Ejecute el experimento.

Results

Una vez completado el entrenamiento:

  • Para usar el modelo para la puntuación, conéctelo a Score Model (Modelo de puntuación) para predecir los valores de ejemplos de nuevas entradas.

Ejemplos

Para ver ejemplos de cómo se usan los bosques de decisión en el aprendizaje automático, consulte la Azure AI Gallery:

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Para obtener más información acerca del proceso de entrenamiento con la opción replicar , consulte:

Consejos de uso

Si tiene datos limitados o desea minimizar el tiempo empleado en entrenar el modelo, Pruebe estas recomendaciones:

Conjunto de entrenamiento limitado

Si el conjunto de entrenamiento contiene un número limitado de instancias:

  • Crear la selva de decisión usando un número grande de DAG de decisión (más de 20, por ejemplo)
  • Use la opción Bagging para volver a muestrear.
  • Especifique un número grande de pasos de optimización por nivel de DAG (por ejemplo, más de 10 000).

Tiempo de entrenamiento limitado

Si el conjunto de entrenamiento contiene un número grande de instancias y el tiempo de entrenamiento es limitado:

  • Cree la selva de decisión que utiliza un número menor de Dag de decisión (por ejemplo, 5-10).
  • Use la opción Replicar para volver a muestrear.
  • Especifique un número más pequeño de pasos de optimización por nivel de DAG (por ejemplo, menos de 2000).

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Método para volver a muestrear Any ResamplingMethod Bagging Elegir un método para volver a muestrear
Número de DAG de decisión >=1 Entero 8 Especificar el número de grafos de decisión que se pueden crear en el conjunto
Profundidad máxima de DAG de decisión >=1 Entero 32 Especificar la profundidad máxima de los grafos de decisión para crear en el conjunto
Ancho máximo de DAG de decisión >= 8 Entero 128 Especificar el ancho máximo de los grafos de decisión para crear en el conjunto
Número de pasos de optimización por nivel de DAG de decisión >= 1000 Entero 2048 Especificar el número de pasos que se deben seguir para optimizar cada nivel de los grafos de decisión
Permitir valores desconocidos para características de categorías Any Boolean True Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Salidas

Nombre Tipo Descripción
Modelo no entrenado Interfaz ILearner Un modelo de clasificación multiclase no entrenado

Consulta también

Selva de decisión de dos clases
Nomenclatura
Lista de módulos A-Z