Selva de decisión de dos clases

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Crea un modelo de clasificación de dos clases mediante el algoritmo de jungla de decisión

Categoría: Machine Learning/ Inicializar modelo/Clasificación

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Two-Class Decision Module in Machine Learning Studio (clásico) para crear un modelo de aprendizaje automático basado en un algoritmo de aprendizaje de conjunto supervisado denominado "decision- ús".

El módulo Two-Class DecisionIfier devuelve un clasificador sin entrenar. A continuación, entrena este modelo en un conjunto de datos de entrenamiento etiquetado mediante Train Model (Entrenar modelo) o Tune Model Hyperparameters (Optimizar hiperparámetros del modelo). A continuación, el modelo entrenado podrá usarse para realizar predicciones.

Más información sobre las decisiones

Los bosques de decisión son una extensión reciente de los bosques de decisión. Una selva de decisión consta de un conjunto de grafos acíclicos dirigidos (DAG) de decisión.

Las selvas de decisión tienen las siguientes ventajas:

Al permitir que las ramas de árbol se combinen, un DAG de decisión normalmente tiene una superficie de memoria menor y un mejor rendimiento de generalización que un árbol de decisión, aunque a costa de un tiempo de entrenamiento algo más largo.
Las selvas de decisión son modelos no paramétricos que pueden representar límites de decisión no lineales.
Realizan una clasificación y selección de características integradas y son resistentes en presencia de características ruidosas.

Sugerencia

Para obtener más información sobre la investigación detrás de este algoritmo de aprendizaje automático, vea Decision Alcándanos: Modelos compactos y enriquecidos para clasificación (PDF descargable).

Configuración de la decisión Two-Class decisión

Agregue el módulo Two-Class Decision Al experimento en Studio (clásico).
Para obtener información sobre el método de nuevo muestreo, elija el método utilizado para crear los árboles individuales. Puede elegir entre Bagging (Agregación) o Replicate (Replicación).
- Etiquetado: seleccione esta opción para usar el etiquetado, también denominado agregación de arranque.
  
  Cada árbol de una zona de decisión genera una distribución gaussiana como predicción. La agregación consiste en encontrar una distribución gaussiana cuyos dos primeros momentos coincidan con los momentos de la mezcla de distribuciones gaussianas determinada combinando todas las distribuciones gaussianas devueltas por los árboles individuales.
- Replicate (replicación): en la replicación, cada árbol se entrena exactamente con los mismos datos de entrada. La determinación de qué predicado de división se utiliza para cada nodo de árbol sigue siendo aleatoria y los árboles serán diversos.
  
  Para obtener más información, vea Bosques de decisión para Computer Vision y análisis de imágenes médicas. Criminisi y J. Shotton. Springer 2013.
Especifique cómo quiere que se entrene el modelo, estableciendo la opción Create trainer mode (Crear modo entrenador).
- Single Parameter (Parámetro único): Si sabe cómo quiere configurar el modelo, puede proporcionar un conjunto específico de valores como argumentos.
- Intervalo de parámetros: si no está seguro de los mejores parámetros, puede encontrar los parámetros óptimos especificando varios valores y usando el módulo Optimizar hiperparámetros del modelo para encontrar la configuración óptima. El instructor recorrerá en iteración varias combinaciones de la configuración proporcionada y determinará la combinación de valores que genera el mejor modelo.
En Number of decision DAG (Número de DAG de decisión), indique el número máximo de gráficos que se pueden crear en el conjunto.
En Profundidad máxima de los DAG de decisión, indique la profundidad máxima de cada gráfico.
En Ancho máximo de los DAG de decisión, indique el ancho máximo de cada gráfico.
En Number of optimization steps per decision DAG layer (Número de pasos de optimización por capa de DAG de decisión), indique cuántas iteraciones sobre los datos se realizarán al compilar cada DAG.
Seleccione la opción Permitir valores desconocidos para características de categorías para crear un grupo para valores desconocidos en los datos de prueba o validación.

Si la desactiva, el modelo podrá aceptar únicamente los valores incluidos en los datos de entrenamiento. En el primer caso, es posible que el modelo sea menos preciso con los valores conocidos, pero proporcione mejores predicciones para los valores nuevos (desconocidos).
Agregue un conjunto de datos etiquetado al experimento y conecte uno de los módulos de aprendizaje.
- Si establece Create trainer mode (Crear modo entrenador) en Single Parameter (Parámetro único), use el módulo Entrenar modelo.
- Si establece Create trainer mode (Crear modo entrenador) para Parameter Range (Intervalo de parámetros), use el módulo Optimizar los hiperparámetros del modelo.
Nota:

Si pasa un intervalo de parámetros a Entrenar modelo, solo utiliza el primer valor en la lista del intervalo de parámetros.

Si pasa un único conjunto de valores de parámetro al módulo Optimizar los hiperparámetros del modelo, cuando espera un intervalo de valores para cada parámetro, omite los valores y usa los valores predeterminados para el aprendiz.

Si selecciona la opción Parameter Range (Intervalo de parámetros) y especifica un valor único para algún parámetro, ese valor único que haya especificado se utilizará en todo el barrido, incluso si otros parámetros cambian en un intervalo de valores.

Results

Una vez completado el entrenamiento:

Para usar el modelo para la puntuación, conéctelo a Score Model (Modelo de puntuación) para predecir los valores de ejemplos de nuevas entradas.

Ejemplos

Para obtener ejemplos de cómo se usan las curvas de decisión en el aprendizaje automático, consulte el Azure AI Gallery:

Comparar clasificadores binarios: usa varios algoritmos y analiza sus ventajas y desventajas.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Consejos de uso

Si tiene datos limitados o quiere minimizar el tiempo dedicado a entrenar el modelo, pruebe esta configuración.

Conjunto de entrenamiento limitado

Si el conjunto de entrenamiento es pequeño:

Cree la selva de decisión usando un número grande de DAG de decisión (más de 20, por ejemplo).
Use la opción Bagging para volver a muestrear.
Especifique un número grande de pasos de optimización por nivel de DAG (por ejemplo, más de 10 000).

Tiempo de entrenamiento limitado

Si el conjunto de entrenamiento es grande, pero el tiempo de entrenamiento es limitado:

Crear la selva de decisión usando un número pequeño de DAG de decisión (por ejemplo, entre 5 y 10).
Use la opción Replicar para volver a muestrear.
Especifique un número más pequeño de pasos de optimización por nivel de DAG (por ejemplo, menos de 2000).

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Método para volver a muestrear	Any	ResamplingMethod	Bagging	Elegir un método para volver a muestrear
Número de DAG de decisión	>=1	Entero	8	Especificar el número de grafos de decisión para crear en el conjunto
Profundidad máxima de DAG de decisión	>=1	Entero	32	Especificar la profundidad máxima de los grafos de decisión en el conjunto
Ancho máximo de DAG de decisión	>=8	Entero	128	Especificar el ancho máximo de los grafos de decisión en el conjunto
Número de pasos de optimización por nivel de DAG de decisión	>=1000	Entero	2048	Especificar el número de pasos que se deben seguir para optimizar cada nivel de los grafos de decisión
Permitir valores desconocidos para características de categorías	Any	Boolean	True	Indicar si los valores desconocidos de las características de categorías existentes pueden asignarse a una característica nueva adicional

Output

Nombre	Tipo	Descripción
Modelo no entrenado	Interfaz ILearner	Un modelo de clasificación binaria no entrenado

Consulte también

Clasificación
Selva de decisión multiclase
Lista de módulos A-Z