Multiclass Decision Jungle

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Crée un modèle de classification multiclasse à l'aide de l'algorithme de jungle d'arbres de décision

catégorie : Machine Learning/initialiser le modèle/la Classification

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module multiclass decision Jungle dans Machine Learning Studio (classic) pour créer un modèle de Machine Learning basé sur un algorithme d’apprentissage supervisé appelé Jungle de décision.

Vous définissez le modèle et ses paramètres à l’aide de ce module, puis vous connectez un jeu de données d’apprentissage étiqueté pour former le modèle à l’aide de l’un des modules de formation. Le modèle formé peut être utilisé pour prédire une cible qui a plusieurs valeurs.

En savoir plus sur les jungles décisionnels

Les jungles décisionnelles sont une extension récente des forêts décisionnelles. Une jungle décisionnelle se compose d'un ensemble de graphes orientés acycliques (DAG).

Les jungles décisionnelles présentent les avantages suivants :

Grâce à la fusion des branches, un DAG décisionnel a généralement un plus petit encombrement mémoire et de meilleures performances de généralisation par rapport à un arbre de décision, mais au prix d'un temps de formation assez important.
Les jungles d'arbres de décision sont des modèles non paramétriques, qui peuvent représenter des limites de décision non linéaires.
Ils effectuent la sélection des fonctionnalités intégrées ainsi que leur classification et sont résilients en présence de fonctionnalités bruyantes.

Pour plus d’informations sur les recherches sous-jacentes à cet algorithme de Machine Learning, consultez jungle de décision : modèles compacts et riches pour la classification (PDF téléchargeable).

Comment configurer le modèle de jungle de décision multiclasse

Ajoutez le module multiCLASS Decision jungle à votre expérience dans Studio (Classic). Vous pouvez trouver ce module sous Machine Learning, Initialiser le modèle et Classification.
Double-cliquez sur le module pour ouvrir le volet Propriétés.
Méthode de rééchantillonnage, choisissez la méthode pour créer plusieurs arborescences, en sacs ou en réplication.
- En sacs: sélectionnez cette option pour utiliser le regroupement, également appelé agrégation des données d’amorçage.
  
  Chaque arbre d’une forêt de décision génère une distribution gaussienne, sous la forme d’une prédiction. L’agrégation consiste à trouver une distribution gaussienne dont les deux premiers moments correspondent à des moments du mélange de distributions gaussiennes obtenu via la combinaison de toutes les distributions gaussiennes renvoyées par des arbres individuels.
- Réplication : sélectionnezcette option pour utiliser la réplication. Dans cette méthode, chaque arborescence est formée sur exactement les mêmes données d’entrée. La détermination du prédicat de fractionnement utilisé pour chaque nœud d’arbre reste aléatoire, si bien que diverses arborescences sont créées.
Spécifiez le mode d’apprentissage du modèle en définissant l’option Créer un mode d’apprentissage.
- Paramètre unique: utilisez cette option lorsque vous savez comment vous voulez configurer le modèle.
- Plage de paramètres: utilisez cette option si vous n’êtes pas sûr des meilleurs paramètres et que vous souhaitez utiliser un balayage de paramètre.
Nombre de Dag de décision: indiquez le nombre maximal de graphiques qui peuvent être créés dans l’ensemble.
Profondeur maximale de la décision Dag: spécifiez la profondeur maximale de chaque graphique.
Largeur maximale de la décision Dag: spécifiez la largeur maximale de chaque graphique.
Nombre d’étapes d’optimisation par couche Dag de décision: indiquez le nombre d’itérations sur les données à effectuer lors de la génération de chaque DAG.
Autoriser les valeurs inconnues pour les fonctionnalités catégoriques: sélectionnez cette option pour créer un groupe de valeurs inconnues dans les données de test ou de validation. Le modèle risque d’être moins précis pour les valeurs connues, mais il pourra fournir de meilleures prédictions pour les nouvelles valeurs (inconnues).

Si vous désélectionnez cette option, le modèle peut accepter uniquement les valeurs qui étaient présentes dans les données d’apprentissage.
Connectez un jeu de données étiqueté et l’un des modules de formation :
- Si vous définissez Créer un mode d’apprentissage sur Paramètre unique, utilisez le module Entraîner le du modèle.
- Si vous définissez Créer mode de formateur sur Plage de paramètres, utilisez le module Optimiser les hyperparamètres du modèle. Avec cette option, l’algorithme effectue une itération sur plusieurs combinaisons des paramètres que vous avez fournis et détermine la combinaison des valeurs qui produit le meilleur modèle.
Notes

Si vous transmettez une plage de paramètres au module Entraîner le modèle, il utilise uniquement la première valeur dans la liste de plages de paramètres.

Si vous transmettez un ensemble unique de valeurs de paramètre au module Optimiser les hyperparamètres du modèle, quand il attend une plage de paramètres pour chaque paramètre, il ignore les valeurs et utilise les valeurs par défaut pour l’apprenant.

Si vous sélectionnez l’option Plage de paramètres et que vous entrez une valeur unique pour un paramètre, cette valeur unique que vous avez spécifiée est utilisée tout au long du balayage, même si d’autres paramètres changent sur une plage de valeurs.
Exécutez l’expérience.

Résultats

Une fois l’apprentissage terminé :

Pour utiliser le modèle afin de calculer les scores, connectez-le au modèle de score, pour prédire des valeurs des nouveaux exemples d’entrée.

Exemples

Pour obtenir des exemples d’utilisation des forêts de décision dans Machine Learning, consultez la Azure ai Gallery:

Exemple compare multiCLASS Classifiers: utilise plusieurs algorithmes et décrit leurs avantages et inconvénients.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Pour plus d’informations sur le processus d’apprentissage avec l’option Replicate , consultez :

Forêts décisionnelles pour la vision par ordinateur et l’analyse des images médicales. Criminisi et Shotton. Springer Link 2013

Conseils d’utilisation

Si vous avez des données limitées ou si vous souhaitez réduire le temps consacré à l’apprentissage du modèle, essayez les recommandations suivantes :

Jeu d’apprentissage limité

Si le jeu d'apprentissage contient un nombre limité d'instances :

Créez la jungle d'arbres de décision à l'aide d'un grand nombre de DAG décisionnels (par exemple, plus de 20)
Utilisez l'option Bagging pour le rééchantillonnage.
Spécifiez un grand nombre d'étapes d'optimisation par couche DAG (par exemple, plus de 10 000).

Temps d’apprentissage limité

Si le jeu d'apprentissage contient un grand nombre d'instances et que le temps d'apprentissage est limité :

Créez la jungle décisionnelle qui utilise un plus petit nombre de Dag de décision (par exemple, 5-10).
Utilisez l'option Répliquer pour le rééchantillonnage.
Spécifiez un plus petit nombre d'étapes d'optimisation par couche DAG (par exemple, moins de 2 000).

Paramètres du module

Nom	Plage	Type	Default	Description
Méthode de rééchantillonnage	Quelconque	ResamplingMethod	Bagging	Choisissez une méthode de rééchantillonnage
Nombre de DAG décisionnels	>=1	Integer	8	Spécifiez le nombre de graphes décisionnels qui peuvent être créés dans l'ensemble
Profondeur maximale des DAG décisionnels	>=1	Integer	32	Spécifier la profondeur maximale des graphes décisionnels à créer dans l'ensemble
Largeur maximale des DAG décisionnels	>= 8	Entier	128	Spécifier la largeur maximale des graphes décisionnels à créer dans l'ensemble
Nombre d'étapes d'optimisation par couche DAG décisionnelle	>= 1000	Entier	2 048	Spécifiez le nombre d'étapes à utiliser pour optimiser chaque niveau des graphes décisionnels
Autorisez les valeurs inconnues pour les fonctionnalités par catégorie	Quelconque	Boolean	True	Indiquez si les valeurs inconnues de fonctionnalités catégorielles existantes peuvent être mappées à une nouvelle fonctionnalité supplémentaire

Sorties

Nom	Type	Description
Untrained model (Modèle non entraîné)	Interface ILearner	Modèle de classification multiclasse non formé

Voir aussi

Two-Class Decision Jungle
Classification
Liste alphabétique des modules