Two-Class Decision Jungle

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Crée un modèle de classification à deux classes à l'aide de l'algorithme de jungle décisionnelle

catégorie : Machine Learning/initialiser le modèle/la Classification

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module de Jungle de décision à deux classes dans Machine Learning Studio (classic) pour créer un modèle de Machine Learning basé sur un algorithme d’apprentissage d’ensemble supervisé appelé Jungle de décision.

Le module de jungle de décision à deux classes retourne un classifieur non formé. Vous allez ensuite former ce modèle sur un jeu de données d’apprentissage étiquetées, en utilisant former un modèle ou paramétrer les hyperparamètres de modèle. Le modèle ainsi formé permet ensuite d’effectuer des prédictions.

En savoir plus sur les jungles décisionnels

Les jungles décisionnelles sont une extension récente des forêts décisionnelles. Une jungle décisionnelle se compose d'un ensemble de graphes orientés acycliques (DAG).

Les jungles décisionnelles présentent les avantages suivants :

En autorisant la fusion des branches d’arborescence, une décision DAG a généralement un encombrement de mémoire plus faible et de meilleures performances de généralisation par rapport à un arbre de décision, bien que ce soit un peu plus de temps de formation.
Les jungles décisionnelles sont des modèles non paramétriques, qui peuvent représenter des limites de décision non linéaires.
Ils effectuent la sélection des fonctionnalités intégrées ainsi que leur classification et sont résilients en présence de fonctionnalités bruyantes.

Conseil

Pour plus d’informations sur les recherches sous-jacentes à cet algorithme de Machine Learning, consultez jungle de décision : modèles compacts et riches pour la classification (PDF téléchargeable).

Comment configurer Two-Class jungle de décision

Ajoutez le module à deux classes Decision jungle à votre expérience dans Studio (Classic).
Pour Méthode de rééchantillonnage, choisissez la méthode utilisée pour créer les arbres individuels : Bagging ou Réplication.
- En sacs: sélectionnez cette option pour utiliser le regroupement, également appelé agrégation des données d’amorçage.
  
  Chaque arborescence d’un jungle de décision génère une distribution gaussienne comme prédiction. L’agrégation consiste à trouver une distribution gaussienne dont les deux premiers moments correspondent à des moments du mélange de distributions gaussiennes obtenu via la combinaison de toutes les distributions gaussiennes renvoyées par des arbres individuels.
- Réplication : avec la réplication, l’apprentissage de chacun des arbres est effectué sur les mêmes données d’entrée. Le prédicat fractionné utilisé pour chaque nœud d’arbre est toujours déterminé de manière aléatoire ; les arbres sont variés.
  
  pour plus d’informations, consultez la rubrique forêts de décision pour Vision par ordinateur et l’analyse des images médicales. Criminisi et J. Shotton. Springer Link 2013.
Spécifiez le mode d’apprentissage du modèle en définissant l’option Créer un mode d’apprentissage.
- Single Parameter (Paramètre unique) : si vous savez comment vous voulez configurer le modèle, vous pouvez fournir un ensemble spécifique de valeurs comme arguments.
- Plage de paramètres: Si vous n’êtes pas sûr des meilleurs paramètres, vous pouvez trouver les paramètres optimaux en spécifiant plusieurs valeurs et en utilisant le module régler le modèle hyperparamètres pour trouver la configuration optimale. Le formateur effectue une itération sur plusieurs combinaisons de paramètres que vous avez fournies et détermine la combinaison des valeurs qui produit le meilleur modèle.
Pour le nombre de Dag de décision, indiquez le nombre maximal de graphiques qui peuvent être créés dans l’ensemble.
Pour obtenir une profondeur maximale de la DAG de décision, indiquez la profondeur maximale de chaque graphique.
Pour la largeur maximale de la décision Dag, indiquez la largeur maximale de chaque graphique.
Dans nombre d’étapes d’optimisation par couche Dag de décision, indiquez le nombre d’itérations sur les données à effectuer lors de la création de chaque DAG.
Sélectionnez l’option autoriser les valeurs inconnues pour les fonctionnalités catégoriques pour créer un groupe de valeurs inconnues dans les données de test ou de validation.

Si vous la désélectionnez, le modèle ne peut accepter que les valeurs qui sont contenues dans les données d'apprentissage. Dans le premier cas, le modèle peut être moins précis pour les valeurs connues, mais il peut fournir de meilleures prédictions pour les nouvelles valeurs (inconnues).
Ajoutez un jeu de données avec balises à l’expérience, puis connectez l’un des modules de formation.
- Si vous définissez Créer un mode d’apprentissage sur Paramètre unique, utilisez le module Entraîner le du modèle.
- Si vous définissez Créer mode de formateur sur Plage de paramètres, utilisez le module Optimiser les hyperparamètres du modèle.
Notes

Si vous transmettez une plage de paramètres au module Entraîner le modèle, il utilise uniquement la première valeur dans la liste de plages de paramètres.

Si vous transmettez un ensemble unique de valeurs de paramètre au module Optimiser les hyperparamètres du modèle, quand il attend une plage de paramètres pour chaque paramètre, il ignore les valeurs et utilise les valeurs par défaut pour l’apprenant.

Si vous sélectionnez l’option Plage de paramètres et que vous entrez une valeur unique pour un paramètre, cette valeur unique que vous avez spécifiée est utilisée tout au long du balayage, même si d’autres paramètres changent sur une plage de valeurs.

Résultats

Une fois l’apprentissage terminé :

Pour utiliser le modèle afin de calculer les scores, connectez-le au modèle de score, pour prédire des valeurs des nouveaux exemples d’entrée.

Exemples

Pour obtenir des exemples d’utilisation des jungles de décision dans Machine Learning, consultez la Azure ai Gallery:

Comparer les classifieurs binaires: utilise plusieurs algorithmes et explique leurs avantages et inconvénients.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Conseils d’utilisation

Si vous avez des données limitées ou si vous souhaitez réduire le temps consacré à l’apprentissage du modèle, essayez ces paramètres.

Jeu d’apprentissage limité

Si votre jeu d’apprentissage est petit :

Créez la jungle décisionnelle à l'aide d'un grand nombre de DAG décisionnels (par exemple, plus de 20).
Utilisez l'option Bagging pour le rééchantillonnage.
Spécifiez un grand nombre d'étapes d'optimisation par couche DAG (par exemple, plus de 10 000).

Temps d’apprentissage limité

Si le jeu d’apprentissage est volumineux mais que la durée de formation est limitée :

Créez la jungle décisionnelle en utilisant moins de DAG décisionnels (par exemple, entre 5 et 10).
Utilisez l'option Répliquer pour le rééchantillonnage.
Spécifiez un plus petit nombre d'étapes d'optimisation par couche DAG (par exemple, moins de 2 000).

Paramètres du module

Nom	Plage	Type	Default	Description
Méthode de rééchantillonnage	Quelconque	ResamplingMethod	Bagging	Choisissez une méthode de rééchantillonnage
Nombre de DAG décisionnels	>=1	Integer	8	Spécifier le nombre de graphes décisionnels à créer dans l'ensemble
Profondeur maximale des DAG décisionnels	>=1	Integer	32	Spécifier la profondeur maximale des graphes décisionnels dans l'ensemble
Largeur maximale des DAG décisionnels	>= 8	Entier	128	Spécifier la largeur maximale des graphes décisionnels dans l'ensemble
Nombre d'étapes d'optimisation par couche DAG décisionnelle	>= 1000	Entier	2 048	Spécifiez le nombre d'étapes à utiliser pour optimiser chaque niveau des graphes décisionnels
Autorisez les valeurs inconnues pour les fonctionnalités par catégorie	Quelconque	Boolean	True	Indiquez si les valeurs inconnues de fonctionnalités catégorielles existantes peuvent être mappées à une nouvelle fonctionnalité supplémentaire

Output

Nom	Type	Description
Untrained model (Modèle non entraîné)	Interface ILearner	Modèle de classification binaire non formé

Voir aussi

Classification
Multiclass Decision Jungle
Liste alphabétique des modules