Forêt d’arbres décisionnels multiclasse

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Crée un modèle de classification multiclasse à l'aide de l'algorithme de forêt d'arbres de décision

catégorie : Machine Learning/initialiser le modèle/la Classification

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module de la forêt de décision multiclasse dans Machine Learning Studio (classic) pour créer un modèle de Machine Learning basé sur l’algorithme de la forêt de décision . Une forêt de décision est un modèle d’ensemble qui crée très rapidement une série d’arbres de décision, tout en apprenant à partir de données marquées.

En savoir plus sur la forêt d’arbres de décision

L’algorithme de forêt d’arbres de décision est une méthode d’apprentissage d’ensemble pour la classification. Pour fonctionner, l’algorithme crée plusieurs arbres de décision, puis il vote pour sélectionner la classe de sortie la plus populaire. Le vote est une forme d’agrégation dans laquelle chaque arbre d’une forêt d’arbres de décision génère un histogramme de fréquence non normalisé pour les étiquettes. Le processus d’agrégation additionne ces histogrammes et normalise le résultat pour obtenir les « probabilités » de chaque étiquette. Les arbres présentant un niveau de confiance élevé en matière de prédiction influent davantage sur la décision finale de l’ensemble.

En général, les arbres de décision sont des modèles non paramétriques, ce qui signifie qu’ils prennent en charge les données avec des distributions variées. Dans chaque arbre, une séquence de tests simples est exécutée pour chaque classe, augmentant les niveaux d’une arborescente jusqu’à atteindre un nœud terminal (une décision).

Les arbres de décision présentent plusieurs avantages :

Ils peuvent représenter des limites de décisions non linéaires.
Ils sont efficaces en matière de calcul et d’utilisation de la mémoire lors de la formation et de la prédiction.
Ils sélectionnent et classifient les fonctionnalités intégrées.
Ils sont résilients en cas de fonctionnalités bruyantes.

le classifieur de forêt de décision dans Machine Learning Studio (classic) se compose d’un ensemble d’arbres de décision. En général, les modèles ensemblistes offrent une meilleure couverture et une précision plus élevée que les arbres de décision uniques. Pour plus d’informations, consultez Arbres de décision.

Configuration du module Forêt d’arbres de décision multiclasse

Conseil

Si vous n’êtes pas sûr des meilleurs paramètres, nous vous recommandons d’utiliser le module régler le modèle hyperparamètres pour effectuer l’apprentissage et le test de plusieurs modèles et trouver les paramètres optimaux.

Ajoutez le module de la forêt de décision multiclasse à votre expérience dans Studio (Classic). Vous pouvez trouver ce module sous Machine Learning, Initialiser le modèle et Classification.
Double-cliquez sur le module pour ouvrir le volet Propriétés.
Pour Méthode de rééchantillonnage, choisissez la méthode utilisée pour créer les arbres individuels : Vous pouvez choisir l’ensachage ou la réplication.
- Bagging : le bagging, également appelé agrégation boostrap, est une méthode selon laquelle chaque arbre est développé sur un nouvel échantillon, créé en échantillonnant le jeu de données d’origine de manière aléatoire à l’aide d’un ensemble de remplacement jusqu’à obtenir un jeu de données de taille identique à l’original. Les sorties des modèles sont combinées grâce à un vote qui est une forme d’agrégation. Pour plus d’informations, voir l’entrée Wikipedia Bootstrap aggregating (en anglais).
- Réplication : avec la réplication, l’apprentissage de chacun des arbres est effectué sur les mêmes données d’entrée. Le prédicat fractionné utilisé pour chaque nœud d’arbre est toujours déterminé de manière aléatoire, ce qui crée des arbres variés.
Consultez la section How to Configure a multiCLASS Decision Forest Model pour obtenir de l’aide.
Spécifiez le mode d’apprentissage du modèle en définissant l’option Créer un mode d’apprentissage.
- Single Parameter (Paramètre unique) : sélectionnez cette option si vous savez comment vous voulez configurer le modèle et vous fournissez un ensemble spécifique de valeurs en tant qu’arguments.
- Plage de paramètres: utilisez cette option si vous n’êtes pas sûr des meilleurs paramètres et que vous souhaitez utiliser un balayage de paramètre.
Nombre d’arbres de décision : saisissez le nombre maximal d’arbres de décision qui peuvent être créés dans l’ensemble. En créant plusieurs arbres de décision, vous pouvez obtenir une meilleure couverture, mais cette opération peut augmenter la durée de la formation.

Cette valeur contrôle également le nombre d’arbres affichés dans les résultats lorsque vous examinez le modèle entraîné. Si vous souhaitez afficher ou imprimer un arbre unique, vous pouvez définir la valeur sur 1. Toutefois, cela signifie qu’un seul arbre peut être généré (celui avec le jeu de paramètres initial) et aucune autre itération n’est effectuée.
Profondeur maximale des arbres de décision : saisissez un nombre destiné à limiter la profondeur maximale de n’importe quel arbre de décision. Le fait d’augmenter la profondeur de l’arbre est susceptible d’améliorer la précision, au prix d’un risque de surajustement et d’augmentation du temps d’apprentissage.
Nombre de fractionnements aléatoires par nœud : saisissez le nombre de fractionnements à utiliser lors de la génération de chaque nœud de l’arbre. Le fractionnement consiste à diviser de manière aléatoire les fonctionnalités à chaque niveau de l’arbre (nœud).
Minimum number of samples per leaf node (Nombre minimal d’échantillons par nœud terminal) : indiquez le nombre minimal de cas requis pour créer un nœud terminal (feuille) dans un arbre. Plus cette valeur est grande, plus le seuil de création de règles augmente.

Par exemple, la valeur par défaut de 1, un seul cas suffit à entraîner la création d’une règle. Si vous définissez la valeur sur 5, les données d’apprentissage doivent contenir au moins 5 cas respectant les mêmes conditions.
Autoriser les valeurs inconnues pour les fonctionnalités catégoriques: sélectionnez cette option pour créer un groupe de valeurs inconnues dans les jeux d’apprentissage ou de validation. Le modèle risque d’être moins précis pour les valeurs connues, mais il pourra fournir de meilleures prédictions pour les nouvelles valeurs (inconnues).

Si vous désélectionnez cette option, le modèle peut accepter uniquement les valeurs qui sont présentes dans les données d’apprentissage.
Connecter un dataset étiqueté et l’un des modules de formation :
- Si vous définissez Créer un mode d’apprentissage sur Paramètre unique, utilisez le module Entraîner le du modèle.
- Si vous affectez à l’option créer le mode de l’instructeur la valeur plage de paramètres, utilisez le module régler le modèle hyperparamètres . Avec cette option, le formateur peut itérer au sein de plusieurs combinaisons de paramètres et déterminer les valeurs de paramètres qui produisent le meilleur modèle.
Notes

Si vous transmettez une plage de paramètres au module Entraîner le modèle, il utilise uniquement la première valeur dans la liste de plages de paramètres.

Si vous transmettez un ensemble unique de valeurs de paramètre au module Optimiser les hyperparamètres du modèle, quand il attend une plage de paramètres pour chaque paramètre, il ignore les valeurs et utilise les valeurs par défaut pour l’apprenant.

Si vous sélectionnez l’option Plage de paramètres et que vous entrez une valeur unique pour un paramètre, cette valeur unique que vous avez spécifiée est utilisée tout au long du balayage, même si d’autres paramètres changent sur une plage de valeurs.
Exécutez l’expérience.

Résultats

Une fois l’apprentissage terminé :

Pour afficher l’arborescence qui a été créée à chaque itération, cliquez avec le bouton droit sur module former le modèle et sélectionnez modèle formé à visualiser. Si vous utilisez les hyperparamètres du modèle d’optimisation, cliquez avec le bouton droit sur le module et sélectionnez le meilleur modèle formé pour visualiser le meilleur modèle. Pour descendre dans la hiérarchie des fractionnements et afficher les règles de chaque nœud, cliquez sur chaque arbre.

Exemples

Pour obtenir des exemples d’utilisation des forêts de décision dans Machine Learning, consultez la Azure ai Gallery:

Exemple compare multiCLASS Classifiers: utilise plusieurs algorithmes et décrit leurs avantages et inconvénients.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Informations d’implémentation

Chaque arborescence dans une forêt de décision de classification génère un histogramme des fréquences non normalisées d’étiquettes. L’agrégation consiste à additionner et à normaliser ces histogrammes pour obtenir les « probabilités » de chaque étiquette. De cette manière, les arbres qui ont une confiance élevée en matière de prédiction ont une plus grande importance dans la décision finale de l’ensemble.

Pour plus d’informations sur le processus d’apprentissage avec l’option Replicate , consultez :

Forêts décisionnelles pour la vision par ordinateur et l’analyse des images médicales. Criminisi et Shotton. Springer Link 2013.

Configuration d'un modèle de forêt d'arbres de décision multiclasse

Vous pouvez modifier la façon dont le module est configuré pour prendre en charge des scénarios tels qu’un trop petit nombre de données ou un temps limité pour l’apprentissage.

Temps d’apprentissage limité

Si le jeu d'apprentissage contient un grand nombre d'instances, mais que votre temps d'apprentissage du modèle est limité, essayez d'utiliser les options suivantes :

Créez une forêt décisionnelle utilisant moins d'arbres de décision (par exemple, entre 5 et 10).
Utilisez l'option Répliquer pour le rééchantillonnage.
Spécifiez un plus petit nombre de fractionnements aléatoires par nœud (par exemple, moins de 100).

Jeu d’apprentissage limité

Si le jeu d'apprentissage contient un nombre limité d'instances, essayez d'utiliser ces options :

Créez une forêt décisionnelle utilisant un grand nombre d'arbres de décision (par exemple, plus de 20).
Utilisez l'option Bagging pour le rééchantillonnage.
Spécifiez un grand nombre de fractionnements aléatoires par nœud (par exemple, plus de 1 000).

Paramètres du module

Nom	Plage	Type	Default	Description
Méthode de rééchantillonnage	Quelconque	ResamplingMethod	Bagging	Choisir une méthode de rééchantillonnage : en sacs ou en réplication
Nombre d'arbres de décision	>=1	Integer	8	Spécifiez le nombre d'arbres de décision à créer dans l'ensemble
Profondeur maximale des arbres de décision	>=1	Integer	32	Spécifiez la profondeur maximale de n'importe quel arbre de décision qui peut être créé
Nombre de fractionnements aléatoires par nœud	>=1	Integer	128	Spécifiez le nombre de fractionnements générés par nœud, à partir duquel le fractionnement optimal est sélectionné
Nombre minimal d'échantillons par nœud terminal	>=1	Integer	1	Spécifiez le nombre minimal d'exemples d'apprentissages nécessaires pour générer un nœud terminal
Autorisez les valeurs inconnues pour les fonctionnalités par catégorie	Quelconque	Boolean	True	Indiquez si les valeurs inconnues de fonctionnalités catégorielles existantes peuvent être mappées à une nouvelle fonctionnalité supplémentaire

Sorties

Nom	Type	Description
Untrained model (Modèle non entraîné)	Interface ILearner	Modèle de classification multiclasse non formé

Voir aussi

Classification
Forêt d’arbres décisionnels à deux classes
Régression de forêt d’arbres décisionnels
Liste alphabétique des modules