Régression de forêt d’arbres décisionnels

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Crée un modèle de régression à l'aide de l'algorithme de forêt d'arbres de décision

Catégorie : initialiser le modèle-régression

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module décision de régression de la forêt dans Machine Learning Studio (classic) pour créer un modèle de régression basé sur un ensemble d’arbres de décision.

Une fois que vous avez configuré le modèle, vous devez le former à l’aide d’un jeu de données étiqueté et du module Entraîner un modèle. Le modèle ainsi formé permet ensuite d’effectuer des prédictions. Le modèle non formé peut également être passé au modèle de validation croisée pour la validation croisée par rapport à un jeu de données étiqueté.

Comment les forêts de décision fonctionnent dans les tâches de régression

Les arbres de décision sont des modèles non paramétriques qui effectuent une séquence de tests simples pour chaque instance, en traversant une structure de données d’arbre binaire jusqu’à atteindre un nœud terminal (décision).

Les arbres de décision présentent les avantages suivants :

Ils sont efficaces en matière de calcul et d’utilisation de la mémoire, lors de la formation et de la prédiction.
Ils peuvent représenter des limites de décisions non linéaires.
Ils effectuent la sélection des fonctionnalités intégrées ainsi que leur classification et sont résilients en présence de fonctionnalités bruyantes.

Ce modèle de régression se compose d’un ensemble d’arbres de décision. Chaque arbre d’une forêt de décision de régression génère une distribution gaussienne sous la forme d’une prédiction. Une agrégation est effectuée sur l’ensemble des arbres, afin de trouver la distribution gaussienne la plus proche de la distribution combinée, pour tous les arbres du modèle.

pour plus d’informations sur l’infrastructure théorique de cet algorithme et son implémentation, consultez l’article suivant : forêts décisionnelles : infrastructure unifiée pour la Classification, la régression, l’Estimation de la densité, les Learning de collecte et les Semi-Supervised Learning

Comment configurer le modèle de régression de forêt de décision

Ajoutez le module Régression de forêt d’arbres de décision à l’expérience. vous pouvez trouver le module dans Studio (classic) sous Machine Learning, initialiser le modèleet régression.
Ouvrez les propriétés du module et, pour Méthode de rééchantillonnage, choisissez la méthode utilisée pour créer des arbres individuels. Bagging ou Réplication.
- Bagging : le bagging, également appelé agrégation boostrap, Chaque arbre d’une forêt de décision de régression génère une distribution gaussienne, sous la forme d’une prédiction. L’agrégation consiste à trouver une distribution gaussienne dont les deux premiers moments correspondent à des moments du mélange de distributions gaussiennes obtenu via la combinaison de toutes les distributions gaussiennes renvoyées par des arbres individuels.
  
  Pour en savoir plus, consultez l’entrée Wikipedia relative au Bootstrap Aggregating.
- Réplication : avec la réplication, l’apprentissage de chacun des arbres est effectué sur les mêmes données d’entrée. Le prédicat fractionné utilisé pour chaque nœud d’arbre est toujours déterminé de manière aléatoire ; les arbres sont variés.
  
  Pour en savoir plus sur le processus d’apprentissage avec l’option Répliquer, voir Decision Forests for Computer Vision and Medical Image Analysis (Forêts de décision pour la vision par ordinateur et l’analyse des images médicales) Criminisi and J. Shotton. Springer 2013.
Spécifiez le mode d’apprentissage du modèle en définissant l’option Créer un mode d’apprentissage.
- Single Parameter (Paramètre unique)
  
  si vous savez comment vous voulez configurer le modèle, vous pouvez fournir un ensemble spécifique de valeurs comme arguments. Vous l’avez peut-être découvert ces valeurs par expérimentation, ou vous les avez reçues à titre de guide.
- Plage de paramètres
  
  Si vous n’êtes pas sûr des meilleurs paramètres, vous pouvez trouver les paramètres optimaux en spécifiant plusieurs valeurs et en utilisant un balayage de paramètre pour trouver la configuration optimale.
  
  L' optimisation des hyperparamètres de modèle permet d’effectuer une itération sur toutes les combinaisons possibles des paramètres que vous avez fournis et de déterminer la combinaison de paramètres qui produit les résultats optimaux.
Dans le champ Number of trees constructed (Nombre d’arbres construits), indiquez le nombre total d’arbres de décision à créer dans l’ensemble. En créant plusieurs arbres de décision, vous pouvez obtenir une meilleure couverture, mais cette opération augmente la durée d’apprentissage.

Conseil

Cette valeur contrôle également le nombre d’arbres qui s’affichent dans la visualisation du modèle entraîné. Si vous souhaitez afficher ou imprimer un arbre unique, vous pouvez définir la valeur sur 1. Toutefois, cela signifie qu’un seul arbre est généré (celui qui inclut le jeu de paramètres initial) et qu’aucune autre itération n’est effectuée.
Dans le champ Profondeur maximale des arbres de décision, tapez un nombre pour limiter la profondeur de chacun des arbres de décision. Le fait d’augmenter la profondeur de l’arbre est susceptible d’améliorer la précision, au prix d’un risque de surajustement et d’augmentation du temps d’apprentissage.
Dans le champ Nombre de fractionnements aléatoires par nœud, tapez le nombre de fractionnements à utiliser pour créer chacun des nœuds de l’arbre. Le fractionnement consiste à diviser de manière aléatoire les fonctionnalités à chaque niveau de l’arbre (nœud).
Dans le champ Nombre minimal d’échantillons par nœud terminal, indiquez le nombre minimal de cas requis pour la création d’un nœud terminal dans un arbre.

Plus cette valeur est grande, plus le seuil de création de règles augmente. Par exemple, la valeur par défaut de 1, un seul cas suffit à entraîner la création d’une règle. Si vous définissez la valeur sur 5, les données d’apprentissage doivent contenir au moins 5 cas respectant les mêmes conditions.
Sélectionnez l’option Autoriser les valeurs inconnues pour les fonctionnalités catégorielles afin de créer un groupe pour les valeurs inconnues des jeux d’apprentissage ou de validation.

Si vous la désélectionnez, le modèle ne peut accepter que les valeurs qui sont contenues dans les données d'apprentissage. Dans le premier cas, le modèle peut être moins précis pour les valeurs connues, mais il peut fournir de meilleures prédictions pour les nouvelles valeurs (inconnues).
Connecter un jeu de données étiqueté, sélectionnez une colonne d’étiquette unique qui ne contient pas plus de deux résultats, et connectez soit former le modèle , soit paramétrer les hyperparamètres de modèle.
- Si vous définissez l’option Create trainer mode (Créer un mode d’apprentissage) sur Single Parameter (Paramètre unique), utilisez le module Entraîner un modèle pour entraîner le modèle.
- Si vous affectez à l’option créer le mode de l’instructeur la valeur plage de paramètres, vous devez former le modèle à l’aide des hyperparamètres de réglage du modèle.
Exécutez l’expérience.

Résultats

Une fois l’apprentissage terminé :

Pour voir l’arbre créé pour chaque itération, cliquez avec le bouton droit de la souris sur la sortie du module de formation et sélectionnezVisualiser.
Pour afficher les règles de chaque nœud, cliquez sur chaque arbre et descendez dans la hiérarchie des fractionnements.
Pour enregistrer un instantané du modèle formé, cliquez avec le bouton droit sur la sortie du module d’apprentissage, puis sélectionnez enregistrer en tant que modèle formé. Cette copie du modèle n’est pas mise à jour lors des exécutions consécutives de l’expérience.

Exemples

pour obtenir des exemples de modèles de régression, consultez les exemples d’expériences suivants dans le Cortana Intelligence Gallery:

Exemple de comparaison de modèles de régression: compare plusieurs types différents de modèles de régression.
Exemple d’analyse de sentiments: utilise plusieurs modèles de régression différents pour générer des évaluations prédites.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Si vous transmettez une plage de paramètres pour former le modèle, elle utilise uniquement la première valeur de la liste des plages de paramètres.
Si vous transmettez un ensemble unique de valeurs de paramètre au module paramétrer les hyperparamètres de modèle , lorsqu’il attend une plage de paramètres pour chaque paramètre, il ignore les valeurs et utilise les valeurs par défaut pour l’apprenant.
Si vous sélectionnez l’option plage de paramètres et que vous entrez une seule valeur pour n’importe quel paramètre, cette valeur unique que vous avez spécifiée est utilisée tout au long du balayage, même si d’autres paramètres changent sur une plage de valeurs.

Conseils d’utilisation

Si vous avez des données limitées ou si vous souhaitez réduire le temps d'apprentissage du modèle, essayez ces paramètres :

Jeu d'apprentissage limité. Si le jeu d'apprentissage contient un nombre limité d'instances :

Créez la forêt de décision à l'aide d'un grand nombre d'arbres de décision (par exemple, plus de 20)
Utilisez l'option Bagging pour le rééchantillonnage
Spécifiez un grand nombre de fractionnements aléatoires par nœud (par exemple, plus de 1000).

Temps d'apprentissage limité. Si le jeu d'apprentissage contient un grand nombre d'instances et que le temps d'apprentissage est limité :

Créez la forêt décisionnelle en utilisant moins d'arbres de décision (par exemple, entre 5 et 10)
Utilisez l'option Répliquer pour le rééchantillonnage
Spécifiez un petit nombre de fractionnements aléatoires par nœud (par exemple, moins de 100)

Paramètres du module

Nom	Plage	Type	Default	Description
Méthode de rééchantillonnage	n'importe laquelle	ResamplingMethod	Bagging	Choisissez une méthode de rééchantillonnage
Nombre d'arbres de décision	>=1	Integer	8	Spécifiez le nombre d'arbres de décision à créer dans l'ensemble
Profondeur maximale des arbres de décision	>=1	Integer	32	Spécifiez la profondeur maximale de n'importe quel arbre de décision pouvant être créé dans l'ensemble
Nombre de fractionnements aléatoires par nœud	>=1	Integer	128	Spécifiez le nombre de fractionnements générés par nœud, à partir duquel le fractionnement optimal est sélectionné
Nombre minimal d'échantillons par nœud terminal	>=1	Integer	1	Spécifiez le nombre minimal d'exemples d'apprentissages nécessaires pour générer un nœud terminal
Autorisez les valeurs inconnues pour les fonctionnalités par catégorie	n'importe laquelle	Boolean	true	Indiquez si les valeurs inconnues de fonctionnalités catégorielles existantes peuvent être mappées à une nouvelle fonctionnalité supplémentaire

Sorties

Nom	Type	Description
Untrained model (Modèle non entraîné)	Interface ILearner	Modèle de régression non formé

Voir aussi

Régression

Liste alphabétique des modules

Share via