Évaluation des performances d’un modèle dans Machine Learning Studio (classique)

Article
03/20/2017

S’APPLIQUE À :Machine Learning Studio (classique) Ne s’applique pas à Azure Machine Learning

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Dans cet article, vous allez découvrir les métriques que vous pouvez utiliser pour surveiller les performances de modèles dans Machine Learning Studio (classique). L’évaluation des performances d’un modèle constitue l’une des étapes clés du processus de science des données. Elle indique l’efficacité de la notation (prédictions) d’un jeu de données par un modèle formé. Machine Learning Studio (classique) prend en charge l’évaluation des modèles via deux de ses principaux modules d’apprentissage automatique :

Ces modules vous permettent de déterminer l’efficacité de votre modèle sur le plan du nombre de métriques couramment utilisées dans les domaines de l’apprentissage automatique et des statistiques.

L’évaluation des modèles doit être envisagée avec les éléments suivants :

Il vous présente trois scénarios d’apprentissage supervisé courants :

régression
classification binaire ;
classification multiclasse.

Évaluation et validation croisée

L’évaluation et la validation croisée constituent deux méthodes standard de mesure des performances d’un modèle. Elles génèrent toutes deux des métriques d’évaluation que vous pouvez inspecter ou comparer avec les métriques d’autres modèles.

Le module Évaluer le modèle attend un jeu de données noté en entrée (ou deux jeux si vous souhaitez comparer les performances de deux modèles distincts). Vous devez donc effectuer l’apprentissage de votre modèle à l’aide du module Former le modèle et générer des prédictions sur un jeu de données au moyen du module Noter le modèle avant d’être en mesure d’évaluer les résultats. L’évaluation repose sur les étiquettes/probabilités notées et sur les étiquettes réelles, qui sont toutes produites par le module Noter le modèle.

Une autre possibilité consiste à utiliser la validation croisée pour appliquer automatiquement un certain nombre d’opérations former-noter-évaluer (10 plis) à différents sous-échantillons des données d’entrée. Les données d’entrée sont fractionnées en 10 sous-échantillons, dont l’un est destiné au test et les 9 autres à l’apprentissage. Ce processus est répété à 10 reprises, et la moyenne des métriques d’évaluation est calculée. Cette méthode permet de déterminer la capacité de généralisation d’un modèle pour de nouveaux jeux de données. Le module Effectuer la validation croisée du modèle prend un modèle non formé et un jeu de données étiquetées et génère les résultats d’évaluation de chacun des 10 plis, en complément de la moyenne des résultats.

Dans les sections qui suivent, nous allons générer des modèles de régression et de classification simples et en évaluer les performances à l’aide des modules Évaluer le modèle et Effectuer la validation croisée du modèle.

Évaluation d’un modèle de régression

Supposons que vous souhaitiez prédire le prix d’une voiture à l’aide de caractéristiques comme les dimensions, le nombre de chevaux, les spécifications du moteur, etc. Il s’agit d’un problème de régression classique, dans lequel la variable cible, price (prix), est une valeur numérique continue. Nous pouvons ajuster un modèle de régression linéaire nous permettant de prédire le prix d’une voiture spécifique en nous basant sur les valeurs de caractéristiques de cette voiture. Il est possible d’utiliser ce modèle de régression pour noter le même jeu de données que celui sur lequel nous avons effectué l’apprentissage. Une fois que nous avons prédit les prix de toutes les voitures, nous pouvons évaluer les performances du modèle en examinant l’importance de l’écart entre les prédictions et les prix réels en moyenne. Pour illustrer cette approche, nous utilisons le jeu de données Automobile price data (Raw) dataset disponible à la section Jeux de données enregistrés d’Azure Machine Learning Studio (classique).

Création de l’expérience

Ajoutez les modules ci-après à votre espace de travail dans Azure Machine Learning Studio (classique) :

Données sur le prix des véhicules automobiles (brutes)
Régression linéaire
Former le modèle
Noter le modèle
Évaluer le modèle

Connectez les ports comme illustré ci-après à la Figure 1, puis définissez la colonne Étiquette du module Former le modèle sur price.

Évaluation d’un modèle de régression

Figure 1. évaluation d’un modèle de régression

Inspection des résultats de l’évaluation

Après avoir exécuté l’expérience, vous pouvez cliquer sur le port de sortie du module Évaluer le modèle et sélectionner Visualiser pour visualiser les résultats de l’évaluation. Les mesures d’évaluation disponibles pour les modèles de régression sont les suivantes : Erreur d’absolue moyenne, Erreur d’absolue moyenne racine, Erreur d’absolue relative, Erreur carrée relative et Coefficient de détermination.

Le terme « erreur » utilisé ici représente la différence entre la valeur prédite et la valeur réelle. La valeur absolue ou le carré de cette différence est généralement calculé pour capturer l’ampleur totale de l’erreur sur l’ensemble des instances, car l’écart entre la valeur prédite et la valeur réelle pourrait être négatif dans certains cas. Les métriques d’erreur mesurent les performances prédictives d’un modèle de régression en termes d’écart moyen entre ses prédictions et les valeurs réelles. Plus les valeurs d’erreur sont faibles, plus les prédictions élaborées par le modèle sont exactes. Une métrique d’erreur globale de zéro signifie que le modèle est parfaitement ajusté par rapport aux données.

Le coefficient de détermination, également désigné sous le terme « R au carré », constitue également une méthode standard de mesure de l’adéquation entre le modèle et les données observées. Ce coefficient peut être considéré comme la proportion de la variance expliquée par le modèle. Dans ce cas précis, plus la proportion est élevée, meilleur est le résultat, la valeur 1 indiquant une adéquation parfaite.

Métriques d’évaluation de régression linéaire

Figure 2 : métriques d’évaluation de régression linéaire

Utilisation de la validation croisée

Validation croisée d’un modèle de régression

Figure 3. validation croisée d’un modèle de régression

Après avoir exécuté l’expérience, vous pouvez inspecter les résultats de l’évaluation en cliquant sur le port de sortie de droite du module Effectuer la validation croisée du modèle. Vous obtiendrez ainsi une vue détaillée des métriques pour chaque itération (pli), et de la moyenne des résultats de chacun des métriques (Figure 4).

Résultats de la validation croisée d’un modèle de régression

Figure 4. résultats de la validation croisée d’un modèle de régression

Évaluation d’un modèle de classification binaire

Dans un scénario de classification binaire, la variable cible ne peut avoir que deux résultats, par exemple : {0, 1} ou {faux, vrai}, {négatif, positif}. Supposons que vous disposiez d’un jeu de données des employés incluant certaines variables démographiques et d’emploi, et que vous souhaitiez prédire le niveau de revenu, qui constitue une variable binaire avec les valeurs {"<=50 K", ">50 K"}. En d’autres termes, la classe négative représente les employés dont le revenu annuel est inférieur ou égal à 50 K, tandis que la classe positive représente tous les autres employés. Comme dans le scénario de régression, nous allons former un modèle, noter certaines données, puis évaluer les résultats. La principale différence ici réside dans le choix des métriques calculées et générées en sortie par Machine Learning Studio (classique). Pour illustrer le scénario de prédiction du niveau de revenu, nous allons utiliser le jeu de données Adult afin de créer une expérience Studio (classique) et d’évaluer les performances d’un modèle de régression logistique à deux classes, qui constitue un classifieur binaire couramment utilisé.