Évaluer votre modèle ML.NET avec des métriques

Comprendre les métriques utilisées pour évaluer un modèle ML.NET.

Les métriques d’évaluation sont propres au type de tâche de machine learning effectuée par un modèle.

Par exemple, pour la tâche de classification, le modèle est évalué en mesurant dans quelle mesure une catégorie prédite correspond à la catégorie réelle. Et pour le clustering, l’évaluation est basée sur la proximité entre les éléments en cluster et la séparation entre les clusters.

Métriques d’évaluation pour la classification binaire

Mesures Description Recherche
Précision La précision est la proportion de prédictions correctes avec un jeu de données de test. Elle représente le rapport entre le nombre de prédictions correctes et le nombre total d’échantillons d’entrée. Elle est efficace s’il existe un nombre similaire d’échantillons dans chaque classe. Plus la précision est proche de 1,00, meilleure est la qualité. Toutefois, la valeur exacte 1,00 indique un problème (en règle générale, une fuite d’étiquette/cible, un surapprentissage ou un test avec des données d’entraînement). Quand les données de test sont asymétriques (la plupart des instances appartiennent à une des classes), que le jeu de données est petit ou que les scores approchent 0,00 ou 1,00, la précision ne capture pas vraiment l’efficacité d’un classifieur, ce qui vous oblige à vérifier des métriques supplémentaires.
AUC aucROC ou Zone sous la courbe mesure la zone sous la courbe créée en balayant le taux de vrais positifs par rapport au taux de faux positifs. Plus la précision est proche de 1,00, meilleure est la qualité. La valeur doit être supérieure à 0,50 pour qu’un modèle soit acceptable. Un modèle avec une valeur AUC de 0,50 ou moins est inutile.
Zone sous une courbe de précision/rappel aucPR ou Zone sous la courbe d’une courbe de précision-rappel : Mesure utile de la réussite de la prédiction lorsque les classes sont déséquilibrées (jeux de données à forte asymétrie). Plus la précision est proche de 1,00, meilleure est la qualité. Des scores élevés proches de 1,00 montrent que le classifieur retourne des résultats précis (précision élevée) ainsi que la majorité de tous les résultats positifs (rappel élevé).
Score F1 Score F1 également appelé balanced F-score or F-measure. Il s’agit de la moyenne harmonique de la précision et du rappel. Le score F1 est utile quand vous souhaitez rechercher un équilibre entre la précision et le rappel. Plus la précision est proche de 1,00, meilleure est la qualité. Un score F1 atteint sa meilleure valeur à 1,00 et la pire à 0,00. Il vous indique le degré de précision de votre classifieur.

Pour plus d’informations sur les métriques de classification binaire, consultez les articles suivants :

Métriques d’évaluation pour la classification multiclasse et la classification de texte

Mesures Description Recherche
Micro-précision La précision micro-moyenne agrège les contributions de toutes les classes pour calculer la métrique moyenne. Il s’agit de la fraction d’instances correctement prédites. La micro-moyenne ne tient pas compte de l’appartenance aux classes. Fondamentalement, chaque paire exemple-classe contribue de manière égale à la métrique de précision. Plus la précision est proche de 1,00, meilleure est la qualité. Dans une tâche de classification multiclasse, la micro-précision est préférable à la macro-précision si vous suspectez un déséquilibre de classes éventuel (vous avez peut-être beaucoup plus d’exemples d’une classe que d’autres classes).
Macro-précision La précision macro-moyenne est la précision moyenne au niveau de la classe. La précision pour chaque classe est calculée et la macro-précision est la moyenne de ces précisions. Fondamentalement, chaque classe contribue de manière égale à la métrique de précision. Les classes minoritaires sont aussi importantes que les classes plus grandes. La métrique de macro-moyenne donne la même pondération à chaque classe, quel que soit le nombre d’instances de cette classe contenues dans le jeu de données. Plus la précision est proche de 1,00, meilleure est la qualité. La métrique est calculée de manière indépendante pour chaque classe, puis la moyenne est calculée (toutes les classes étant ainsi traitées de façon égale)
Perte logarithmique La perte logarithmique mesure les performances d’un modèle de classification où l’entrée de prédiction est une valeur de probabilité comprise entre 0,00 et 1,00. La perte logarithmique augmente à mesure que la probabilité prédite diffère de l’étiquette réelle. Plus la précision est proche de 0,00, meilleure est la qualité. Un modèle parfait aurait une perte logarithmique de 0,00. L’objectif de nos modèles Machine Learning consiste à réduire cette valeur.
Réduction de la perte logarithmique La réduction de la perte logarithmique peut être interprétée comme exprimant l’avantage du classifieur par rapport à une prédiction aléatoire. Elle est comprise entre -inf et 1,00, où 1,00 correspond à des prédictions parfaites et 0,00 à des prédictions moyennes. Par exemple, si la valeur est égale à 0,20, elle peut être interprétée comme « la probabilité d’une prédiction correcte est 20 % meilleure qu’une estimation aléatoire ».

La micro-précision est généralement mieux alignée sur les besoins métier de prédictions de ML. Si vous souhaitez sélectionner une seule métrique pour choisir la qualité d’une tâche de classification multiclasse, ce doit généralement être la micro-précision.

Prenons l’exemple d’une tâche de classification de ticket de support (mappage des tickets entrants aux équipes de support technique) :

  • Micro-précision : avec quelle fréquence un ticket entrant est-il orienté vers l’équipe appropriée ?
  • Macro-précision : pour une équipe moyenne, avec quelle fréquence un ticket entrant est-il correct pour l’équipe concernée ?

La macro-précision accorde une pondération supérieure aux petites équipes dans cet exemple ; une petite équipe qui n’obtient que 10 tickets par an compte autant qu’une grande équipe qui obtient 10 000 tickets par an. Dans ce cas, la micro-précision présente une meilleure corrélation avec le besoin métier exprimé par « combien de temps et d’argent l’entreprise peut-elle économiser en automatisant mon processus de routage des tickets ».

Pour plus d’informations sur les métriques de classification multiclasse, consultez les articles suivants :

Métriques d’évaluation pour la régression et la recommandation

Les tâches de régression et de recommandation prédisent un nombre. En cas de régression, le nombre peut être n’importe quelle propriété de sortie qui est influencée par les propriétés d’entrée. Pour la recommandation, le nombre est généralement une valeur d’évaluation (entre 1 et 5 par exemple), ou une recommandation oui/non (représentée par 1 et 0 respectivement).

Métrique Description Recherche
R carré Le coefficient de détermination, ou R carré (R2), représente la puissance prédictive du modèle sous la forme d’une valeur comprise entre -inf et 1,00. 1,00 signifie un ajustement parfait ; l’ajustement peut être arbitrairement médiocre, les scores pouvant alors être négatifs. Un score de 0,00 signifie que le modèle devine la valeur attendue pour l’étiquette. Une valeur R2 négative indique que l’ajustement ne suit pas la tendance des données et que le modèle fonctionne moins bien que les estimations aléatoires. Cela n’est possible qu’avec des modèles de régression non linéaire ou une régression linéaire contrainte. R2 mesure la proximité des valeurs de données de test réelles des valeurs prédites. Plus la précision est proche de 1,00, meilleure est la qualité. Cependant, de faibles valeurs de coefficient de détermination (par exemple 0,50) peuvent parfois être tout à fait normales ou suffisantes pour votre scénario, alors que des valeurs élevées ne conviennent pas toujours et peuvent être suspectes.
Perte absolue La perte absolue ou erreur d’absolue moyenne (MAE) mesure la proximité des prédictions des résultats réels. Il s’agit de la moyenne de toutes les erreurs du modèle, où l’erreur de modèle est la distance absolue entre la valeur d’étiquette prédite et la valeur d’étiquette correcte. Cette erreur de prédiction est calculée pour chaque enregistrement du jeu de données de test. Enfin, la valeur moyenne est calculée pour toutes les erreurs d’absolue enregistrées. Plus la précision est proche de 0,00, meilleure est la qualité. L’erreur d’absolue moyenne utilise la même échelle que les données mesurées (elle n’est pas normalisée sur une plage spécifique). Vous ne pouvez utiliser l’erreur absolue, l’erreur quadratique moyenne et la racine de l’erreur quadratique moyenne que pour comparer des modèles pour le même jeu de données ou pour un jeu de données présentant une distribution similaire des valeurs d’étiquette.
Erreur quadratique L’Erreur quadratique ou Erreur quadratique moyenne (MSE), également appelée Écart quadratique moyen (MSD), indique la proximité d’une ligne de régression d’un ensemble de valeurs de données de test en prenant les distances entre les points et la ligne de régression (ces distances sont les erreurs E) et en les mettant au carré. L’élévation au carré attribue une pondération supérieure aux différences plus grandes. Elle est toujours non négative, et plus les valeurs sont proches de 0,00, meilleure est la qualité. En fonction de vos données, il peut s’avérer impossible d’obtenir une valeur très petite pour l’erreur quadratique moyenne.
Racine de l’erreur quadratique La racine de l’erreur quadratique ou racine de l’erreur quadratique moyenne, également appelée racine de l’écart quadratique moyen, mesure la différence entre les valeurs prédites par un modèle et les valeurs observées à partir de l’environnement en cours de modélisation. La racine de l’erreur quadratique moyenne est la racine carrée de l’erreur quadratique moyenne et a les mêmes unités que l’étiquette, à l’image de l’erreur absolue, bien que les différences plus grandes se voient attribuer une pondération supérieure. La racine de l’erreur quadratique moyenne est couramment utilisée dans les domaines de la climatologie, des prévisions et de l’analyse de régression pour vérifier des résultats expérimentaux. Elle est toujours non négative, et plus les valeurs sont proches de 0,00, meilleure est la qualité. La racine de l’erreur quadratique moyenne est une mesure de précision, qui compare les erreurs de prévision de différents modèles pour un jeu de données particulier et non entre plusieurs jeux de données, étant dépendante de l’échelle.

Pour plus d’informations sur les métriques de régression, consultez les articles suivants :

Métriques d’évaluation pour le clustering

Métrique Description Recherche
Distance moyenne Moyenne de la distance entre les points de données et le centre de leur cluster attribué. La distance moyenne est une mesure de la proximité des points de données aux centroïdes de cluster. Il s’agit d’une mesure de la « rigueur » du cluster. Les valeurs plus proches de 0 sont meilleures. Plus la distance moyenne est proche de zéro, plus les données sont en cluster. Notez toutefois que cette métrique diminuera si le nombre de clusters augmente et, dans les cas extrêmes (où chaque point de données distinct est son propre cluster), sera égale à zéro.
Index Davies Bouldin Rapport moyen entre les distances au sein du cluster et les distances entre les clusters. Plus le cluster est étroit et plus les clusters sont éloignés, plus cette valeur est faible. Les valeurs plus proches de 0 sont meilleures. Les clusters qui sont plus éloignés et moins dispersés donnent un meilleur score.
Informations mutuelles normalisées Peut être utilisé lorsque les données d’entraînement utilisées pour entraîner le modèle de clustering sont également accompagnées d’étiquettes de réalité (autrement dit, clustering supervisé). La métrique Informations mutuelles normalisées mesure si des points de données similaires sont affectés au même cluster et si des points de données disparates sont affectés à différents clusters. Les informations mutuelles normalisées sont une valeur comprise entre 0 et 1. Les valeurs plus proches de 1 sont préférables.

Métriques d’évaluation pour le classement

Métrique Description Recherche
Gains cumulés réduits Le gain cumulé réduit (DCG) est une mesure de la qualité du classement. Il est dérivé de deux hypothèses. Un : les éléments très pertinents sont plus utiles lorsqu’ils apparaissent plus haut dans l’ordre de classement. Deux : l’utilité suit la pertinence, c’est-à-dire que, plus la pertinence est élevée, plus un élément est utile. Le gain cumulé réduit est calculé pour une position particulière dans l’ordre de classement. Il additionne la notation de pertinence divisée par le logarithme de l’indice de classement jusqu’à la position d’intérêt. Il est calculé à l’aide de $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Les notations de pertinence sont fournies à un algorithme de formation de classement en tant qu’étiquettes de réalité de base. Une valeur DCG est fournie pour chaque position de la table de classement, d’où le nom Gains cumulés réduits. Des valeurs plus élevées sont préférables.
Gains cumulés réduits normalisés La normalisation des DCG permet de comparer la métrique pour les listes de classement de différentes longueurs. Les valeurs plus proches de 1 sont meilleures.

Métriques d’évaluation pour la détection des anomalies

Métrique Description Recherche
Zone sous la courbe CENTRE La zone sous la courbe de l’opérateur récepteur mesure la façon dont le modèle sépare les points de données anormaux et habituels. Les valeurs plus proches de 1 sont meilleures. Seules les valeurs supérieures à 0,5 démontrent l’efficacité du modèle. Des valeurs de 0,5 ou inférieures indiquent que le modèle ne vaut pas mieux que d’allouer de manière aléatoire les entrées à des catégories anormales et habituelles.
Taux de détection au nombre de faux positifs Le taux de détection au nombre de faux positifs est le rapport entre le nombre d’anomalies correctement identifiées et le nombre total d’anomalies dans un jeu de test, indexé par chaque faux positif. Autrement dit, il existe une valeur pour le taux de détection au nombre de faux positifs pour chaque élément faux positif. Les valeurs plus proches de 1 sont meilleures. En l’absence de faux positifs, cette valeur est égale à 1.

Métriques d’évaluation des similitudes de phrases

Métrique Description Recherche
Corrélation de Pearson La corrélation de Pearson, également appelée coefficient de corrélation, mesure la dépendance ou la relation entre deux jeux de données. Les valeurs absolues plus proches de 1 sont les plus similaires. Cette métrique est comprise entre -1 et 1. Une valeur absolue de 1 implique que les jeux de données sont identiques. La valeur 0 implique qu’il n’existe aucune relation entre les deux jeux de données.