Auswerten des ML.NET-Modells mit MetrikenEvaluate your ML.NET model with metrics

Verstehen der Metriken, die zum Auswerten eines ML.NET-Modells verwendet werden.Understand the metrics used to evaluate an ML.NET model.

Auswertungsmetriken sind spezifisch für den Typ der Machine Learning-Aufgabe, die ein Modell ausführt.Evaluation metrics are specific to the type of machine learning task that a model performs.

Beispielsweise wird für die Klassifizierungsaufgabe das Modell ausgewertet, indem gemessen wird, wie gut eine vorhergesagte Kategorie mit der tatsächlichen Kategorie übereinstimmt.For example, for the classification task, the model is evaluated by measuring how well a predicted category matches the actual category. Bei Clustering basiert die Auswertung darauf, wie nahe die gruppierten Elemente beieinander liegen und wie viel Trennung zwischen den Clustern vorhanden ist.And for clustering, evaluation is based on how close clustered items are to each other, and how much separation there is between the clusters.

Auswertungsmetriken für binäre KlassifizierungEvaluation metrics for Binary Classification

MetrikenMetrics BeschreibungDescription Suche nachLook for
AccuracyAccuracy Accuracy Dies ist der Anteil der korrekten Vorhersagen mit einem Testdataset.Accuracy is the proportion of correct predictions with a test data set. Es ist das Verhältnis zwischen der Anzahl der korrekten Vorhersagen und der Gesamtzahl der Eingangsstichproben.It is the ratio of number of correct predictions to the total number of input samples. Dies funktioniert gut, wenn es zu jeder Klasse eine ähnliche Anzahl von Stichproben gibt.It works well if there are similar number of samples belonging to each class. Je näher der Wert an 1,00 liegt, desto besser.The closer to 1.00, the better. Aber ein Wert von genau 1,00 zeigt ein Problem an (häufig: Bezeichnung-Ziel-Verlust, Überanpassung oder Test mit Trainingsdaten).But exactly 1.00 indicates an issue (commonly: label/target leakage, over-fitting, or testing with training data). Wenn die Testdaten unausgewogen sind (wobei die meisten Instanzen zu einer der Klassen gehören), der Datensatz klein ist oder die Werte auf 0,00 oder 1,00 ansteigen, dann wird die Effektivität eines Klassifikators nicht wirklich erfasst, und Sie müssen zusätzliche Metriken überprüfen.When the test data is unbalanced (where most of the instances belong to one of the classes), the dataset is small, or scores approach 0.00 or 1.00, then accuracy doesn’t really capture the effectiveness of a classifier and you need to check additional metrics.
AUCAUC aucROC oder Area under the curve (Fläche unter der Kurve) ist die Messung der Fläche unter der Kurve, die durch Abgleichen der True Positive-Rate mit der False Positive-Rate generiert wird.aucROC or Area under the curve measures the area under the curve created by sweeping the true positive rate vs. the false positive rate. Je näher der Wert an 1,00 liegt, desto besser.The closer to 1.00, the better. Der Wert muss größer als 0,50 sein, damit ein Modell akzeptabel ist.It should be greater than 0.50 for a model to be acceptable. Ein Modell mit einem AUC-Wert von 0,50 oder weniger ist wertlos.A model with AUC of 0.50 or less is worthless.
aucPRAUCPR aucPR oder Area under a Precision-Recall curve (Fläche unter der Precision-Recall-Kurve): Ein nützliches Maß für den Erfolg der Vorhersage, wenn die Klassen unausgewogen sind (stark verzerrte Datasets).aucPR or Area under the curve of a Precision-Recall curve: Useful measure of success of prediction when the classes are imbalanced (highly skewed datasets). Je näher der Wert an 1,00 liegt, desto besser.The closer to 1.00, the better. Hohe Werte nahe 1,00 zeigen, dass der Klassifikator sowohl genaue Ergebnisse liefert (hohe Präzision) als auch einen Großteil aller positiven Ergebnisse liefert (hohe Wiedererkennung).High scores close to 1.00 show that the classifier is returning accurate results (high precision), as well as returning a majority of all positive results (high recall).
F1-scoreF1-score F1-score auch bezeichnet als „balanced F-score“ oder F-Maß.F1 score also known as balanced F-score or F-measure. Dies ist das harmonische Mittel zwischen Präzision und Wiedererkennung.It's the harmonic mean of the precision and recall. F1 Score ist hilfreich, wenn das Verhältnis zwischen Präzision und Wiedererkennung ausgeglichen sein soll.F1 Score is helpful when you want to seek a balance between Precision and Recall. Je näher der Wert an 1,00 liegt, desto besser.The closer to 1.00, the better. Ein F1-Score erreicht seinen besten Wert bei 1,00 und den schlechtesten bei 0,00.An F1 score reaches its best value at 1.00 and worst score at 0.00. Daran erkennen Sie, wie präzise Ihr Klassifizierer ist.It tells you how precise your classifier is.

Weitere Informationen zu binären Klassifizierungsmetriken finden Sie in den folgenden Artikeln:For further details on binary classification metrics read the following articles:

Auswertungsmetriken für mehrklassige KlassifizierungEvaluation metrics for Multi-class Classification

MetrikenMetrics BeschreibungDescription Suche nachLook for
Micro-AccuracyMicro-Accuracy Die durchschnittliche Mikrogenauigkeit aggregiert die Beiträge aller Klassen zur Berechnung der durchschnittlichen Metrik.Micro-average Accuracy aggregates the contributions of all classes to compute the average metric. Es ist der Anteil der korrekt vorhergesagten Instanzen.It is the fraction of instances predicted correctly. Der Mikrodurchschnitt berücksichtigt nicht die Klassenzugehörigkeit.The micro-average does not take class membership into account. Jedes Beispiel/Klasse-Paar trägt grundsätzlich zu gleichen Teilen zur Genauigkeitsmetrik bei.Basically, every sample-class pair contributes equally to the accuracy metric. Je näher der Wert an 1,00 liegt, desto besser.The closer to 1.00, the better. In einer Aufgabe für die Multiklassenklassifizierung ist die Mikrogenauigkeit der Makrogenauigkeit vorzuziehen, wenn Sie vermuten, dass es ein Klassenungleichgewicht geben könnte (d.h.In a multi-class classification task, micro-accuracy is preferable over macro-accuracy if you suspect there might be class imbalance (i.e Sie haben viel mehr Beispiele für eine Klasse als für andere Klassen).you may have many more examples of one class than of other classes).
Macro-AccuracyMacro-Accuracy Die durchschnittliche Makrogenauigkeit ist die durchschnittliche Genauigkeit auf Klassenebene.Macro-average Accuracy is the average accuracy at the class level. Die Genauigkeit für jede Klasse wird berechnet, und die Makrogenauigkeit ist der Durchschnitt dieser Genauigkeiten.The accuracy for each class is computed and the macro-accuracy is the average of these accuracies. Grundsätzlich trägt jede Klasse zu gleichen Teilen zur Genauigkeitsmetrik bei.Basically, every class contributes equally to the accuracy metric. Minderheitsklassen werden gleich wie größere Klassen gewichtet.Minority classes are given equal weight as the larger classes. Die Metrik gibt jeder Klasse die gleiche Gewichtung, unabhängig davon, wie viele Instanzen aus dieser Klasse das Dataset enthält.The macro-average metric gives the same weight to each class, no matter how many instances from that class the dataset contains. Je näher der Wert an 1,00 liegt, desto besser.The closer to 1.00, the better. Sie berechnet die Metrik unabhängig für jede Klasse und ermittelt dann den Durchschnitt (daher werden alle Klassen gleich behandelt).It computes the metric independently for each class and then takes the average (hence treating all classes equally)
Log-lossLog-loss Der logarithmische Verlust misst die Leistung eines Klassifizierungsmodells, wobei die Vorhersageeingabe ein Wahrscheinlichkeitswert zwischen 0,00 und 1,00 ist.Logarithmic loss measures the performance of a classification model where the prediction input is a probability value between 0.00 and 1.00. Der Wert steigt, wenn die vorhergesagte Wahrscheinlichkeit von der tatsächlichen Bezeichnung abweicht.Log-loss increases as the predicted probability diverges from the actual label. Je näher der Wert an 0,00 liegt, desto besser.The closer to 0.00, the better. Bei einem perfekten Modell liegt der Wert bei 0,00.A perfect model would have a log-loss of 0.00. Ziel unserer Machine Learning-Modelle ist es, diesen Wert zu minimieren.The goal of our machine learning models is to minimize this value.
Log-Loss ReductionLog-Loss Reduction Die logarithmische Verlustreduzierung kann als Vorteil des Klassifizierers gegenüber einer Zufallsvorhersage interpretiert werden.Logarithmic loss reduction can be interpreted as the advantage of the classifier over a random prediction. Liegt zwischen [-inf, 1.00], wobei „1.00“ perfekte Vorhersagen und „0.00“ durchschnittliche Vorhersagen bedeutet.Ranges from -inf and 1.00, where 1.00 is perfect predictions and 0.00 indicates mean predictions. Wenn der Wert beispielsweise 0,20 beträgt, kann er als „die Wahrscheinlichkeit einer korrekten Vorhersage ist 20 % besser als eine zufällige Schätzung“ interpretiert werden.For example, if the value equals 0.20, it can be interpreted as "the probability of a correct prediction is 20% better than random guessing"

Die Mikrogenauigkeit ist im Allgemeinen besser auf die Geschäftsanforderungen der ML-Vorhersagen ausgerichtet.Micro-accuracy is generally better aligned with the business needs of ML predictions. Wenn Sie eine einzelne Metrik für die Auswahl der Qualität einer Aufgabe für die Multiklassenklassifizierung auswählen, sollte dies in der Regel die Mikrogenauigkeit sein.If you want to select a single metric for choosing the quality of a multiclass classification task, it should usually be micro-accuracy.

Beispiel für eine Aufgabe zur Klassifizierung von Supporttickets: (ordnet eingehende Tickets den Support-Teams zu)Example, for a support ticket classification task: (maps incoming tickets to support teams)

  • Mikrogenauigkeit – wie oft wird ein eingehendes Ticket dem richtigen Team zugeordnet?Micro-accuracy -- how often does an incoming ticket get classified to the right team?
  • Makrogenauigkeit für dein durchschnittliches Team – wie oft ist ein eingehendes Ticket das richtige Ticket für das Team?Macro-accuracy -- for an average team, how often is an incoming ticket correct for their team?

Die Makrogenauigkeit gewichtet in diesem Beispiel kleine Teams zu hoch: Ein kleines Team, das nur 10 Tickets pro Jahr erhält, zählt ebenso viel wie ein großes Team mit 10.000 Tickets pro Jahr.Macro-accuracy overweights small teams in this example; a small team that gets only 10 tickets per year counts as much as a large team with 10k tickets per year. Die Mikrogenauigkeit korreliert in diesem Fall besser mit der Geschäftsanforderung: „Wie viel Zeit/Geld kann das Unternehmen durch die Automatisierung meines Prozesses für die Ticketweiterleitung sparen“.Micro-accuracy in this case correlates better with the business need of, "how much time/money can the company save by automating my ticket routing process".

Weitere Informationen zu Metriken für die Multiklassenklassifizierung finden Sie in den folgenden Artikeln:For further details on multi-class classification metrics read the following articles:

Auswertungsmetriken für Regression und EmpfehlungEvaluation metrics for Regression and Recommendation

Sowohl die Regressions- als auch die Empfehlungsaufgabe prognostizieren eine Zahl.Both the regression and recommendation tasks predict a number. Im Fall von Regression kann die Zahl jede Ausgabeeigenschaft sein, die von den Eingabeeigenschaften beeinflusst wird.In the case of regression, the number can be any output property that is influenced by the input properties. Bei der Empfehlung ist die Zahl in der Regel ein Bewertungswert (z. B. zwischen 1 und 5) oder eine Ja/Nein-Empfehlung (dargestellt durch 1 bzw. 0).For recommendation, the number is usually a rating value (between 1 and 5 for example), or a yes/no recommendation (represented by 1 and 0 respectively).

MetrikMetric BeschreibungDescription Suche nachLook for
R-squaredR-Squared R-squared (R2) oder Bestimmtheitsmaß stellt die Vorhersageleistung des Modells als Wert zwischen -inf und 1,00 dar.R-squared (R2), or Coefficient of determination represents the predictive power of the model as a value between -inf and 1.00. 1,00 bedeutet, dass das Modell perfekt geeignet ist. Die Eignung kann aber auch willkürlich schlecht sein, sodass die Werte negativ sein können.1.00 means there is a perfect fit, and the fit can be arbitrarily poor so the scores can be negative. Ein Score von 0,00 bedeutet, dass das Modell den erwarteten Wert für die Bezeichnung schätzt.A score of 0.00 means the model is guessing the expected value for the label. R2 misst, wie nah die tatsächlichen Testdatenwerte an den vorhergesagten Werten liegen.R2 measures how close the actual test data values are to the predicted values. Je näher der Wert an 1,00 liegt, desto besser ist die Qualität des Modells.The closer to 1.00, the better quality. Manchmal können jedoch niedrige R-squared-Werte (z.B. 0,50) ganz normal oder gut genug für Ihr Szenario sein, und hohe R-squared-Werte sind nicht immer gut und möglicherweise verdächtig.However, sometimes low R-squared values (such as 0.50) can be entirely normal or good enough for your scenario and high R-squared values are not always good and be suspicious.
Absolute-lossAbsolute-loss Absolute-loss oder Mittlerer absoluter Fehler (MAE) misst, wie nah die Vorhersagen an den tatsächlichen Ergebnissen liegen.Absolute-loss or Mean absolute error (MAE) measures how close the predictions are to the actual outcomes. Damit wird der Durchschnitt aller Modellfehler angegeben, wobei ein Modellfehler die Differenz zwischen dem vorhergesagten Wert für die Bezeichnung und dem korrekten Wert für die Bezeichnung ist.It is the average of all the model errors, where model error is the absolute distance between the predicted label value and the correct label value. Dieser Vorhersagefehler wird für jeden Datensatz des Testdatasets berechnet.This prediction error is calculated for each record of the test data set. Abschließend wird der Mittelwert für alle erfassten absoluten Fehler berechnet.Finally, the mean value is calculated for all recorded absolute errors. Je näher der Wert an 0,00 liegt, desto besser ist die Qualität des Modells.The closer to 0.00, the better quality. Der mittlere absolute Fehler verwendet die gleiche Staffelung wie die zu messenden Daten (ist nicht für einen bestimmten Bereich normalisiert).The mean absolute error uses the same scale as the data being measured (is not normalized to specific range). „Absolute-loss“, „Squared-loss“ und „RMS-loss“ können nur zum Vergleich von Modellen für dasselbe Dataset oder Datasets mit einer ähnlichen Bezeichnung-Wert-Verteilung verwendet werden.Absolute-loss, Squared-loss, and RMS-loss can only be used to make comparisons between models for the same dataset or dataset with a similar label value distribution.
Squared-lossSquared-loss Squared-loss oder Mittlerer quadratischer Fehler (Mean Squared Error, MSE) , auch Mittlere quadratische Abweichung (Mean Squared Deviation, MSD) genannt, gibt an, wie nahe eine Regressionslinie an einer Reihe von Testdatenwerten liegt, indem die Abstände der Punkte zur Regressionslinie (diese Abstände sind die Fehler E) ermittelt und ins Quadrat erhoben werden.Squared-loss or Mean Squared Error (MSE), also called Mean Squared Deviation (MSD), tells you how close a regression line is to a set of test data values by taking the distances from the points to the regression line (these distances are the errors E) and squaring them. Durch das Quadrieren wird größeren Unterschieden eine höhere Gewichtung zugewiesen.The squaring gives more weight to larger differences. Der Wert ist immer nicht negativ, und Werte, die näher an 0,00 liegen, sind besser.It is always non-negative, and values closer to 0.00 are better. In Abhängigkeit von Ihren Daten kann es unmöglich sein, für den mittleren quadratischen Fehler einen sehr kleinen Wert zu erhalten.Depending on your data, it may be impossible to get a very small value for the mean squared error.
RMS-lossRMS-loss RMS-loss oder Wurzel aus dem mittleren quadratischen Fehler (Root Mean Squared Error, RMSE) (auch als Wurzel aus der mittleren quadratischen Abweichung [Root Mean Square Deviation, RMSD]), misst die Differenz zwischen den von einem Modell vorhergesagten Werten und den beobachteten Werten aus der zu modellierenden Umgebung.RMS-loss or Root Mean Squared Error (RMSE) (also called Root Mean Square Deviation, RMSD), measures the difference between values predicted by a model and the values observed from the environment that is being modeled. „RMS-loss“ ist die Quadratwurzel von „Squared-loss“ und verwendet, ähnlich wie „Absolute-loss“ dieselben Einheiten wie die Bezeichnung, weist jedoch größeren Unterschieden mehr Gewichtung zu.RMS-loss is the square root of Squared-loss and has the same units as the label, similar to the absolute-loss though giving more weight to larger differences. Die Wurzel aus dem mittleren quadratischen Fehler wird häufig in der Klimatologie, für Vorhersagen und Regressionsanalyse verwendet, um experimentelle Ergebnisse zu überprüfen.Root mean square error is commonly used in climatology, forecasting, and regression analysis to verify experimental results. Der Wert ist immer nicht negativ, und Werte, die näher an 0,00 liegen, sind besser.It is always non-negative, and values closer to 0.00 are better. RMSD ist ein Maß für die Genauigkeit, um Vorhersagefehler verschiedener Modelle für ein bestimmtes Dataset zu vergleichen und nicht für verschiedene Datasets, da der Wert staffelungsabhängig ist.RMSD is a measure of accuracy, to compare forecasting errors of different models for a particular dataset and not between datasets, as it is scale-dependent.

Weitere Informationen zu Regressionsmetriken finden Sie in den folgenden Artikeln:For further details on regression metrics, read the following articles:

Auswertungsmetriken für ClusteringEvaluation metrics for Clustering

MetrikMetric BeschreibungDescription Suche nachLook for
Durchschnittlicher AbstandAverage Distance Der Durchschnitt des Abstands zwischen Datenpunkten und der Mitte des zugewiesenen Clusters.Average of the distance between data points and the center of their assigned cluster. Der mittlere Abstand ist ein Maß für die Nähe der Datenpunkte zu den Clusterschwerpunkten.The average distance is a measure of proximity of the data points to cluster centroids. Es ist ein Maß dafür, wie „dicht“ der Cluster ist.It's a measure of how 'tight' the cluster is. Werte, die näher an 0 liegen, sind besser.Values closer to 0 are better. Je näher an Null der mittlere Abstand liegt, desto stärker sind die Daten gruppiert.The closer to zero the average distance is, the more clustered the data is. Beachten Sie jedoch, dass diese Metrik abnimmt, wenn die Anzahl der Cluster erhöht wird, und im Extremfall (wenn jeder einzelne Datenpunkt einen eigenen Cluster darstellt) gleich Null ist.Note though, that this metric will decrease if the number of clusters is increased, and in the extreme case (where each distinct data point is its own cluster) it will be equal to zero.
Davies-Bouldin-IndexDavies Bouldin Index Das durchschnittliche Verhältnis der Abstände innerhalb der Cluster zu den Abständen zwischen den Clustern.The average ratio of within-cluster distances to between-cluster distances. Je dichter der Cluster und je weiter die Cluster voneinander entfernt sind, desto niedriger ist dieser Wert.The tighter the cluster, and the further apart the clusters are, the lower this value is. Werte, die näher an 0 liegen, sind besser.Values closer to 0 are better. Cluster, die weiter auseinander liegen und weniger verstreut sind, führen zu einer besseren Bewertung.Clusters that are farther apart and less dispersed will result in a better score.
Normalized Mutual Information (normalisierte Transinformation)Normalized Mutual Information Kann verwendet werden, wenn die Trainingsdaten, mit denen das Clusteringmodell trainiert wird, auch mit Ground Truth-Bezeichnungen versehen sind (d. h. überwachtes Clustering).Can be used when the training data used to train the clustering model also comes with ground truth labels (that is, supervised clustering). Die Metrik „Normalized Mutual Information“ misst, ob ähnliche Datenpunkte demselben Cluster zugewiesen werden und unterschiedliche Datenpunkte verschiedenen Clustern zugewiesen werden.The Normalized Mutual Information metric measures whether similar data points get assigned to the same cluster and disparate data points get assigned to different clusters. „Normalized Mutual Informationen“ ist ein Wert zwischen 0 und 1.Normalized mutual information is a value between 0 and 1 Werte, die näher an 1 liegen, sind besser.Values closer to 1 are better

Auswertungsmetriken für RangfolgeEvaluation metrics for Ranking

MetrikMetric BeschreibungDescription Suche nachLook for
Discounted Cumulative Gains (diskontierte kumulative Zuwächse)Discounted Cumulative Gains Discounted Cumulative Gain (DCG) ist ein Maß für Rangfolgequalität.Discounted cumulative gain (DCG) is a measure of ranking quality. Diese Metrik wird von zwei Annahmen abgeleitet.It is derived from two assumptions. Annahme 1: Besonders relevante Elemente sind nützlicher, wenn Sie höher in der Rangfolge erscheinen.One: Highly relevant items are more useful when appearing higher in ranking order. Annahme 2: Nützlichkeit folgt Relevanz: Je höher die Relevanz, desto nützlicher ist ein Element.Two: Usefulness tracks relevance that is, the higher the relevance, the more useful an item. DCG wird für eine bestimmte Position in der Rangfolge berechnet.Discounted cumulative gain is calculated for a particular position in the ranking order. Die Metrik summiert die Relevanzbewertung, dividiert durch den Logarithmus des Rangfolgeindexes bis zur gewünschten Position.It sums the relevance grading divided by the logarithm of the ranking index up to the position of interest. Die Berechnung erfolgt mit $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. Relevanzgrade werden einem Rangfolge-Trainingsalgorithmus als Ground Truth-Bezeichnungen zur Verfügung gestellt.It is calculated using $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Relevance gradings are provided to a ranking training algorithm as ground truth labels. Ein DCG-Wert wird für jede Position in der Rangfolgetabelle bereitgestellt, daher der Name „Discounted Cumulative Gains“.One DCG value is provided for each position in the ranking table, hence the name Discounted Cumulative Gains. Höhere Werte sind besserHigher values are better
Normalized Discounted Cumulative Gains (normalisierte diskontierte kumulative Zuwächse)Normalized Discounted Cumulative Gains Durch die Normalisierung von DCG kann die Metrik für Rangfolgelisten mit unterschiedlicher Länge verglichen werden.Normalizing DCG allows the metric to be compared for ranking lists of different lengths Werte, die näher an 1 liegen, sind besserValues closer to 1 are better

Auswertungsmetriken für AnomalieerkennungEvaluation metrics for Anomaly Detection

MetrikMetric BeschreibungDescription Suche nachLook for
Area Under ROC Curve (Bereich unter der ROC-Kurve)Area Under ROC Curve Der Bereich unter der Empfängeroperatorkurve misst, wie gut das Modell anormale und normale Datenpunkte trennt.Area under the receiver operator curve measures how well the model separates anomalous and usual data points. Werte, die näher an 1 liegen, sind besser.Values closer to 1 are better. Nur Werte größer als 0,5 veranschaulichen die Effektivität des Modells.Only values greater than 0.5 demonstrate effectiveness of the model. Werte von 0,5 oder niedriger weisen darauf hin, dass das Modell nicht besser ist als das zufällige Zuordnen der Eingaben zu anormalen und normalen Kategorien.Values of 0.5 or below indicate that the model is no better than randomly allocating the inputs to anomalous and usual categories
Detection Rate At False Positive Count (Erkennungsrate bei falsch positiver Anzahl)Detection Rate At False Positive Count Die Erkennungsrate bei falsch positiver Anzahl ist das Verhältnis zwischen der Anzahl der richtig identifizierten Anomalien und der Gesamtzahl der Anomalien in einem Testsatz, indiziert durch die einzelnen falsch positiven Elemente.Detection rate at false positive count is the ratio of the number of correctly identified anomalies to the total number of anomalies in a test set, indexed by each false positive. Das heißt, es gibt einen Wert für die Erkennungsrate bei falscher positiver Anzahl für jedes falsch positive Element.That is, there is a value for detection rate at false positive count for each false positive item. Werte, die näher an 1 liegen, sind besser.Values closer to 1 are better. Wenn keine falsch positiven Elemente vorliegen, ist dieser Wert 1.If there are no false positives, then this value is 1