Vyhodnocení modelu ML.NET pomocí metrikEvaluate your ML.NET model with metrics

Pochopení metrik používané k vyhodnocení modelu ML.NET.Understand the metrics used to evaluate an ML.NET model.

Metriky vyhodnocení jsou specifické pro typ úlohy strojového učení, kterou model provádí.Evaluation metrics are specific to the type of machine learning task that a model performs.

Například pro úlohu klasifikace je model vyhodnocován pomocí měření, jak dobře předpokládaná kategorie odpovídá aktuální kategorii.For example, for the classification task, the model is evaluated by measuring how well a predicted category matches the actual category. A pro clustering se hodnocení vychází z toho, jak se vzájemně dostanou clusterované položky, a kolik jich mezi clustery existuje.And for clustering, evaluation is based on how close clustered items are to each other, and how much separation there is between the clusters.

Metriky vyhodnocení pro binární klasifikaciEvaluation metrics for Binary Classification

MetrikyMetrics PopisDescription VyhledejteLook for
ÚdajůAccuracy Přesnost je poměr správného předpovědi se sadou testů dat.Accuracy is the proportion of correct predictions with a test data set. Je to poměr počtu správných předpovědi k celkovému počtu vstupních vzorků.It is the ratio of number of correct predictions to the total number of input samples. Funguje dobře, pokud existuje podobný počet vzorků patřících ke každé třídě.It works well if there are similar number of samples belonging to each class. Nejblíže k 1,00, tím lépe.The closer to 1.00, the better. Ale přesně 1,00 označuje problém (obvykle se jedná o netěsné úniky popisků, převzetí služeb při selhání nebo testování pomocí školicích dat).But exactly 1.00 indicates an issue (commonly: label/target leakage, over-fitting, or testing with training data). Pokud jsou testovací data nevyvážená (kde většina instancí patří do jedné z tříd), je datová sada malá nebo má skóre přístup 0,00 nebo 1,00, pak přesnost nezachycuje efektivitu klasifikátoru a potřebujete zkontrolovat další metriky.When the test data is unbalanced (where most of the instances belong to one of the classes), the dataset is small, or scores approach 0.00 or 1.00, then accuracy doesn’t really capture the effectiveness of a classifier and you need to check additional metrics.
AUCAUC aucROC nebo plocha pod křivkou měří oblast pod křivkou, která je vytvořená vykreslením skutečné kladné míry a falešně pozitivních sazeb.aucROC or Area under the curve measures the area under the curve created by sweeping the true positive rate vs. the false positive rate. Nejblíže k 1,00, tím lépe.The closer to 1.00, the better. Měl by být větší než 0,50, aby bylo možné model akceptovat.It should be greater than 0.50 for a model to be acceptable. Model s AUC 0,50 nebo méně je bezcenné.A model with AUC of 0.50 or less is worthless.
AUCPRAUCPR aucPR nebo plocha pod křivkou křivky přesnosti odvolání: užitečná míra úspěšnosti předpovědi, pokud jsou třídy nevyrovnané (vysoce zkreslené datové sady).aucPR or Area under the curve of a Precision-Recall curve: Useful measure of success of prediction when the classes are imbalanced (highly skewed datasets). Nejblíže k 1,00, tím lépe.The closer to 1.00, the better. Vysoká skóre blízko až 1,00 ukazují, že klasifikátor vrací přesné výsledky (vysoká přesnost) a vrací většinu všech pozitivních výsledků (vysoké odvolání).High scores close to 1.00 show that the classifier is returning accurate results (high precision), as well as returning a majority of all positive results (high recall).
F1 – skóreF1-score Skóre F1 se také označuje jako vyrovnané f-skore nebo f-Measure.F1 score also known as balanced F-score or F-measure. Je to harmonický význam přesnosti a odvolání.It's the harmonic mean of the precision and recall. Skóre F1 je užitečné, pokud chcete vyhledat rovnováhu mezi přesností a odvoláním.F1 Score is helpful when you want to seek a balance between Precision and Recall. Nejblíže k 1,00, tím lépe.The closer to 1.00, the better. Skóre F1 dosáhne své nejlepší hodnoty na 1,00 a nejhorší skóre v 0,00.An F1 score reaches its best value at 1.00 and worst score at 0.00. Dozvíte se, jak přesně je třídění.It tells you how precise your classifier is.

Další podrobnosti o binárních metrikách klasifikace najdete v následujících článcích:For further details on binary classification metrics read the following articles:

Metriky vyhodnocení pro klasifikaci více třídEvaluation metrics for Multi-class Classification

MetrikyMetrics PopisDescription VyhledejteLook for
MikropřesnostMicro-Accuracy Střední hodnota přesnosti agreguje příspěvky všech tříd k výpočtu průměrné metriky.Micro-average Accuracy aggregates the contributions of all classes to compute the average metric. Jedná se o zlomek nesprávně vypředpokládaných instancí.It is the fraction of instances predicted correctly. Střední hodnota mikroprůměru nebere v úvahu členství třídy.The micro-average does not take class membership into account. V podstatě každá dvojice vzorových tříd přispívá stejně jako metrika přesnosti.Basically, every sample-class pair contributes equally to the accuracy metric. Nejblíže k 1,00, tím lépe.The closer to 1.00, the better. V rámci úlohy klasifikace s více třídami je mikropřesnost vhodnější než přesnost v makrech, pokud máte podezření, že může dojít k nerovnováze třídy (tj.In a multi-class classification task, micro-accuracy is preferable over macro-accuracy if you suspect there might be class imbalance (i.e je možné, že máte mnoho dalších příkladů jedné třídy než jiné třídy).you may have many more examples of one class than of other classes).
Přesnost makerMacro-Accuracy Makro – Průměrná přesnost je průměrná přesnost na úrovni třídy.Macro-average Accuracy is the average accuracy at the class level. Je vypočítána přesnost pro každou třídu a přesnost makra je průměrem z těchto přesností.The accuracy for each class is computed and the macro-accuracy is the average of these accuracies. V podstatě každá třída přispívá stejně jako metrika přesnosti.Basically, every class contributes equally to the accuracy metric. Minoritní třídy mají stejnou váhu jako větší třídy.Minority classes are given equal weight as the larger classes. Makro – Průměrná metrika poskytuje stejnou váhu jednotlivým třídám, bez ohledu na to, kolik instancí z této třídy datová sada obsahuje.The macro-average metric gives the same weight to each class, no matter how many instances from that class the dataset contains. Nejblíže k 1,00, tím lépe.The closer to 1.00, the better. Počítá metriku nezávisle pro každou třídu a pak bere průměr (proto se všechny třídy zpracovávají stejně).It computes the metric independently for each class and then takes the average (hence treating all classes equally)
Protokol – ztrátaLog-loss Logaritmická ztráta měří výkon klasifikačního modelu, kde vstupní předpověď je pravděpodobnostní hodnota mezi 0,00 a 1,00.Logarithmic loss measures the performance of a classification model where the prediction input is a probability value between 0.00 and 1.00. Ztráta protokolu se zvyšuje, protože předpokládaná pravděpodobnost se liší od skutečného popisku.Log-loss increases as the predicted probability diverges from the actual label. Nejblíže k 0,00, tím lépe.The closer to 0.00, the better. Dokonalý model by měl mít za následek ztrátu protokolu 0,00.A perfect model would have a log-loss of 0.00. Cílem našich modelů strojového učení je minimalizovat tuto hodnotu.The goal of our machine learning models is to minimize this value.
Omezení ztrát protokoluLog-Loss Reduction Snížení logaritmických ztrát může být interpretováno jako výhoda klasifikátoru na náhodné předpovědi.Logarithmic loss reduction can be interpreted as the advantage of the classifier over a random prediction. Rozsahy od-inf a 1,00, kde 1,00 je perfektní předpovědi a 0,00 znamená střední předpovědi.Ranges from -inf and 1.00, where 1.00 is perfect predictions and 0.00 indicates mean predictions. Například pokud se hodnota rovná 0,20, může být interpretována jako "pravděpodobnost správné předpovědi je 20% lepší než náhodné odhadování"For example, if the value equals 0.20, it can be interpreted as "the probability of a correct prediction is 20% better than random guessing"

Mikropřesnost je všeobecně lepší v souladu s podnikovými požadavky předpovědi ML.Micro-accuracy is generally better aligned with the business needs of ML predictions. Pokud chcete vybrat jednu metriku pro výběr kvality úlohy klasifikace s více třídami, měla by obvykle být mikropřesnost.If you want to select a single metric for choosing the quality of a multiclass classification task, it should usually be micro-accuracy.

Příklad pro úlohu klasifikace lístků podpory: (mapuje příchozí lístky na podporu týmů)Example, for a support ticket classification task: (maps incoming tickets to support teams)

  • Mikropřesnost – jak často se příchozí lístek klasifikuje do správného týmu?Micro-accuracy -- how often does an incoming ticket get classified to the right team?
  • Přesnost makra – pro průměrnou tým, jak často je příchozí lístek správný pro svůj tým?Macro-accuracy -- for an average team, how often is an incoming ticket correct for their team?

V tomto příkladu jsou předané malé týmy s přesností maker. malý tým, který získá jenom 10 lístků za rok, se počítá jako velký tým s 10 000 lístky za rok.Macro-accuracy overweights small teams in this example; a small team that gets only 10 tickets per year counts as much as a large team with 10k tickets per year. Mikropřesnost v tomto případě je lépe koreluje s potřebnou firmou. "kolik času a peněz může společnost ukládat pomocí automatizace procesu směrování lístku".Micro-accuracy in this case correlates better with the business need of, "how much time/money can the company save by automating my ticket routing process".

Další podrobnosti o metrikách klasifikace s více třídami najdete v následujících článcích:For further details on multi-class classification metrics read the following articles:

Metriky vyhodnocení pro regresi a doporučeníEvaluation metrics for Regression and Recommendation

Úkoly regrese i doporučení předpovídá číslo.Both the regression and recommendation tasks predict a number. V případě regrese může být číslo výstupní vlastností, která je ovlivněna vstupními vlastnostmi.In the case of regression, the number can be any output property that is influenced by the input properties. Pro doporučení je číslo obvykle hodnota hodnocení (například mezi 1 a 5 příkladem) nebo doporučení ano/ne (reprezentované 1. a 0 v uvedeném pořadí).For recommendation, the number is usually a rating value (between 1 and 5 for example), or a yes/no recommendation (represented by 1 and 0 respectively).

MetrikaMetric PopisDescription VyhledejteLook for
R – čtvercovýR-Squared R-kvadrát (R2)nebo koeficienty stanovitelnosti představují prediktivní sílu modelu jako hodnotu mezi-inf a 1,00.R-squared (R2), or Coefficient of determination represents the predictive power of the model as a value between -inf and 1.00. 1,00 znamená, že existuje dokonalé přizpůsobení a přizpůsobení může být libovolně špatné, takže skóre mohou být záporná.1.00 means there is a perfect fit, and the fit can be arbitrarily poor so the scores can be negative. Skóre 0,00 znamená, že model odhaduje očekávanou hodnotu popisku.A score of 0.00 means the model is guessing the expected value for the label. R2 měří způsob, jakým se hodnoty skutečných testovacích dat blíží předpokládaným hodnotám.R2 measures how close the actual test data values are to the predicted values. Lepší kvalita je blíže k 1,00.The closer to 1.00, the better quality. Někdy ale nízké hodnoty R-Square (například 0,50) můžou být pro váš scénář zcela normální nebo dostatečně dobré a vysoké hodnoty R-čtverce nejsou vždy dobré a jsou podezřelé.However, sometimes low R-squared values (such as 0.50) can be entirely normal or good enough for your scenario and high R-squared values are not always good and be suspicious.
Absolutní ztrátaAbsolute-loss Absolutní ztráta nebo střední absolutní chyba (Mae) měří způsob, jakým se předpovědi blíží skutečným výsledkům.Absolute-loss or Mean absolute error (MAE) measures how close the predictions are to the actual outcomes. Jedná se o průměr všech chyb modelů, kde chyba modelu je absolutní vzdálenost mezi předpovězenou hodnotou popisku a správnou hodnotou popisku.It is the average of all the model errors, where model error is the absolute distance between the predicted label value and the correct label value. Tato chyba předpovědi je vypočítána pro každý záznam sady dat testu.This prediction error is calculated for each record of the test data set. Nakonec se pro všechny zaznamenané absolutní chyby vypočítá střední hodnota.Finally, the mean value is calculated for all recorded absolute errors. Lepší kvalita je blíže k 0,00.The closer to 0.00, the better quality. Střední absolutní chyba používá stejné měřítko jako měřená data (není normalizována na konkrétní rozsah).The mean absolute error uses the same scale as the data being measured (is not normalized to specific range). Absolutní ztráta, čtvercová ztráta a ztráta RMS lze použít pouze k porovnání modelů pro stejnou datovou sadu nebo datovou sadu s podobnou distribucí hodnoty popisku.Absolute-loss, Squared-loss, and RMS-loss can only be used to make comparisons between models for the same dataset or dataset with a similar label value distribution.
Kvadratická ztrátaSquared-loss Čtvercová ztráta nebo střední Chyba (MSE) , označovaná také jako střední odchylka (MSD) , říká, jak blízko regresní čáry je sada hodnot testových dat, a to tak, že převezme vzdálenosti od bodů až po regresní čáru (tyto vzdálenosti jsou chyby E) a umocnění je.Squared-loss or Mean Squared Error (MSE), also called Mean Squared Deviation (MSD), tells you how close a regression line is to a set of test data values by taking the distances from the points to the regression line (these distances are the errors E) and squaring them. Umocnění poskytuje větší váhu většímu rozdílu.The squaring gives more weight to larger differences. Je vždycky nezáporné a hodnoty blíž až 0,00 jsou lepší.It is always non-negative, and values closer to 0.00 are better. V závislosti na vašich datech nemusí být možné získat velmi malou hodnotu pro střední kvadratickou chybu.Depending on your data, it may be impossible to get a very small value for the mean squared error.
RMS – ztrátaRMS-loss Služba RMS – ztráta nebo hlavní střední hodnota chyby (RMSE) (označuje se také jako Kořenová střední odchylka, RMSD), měří rozdíl mezi hodnotami předpokládanými modelem a hodnotami zjištěnými z prostředí, které je právě modelováno.RMS-loss or Root Mean Squared Error (RMSE) (also called Root Mean Square Deviation, RMSD), measures the difference between values predicted by a model and the values observed from the environment that is being modeled. Služby RMS-ztráta je druhá odmocnina čtvercové ztráty a má stejné jednotky jako popisek, podobně jako u absolutní ztráty, a poskytuje větší váhu větším rozdílům.RMS-loss is the square root of Squared-loss and has the same units as the label, similar to the absolute-loss though giving more weight to larger differences. V climatology, předpovědi a regresní analýze se běžně používá chyba na kořenovém středním průměru k ověření experimentálních výsledků.Root mean square error is commonly used in climatology, forecasting, and regression analysis to verify experimental results. Je vždycky nezáporné a hodnoty blíž až 0,00 jsou lepší.It is always non-negative, and values closer to 0.00 are better. RMSD je míra přesnosti, která umožňuje porovnat chyby prognózy různých modelů pro určitou datovou sadu a ne mezi datovými sadami, protože se jedná o závislé na škálování.RMSD is a measure of accuracy, to compare forecasting errors of different models for a particular dataset and not between datasets, as it is scale-dependent.

Další podrobnosti o regresních metrikách najdete v následujících článcích:For further details on regression metrics, read the following articles:

Metriky vyhodnocení pro clusteringEvaluation metrics for Clustering

MetrikaMetric PopisDescription VyhledejteLook for
Průměrná vzdálenostAverage Distance Průměr vzdálenosti mezi datovými body a centrem přiřazeného clusteruAverage of the distance between data points and the center of their assigned cluster. Průměrná vzdálenost je míra blízkosti datových bodů ke službě cluster centroids.The average distance is a measure of proximity of the data points to cluster centroids. Jedná se o míru, jak je cluster "těsný".It's a measure of how 'tight' the cluster is. Hodnoty blíže k 0 jsou lepší.Values closer to 0 are better. Hodnota bližší k nule znamená průměrnou vzdálenost, tím více je clusterovaných dat.The closer to zero the average distance is, the more clustered the data is. Všimněte si ale, že tato metrika se po zvýšení počtu clusterů sníží a v extrémním případě (kde každá z různých datových bodů je vlastním clusterem) se rovná nule.Note though, that this metric will decrease if the number of clusters is increased, and in the extreme case (where each distinct data point is its own cluster) it will be equal to zero.
Davies Bouldin indexDavies Bouldin Index Průměrný poměr vzdálenosti mezi clustery a vzdálenostmi mezi clustery.The average ratio of within-cluster distances to between-cluster distances. Čím užší je cluster a čím dál jsou clustery, tím nižší je hodnota.The tighter the cluster, and the further apart the clusters are, the lower this value is. Hodnoty blíže k 0 jsou lepší.Values closer to 0 are better. Clustery, které jsou větší a méně rozptýlené, budou mít za následek lepší skóre.Clusters that are farther apart and less dispersed will result in a better score.
Normalizované vzájemné informaceNormalized Mutual Information Dá se použít, když se školicí data, která se používají ke výuce modelu clusteringu, dodávají s popisky pravdy (tj. pod dohledem clusteringu).Can be used when the training data used to train the clustering model also comes with ground truth labels (that is, supervised clustering). Normalizovaná metrika vzájemných informací měří, jestli se podobné datové body přiřazují ke stejnému clusteru a různorodé datové body se přiřazují k různým clusterům.The Normalized Mutual Information metric measures whether similar data points get assigned to the same cluster and disparate data points get assigned to different clusters. Normalizované vzájemné informace jsou hodnoty mezi 0 a 1.Normalized mutual information is a value between 0 and 1 Hodnoty blížící se 1 jsou lepší.Values closer to 1 are better

Metriky vyhodnocení pro hodnoceníEvaluation metrics for Ranking

MetrikaMetric PopisDescription VyhledejteLook for
Zlevněné kumulativní ziskyDiscounted Cumulative Gains Zlevněný kumulativní zisk (DCG) je míra kvality hodnocení.Discounted cumulative gain (DCG) is a measure of ranking quality. Je odvozen ze dvou předpokladů.It is derived from two assumptions. Jedna: vysoce relevantní položky jsou užitečnější, pokud se v pořadí podle pořadí seřazení zobrazuje výš.One: Highly relevant items are more useful when appearing higher in ranking order. Dvě: užitečnost sleduje relevanci, to znamená větší relevanci, užitečnější položku.Two: Usefulness tracks relevance that is, the higher the relevance, the more useful an item. Zlevněný kumulativní zisk se počítá pro konkrétní pozici v pořadí řazení.Discounted cumulative gain is calculated for a particular position in the ranking order. Sečte stupeň relevance dělený logaritmem hodnocení podle pozice v zájmu.It sums the relevance grading divided by the logarithm of the ranking index up to the position of interest. Počítá se pomocí $ \ sum_ {i = 0} ^ {p} \frac {rel_i} {\ log_ {e} {i + 1}} $ jsou k dispozici školicímu algoritmu řazení jako označení uzemněné pravdy.It is calculated using $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Relevance gradings are provided to a ranking training algorithm as ground truth labels. Jedna hodnota DCG je poskytována pro každou pozici v tabulce hodnocení, takže název se zlevněnými kumulativními zisky.One DCG value is provided for each position in the ranking table, hence the name Discounted Cumulative Gains. Vyšší hodnoty jsou lepšíHigher values are better
Normalizované zlevněné kumulativní ziskyNormalized Discounted Cumulative Gains Normalizace DCG umožňuje porovnání metriky se seznamy řazení různých délek.Normalizing DCG allows the metric to be compared for ranking lists of different lengths Hodnoty blížící se 1 jsou lepší.Values closer to 1 are better

Metriky vyhodnocení pro detekci anomáliíEvaluation metrics for Anomaly Detection

MetrikaMetric PopisDescription VyhledejteLook for
Plošný s křivkou ROCArea Under ROC Curve Oblast pod křivkou operátora přijímače měří, jak dobře model odděluje neobvyklé a běžné datové body.Area under the receiver operator curve measures how well the model separates anomalous and usual data points. Hodnoty blížící se 1 jsou lepší.Values closer to 1 are better. Pouze hodnoty větší než 0,5 ukazují efektivitu modelu.Only values greater than 0.5 demonstrate effectiveness of the model. Hodnoty 0,5 nebo nižší označují, že model není lepší než náhodné přidělování vstupů neobvyklé a obvyklým kategoriím.Values of 0.5 or below indicate that the model is no better than randomly allocating the inputs to anomalous and usual categories
Rychlost detekce při nepravdivém kladném počtuDetection Rate At False Positive Count Rychlost detekce při nepravdivém kladném počtu je poměr počtu správně identifikovaných anomálií na celkový počet anomálií v sadě testů indexovaných každou falešně pozitivním způsobem.Detection rate at false positive count is the ratio of the number of correctly identified anomalies to the total number of anomalies in a test set, indexed by each false positive. To znamená, že pro každou falešně pozitivní položku existuje hodnota pro rychlost detekce v hodnotě falešně pozitivního počtu.That is, there is a value for detection rate at false positive count for each false positive item. Hodnoty blížící se 1 jsou lepší.Values closer to 1 are better. Pokud neexistují žádné falešně pozitivních hodnot, je tato hodnota 1.If there are no false positives, then this value is 1