Oceń automatyczne wyniki eksperymentu w usłudze Machine LearningEvaluate automated machine learning experiment results

W tym artykule dowiesz się, jak oszacować i porównać modele przeszkolone przez zautomatyzowany eksperyment uczenia maszynowego (zautomatyzowany ML).In this article, learn how to evaluate and compare models trained by your automated machine learning (automated ML) experiment. W trakcie przebiegu zautomatyzowanego eksperymentu z tablicą tworzone są wiele uruchomień, a każdy przebieg tworzy model.Over the course of an automated ML experiment, many runs are created and each run creates a model. Dla każdego modelu automatyczna ML generuje metryki oceny i wykresy, które ułatwiają pomiar wydajności modelu.For each model, automated ML generates evaluation metrics and charts that help you measure the model's performance.

Na przykład, zautomatyzowana ML generuje następujące wykresy na podstawie typu eksperymentu.For example, automated ML generates the following charts based on experiment type.

KlasyfikacjaClassification Regresja/prognozowanieRegression/forecasting
Macierz pomyłekConfusion matrix Histogram resztResiduals histogram
Krzywa charakterystyki (ROC) odbiornikaReceiver operating characteristic (ROC) curve Przewidywany a prawdziwyPredicted vs. true
Dokładność — krzywa odwołania (PR)Precision-recall (PR) curve
Krzywa podnoszeniaLift curve
Krzywa zysków skumulowanychCumulative gains curve
Krzywa kalibracjiCalibration curve

Wymagania wstępnePrerequisites

Wyświetl wyniki przebieguView run results

Po zakończeniu zautomatyzowanego eksperymentu ML historia przebiegów będzie można znaleźć za pośrednictwem:After your automated ML experiment completes, a history of the runs can be found via:

Poniższe kroki i wideo pokazują, jak wyświetlić informacje o historii uruchamiania oraz metryki i wykresach oceny modelu w programie Studio:The following steps and video, show you how to view the run history and model evaluation metrics and charts in the studio:

  1. Zaloguj się do programu Studio i przejdź do obszaru roboczego.Sign into the studio and navigate to your workspace.
  2. W menu po lewej stronie wybierz pozycję eksperymenty.In the left menu, select Experiments.
  3. Wybierz swój eksperyment z listy eksperymentów.Select your experiment from the list of experiments.
  4. W tabeli w dolnej części strony wybierz zautomatyzowany przebiegu ML.In the table at the bottom of the page, select an automated ML run.
  5. Na karcie modele wybierz nazwę algorytmu dla modelu, który chcesz oszacować.In the Models tab, select the Algorithm name for the model you want to evaluate.
  6. Na karcie metryki Użyj pól wyboru po lewej stronie, aby wyświetlić metryki i wykresy.In the Metrics tab, use the checkboxes on the left to view metrics and charts.

Procedura wyświetlania metryk w programie Studio

Metryki klasyfikacjiClassification metrics

Automatyczna ML oblicza metryki wydajności dla każdego modelu klasyfikacji wygenerowanego dla eksperymentu.Automated ML calculates performance metrics for each classification model generated for your experiment. Te metryki są oparte na implementacji scikit.These metrics are based on the scikit learn implementation.

Wiele metryk klasyfikacji jest zdefiniowanych dla klasyfikacji binarnej w dwóch klasach i wymaga średniej klasy w celu utworzenia jednego wyniku dla klasyfikacji wieloklasowej.Many classification metrics are defined for binary classification on two classes, and require averaging over classes to produce one score for multi-class classification. Scikit — uczenie zawiera kilka metod uśredniających, z których trzy są automatycznie uwidaczniane: makro, mikro i ważone.Scikit-learn provides several averaging methods, three of which automated ML exposes: macro, micro, and weighted.

  • Makro — oblicza metrykę dla każdej klasy i przyjmuje nieważoną średniąMacro - Calculate the metric for each class and take the unweighted average
  • Oblicz całkowitą metrykę globalnie, obliczając łączną liczbę pozytywnych dodatnich, fałszywych negatywnych i fałszywych wartości dodatnich (niezależnie od klas).Micro - Calculate the metric globally by counting the total true positives, false negatives, and false positives (independent of classes).
  • Ważone — oblicza metrykę dla każdej klasy i pobiera średnią ważoną na podstawie liczby próbek na klasę.Weighted - Calculate the metric for each class and take the weighted average based on the number of samples per class.

Chociaż każda metoda uśredniania ma swoje korzyści, jednym typowym zagadnieniem w przypadku wybrania odpowiedniej metody jest niezrównoważona Klasa.While each averaging method has its benefits, one common consideration when selecting the appropriate method is class imbalance. Jeśli klasy mają różne liczby próbek, może być bardziej niesformatowane, aby można było używać średniej makro, gdzie klasy mniejszości są równe wag dla większości klas.If classes have different numbers of samples, it might be more informative to use a macro average where minority classes are given equal weighting to majority classes. Dowiedz się więcej o metrykach danych binarnych i wieloklasowych w zautomatyzowanej ml.Learn more about binary vs multiclass metrics in automated ML.

Poniższa tabela zawiera podsumowanie metryk wydajności modelu, które są obliczane przez automatyczne ML dla każdego modelu klasyfikacji wygenerowanego dla eksperymentu.The following table summarizes the model performance metrics that automated ML calculates for each classification model generated for your experiment. Aby uzyskać więcej informacji, zobacz dokumentację scikit-dołączoną do pola obliczenia każdej metryki.For more detail, see the scikit-learn documentation linked in the Calculation field of each metric.

MetricMetric OpisDescription ObliczeniaCalculation
AUCAUC AUC to obszar pod krzywą charakterystyczną dla odbiornika.AUC is the Area under the Receiver Operating Characteristic Curve.

Cel: Bliżej 1Objective: Closer to 1 the better
Zakres: [0, 1]Range: [0, 1]

Obsługiwane są nazwy metryk,Supported metric names include,
  • AUC_macro, średnia arytmetyczna AUC dla każdej klasy.AUC_macro, the arithmetic mean of the AUC for each class.
  • AUC_microobliczony przez połączenie prawdziwie dodatnich i fałszywych wartości dodatnich z każdej klasy.AUC_micro, computed by combining the true positives and false positives from each class.
  • AUC_weighted, średnia arytmetyczna dla każdej klasy, ważona przez liczbę wystąpień prawdziwych w każdej klasie.AUC_weighted, arithmetic mean of the score for each class, weighted by the number of true instances in each class.
  • ObliczeniaCalculation
    accuracyaccuracy Dokładność jest stosunkiem prognoz, które dokładnie pasują do prawdziwych etykiet klas.Accuracy is the ratio of predictions that exactly match the true class labels.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]
    ObliczeniaCalculation
    average_precisionaverage_precision Średnia precyzja podsumowuje krzywą odwołań dokładności jako średnią ważoną dokładności osiągniętą dla każdego progu, z zwiększeniem odzyskania z poprzedniego progu używanego jako waga.Average precision summarizes a precision-recall curve as the weighted mean of precisions achieved at each threshold, with the increase in recall from the previous threshold used as the weight.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]

    Obsługiwane są nazwy metryk,Supported metric names include,
  • average_precision_score_macro, średnia arytmetyczna średniego wyniku dokładności dla każdej klasy.average_precision_score_macro, the arithmetic mean of the average precision score of each class.
  • average_precision_score_micro, obliczony przez połączenie prawdziwie dodatnich i fałszywych wartości dodatnich dla każdego odcięcia.average_precision_score_micro, computed by combining the true positives and false positives at each cutoff.
  • average_precision_score_weighted, średnia arytmetyczna średniego wyniku dokładności dla każdej klasy, ważona przez liczbę wystąpień prawdziwe w każdej klasie.average_precision_score_weighted, the arithmetic mean of the average precision score for each class, weighted by the number of true instances in each class.
  • ObliczeniaCalculation
    balanced_accuracybalanced_accuracy Równoważna dokładność to arytmetyczna średnia odwołania dla każdej klasy.Balanced accuracy is the arithmetic mean of recall for each class.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]
    ObliczeniaCalculation
    f1_scoref1_score Wynik F1 jest średnią harmoniczną precyzji i odwołania.F1 score is the harmonic mean of precision and recall. Jest to dobry, zrównoważony pomiar dla obu fałszywych dodatnich i fałszywych wartości ujemnych.It is a good balanced measure of both false positives and false negatives. Nie przyjmuje jednak prawdziwych negatywów do konta.However, it does not take true negatives into account.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]

    Obsługiwane są nazwy metryk,Supported metric names include,
  • f1_score_macro: orednia arytmetyczna wyniku F1 dla każdej klasy.f1_score_macro: the arithmetic mean of F1 score for each class.
  • f1_score_micro: obliczone przez zliczanie całkowitej liczby pozytywnych dodatnich, fałszywych wartości ujemnych i fałszywych dodatnich.f1_score_micro: computed by counting the total true positives, false negatives, and false positives.
  • f1_score_weighted: ważone średnie według częstotliwości klasy dla każdej klasy.f1_score_weighted: weighted mean by class frequency of F1 score for each class.
  • ObliczeniaCalculation
    log_losslog_loss Jest to funkcja strat użyta w (MULTINOMIAL) logistyki i rozszerzenia, takie jak sieci neuronowych, zdefiniowane jako negatywna prawdopodobieństwo rejestrowania dla prawdziwych etykiet z przewidywaniami klasyfikatora probabilistyczne.This is the loss function used in (multinomial) logistic regression and extensions of it such as neural networks, defined as the negative log-likelihood of the true labels given a probabilistic classifier's predictions.

    Cel: Bliżej 0Objective: Closer to 0 the better
    Zakres: [0, inf)Range: [0, inf)
    ObliczeniaCalculation
    norm_macro_recallnorm_macro_recall Znormalizowana funkcja odwoływania makr to odwołanie do wartości średniej i znormalizowanej, dzięki czemu wydajność Losowa ma wynik równy 0, a doskonałe wydajność ma wynik 1.Normalized macro recall is recall macro-averaged and normalized, so that random performance has a score of 0, and perfect performance has a score of 1.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]
    (recall_score_macro - R) / (1 - R)

    gdzie, R jest oczekiwaną wartością recall_score_macro dla prognoz losowych.where, R is the expected value of recall_score_macro for random predictions.

    R = 0.5 dla   klasyfikacji binarnej   .R = 0.5 for  binary classification.
    R = (1 / C) w przypadku problemów klasyfikacji klasy C.R = (1 / C) for C-class classification problems.
    matthews_correlationmatthews_correlation Współczynnik korelacji Matthews to zrównoważona miara dokładności, która może być używana, nawet jeśli jedna klasa ma wiele więcej próbek niż inne.Matthews correlation coefficient is a balanced measure of accuracy, which can be used even if one class has many more samples than another. Współczynnik 1 wskazuje doskonałe prognozowanie, 0 prognozowanie losowe i-1 prognozowanie odwrotne.A coefficient of 1 indicates perfect prediction, 0 random prediction, and -1 inverse prediction.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [-1, 1]Range: [-1, 1]
    ObliczeniaCalculation
    precisionprecision Precyzja to zdolność modelu, aby uniknąć etykiet próbek negatywnych jako pozytywnych.Precision is the ability of a model to avoid labeling negative samples as positive.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]

    Obsługiwane są nazwy metryk,Supported metric names include,
  • precision_score_macro, arytmetyczne znaczenie dla każdej klasy.precision_score_macro, the arithmetic mean of precision for each class.
  • precision_score_microobliczone globalnie przez zliczanie łącznej liczby pozytywnych dodatnich i fałszywych wartości dodatnich.precision_score_micro, computed globally by counting the total true positives and false positives.
  • precision_score_weighted, arytmetyczne znaczenie dla każdej klasy, ważone według liczby prawdziwe wystąpienia w każdej klasie.precision_score_weighted, the arithmetic mean of precision for each class, weighted by number of true instances in each class.
  • ObliczeniaCalculation
    recallrecall Funkcja odwoływania to zdolność modelu do wykrywania wszystkich próbek pozytywnych.Recall is the ability of a model to detect all positive samples.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]

    Obsługiwane są nazwy metryk,Supported metric names include,
  • recall_score_macro: arytmetyczne znaczenie operacji odwoływania dla każdej klasy.recall_score_macro: the arithmetic mean of recall for each class.
  • recall_score_micro: obliczone globalnie przez zliczanie całkowitej liczby pozytywnych dodatnich, fałszywych wartości ujemnych i fałszywych dodatnich.recall_score_micro: computed globally by counting the total true positives, false negatives and false positives.
  • recall_score_weighted: arytmetyczne znaczenie operacji odwoływania dla każdej klasy, ważone według liczby prawdziwe wystąpienia w każdej klasie.recall_score_weighted: the arithmetic mean of recall for each class, weighted by number of true instances in each class.
  • ObliczeniaCalculation
    weighted_accuracyweighted_accuracy Waga ważona jest dokładnością, w której każda próbka jest ważona przez łączną liczbę próbek należących do tej samej klasy.Weighted accuracy is accuracy where each sample is weighted by the total number of samples belonging to the same class.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [0, 1]Range: [0, 1]
    ObliczeniaCalculation

    Dane binarne a wieloklasowe metryki klasyfikacjiBinary vs. multiclass classification metrics

    Automatyczna ML nie różni się od metryk danych binarnych i wieloklasowych.Automated ML doesn't differentiate between binary and multiclass metrics. Te same metryki walidacji są raportowane niezależnie od tego, czy zestaw danych ma dwie klasy, czy więcej niż dwie klasy.The same validation metrics are reported whether a dataset has two classes or more than two classes. Niektóre metryki są jednak przeznaczone do klasyfikacji wieloklasowej.However, some metrics are intended for multiclass classification. W przypadku zastosowania do binarnego zestawu danych te metryki nie traktują żadnej klasy jako true klasy, ponieważ może się to spodziewać.When applied to a binary dataset, these metrics won't treat any class as the true class, as you might expect. Metryki, które są wyraźnie przeznaczone dla wieloklasowych są sufiksami z micro , macro lub weighted .Metrics that are clearly meant for multiclass are suffixed with micro, macro, or weighted. Przykłady obejmują average_precision_score , f1_score , precision_score , recall_score , i AUC .Examples include average_precision_score, f1_score, precision_score, recall_score, and AUC.

    Na przykład zamiast obliczać odwołanie jako tp / (tp + fn) , średniej klasy odwołania ( micro , macro lub) do weighted obu klas binarnego zestawu danych klasyfikacji.For example, instead of calculating recall as tp / (tp + fn), the multiclass averaged recall (micro, macro, or weighted) averages over both classes of a binary classification dataset. Jest to równoważne obliczaniu odwołań dla true klasy i false klasy oddzielnie, a następnie pobierając średnią z dwóch.This is equivalent to calculating the recall for the true class and the false class separately, and then taking the average of the two.

    Automatyczna ML nie oblicza metryk binarnych, które są metrykami dla binarnych zestawów danych klasyfikacji.Automated ML doesn't calculate binary metrics, that is metrics for binary classification datasets. Jednak te metryki można obliczyć ręcznie przy użyciu matrycy niewidocznej, która jest generowana przez zautomatyzowany ml dla danego przebiegu.However, these metrics can be manually calculated using the confusion matrix that Automated ML generated for that particular run. Na przykład można obliczyć precyzję, tp / (tp + fp) przy czym prawdziwe wartości dodatnie i fałszywie dodatnie są wyświetlane na wykresie macierzy 2x2.For example, you can calculate precision, tp / (tp + fp), with the true positive and false positive values shown in a 2x2 confusion matrix chart.

    Macierz pomyłekConfusion matrix

    Niewidoczne macierze umożliwiają wizualizację, w jaki model uczenia maszynowego czyni błędy systematyczne w swoich przewidywaniach dla modeli klasyfikacji.Confusion matrices provide a visual for how a machine learning model is making systematic errors in its predictions for classification models. Słowo "mylenie" w nazwie pochodzi z modelu "mylące" lub z nieprawidłowymi etykietami.The word "confusion" in the name comes from a model "confusing" or mislabeling samples. Komórka w wierszu i i kolumnie w niezmienionej j macierzy zawiera liczbę próbek w zestawie danych oceny, które należą do klasy C_i i zostały sklasyfikowane przez model jako Klasa C_j .A cell at row i and column j in a confusion matrix contains the number of samples in the evaluation dataset that belong to class C_i and were classified by the model as class C_j.

    W programie Studio, ciemniejszy komórka wskazuje większą liczbę próbek.In the studio, a darker cell indicates a higher number of samples. Wybranie widoku znormalizowana na liście rozwijanej spowoduje znormalizowanie nad każdym wierszem macierzy w celu wyświetlenia procentu klasy C_i przewidywanej jako C_j Klasa.Selecting Normalized view in the dropdown will normalize over each matrix row to show the percent of class C_i predicted to be class C_j. Zaletą domyślnego widoku nieprzetworzonego jest możliwość sprawdzenia, czy nierównoważność dystrybucji rzeczywistych klas spowodowała, że model nie klasyfikuje próbek z klasy mniejszości, typowym problemem w niezrównoważonych zestawach danych.The benefit of the default Raw view is that you can see whether imbalance in the distribution of actual classes caused the model to misclassify samples from the minority class, a common issue in imbalanced datasets.

    Macierz nieporozumień dobrego modelu będzie miała większość próbek wzdłuż przekątnej.The confusion matrix of a good model will have most samples along the diagonal.

    Zamylenie macierzy dla dobrego modeluConfusion matrix for a good model

    Zamylenie macierzy dla dobrego modeluConfusion matrix for a good model

    Zamieszanie macierzy dla niewłaściwego modeluConfusion matrix for a bad model

    Zamieszanie macierzy dla niewłaściwego modelu

    Krzywa ROCROC curve

    Krzywa Charakterystyka działania odbiornika (ROC) przedstawia relację między prawdziwą dodatnią stawką (TPR) i fałszywą dodatnią stawką (zarejestrowanego) w miarę zmiany progu decyzji.The receiver operating characteristic (ROC) curve plots the relationship between true positive rate (TPR) and false positive rate (FPR) as the decision threshold changes. Krzywa ROC może być mniej informacyjna, gdy szkolenia modeli w zestawach danych o wysokiej klasy nie są zrównoważone, ponieważ większość klasy może Drown udziały z klas mniejszościowych.The ROC curve can be less informative when training models on datasets with high class imbalance, as the majority class can drown out contributions from minority classes.

    Obszar pod krzywą (AUC) może być interpretowany jako część poprawnie sklasyfikowanych próbek.The area under the curve (AUC) can be interpreted as the proportion of correctly classified samples. Dokładniej, AUC jest prawdopodobieństwem, że klasyfikator porządkuje losowo wybraną dodatnią próbkę wyższą niż losowo wybrana próbka ujemna.More precisely, the AUC is the probability that the classifier ranks a randomly chosen positive sample higher than a randomly chosen negative sample. Kształt krzywej daje Intuition relacji między TPR i zarejestrowanego jako funkcją progu klasyfikacji lub granicy decyzyjnej.The shape of the curve gives an intuition for relationship between TPR and FPR as a function of the classification threshold or decision boundary.

    Krzywa, która zbliża się do lewego górnego rogu wykresu, zbliża się do 100% TPR i 0% zarejestrowanego, najlepszego możliwego modelu.A curve that approaches the top-left corner of the chart is approaching a 100% TPR and 0% FPR, the best possible model. Model losowy będzie generował krzywą ROC wzdłuż y = x linii od lewego dolnego rogu do prawej strony.A random model would produce an ROC curve along the y = x line from the bottom-left corner to the top-right. Niegorszy niż model losowy będzie miał krzywą ROC, która spadnie poniżej y = x wiersza.A worse than random model would have an ROC curve that dips below the y = x line.

    Porada

    W przypadku eksperymentów klasyfikacji każdy z wykresów liniowych produkowanych dla zautomatyzowanych modeli ML może służyć do oszacowania modelu dla klasy lub średniej dla wszystkich klas.For classification experiments, each of the line charts produced for automated ML models can be used to evaluate the model per-class or averaged over all classes. Możesz przełączać się między tymi widokami, klikając etykiety klas w legendzie na prawo od wykresu.You can switch between these different views by clicking on class labels in the legend to the right of the chart.

    Krzywa ROC dla dobrego modeluROC curve for a good model

    Krzywa ROC dla dobrego modelu

    Krzywa ROC dla niewłaściwego modeluROC curve for a bad model

    Krzywa ROC dla niewłaściwego modelu

    Dokładność — krzywa odwołaniaPrecision-recall curve

    Krzywa odwołań dokładności przedstawia relację między dokładnością i odwołaniem w miarę zmiany progu decyzji.The precision-recall curve plots the relationship between precision and recall as the decision threshold changes. Funkcja odwoływania to zdolność modelu do wykrywania wszystkich próbek pozytywnych i precyzji, która umożliwia modelowi uniknięcie etykietowania próbek negatywnych jako pozytywnych.Recall is the ability of a model to detect all positive samples and precision is the ability of a model to avoid labeling negative samples as positive. Niektóre problemy biznesowe mogą wymagać większego odzyskania i większej dokładności w zależności od względnej ważności unikania fałszywych wartości ujemnych zamiast fałszywych wartości dodatnich.Some business problems might require higher recall and some higher precision depending on the relative importance of avoiding false negatives vs false positives.

    Porada

    W przypadku eksperymentów klasyfikacji każdy z wykresów liniowych produkowanych dla zautomatyzowanych modeli ML może służyć do oszacowania modelu dla klasy lub średniej dla wszystkich klas.For classification experiments, each of the line charts produced for automated ML models can be used to evaluate the model per-class or averaged over all classes. Możesz przełączać się między tymi widokami, klikając etykiety klas w legendzie na prawo od wykresu.You can switch between these different views by clicking on class labels in the legend to the right of the chart.

    Krzywa odwołań z dokładnością dla dobrego modeluPrecision-recall curve for a good model

    Krzywa odwołań z dokładnością dla dobrego modelu

    Krzywa odwołań dokładności dla niewłaściwego modeluPrecision-recall curve for a bad model

    Krzywa odwołań dokładności dla niewłaściwego modelu

    Krzywa zysków skumulowanychCumulative gains curve

    Krzywa skumulowane zyski przedstawia procent próbek pozytywnych poprawnie sklasyfikowanych jako funkcja procentu przykładowych próbek, gdzie rozważamy przykłady w kolejności przewidywanych prawdopodobieństw.The cumulative gains curve plots the percent of positive samples correctly classified as a function of the percent of samples considered where we consider samples in the order of predicted probability.

    Aby obliczyć zysk, najpierw Sortuj wszystkie próbki od najwyższego do najniższego prawdopodobieństwa przewidywanego przez model.To calculate gain, first sort all samples from highest to lowest probability predicted by the model. Następnie weź pod x% wyższe wartości prognoz zaufania.Then take x% of the highest confidence predictions. Podziel liczbę próbek pozytywnych wykrytych w tym x% przez łączną liczbę próbek dodatnich, aby uzyskać zysk.Divide the number of positive samples detected in that x% by the total number of positive samples to get the gain. Łączny wzrost to procent próbek dodatnich wykrywanych podczas rozważania pewnego procentu ilości danych, które najprawdopodobniej należą do klasy dodatniej.Cumulative gain is the percent of positive samples we detect when considering some percent of the data that is most likely to belong to the positive class.

    Idealnym modelem będzie ranga wszystkich próbek pozytywnych powyżej wszystkich próbek negatywnych, które łączą się z dwoma segmentami prostymi.A perfect model will rank all positive samples above all negative samples giving a cumulative gains curve made up of two straight segments. Pierwszy to linia z nachyleniem 1 / x (0, 0) do (x, 1) gdzie x jest częścią próbki, która należy do klasy pozytywnej ( 1 / num_classes Jeśli klasy są zrównoważone).The first is a line with slope 1 / x from (0, 0) to (x, 1) where x is the fraction of samples that belong to the positive class (1 / num_classes if classes are balanced). Druga to linia pozioma od (x, 1) do (1, 1) .The second is a horizontal line from (x, 1) to (1, 1). W pierwszym segmencie wszystkie próbki pozytywne są klasyfikowane prawidłowo, a zysk skumulowany przechodzi do 100% pierwszego z nich x% .In the first segment, all positive samples are classified correctly and cumulative gain goes to 100% within the first x% of samples considered.

    Model losowy z linią bazową będzie miał skumulowaną krzywą zysków po tym, y = x gdzie x% wykryte są tylko informacje o całkowitej liczbie x% dodatnich próbek.The baseline random model will have a cumulative gains curve following y = x where for x% of samples considered only about x% of the total positive samples were detected. Idealnym modelem będzie bardzo średnia Krzywa, która dotyka lewego górnego rogu i linię średniej z makra, która ma nachylenie 1 / num_classes do momentu, gdy całkowity wzrost wynosi 100%, a następnie w poziomie do 100 wartości procentowej.A perfect model will have a micro average curve that touches the top-left corner and a macro average line that has slope 1 / num_classes until cumulative gain is 100% and then horizontal until the data percent is 100.

    Porada

    W przypadku eksperymentów klasyfikacji każdy z wykresów liniowych produkowanych dla zautomatyzowanych modeli ML może służyć do oszacowania modelu dla klasy lub średniej dla wszystkich klas.For classification experiments, each of the line charts produced for automated ML models can be used to evaluate the model per-class or averaged over all classes. Możesz przełączać się między tymi widokami, klikając etykiety klas w legendzie na prawo od wykresu.You can switch between these different views by clicking on class labels in the legend to the right of the chart.

    Krzywa zysków skumulowanych dla dobrego modeluCumulative gains curve for a good model

    Krzywa zysków skumulowanych dla dobrego modelu

    Krzywa zysków skumulowanych dla niewłaściwego modeluCumulative gains curve for a bad model

    Krzywa zysków skumulowanych dla niewłaściwego modelu

    Krzywa podnoszeniaLift curve

    Krzywa Unieś pokazuje, ile razy lepszy model jest porównywany z modelem losowym.The lift curve shows how many times better a model performs compared to a random model. Dźwig jest definiowany jako stosunek łącznego zysku do całkowitego wzmocnienia losowego modelu.Lift is defined as the ratio of cumulative gain to the cumulative gain of a random model.

    Ta względna wydajność bierze pod uwagę fakt, że klasyfikacja staje się trudniejsza w miarę zwiększania liczby klas.This relative performance takes into account the fact that classification gets harder as you increase the number of classes. (Model losowy nieprawidłowo przewidywalna większy ułamek próbek z zestawu danych z 10 klasami w porównaniu z zestawem danych zawierającym dwie klasy)(A random model incorrectly predicts a higher fraction of samples from a dataset with 10 classes compared to a dataset with two classes)

    Krzywa przenośnika linii bazowej to linia, w y = 1 której model wydajności jest zgodny z modelem losowym.The baseline lift curve is the y = 1 line where the model performance is consistent with that of a random model. Ogólnie rzecz biorąc, krzywa przyrostu dla dobrego modelu będzie wyższa dla tego wykresu i może się dalej znajdować na osi x, pokazując, że gdy model jest najbardziej pewny w swoich przewidywaniach, wykonuje wiele razy lepszy niż losowe odgadnięcie.In general, the lift curve for a good model will be higher on that chart and farther from the x-axis, showing that when the model is most confident in its predictions it performs many times better than random guessing.

    Porada

    W przypadku eksperymentów klasyfikacji każdy z wykresów liniowych produkowanych dla zautomatyzowanych modeli ML może służyć do oszacowania modelu dla klasy lub średniej dla wszystkich klas.For classification experiments, each of the line charts produced for automated ML models can be used to evaluate the model per-class or averaged over all classes. Możesz przełączać się między tymi widokami, klikając etykiety klas w legendzie na prawo od wykresu.You can switch between these different views by clicking on class labels in the legend to the right of the chart.

    Krzywa podnoszenia dla dobrego modeluLift curve for a good model

    Krzywa podnoszenia dla dobrego modelu

    Krzywa podnoszenia dla niewłaściwego modeluLift curve for a bad model

    Krzywa podnoszenia dla niewłaściwego modelu

    Krzywa kalibracjiCalibration curve

    Krzywa kalibracji przedstawia zaufanie modelu w swoich przewidywaniach względem proporcji próbek pozytywnych na każdym poziomie ufności.The calibration curve plots a model's confidence in its predictions against the proportion of positive samples at each confidence level. Dobrze skalibrowane modele poprawnie klasyfikuje 100% prognoz, do których przypisze 100% pewności, 50% przewidywanych przez dział IT 50% pewności, 20% przewidywania przypisuje 20% pewności i tak dalej.A well-calibrated model will correctly classify 100% of the predictions to which it assigns 100% confidence, 50% of the predictions it assigns 50% confidence, 20% of the predictions it assigns a 20% confidence, and so on. Idealnie kalibrowany model będzie miał krzywą kalibracji po y = x wierszu, w którym model doskonale przewidywalnuje prawdopodobieństwo, że próbki należą do każdej klasy.A perfectly calibrated model will have a calibration curve following the y = x line where the model perfectly predicts the probability that samples belong to each class.

    Model z nadmiernym prawdopodobieństwem będzie przekroczyć przewidywany efekt, zbliżony do zera i jeden, rzadko nieokreślony dla klasy każdej próbki, a krzywa kalibracji będzie wyglądać podobnie do tyłu "S".An over-confident model will over-predict probabilities close to zero and one, rarely being uncertain about the class of each sample and the calibration curve will look similar to backward "S". Niezależny model przypisuje mniejsze prawdopodobieństwo średnio do klasy, w której jest przewidywalna, a skojarzona krzywa kalibracji będzie wyglądać podobnie do "S".An under-confident model will assign a lower probability on average to the class it predicts and the associated calibration curve will look similar to an "S". Krzywa kalibracji nie przedstawia możliwości poprawnego klasyfikowania modelu, ale zamiast tego ma możliwość prawidłowego przypisania zaufania do jego prognoz.The calibration curve does not depict a model's ability to classify correctly, but instead its ability to correctly assign confidence to its predictions. Niewłaściwy model nadal może mieć dobrą krzywą kalibracji, jeśli model prawidłowo przypisuje niski poziom pewności i wysoką niepewność.A bad model can still have a good calibration curve if the model correctly assigns low confidence and high uncertainty.

    Uwaga

    Krzywa kalibracji jest wrażliwa na liczbę próbek, więc niewielki zestaw walidacji może generować wyniki szumu, które mogą być trudne do zinterpretowania.The calibration curve is sensitive to the number of samples, so a small validation set can produce noisy results that can be hard to interpret. Nie musi to oznaczać, że model nie jest dobrze skalibrowany.This does not necessarily mean that the model is not well-calibrated.

    Krzywa kalibracji dla dobrego modeluCalibration curve for a good model

    Krzywa kalibracji dla dobrego modelu

    Krzywa kalibracji dla niewłaściwego modeluCalibration curve for a bad model

    Krzywa kalibracji dla niewłaściwego modelu

    Metryki regresji/prognozowaniaRegression/forecasting metrics

    Funkcja zautomatyzowanej sieci oblicza te same metryki wydajności dla każdego generowanego modelu, niezależnie od tego, czy jest to eksperyment regresji lub prognozowania.Automated ML calculates the same performance metrics for each model generated, regardless if it is a regression or forecasting experiment. Te metryki są również poddawane normalizacji w celu umożliwienia porównania między modelami przeszkolonymi na danych z różnymi zakresami.These metrics also undergo normalization to enable comparison between models trained on data with different ranges. Aby dowiedzieć się więcej, zobacz normalizacja metryki.To learn more, see metric normalization.

    Poniższa tabela zawiera podsumowanie metryk wydajności modelu wygenerowanych na potrzeby regresji i prognozowania eksperymentów.The following table summarizes the model performance metrics generated for regression and forecasting experiments. Podobnie jak w przypadku metryk klasyfikacji, te metryki są również oparte na implementacji scikit.Like classification metrics, these metrics are also based on the scikit learn implementations. Odpowiednia dokumentacja scikit Dowiedz się odpowiednio w polu obliczenia .The appropriate scikit learn documentation is linked accordingly, in the Calculation field.

    MetricMetric OpisDescription ObliczeniaCalculation
    explained_varianceexplained_variance Wyjaśnione odchylenie mierzy zakres, do którego model jest używany dla odmiany w zmiennej docelowej.Explained variance measures the extent to which a model accounts for the variation in the target variable. Jest to procentowy spadek wariancji oryginalnych danych do wariancji błędów.It is the percent decrease in variance of the original data to the variance of the errors. Gdy średnią z błędów jest 0, jest równa współczynnikowi wyznaczania (patrz r2_score poniżej).When the mean of the errors is 0, it is equal to the coefficient of determination (see r2_score below).

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: (-inf, 1]Range: (-inf, 1]
    ObliczeniaCalculation
    mean_absolute_errormean_absolute_error Średni błąd bezwzględny jest oczekiwaną wartością bezwzględną różnicy między obiektem docelowym a przewidywaniam.Mean absolute error is the expected value of absolute value of difference between the target and the prediction.

    Cel: Bliżej 0Objective: Closer to 0 the better
    Zakres: [0, inf)Range: [0, inf)

    TypTypes:
    mean_absolute_error
    normalized_mean_absolute_error, mean_absolute_error podzielona przez zakres danych.normalized_mean_absolute_error, the mean_absolute_error divided by the range of the data.
    ObliczeniaCalculation
    mean_absolute_percentage_errormean_absolute_percentage_error Średni bezwzględny błąd procentu (MAPE) to miara średniej różnicy między wartością przewidywaną a wartością rzeczywistą.Mean absolute percentage error (MAPE) is a measure of the average difference between a predicted value and the actual value.

    Cel: Bliżej 0Objective: Closer to 0 the better
    Zakres: [0, inf)Range: [0, inf)
    median_absolute_errormedian_absolute_error Średni błąd bezwzględny to mediana wszystkich bezwzględnych różnic między obiektem docelowym a przewidywaniam.Median absolute error is the median of all absolute differences between the target and the prediction. Ta utrata jest niezawodna dla wartości odstających.This loss is robust to outliers.

    Cel: Bliżej 0Objective: Closer to 0 the better
    Zakres: [0, inf)Range: [0, inf)

    TypTypes:
    median_absolute_error
    normalized_median_absolute_error: median_absolute_error podzielona przez zakres danych.normalized_median_absolute_error: the median_absolute_error divided by the range of the data.
    ObliczeniaCalculation
    r2_scorer2_score R2 (współczynnik wyznaczania) mierzy proporcjonalną redukcję w przypadku błędu kwadratowego (MSE) względem łącznej wariancji obserwowanych danych.R2 (the coefficient of determination) measures the proportional reduction in mean squared error (MSE) relative to the total variance of the observed data.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [-1, 1]Range: [-1, 1]

    Uwaga: R2 często ma zakres (-inf, 1].Note: R2 often has the range (-inf, 1]. Program MSE może być większy od zaobserwowanej wariancji, więc R2 może mieć arbitralnie duże wartości ujemne, w zależności od danych i prognoz modeli.The MSE can be larger than the observed variance, so R2 can have arbitrarily large negative values, depending on the data and the model predictions. Automatyczne klipy ML zgłosiły wyniki R2 o wartości-1, więc wartość-1 dla r2 prawdopodobnie oznacza, że wynik true R2 jest mniejszy niż-1.Automated ML clips reported R2 scores at -1, so a value of -1 for R2 likely means that the true R2 score is less than -1. Należy wziąć pod uwagę inne wartości metryk i właściwości danych przy interpretacji ujemnego wyniku R2 .Consider the other metrics values and the properties of the data when interpreting a negative R2 score.
    ObliczeniaCalculation
    root_mean_squared_errorroot_mean_squared_error Pierwiastek średniej wartości "RMSE" oznacza pierwiastek kwadratowy oczekiwanej różnicy kwadratowej między obiektem docelowym a przewidywaniam.Root mean squared error (RMSE) is the square root of the expected squared difference between the target and the prediction. W przypadku nieobciążonego szacowania wartość RMSE jest równa odchyleniu standardowemu.For an unbiased estimator, RMSE is equal to the standard deviation.

    Cel: Bliżej 0Objective: Closer to 0 the better
    Zakres: [0, inf)Range: [0, inf)

    TypTypes:
    root_mean_squared_error
    normalized_root_mean_squared_error: root_mean_squared_error podzielona przez zakres danych.normalized_root_mean_squared_error: the root_mean_squared_error divided by the range of the data.
    ObliczeniaCalculation
    root_mean_squared_log_errorroot_mean_squared_log_error Pierwiastek średnika błędu w postaci logarytmu głównego jest pierwiastek kwadratowy oczekiwanego kwadratowego błędu logarytmu.Root mean squared log error is the square root of the expected squared logarithmic error.

    Cel: Bliżej 0Objective: Closer to 0 the better
    Zakres: [0, inf)Range: [0, inf)

    TypTypes:
    root_mean_squared_log_error
    normalized_root_mean_squared_log_error: root_mean_squared_log_error podzielona przez zakres danych.normalized_root_mean_squared_log_error: the root_mean_squared_log_error divided by the range of the data.
    ObliczeniaCalculation
    spearman_correlationspearman_correlation Korelacja Spearman jest miarą nieparametryczną monotonicity relacji między dwoma zestawami danych.Spearman correlation is a nonparametric measure of the monotonicity of the relationship between two datasets. W przeciwieństwie do korelacji Pearsona korelacja Spearman nie zakłada, że oba zestawy danych są zwykle dystrybuowane.Unlike the Pearson correlation, the Spearman correlation does not assume that both datasets are normally distributed. Podobnie jak inne Współczynniki korelacji, Spearman różni się od-1 do 1 z 0 oznacza brak korelacji.Like other correlation coefficients, Spearman varies between -1 and 1 with 0 implying no correlation. Korelacje-1 lub 1 implikują dokładną relację monotoniczny.Correlations of -1 or 1 imply an exact monotonic relationship.

    Spearman jest metryką korelacji porządku rangi, co oznacza, że zmiany wartości przewidywanych lub rzeczywistych nie zmienią wyniku Spearman, jeśli nie zmienią kolejności wartości przewidywanych lub rzeczywistych.Spearman is a rank-order correlation metric meaning that changes to predicted or actual values will not change the Spearman result if they do not change the rank order of predicted or actual values.

    Cel: Bliżej 1Objective: Closer to 1 the better
    Zakres: [-1, 1]Range: [-1, 1]
    ObliczeniaCalculation

    Normalizacja metrykiMetric normalization

    Zautomatyzowana ML normalizuje metryki regresji i prognozowania, co umożliwia porównanie modeli przeszkolonych na danych z różnymi zakresami.Automated ML normalizes regression and forecasting metrics which enables comparison between models trained on data with different ranges. Model przeszkolony na danych z większym zakresem ma wyższy błąd niż ten sam model przeszkolony na danych z mniejszym zakresem, chyba że ten błąd jest znormalizowany.A model trained on a data with a larger range has higher error than the same model trained on data with a smaller range, unless that error is normalized.

    Chociaż nie ma standardowej metody normalizowania metryk błędów, zautomatyzowanej ML wykonuje wspólne podejście dzielenia błędu przez zakres danych: normalized_error = error / (y_max - y_min)While there is no standard method of normalizing error metrics, automated ML takes the common approach of dividing the error by the range of the data: normalized_error = error / (y_max - y_min)

    Podczas oceniania modelu prognozowania w danych szeregów czasowych zautomatyzowany ML wykonuje dodatkowe kroki w celu zapewnienia, że normalizacja odbywa się w odniesieniu do szeregów czasowych (ziarno), ponieważ każda seria czasu prawdopodobnie ma inną dystrybucję wartości docelowych.When evaluating a forecasting model on time series data, automated ML takes extra steps to ensure that normalization happens per time series ID (grain), because each time series likely has a different distribution of target values.

    Wartości resztkoweResiduals

    Wykres reszty to histogram dotyczący błędów przewidywania (reszty) generowanych dla eksperymentów i prognozowania.The residuals chart is a histogram of the prediction errors (residuals) generated for regression and forecasting experiments. Pozostałe są obliczane jako y_predicted - y_true dla wszystkich próbek, a następnie wyświetlane jako histogram, aby pokazać odchylenia modelu.Residuals are calculated as y_predicted - y_true for all samples and then displayed as a histogram to show model bias.

    W tym przykładzie należy zauważyć, że oba modele są nieco rozchylone do przewidywania mniejszej niż wartość rzeczywista.In this example, note that both models are slightly biased to predict lower than the actual value. Jest to nietypowe w przypadku zestawu danych z skośną dystrybucją rzeczywistych elementów docelowych, ale wskazuje na gorszą wydajność modelu.This is not uncommon for a dataset with a skewed distribution of actual targets, but indicates worse model performance. Dobry model będzie miał rozkład reszty, który ma wartość zero w przypadku niewielkich reszt.A good model will have a residuals distribution that peaks at zero with few residuals at the extremes. Gorszy model będzie miał rozkład reszty rozłożonego z mniejszą liczbą próbek wokół zera.A worse model will have a spread out residuals distribution with fewer samples around zero.

    Wykres reszty dla dobrego modeluResiduals chart for a good model

    Wykres reszty dla dobrego modelu

    Wykres reszty dla nieprawidłowego modeluResiduals chart for a bad model

    Wykres reszty dla nieprawidłowego modelu

    Przewidywany a prawdziwyPredicted vs. true

    Aby przeprowadzić regresję i prognozowanie eksperymentu wykres przewidywany a prawda przedstawia relację między funkcją docelową (wartości prawdziwe/rzeczywiste) i przewidywaniami modelu.For regression and forecasting experiment the predicted vs. true chart plots the relationship between the target feature (true/actual values) and the model's predictions. Prawdziwe wartości są Binned wzdłuż osi x, a dla każdego pojemnika średnia wartość jest wykreślana z słupkami błędów.The true values are binned along the x-axis and for each bin the mean predicted value is plotted with error bars. Dzięki temu można sprawdzić, czy model jest rozmieszczony w kierunku przewidywania określonych wartości.This allows you to see if a model is biased toward predicting certain values. Wiersz wyświetla średnią prognozę i zacieniony obszar wskazuje wariancję prognoz wokół tego znaczenia.The line displays the average prediction and the shaded area indicates the variance of predictions around that mean.

    Często najbardziej typowa wartość true będzie miała najdokładniejsze przewidywania o najmniejszej wariancji.Often, the most common true value will have the most accurate predictions with the lowest variance. Odległość linii trendu od idealnego wiersza, w y = x którym istnieje kilka prawdziwych wartości, jest dobrym wskaźnikiem wydajności modelu w oddziałach.The distance of the trend line from the ideal y = x line where there are few true values is a good measure of model performance on outliers. Możesz użyć histogramu u dołu wykresu, aby przyczynić się do faktycznej dystrybucji danych.You can use the histogram at the bottom of the chart to reason about the actual data distribution. W tym więcej próbek danych, w których dystrybucja jest rozrzedzona, może poprawić wydajność modelu dla niewidocznych danych.Including more data samples where the distribution is sparse can improve model performance on unseen data.

    W tym przykładzie należy zauważyć, że lepszym modelem jest wiersz przewidywany w porównaniu do idealnej y = x linii.In this example, note that the better model has a predicted vs. true line that is closer to the ideal y = x line.

    Wykres przewidywany w porównaniu z rzeczywistym modelemPredicted vs. true chart for a good model

    Wykres przewidywany w porównaniu z rzeczywistym modelem

    Wykres przewidywany dla nieprawidłowego modeluPredicted vs. true chart for a bad model

    Wykres przewidywany dla nieprawidłowego modelu

    Objaśnienia modelu i znaczenie funkcjiModel explanations and feature importances

    Chociaż metryki i wykresy oceny modelu są dobre do mierzenia ogólnej jakości modelu, sprawdzanie, który zestaw danych zawiera model, który jest używany do zapewnienia, że jego przewidywania jest niezbędne w przypadku praktycznego odpowiedzialnego AI.While model evaluation metrics and charts are good for measuring the general quality of a model, inspecting which dataset features a model used to make its predictions is essential when practicing responsible AI. Dlatego zautomatyzowanej sieci zapewnia pulpit nawigacyjny z możliwością interpretacji modelu, który umożliwia mierzenie i raportowanie względnych wkładów funkcji zestawu danych.That's why automated ML provides a model interpretability dashboard to measure and report the relative contributions of dataset features.

    Aby wyświetlić pulpit nawigacyjny z interpretacją w Studio:To view the interpretability dashboard in the studio:

    1. Zaloguj się do programu Studio i przejdź do obszaru roboczegoSign into the studio and navigate to your workspace
    2. W menu po lewej stronie wybierz pozycję eksperymentyIn the left menu, select Experiments
    3. Wybierz swój eksperyment z listy eksperymentówSelect your experiment from the list of experiments
    4. W tabeli w dolnej części strony wybierz uruchomienie AutoMLIn the table at the bottom of the page, select an AutoML run
    5. Na karcie modele wybierz nazwę algorytmu dla modelu, który chcesz wyjaśnićIn the Models tab, select the Algorithm name for the model you want to explain
    6. Na karcie wyjaśnienia można zobaczyć, że wyjaśnienie zostało już utworzone, jeśli model jest najlepszyIn the Explanations tab, you may see an explanation was already created if the model was the best
    7. Aby utworzyć nowe wyjaśnienie, wybierz pozycję Wyjaśnij model i wybierz zdalne obliczenie, za pomocą którego mają zostać obliczone wyjaśnieniaTo create a new explanation, select Explain model and select the remote compute with which to compute explanations

    Dowiedz się więcej na temat wyjaśnień modelu w zautomatyzowanej ml.Learn more about model explanations in automated ML.

    Uwaga

    Model ForecastTCN nie jest obecnie obsługiwany przez automatyczne objaśnienia ML, a inne modele prognozowania mogą mieć ograniczony dostęp do narzędzi do interpretacji.The ForecastTCN model is not currently supported by automated ML explanations and other forecasting models may have limited access to interpretability tools.

    Następne krokiNext steps