Otomatik makine öğrenmesi denemesi sonuçlarını değerlendirme

Makale
08/01/2023

Bu makalede, otomatik makine öğrenmesi (otomatik ML) denemeniz tarafından eğitilen modelleri değerlendirmeyi ve karşılaştırmayı öğrenin. Otomatik ml denemesi boyunca birçok iş oluşturulur ve her iş bir model oluşturur. Otomatik ML her model için, modelin performansını ölçmenize yardımcı olan değerlendirme ölçümleri ve grafikleri oluşturur. Varsayılan olarak önerilen en iyi modelin bütünsel değerlendirmesini ve hata ayıklamasını yapmak için sorumlu bir yapay zeka panosu oluşturabilirsiniz. Buna model açıklamaları, eşitlik ve performans gezgini, veri gezgini, model hata analizi gibi içgörüler dahildir. Sorumlu yapay zeka panosu oluşturma hakkında daha fazla bilgi edinin.

Örneğin, otomatik ML deneme türüne göre aşağıdaki grafikleri oluşturur.

Sınıflandırma	Regresyon/tahmin
Karışıklık matrisi	Artıklar histogramı
Alıcı işletim özelliği (ROC) eğrisi	Tahmin edilen ve gerçek
Duyarlık hatırlama (PR) eğrisi	Tahmin ufku
Yükseltme eğrisi
Kümülatif kazanımlar eğrisi
Kalibrasyon eğrisi

Önemli

Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Önizleme sürümü bir hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Ön koşullar

Azure aboneliği. (Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun)
Aşağıdakilerden biriyle oluşturulmuş bir Azure Machine Learning denemesi:
- Azure Machine Learning stüdyosu (kod gerekmez)
- Azure Machine Learning Python SDK'sı

İş sonuçlarını görüntüleme

Otomatik ML denemeniz tamamlandıktan sonra işlerin geçmişine şu aracılığıyla ulaşabilirsiniz:

Azure Machine Learning stüdyosu içeren bir tarayıcı
JobDetails Jupyter pencere öğesini kullanan bir Jupyter not defteri

Aşağıdaki adımlar ve videoda, çalışma geçmişini ve model değerlendirme ölçümlerini ve grafiklerini stüdyoda nasıl görüntüleyebileceğiniz gösterilmektedir:

Stüdyoda oturum açın ve çalışma alanınıza gidin.
Soldaki menüde İşler'i seçin.
Deneme listesinden denemenizi seçin.
Sayfanın en altındaki tabloda otomatik bir ML işi seçin.
Modeller sekmesinde, değerlendirmek istediğiniz modelin Algoritma adını seçin.
Ölçümler sekmesinde, soldaki onay kutularını kullanarak ölçümleri ve grafikleri görüntüleyin.

Sınıflandırma ölçümleri

Otomatik ML, denemeniz için oluşturulan her sınıflandırma modeli için performans ölçümlerini hesaplar. Bu ölçümler scikit learn uygulamasını temel alır.

İki sınıf üzerinde ikili sınıflandırma için birçok sınıflandırma ölçümü tanımlanır ve çok sınıflı sınıflandırma için bir puan oluşturmak için sınıflar üzerinde ortalama gerektirir. Scikit-learn, üç otomatik ML'nin kullanıma sunduğu çeşitli ortalama yöntemleri sağlar: makro, mikro ve ağırlıklı.

Makro - Her sınıf için ölçümü hesaplama ve ağırlıksız ortalamayı alma
Mikro - Toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri (sınıflardan bağımsız) sayarak ölçümü genel olarak hesaplayın.
Ağırlıklı - Her sınıf için ölçümü hesaplayın ve sınıf başına örnek sayısına göre ağırlıklı ortalamayı alın.

Her ortalama yönteminin avantajları olsa da, uygun yöntem seçilirken dikkat edilmesi gerekenlerden biri sınıf dengesizliğidir. Sınıfların farklı sayıda örneği varsa, azınlık sınıflarına çoğunluk sınıflarına eşit ağırlık verilen bir makro ortalaması kullanmak daha bilgilendirici olabilir. Otomatik ML'de ikili ve çok sınıflı ölçümler hakkında daha fazla bilgi edinin.

Aşağıdaki tabloda, denemeniz için oluşturulan her sınıflandırma modeli için otomatik ML'nin hesap yaptığı model performans ölçümleri özetlemektedir. Daha fazla ayrıntı için her ölçümün Hesaplama alanında bağlantılı scikit-learn belgelerine bakın.

Dekont

Görüntü sınıflandırma modellerine yönelik ölçümlerle ilgili ek ayrıntılar için görüntü ölçümleri bölümüne bakın.

Metrik Sistem	Tanım	Hesaplama
AUC	AUC, Alıcı çalışma özelliği eğrisinin altındaki alandır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: `AUC_macro`, her sınıf için AUC'nin aritmetik ortalaması. `AUC_micro`, toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri sayarak hesaplanır. `AUC_weighted`, her sınıf için puanın aritmetik ortalaması, her sınıftaki doğru örneklerin sayısına göre ağırlıklıdır. `AUC_binary`, belirli bir sınıfı sınıf olarak ele alarak ve diğer tüm sınıfları sınıf olarak `truefalse` birleştirerek AUC değeri.	Hesaplama
accuracy	Doğruluk, gerçek sınıf etiketleriyle tam olarak eşleşen tahminlerin oranıdır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1]	Hesaplama
average_precision	Ortalama duyarlık, her eşikte elde edilen duyarlıkların ağırlıklı ortalaması olarak bir duyarlık-geri çağırma eğrisini özetler ve ağırlık olarak kullanılan önceki eşikten geri çekme artışı elde eder. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: `average_precision_score_macro`, her sınıfın ortalama duyarlık puanının aritmetik ortalaması. `average_precision_score_micro`, toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri sayarak hesaplanır. `average_precision_score_weighted`, her sınıf için ortalama duyarlık puanının aritmetik ortalaması, her sınıftaki gerçek örneklerin sayısına göre ağırlıklıdır. `average_precision_score_binary`, belirli bir sınıfı sınıf olarak değerlendirerek ve diğer tüm sınıfları sınıf olarak `truefalse` birleştirerek ortalama duyarlık değeri.	Hesaplama
balanced_accuracy	Dengeli doğruluk, her sınıf için aritmetik geri çağırma ortalamasıdır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1]	Hesaplama
f1_score	F1 puanı, duyarlık ve yakalamanın harmonik ortalamasıdır. Hem hatalı pozitif hem de hatalı negatiflerin dengeli bir ölçüsüdür. Ancak, gerçek negatifleri hesaba katmıyor. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: `f1_score_macro`: Her sınıf için F1 puanının aritmetik ortalaması. `f1_score_micro`: toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri sayarak hesaplanır. `f1_score_weighted`: Her sınıf için F1 puanının sınıf sıklığına göre ağırlıklı ortalama. `f1_score_binary`, belirli bir sınıfı sınıf olarak değerlendirerek ve diğer tüm sınıfları sınıf olarak `truefalse` birleştirerek f1 değerini verir.	Hesaplama
log_loss	Bu, (çok terimli) lojistik regresyonda ve sinir ağları gibi uzantılarında kullanılan kayıp işlevidir ve olasılığa dayalı sınıflandırıcının tahminleri göz önüne alındığında gerçek etiketlerin negatif günlük olasılığı olarak tanımlanır. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf)	Hesaplama
norm_macro_recall	Normalleştirilmiş makro geri çağırma makro ortalaması alınır ve normalleştirilir, böylece rastgele performansın puanı 0, mükemmel performansın puanı 1 olur. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1]	`(recall_score_macro - R)` / `(1 - R)` where, `R` rastgele tahminler için beklenen değeridir `recall_score_macro` . `R = 0.5` ikili sınıflandırma için. `R = (1 / C)` C sınıfı sınıflandırma sorunları için.
matthews_correlation	Matthews korelasyon katsayısı, bir sınıfta diğerinden çok daha fazla örnek olsa bile kullanılabilen dengeli bir doğruluk ölçüsüdür. 1 katsayısı mükemmel tahmini, 0 rastgele tahmini ve -1 ters tahmini gösterir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [-1, 1]	Hesaplama
duyarlık	Duyarlık, bir modelin negatif örneklerin pozitif olarak etiketlenmesinden kaçınma özelliğidir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: `precision_score_macro`, her sınıf için aritmetik duyarlık ortalaması. `precision_score_micro`, toplam gerçek pozitifleri ve hatalı pozitifleri sayarak genel olarak hesaplanır. `precision_score_weighted`, her sınıf için aritmetik duyarlık ortalaması, her sınıftaki doğru örneklerin sayısına göre ağırlıklıdır. `precision_score_binary`, belirli bir sınıfı sınıf olarak değerlendirerek ve diğer tüm sınıfları sınıf olarak `truefalse` birleştirerek duyarlık değeri.	Hesaplama
yakalama	Hatırlayın, bir modelin tüm pozitif örnekleri algılama özelliğidir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: `recall_score_macro`: her sınıf için aritmetik geri çağırma ortalaması. `recall_score_micro`: toplam gerçek pozitifler, hatalı negatifler ve hatalı pozitifler sayılarak genel olarak hesaplanır. `recall_score_weighted`: Her sınıf için aritmetik geri çağırma ortalaması, her sınıftaki gerçek örneklerin sayısına göre ağırlıklıdır. `recall_score_binary`, belirli bir sınıfı sınıf olarak değerlendirip diğer tüm sınıfları sınıf olarak `truefalse` birleştirerek geri çağırmanın değeridir.	Hesaplama
weighted_accuracy	Ağırlıklı doğruluk, her örneğin aynı sınıfa ait toplam örnek sayısına göre ağırlıklandırıldığı doğruluktır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1]	Hesaplama

İkili ve çok sınıflı sınıflandırma ölçümleri karşılaştırması

Otomatik ML, verilerin ikili olup olmadığını otomatik olarak algılar ve ayrıca bir true sınıf belirterek verilerin çok sınıflı olmasına rağmen kullanıcıların ikili sınıflandırma ölçümlerini etkinleştirmesine olanak tanır. Bir veri kümesinin iki veya daha fazla sınıfı varsa çok sınıflı sınıflandırma ölçümleri bildirilir. İkili sınıflandırma ölçümleri yalnızca veriler ikili olduğunda bildirilir.

Çok sınıflı sınıflandırma ölçümlerinin çok sınıflı sınıflandırma için tasarlandığına dikkat edin. İkili veri kümesine uygulandığında, bu ölçümler herhangi bir sınıfı beklediğiniz gibi sınıf olarak true işlemez. Çok sınıflı ölçümler için açıkça belirtilmiş olan ölçümler , macroveya weightedile microson eklenmiştir. Örnek olarak average_precision_score, f1_score, precision_score, recall_scoreve verilebilir AUC. Örneğin, geri çağırmayı olarak tp / (tp + fn)hesaplamak yerine, çok sınıflı ortalamalı geri çağırma (micro, macroveya weighted) ikili sınıflandırma veri kümesinin her iki sınıfının ortalamasını alır. Bu, sınıfın ve sınıfın geri çağırmasını true ayrı ayrı hesaplamaya false ve ardından ikisinin ortalamasını almaya eşdeğerdir.

Ayrıca, ikili sınıflandırmanın otomatik olarak algılanması desteklense de, ikili sınıflandırma ölçümlerinin doğru sınıf için hesaplandığından true emin olmak için sınıfı her zaman el ile belirtmeniz önerilir.

Veri kümesi çok sınıflı olduğunda ikili sınıflandırma veri kümelerinin ölçümlerini etkinleştirmek için kullanıcıların yalnızca sınıf olarak true kabul edilecek sınıfı belirtmesi gerekir ve bu ölçümler hesaplanır.

Karışıklık matrisi

Karışıklık matrisleri, makine öğrenmesi modelinin sınıflandırma modellerine yönelik tahminlerinde nasıl sistematik hatalar yaptığını gösteren bir görsel sağlar. Addaki "karışıklık" sözcüğü, "kafa karıştırıcı" veya yanlış etiketlenmiş bir modelden gelir. Karışıklık matrisindeki satır i ve sütundaki j hücre, değerlendirme veri kümesinde sınıfına ait olan ve model tarafından sınıf C_iC_jolarak sınıflandırılan örnek sayısını içerir.

Stüdyoda, daha koyu bir hücre daha fazla örnek sayısını gösterir. Açılan listede Normalleştirilmiş görünümün seçilmesi, her matris satırı üzerinde normalleştirilerek sınıfın olduğu tahmin edilen C_jsınıfın C_i yüzdesini gösterir. Varsayılan Ham görünümün avantajı, gerçek sınıfların dağılımındaki dengesizliklerin modelin azınlık sınıfından örnekleri yanlış sınıflandırmasına neden olup olmadığını görebilmenizdir. Bu, dengesiz veri kümelerinde sık karşılaşılan bir sorundur.

İyi bir modelin karışıklık matrisinde çapraz boyunca çoğu örnek bulunur.

İyi bir model için karışıklık matrisi

Confusion matrix for a good model

Hatalı bir model için karışıklık matrisi

Confusion matrix for a bad model

ROC eğrisi

Alıcı çalışma özelliği (ROC) eğrisi, karar eşiği değiştikçe gerçek pozitif oran (TPR) ile hatalı pozitif oran (FPR) arasındaki ilişkiyi çizer. ROC eğrisi, yüksek sınıf dengesizliği olan veri kümeleri üzerinde modelleri eğitirken daha az bilgilendirici olabilir, çoğunluk sınıfı azınlık sınıflarının katkılarını boğabilir.

Eğrinin altındaki alan (AUC), doğru sınıflandırılmış örneklerin oranı olarak yorumlanabilir. Daha kesin olarak, AUC, sınıflandırıcının rastgele seçilen pozitif bir örneği rastgele seçilen negatif örnekten daha yüksek dereceleme olasılığıdır. Eğrinin şekli, sınıflandırma eşiğinin veya karar sınırının bir işlevi olarak TPR ile FPR arasındaki ilişki için bir sezgi verir.

Grafiğin sol üst köşesine yaklaşan bir eğri, mümkün olan en iyi model olan %100 TPR ve %0 FPR'ye yaklaşıyor. Rastgele bir model, sol alt köşeden sağ üst köşeye y = x doğru çizgi boyunca bir ROC eğrisi üretir. Rastgele modellerden daha kötü bir model, çizginin altına inen bir ROC eğrisine y = x sahip olabilir.

Bahşiş

Sınıflandırma denemeleri için, otomatik ML modelleri için üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını almak için kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.

İyi bir model için ROC eğrisi

ROC curve for a good model

Kötü bir model için ROC eğrisi

ROC curve for a bad model

Duyarlık-geri çağırma eğrisi

Duyarlık-geri çağırma eğrisi, karar eşiği değiştikçe duyarlık ve geri çağırma arasındaki ilişkiyi çizer. Hatırlayacağınız üzere modelin tüm pozitif örnekleri algılama özelliği ve duyarlık, modelin negatif örnekleri pozitif olarak etiketlemekten kaçınma özelliğidir. Bazı iş sorunları, hatalı negatiflerden ve hatalı pozitiflerden kaçınmanın göreli önemine bağlı olarak daha yüksek geri çağırma ve biraz daha yüksek hassasiyet gerektirebilir.

Bahşiş

İyi bir model için duyarlık-geri çağırma eğrisi

Precision-recall curve for a good model

Hatalı bir model için duyarlık yakalama eğrisi

Precision-recall curve for a bad model

Kümülatif kazanımlar eğrisi

Kümülatif kazançlar eğrisi, örnekleri tahmin edilen olasılık sırasına göre dikkate aldığımız örnek yüzdesinin işlevi olarak doğru sınıflandırılan pozitif örneklerin yüzdesini çizer.

Kazancı hesaplamak için öncelikle model tarafından tahmin edilen en yüksekten en düşük olasılığa kadar tüm örnekleri sıralayın. Ardından en yüksek güvenilirlik tahminlerini alın x% . Bu değerde x% algılanan pozitif örneklerin sayısını, kazancı elde etmek için toplam pozitif örnek sayısına bölün. Kümülatif kazanç, pozitif sınıfa ait olma olasılığı en yüksek olan verilerin yüzde bir kısmını değerlendirirken algıladığımız pozitif örneklerin yüzdesidir.

Mükemmel bir model, iki düz segmentten oluşan bir kümülatif kazanç eğrisi veren tüm pozitif örnekleri tüm negatif örneklerin üzerinde sıralar. birincisi, pozitif sınıfa (x, 1)x ait örneklerin kesirini (1 / num_classessınıflar dengeliyse) olan eğimli 1 / x(0, 0) bir çizgidir. İkincisi, ile olan (x, 1)(1, 1)yatay çizgidir. İlk segmentte, tüm pozitif örnekler doğru sınıflandırılır ve kümülatif kazanç, değerlendirilen örneklerin ilki x% içinde yer alır100%.

Taban çizgisi rastgele modeli, yalnızca toplam pozitif örnekler hakkında x% değerlendirilen örneklerin algılandığı bir x% kümülatif kazanç eğrisine y = x sahip olacaktır. Dengeli bir veri kümesi için mükemmel bir model, bir mikro ortalama eğrisine ve toplu kazanç %100'e kadar eğime num_classes sahip bir makro ortalama çizgisine ve ardından veri yüzdesi 100'e gelene kadar yatay değere sahip olur.

Bahşiş

İyi bir model için kümülatif kazanç eğrisi

Cumulative gains curve for a good model

Kötü bir model için kümülatif kazanç eğrisi

Cumulative gains curve for a bad model

Yükseltme eğrisi

Kaldırma eğrisi, bir modelin rastgele modele kıyasla kaç kat daha iyi performans gösterdiğini gösterir. Lift, kümülatif kazancın rastgele bir modelin kümülatif kazancına oranı olarak tanımlanır (her zaman olmalıdır 1).

Bu göreli performans, sınıf sayısını artırdıkça sınıflandırmanın daha zor hale geldiğini dikkate alır. (Rastgele model, iki sınıflı bir veri kümesine kıyasla 10 sınıflı bir veri kümesinden alınan örneklerin daha yüksek bir bölümünü yanlış tahmin eder)

Taban çizgisi kaldırma eğrisi, y = 1 model performansının rastgele bir modelle tutarlı olduğu çizgidir. Genel olarak, iyi bir modelin lift eğrisi bu grafikte daha yüksek ve x ekseninden daha uzak olacaktır ve model tahminlerine en çok güvendiğinde rastgele tahminden çok daha iyi performans sergilediğini gösterir.

Bahşiş

İyi bir model için lift curve

Lift curve for a good model

Kötü bir model için eğriyi kaldırma

Lift curve for a bad model

Kalibrasyon eğrisi

Kalibrasyon eğrisi, modelin tahminlerine olan güvenini her güvenilirlik düzeyindeki pozitif örneklerin oranına göre çizer. İyi kalibre edilmiş bir model, %100 güvenilirlik atadığı tahminlerin %100'ünün, %50 güvenilirlik atadığı tahminlerin %50'sinin, %20 güvenilirlik atadığı tahminlerin %20'sinin vb. doğru bir şekilde sınıflandıracaktır. Mükemmel kalibre edilmiş bir model, modelin örneklerin y = x her sınıfa ait olma olasılığını mükemmel bir şekilde tahmin ettiği çizgiyi izleyen bir kalibrasyon eğrisine sahip olacaktır.

Fazla güvenilir bir model sıfıra ve bire yakın olasılıkları aşırı tahmin eder, nadiren her örneğin sınıfı hakkında belirsizdir ve kalibrasyon eğrisi geriye dönük "S" ile benzer görünür. Kendinden emin olmayan bir model, tahminde bulunan sınıfa ortalama olarak daha düşük bir olasılık atar ve ilişkili kalibrasyon eğrisi bir "S" ile benzer görünür. Kalibrasyon eğrisi, modelin doğru sınıflandırma becerisini değil, tahminlerine doğru güvenilirlik atama becerisini gösterir. Model doğru şekilde düşük güvenilirlik ve yüksek belirsizlik atadıysa kötü bir model iyi bir kalibrasyon eğrisine sahip olabilir.

Dekont

Kalibrasyon eğrisi örnek sayısına duyarlıdır, bu nedenle küçük bir doğrulama kümesi yorumlanması zor olabilecek gürültülü sonuçlar üretebilir. Bu, modelin iyi kalibre edilmediği anlamına gelmez.

İyi bir model için kalibrasyon eğrisi

Calibration curve for a good model

Hatalı bir model için kalibrasyon eğrisi

Calibration curve for a bad model

Regresyon/tahmin ölçümleri

Otomatik ML, bir regresyon veya tahmin denemesi olup olmadığına bakılmaksızın oluşturulan her model için aynı performans ölçümlerini hesaplar. Bu ölçümler, farklı aralıklara sahip veriler üzerinde eğitilen modeller arasında karşılaştırma yapmak için de normalleştirmeden geçer. Daha fazla bilgi edinmek için bkz . ölçüm normalleştirme.

Aşağıdaki tabloda regresyon ve tahmin denemeleri için oluşturulan model performans ölçümleri özetlenmiştir. Sınıflandırma ölçümleri gibi bu ölçümler de scikit learn uygulamalarını temel alır. Hesaplama alanında uygun scikit learn belgeleri buna uygun şekilde bağlanır.

Metrik Sistem	Tanım	Hesaplama
explained_variance	Açıklanan varyans, modelin hedef değişkendeki varyasyonu ne ölçüde hesapladığına ilişkin ölçüler. Bu, özgün verilerin varyansında hataların varyansına yüzde azalmadır. Hataların ortalaması 0 olduğunda, belirleme katsayısına eşittir (aşağıdaki r2_score bakın). Amaç: 1'e daha yakınsa o kadar iyi Aralık: (-inf, 1]	Hesaplama
mean_absolute_error	Ortalama mutlak hata, hedefle tahmin arasındaki mutlak fark değerinin beklenen değeridir. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: `mean_absolute_error` `normalized_mean_absolute_error`, mean_absolute_error veri aralığına bölünür.	Hesaplama
mean_absolute_percentage_error	Ortalama mutlak yüzde hatası (MAPE), tahmin edilen değerle gerçek değer arasındaki ortalama farkın ölçüsüdür. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf)
median_absolute_error	Ortanca mutlak hata, hedef ve tahmin arasındaki tüm mutlak farklılıkların ortanca değeridir. Bu kayıp aykırı değerler için güçlüdür. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: `median_absolute_error` `normalized_median_absolute_error`: median_absolute_error veri aralığına bölünür.	Hesaplama
r2_score	R² (belirleme katsayısı), gözlemlenen verilerin toplam varyansına göre ortalama kare hatasının (MSE) orantılı azalmasını ölçer. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [-1, 1] Not: R² genellikle (-inf, 1] aralığına sahiptir. MSE gözlemlenen varyanstan daha büyük olabilir, bu nedenle R² , verilere ve model tahminlerine bağlı olarak rastgele olarak büyük negatif değerlere sahip olabilir. Otomatik ML klipleri R² puanlarını -1 olarak bildirdiği için R² için -1 değeri büyük olasılıkla gerçek R² puanının -1'den küçük olduğu anlamına gelir. Negatif R² puanını yorumlarken diğer ölçüm değerlerini ve verilerin özelliklerini göz önünde bulundurun.	Hesaplama
root_mean_squared_error	Kök ortalama kare hatası (RMSE), hedefle tahmin arasındaki beklenen karekök farkının karekökünü oluşturur. Taraflı olmayan bir tahmin aracı için RMSE, standart sapmaya eşittir. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: `root_mean_squared_error` `normalized_root_mean_squared_error`: root_mean_squared_error veri aralığına bölünür.	Hesaplama
root_mean_squared_log_error	Kök ortalama kare günlük hatası, beklenen kare logaritmik hatanın karekökünü oluşturur. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: `root_mean_squared_log_error` `normalized_root_mean_squared_log_error`: root_mean_squared_log_error veri aralığına bölünür.	Hesaplama
spearman_correlation	Spearman bağıntısı, iki veri kümesi arasındaki ilişkinin monotonluğuna ilişkin birparametrik olmayan ölçüdür. Pearson bağıntısının aksine Spearman bağıntısı her iki veri kümesinin de normal olarak dağıtıldığını varsaymamaktadır. Diğer korelasyon katsayıları gibi Spearman da -1 ile 1 arasında değişir ve 0 bağıntı olmadığını gösterir. -1 veya 1 bağıntıları tam bir monoton ilişki anlamına geliyor. Spearman, tahmin edilen veya gerçek değerlere yapılan değişikliklerin tahmin edilen veya gerçek değerlerin sıralama sırasını değiştirmediği takdirde Spearman sonucunu değiştirmeyeceği anlamına gelen bir derece sırası bağıntı ölçümüdür. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [-1, 1]	Hesaplama

Ölçüm normalleştirmesi

Otomatik ML, farklı aralıklara sahip veriler üzerinde eğitilen modeller arasında karşılaştırmayı sağlayan regresyon ve tahmin ölçümlerini normalleştirir. Daha geniş bir aralığı olan bir veri üzerinde eğitilen model, hata normalleştirilmediği sürece daha küçük bir aralıkta eğitilen aynı modelden daha yüksek hataya sahiptir.

Hata ölçümlerini normalleştirmenin standart bir yöntemi olmasa da otomatik ML, hatayı veri aralığına bölmek için yaygın bir yaklaşım benimser: normalized_error = error / (y_max - y_min)

Dekont

Veri aralığı modelle birlikte kaydedilmez. Bir bekleme testi kümesinde y_min aynı modelle çıkarım yaparsanız ve y_max test verilerine göre değişebilirseniz ve normalleştirilmiş ölçümler modelin eğitim ve test kümelerindeki performansını karşılaştırmak için doğrudan kullanılamayabilir. Karşılaştırmayı adil hale getirmek için eğitim kümenizden ve y_max değerini y_min geçirebilirsiniz.

Tahmin ölçümleri: normalleştirme ve toplama

Tahmin modeli değerlendirmesi için ölçümlerin hesaplanması, veriler birden çok zaman serisi içerdiğinde dikkat edilmesi gereken bazı özel noktalar gerektirir. Ölçümleri birden çok seri üzerinden toplamaya yönelik iki doğal seçenek vardır:

Her serideki değerlendirme ölçümlerine eşit ağırlık verildiği makro ortalaması,
Her tahmin için değerlendirme ölçümlerinin eşit ağırlığa sahip olduğu mikro ortalama .

Bu durumlar, çok sınıflı sınıflandırmada makroya ve mikro ortalamaya doğrudan benzetmelere sahiptir.

Model seçimi için birincil ölçüm seçilirken makro ile mikro ortalama arasındaki ayrım önemli olabilir. Örneğin, çeşitli tüketici ürünlerine yönelik talebi tahmin etmek istediğiniz perakende senaryolarını göz önünde bulundurun. Bazı ürünler diğerlerinden çok daha yüksek hacimlerde satmaktadır. Birincil ölçüm olarak mikro ortalamalı bir RMSE seçerseniz, yüksek hacimli öğeler modelleme hatasının çoğunluğuna katkıda bulunur ve dolayısıyla ölçüme hakim olabilir. Model seçim algoritması daha sonra yüksek hacimli öğelerde düşük hacimli öğelere göre daha yüksek doğruluk oranına sahip modelleri tercih edebilir. Buna karşılık, makro ortalaması alınmış, normalleştirilmiş BIR RMSE, düşük hacimli öğelere yüksek hacimli öğelere yaklaşık olarak eşit ağırlık verir.

Aşağıdaki tabloda AutoML'nin tahmin ölçümlerinden hangilerinin makro veya mikro ortalama kullandığını göstermektedir:

Makro ortalaması	Mikro ortalama
`normalized_mean_absolute_error`, `normalized_median_absolute_error`, `normalized_root_mean_squared_error`, `normalized_root_mean_squared_log_error`	`mean_absolute_error`, `median_absolute_error`, `root_mean_squared_error`, `root_mean_squared_log_error`, `r2_score`, `explained_variance`, `spearman_correlation`, `mean_absolute_percentage_error`

Makro ortalaması ölçümlerinin her seriyi ayrı ayrı normalleştirdiğini unutmayın. Ardından, son sonucu vermek için her seriden normalleştirilmiş ölçümlerin ortalaması alınır. Makro ile mikro arasında doğru seçim iş senaryosuna bağlıdır, ancak genellikle kullanmanızı normalized_root_mean_squared_erroröneririz.

Fazlalıklar

Artıklar grafiği, regresyon ve tahmin denemeleri için oluşturulan tahmin hatalarının (artıklar) histogramıdır. Artıklar tüm örnekler için hesaplanır y_predicted - y_true ve ardından model sapmasını göstermek için histogram olarak görüntülenir.

Bu örnekte, her iki modelin de gerçek değerden daha düşük bir tahminde bulunduğunu unutmayın. Bu, gerçek hedeflerin çarpık dağılımına sahip bir veri kümesi için yaygın değildir, ancak model performansının daha kötü olduğunu gösterir. İyi bir modelde, uç noktalarda az sayıda artık ile sıfırda zirveye inen artık dağılımı olacaktır. Daha kötü bir modelde, sıfır civarında daha az örnek içeren yayılmış artık dağılımı olacaktır.

İyi bir model için artıklar grafiği

Residuals chart for a good model

Hatalı bir model için artıklar grafiği

Residuals chart for a bad model

Tahmin edilen ve gerçek

Regresyon ve tahmin denemesi için tahmin edilen ve doğru olan grafik, hedef özellik (doğru/gerçek değerler) ile modelin tahminleri arasındaki ilişkiyi çizer. Gerçek değerler x ekseni boyunca gruplandırılır ve her bölme için ortalama tahmin edilen değer hata çubuklarıyla çizilir. Bu, modelin belirli değerleri tahmin etme konusunda taraflı olup olmadığını görmenizi sağlar. Çizgi, ortalama tahmini görüntüler ve gölgeli alan bu ortalamanın etrafındaki tahminlerin varyansını gösterir.

Çoğu zaman en yaygın gerçek değer, en düşük varyansa sahip en doğru tahminlere sahip olur. Eğilim çizgisinin, çok az gerçek değerin bulunduğu ideal y = x çizgiden uzaklığı, aykırı değerler üzerinde model performansının iyi bir ölçüsüdür. Gerçek veri dağılımını belirlemek için grafiğin altındaki histogramı kullanabilirsiniz. Dağıtımın seyrek olduğu daha fazla veri örneği dahil olmak, görünmeyen verilerde model performansını artırabilir.

Bu örnekte, daha iyi modelin ideal y = x çizgiye daha yakın bir tahmin edilen ve gerçek çizgiye sahip olduğunu unutmayın.

İyi bir model için tahmin edilen ve gerçek grafik karşılaştırması

Predicted vs. true chart for a good model

Kötü bir model için tahmin edilen ve gerçek grafik karşılaştırması

Predicted vs. true chart for a bad model

Tahmin ufku

Tahmin denemeleri için tahmin ufku grafiği, tahmin edilen değer ile çapraz doğrulama katlama başına zaman içinde eşlenen gerçek değerler arasındaki ilişkiyi 5 kata kadar çizer. X ekseni, eğitim kurulumu sırasında sağladığınız sıklık temelinde zamanı eşler. Grafikteki dikey çizgi, tahminleri oluşturmaya başlamak istediğiniz zaman aralığı olan ufuk çizgisi olarak da adlandırılan tahmin ufuk noktasını işaretler. Tahmin ufuk çizgisinin solunda geçmiş eğilimleri daha iyi görselleştirmek için geçmiş eğitim verilerini görüntüleyebilirsiniz. Tahmin ufkunun sağındaki tahminleri (mor çizgi) farklı çapraz doğrulama katları ve zaman serisi tanımlayıcıları için gerçek değerlere (mavi çizgi) göre görselleştirebilirsiniz. Gölgeli mor alan, bu ortalamanın etrafındaki tahminlerin olasılık aralıklarını veya varyansını gösterir.

Grafiğin sağ üst köşesindeki kalem düzenle simgesine tıklayarak hangi çapraz doğrulama katlama ve zaman serisi tanımlayıcı bileşimlerinin görüntüleneceğini seçebilirsiniz. Çeşitli zaman serilerinizin grafiğini görselleştirmek için ilk 5 çapraz doğrulama katlama ve 20'ye kadar farklı zaman serisi tanımlayıcısı arasından seçim yapın.

Önemli

Bu grafik hem eğitim ve doğrulama verilerinden oluşturulan modeller için eğitim çalıştırmasında hem de eğitim verilerine ve test verilerine dayalı test çalıştırmasında kullanılabilir. Tahmin kaynağından önce en fazla 20 veri noktasına ve tahmin kaynağından sonra en fazla 80 veri noktasına izin veririz. DNN modellerinde, eğitim çalıştırmasında yer alan bu grafik, modelin tamamen eğitildikten sonra son dönem verilerini gösterir. Eğitim çalıştırması sırasında doğrulama verileri açıkça sağlanmışsa test çalıştırmasında bu grafik ufuk çizgisinin önünde boşluk olabilir. Bunun nedeni, test çalıştırmasında eğitim verileri ve test verilerinin kullanılması ve doğrulama verilerinin boşluğa neden olmasıdır.

Forecast horizon chart

Görüntü modelleri için ölçümler (önizleme)

Otomatik ML, modelin performansını değerlendirmek için doğrulama veri kümesindeki görüntüleri kullanır. Eğitimin nasıl ilerlettiğini anlamak için modelin performansı dönem düzeyinde ölçülür. Bir veri kümesinin tamamı sinir ağı üzerinden tam olarak bir kez ileri ve geri geçirildiğinde bir dönem geçer.

Görüntü sınıflandırma ölçümleri

Değerlendirme için birincil ölçüm, ikili ve çok sınıflı sınıflandırma modellerinin doğruluğu ve çok etiketli sınıflandırma modelleri için IoU (Birleşim üzerinde Kesişim) ölçümüdür. Görüntü sınıflandırma modellerinin sınıflandırma ölçümleri, sınıflandırma ölçümleri bölümünde tanımlanan ölçümlerle aynıdır. Bir dönemle ilişkili kayıp değerleri de günlüğe kaydedilir ve bu da eğitimin nasıl ilerlediğini izlemeye ve modelin aşırı uygun mu yoksa yetersiz mi olduğunu belirlemeye yardımcı olabilir.

Sınıflandırma modelindeki her tahmin, tahminin yapıldığı güvenilirlik düzeyini gösteren bir güvenilirlik puanıyla ilişkilendirilir. Çok etiketli görüntü sınıflandırma modelleri varsayılan olarak 0,5 puan eşiğiyle değerlendirilir ve bu da yalnızca bu güven düzeyine sahip tahminlerin ilişkili sınıf için pozitif bir tahmin olarak kabul edileceği anlamına gelir. Çok sınıflı sınıflandırma puan eşiği kullanmaz, ancak bunun yerine en yüksek güvenilirlik puanına sahip sınıf tahmin olarak kabul edilir.

Görüntü sınıflandırması için dönem düzeyinde ölçümler

Tablosal veri kümelerinin sınıflandırma ölçümlerinden farklı olarak, görüntü sınıflandırma modelleri tüm sınıflandırma ölçümlerini aşağıda gösterildiği gibi bir dönem düzeyinde günlüğe kaydeder.

Epoch-level charts for image classification

Görüntü sınıflandırma için özet ölçümler

Görüntü sınıflandırma modeli, dönem düzeyinde günlüğe kaydedilen skaler ölçümlerin dışında karışıklık matrisi, ROC eğrisi dahil sınıflandırma grafikleri , duyarlık-geri çağırma eğrisi ve en yüksek birincil ölçüm (doğruluk) puanını aldığımız en iyi dönem için model için sınıflandırma raporu gibi özet ölçümleri de günlüğe kaydeder.

Sınıflandırma raporu aşağıda gösterildiği gibi duyarlık, geri çağırma, f1 puanı, destek, auc ve average_precision gibi çeşitli ortalama düzeyine sahip ölçümler için sınıf düzeyinde değerler sağlar. Lütfen sınıflandırma ölçümleri bölümündeki ölçüm tanımlarına bakın.

Classification report for image classification

Nesne algılama ve örnek segmentasyonu ölçümleri

Bir görüntü nesnesi algılama veya örnek segmentasyonu modelinden gelen her tahmin bir güvenilirlik puanıyla ilişkilendirilir. Puan eşiğinden daha yüksek güvenilirlik puanına sahip tahminler tahmin olarak çıkar ve varsayılan değeri modele özgü olan ve hiper parametre ayarlama sayfasından (box_score_threshold hiper parametre) başvurulabilen ölçüm hesaplamasında kullanılır.

Görüntü nesnesi algılama ve örnek segmentasyonu modelinin ölçüm hesaplaması, yer gerçeği ile tahminler arasındaki çakışma alanını yer gerçeği ile tahminler arasındaki birleşim alanı ile tahminler arasında bölerek hesaplanan IoU (Birleşim Üzerinde Kesişim) adlı ölçüm tarafından tanımlanan bir çakışma ölçümünü temel alır. Her tahminden hesaplanan IoU, bir tahminin pozitif tahmin olarak kabul edilmesi için kullanıcı açıklamalı bir temel gerçekle ne kadar çakışması gerektiğini belirleyen IoU eşiği adı verilen bir çakışma eşiğiyle karşılaştırılır. Tahminden hesaplanan IoU çakışma eşiğinden küçükse, tahmin ilişkili sınıf için pozitif bir tahmin olarak kabul edilmez.

Görüntü nesnesi algılama ve örnek segmentasyon modellerinin değerlendirilmesi için birincil ölçüm ortalama ortalama duyarlıktır (mAP). mAP, tüm sınıflarda ortalama duyarlık (AP) ortalama değeridir. Otomatik ML nesne algılama modelleri, aşağıdaki iki popüler yöntemi kullanarak mAP hesaplamasını destekler.

Pascal VOC ölçümleri:

Pascal VOC mAP, nesne algılama/örnek segmentasyonu modelleri için mAP hesaplamasının varsayılan yoludur. Pascal VOC stili mAP yöntemi, precision-recall eğrisinin bir sürümünün altındaki alanı hesaplar. İlk p(ri), geri çağırma sırasında duyarlık olan tüm benzersiz geri çağırma değerleri için hesaplanır. p(ri) daha sonra herhangi bir geri çağırma r' >= ri için elde edilen maksimum duyarlık ile değiştirilir. Eğrinin bu sürümünde duyarlık değeri monoton olarak azalıyor. Pascal VOC mAP ölçümü varsayılan olarak 0,5 IoU eşiğiyle değerlendirilir. Bu kavramın ayrıntılı bir açıklaması bu blogda bulunabilir.

COCO ölçümleri:

COCO değerlendirme yöntemi , AP hesaplaması için 101 noktalı ilişkilendirilmiş bir yöntem ve on üzerinde IoU eşiğinin ortalamasını kullanır. AP@[.5:.95] 0,5 ile 0,95 olan ve adım boyutu 0,05 olan ortalama IoU AP'sine karşılık gelir. Otomatik ML, AP ve AR (ortalama geri çağırma) dahil olmak üzere COCO yöntemi tarafından tanımlanan on iki ölçümün tümünü uygulama günlüklerindeki çeşitli ölçeklerde günlüğe kaydederken, ölçüm kullanıcı arabirimi 0,5 ioU eşiğinde yalnızca mAP'yi gösterir.

Bahşiş

Görüntü nesnesi algılama modeli değerlendirmesi, hiper parametrenin hiper parametre ayarlama bölümünde açıklandığı gibi 'coco' olarak ayarlanması durumunda validation_metric_type coco ölçümlerini kullanabilir.

Nesne algılama ve örnek segmentasyonu için dönem düzeyinde ölçümler

mAP, duyarlık ve geri çağırma değerleri, görüntü nesnesi algılama/örnek segmentasyonu modelleri için bir dönem düzeyinde günlüğe kaydedilir. MAP, duyarlık ve geri çağırma ölçümleri de 'per_label_metrics' adıyla sınıf düzeyinde günlüğe kaydedilir. 'per_label_metrics' tablo olarak görüntülenmelidir.

Dekont

Duyarlık, geri çağırma ve per_label_metrics için dönem düzeyinde ölçümler 'coco' yöntemi kullanılırken kullanılamaz.

Epoch-level charts for object detection

En iyi önerilen AutoML modeli için sorumlu yapay zeka panosu (önizleme)

Azure Machine Learning Sorumlu Yapay Zeka panosu, Sorumlu yapay zekayı uygulamada etkili ve verimli bir şekilde uygulamanıza yardımcı olacak tek bir arabirim sağlar. Sorumlu yapay zeka panosu yalnızca tablo verileri kullanılarak desteklenir ve yalnızca sınıflandırma ve regresyon modellerinde desteklenir. Aşağıdaki alanlarda çeşitli olgun Sorumlu Yapay Zeka araçlarını bir araya getirir:

Model performansı ve eşitlik değerlendirmesi
Veri keşfi
Makine öğrenmesi yorumlanabilirliği
Hata analizi

Model değerlendirme ölçümleri ve grafikleri bir modelin genel kalitesini ölçmek için iyi olsa da modelin eşitliğini inceleme, açıklamalarını görüntüleme (modelin tahminlerini yapmak için hangi veri kümesinin kullanıldığı olarak da bilinir), sorumlu yapay zekayı uygularken hatalarının ve olası kör noktaların incelenmesi temel önem taşır. Bu nedenle otomatik ML, modelinize yönelik çeşitli içgörüleri gözlemlemenize yardımcı olacak sorumlu bir yapay zeka panosu sağlar. Azure Machine Learning stüdyosu Sorumlu yapay zeka panosunu görüntülemeyi öğrenin.

Bu panoyu kullanıcı arabirimi veya SDK aracılığıyla nasıl oluşturabileceğinizi görün.

Model açıklamaları ve özellik önemleri

Model değerlendirme ölçümleri ve grafikleri modelin genel kalitesini ölçmek için iyi olsa da, sorumlu yapay zeka alıştırması yaparken modelin tahminde bulunmak için hangi veri kümesi özelliklerini kullandığını incelemek önemlidir. Bu nedenle otomatik ML, veri kümesi özelliklerinin göreli katkılarını ölçmek ve raporlamak için bir model açıklamaları panosu sağlar. Azure Machine Learning stüdyosu açıklamalar panosunu görüntülemeyi öğrenin.

Dekont

En iyi model açıklaması olan yorumlanabilirlik, aşağıdaki algoritmaları en iyi model veya topluluk olarak öneren otomatik ML tahmin denemeleri için kullanılamaz:

TCNForecaster
AutoArima
ExponentialSmoothing
Peygamber
Ortalama
Naive
Mevsim Ortalaması
Mevsim Naif

Sonraki adımlar

Otomatik makine öğrenmesi modeli açıklaması örnek not defterlerini deneyin.
Ml'ye özgü otomatik sorular için adresine askautomatedml@microsoft.comulaşın.

Otomatik makine öğrenmesi denemesi sonuçlarını değerlendirme

Ön koşullar

İş sonuçlarını görüntüleme

Sınıflandırma ölçümleri

İkili ve çok sınıflı sınıflandırma ölçümleri karşılaştırması

Karışıklık matrisi

İyi bir model için karışıklık matrisi

Hatalı bir model için karışıklık matrisi

ROC eğrisi

İyi bir model için ROC eğrisi

Kötü bir model için ROC eğrisi

Duyarlık-geri çağırma eğrisi

İyi bir model için duyarlık-geri çağırma eğrisi

Hatalı bir model için duyarlık yakalama eğrisi

Kümülatif kazanımlar eğrisi

İyi bir model için kümülatif kazanç eğrisi

Kötü bir model için kümülatif kazanç eğrisi

Yükseltme eğrisi

İyi bir model için lift curve

Kötü bir model için eğriyi kaldırma

Kalibrasyon eğrisi

İyi bir model için kalibrasyon eğrisi

Hatalı bir model için kalibrasyon eğrisi

Regresyon/tahmin ölçümleri

Ölçüm normalleştirmesi

Tahmin ölçümleri: normalleştirme ve toplama

Fazlalıklar

İyi bir model için artıklar grafiği

Hatalı bir model için artıklar grafiği

Tahmin edilen ve gerçek

İyi bir model için tahmin edilen ve gerçek grafik karşılaştırması

Kötü bir model için tahmin edilen ve gerçek grafik karşılaştırması

Tahmin ufku

Görüntü modelleri için ölçümler (önizleme)

Görüntü sınıflandırma ölçümleri

Görüntü sınıflandırması için dönem düzeyinde ölçümler

Görüntü sınıflandırma için özet ölçümler

Nesne algılama ve örnek segmentasyonu ölçümleri

Nesne algılama ve örnek segmentasyonu için dönem düzeyinde ölçümler

En iyi önerilen AutoML modeli için sorumlu yapay zeka panosu (önizleme)

Model açıklamaları ve özellik önemleri

Sonraki adımlar

Ek kaynaklar