Otomatik makine öğrenimi sonuçlarını değerlendir

bu makalede, otomatik makine öğrenimi (otomatik ML) denemenize göre eğitilen modelleri değerlendirmeyi ve karşılaştırmayı öğrenin. otomatikleştirilmiş bir ML denemesi sırasında birçok çalışma oluşturulur ve her çalıştırma bir model oluşturur. her model için otomatik ML, modelin performansını ölçmenize yardımcı olan değerlendirme ölçümleri ve grafikler oluşturur.

örneğin, otomatikleştirilmiş ML deneme türüne göre aşağıdaki grafikleri oluşturur.

Sınıflandırma Regresyon/tahmin
Karışıklık matrisi Artıklar histogramı
Alıcı işletim özelliği (ROC) eğrisi Tahmin edilen ve true
Precision-hatırla (PR) eğrisi
Eğriyi yükselt
Kümülatif kazançlar eğrisi
Ayar eğrisi

Önkoşullar

Çalıştırma sonuçlarını görüntüle

otomatikleştirilmiş ML denemeniz tamamlandıktan sonra, çalışma geçmişi şunun aracılığıyla bulunabilir:

Aşağıdaki adımlar ve videoda, çalışma geçmişi ve model değerlendirme ölçümlerini ve grafiklerini Studio 'da nasıl görüntüleyebileceğiniz gösterilmektedir:

  1. Studio 'Da oturum açın ve çalışma alanınıza gidin.
  2. Sol menüden denemeleri' yi seçin.
  3. Denemeleri listesinden denemenizi seçin.
  4. sayfanın altındaki tabloda otomatik ML çalıştır ' ı seçin.
  5. Modeller sekmesinde, değerlendirmek Istediğiniz modelin algoritma adını seçin.
  6. Ölçümler sekmesinde, ölçüm ve grafikleri görüntülemek için soldaki onay kutularını kullanın.

Studio 'da ölçümleri görüntüleme adımları

Sınıflandırma ölçümleri

otomatikleştirilmiş ML, denemeniz için oluşturulan her sınıflandırma modeli için performans ölçümlerini hesaplar. Bu ölçümler, scikit öğrenme uygulamasını temel alır.

Birçok sınıflandırma ölçümü, iki sınıf üzerinde ikili sınıflandırma için tanımlanır ve birden çok sınıf sınıflandırması için bir puan üretmek için sınıfların ortalamasını gerektirir. scikit-öğrenme birkaç ortalama yöntemi sağlar, üç otomatik ML sunar: macro, mikro ve ağırlıklı.

  • Makro -her sınıf için ölçüyü hesapla ve ön ağırlıklı ortalamayı al
  • Mikro -toplam doğru pozitif sonuç sayısını, yanlış negatifleri ve hatalı pozitif sonuçları (sınıflardan bağımsız) sayarak ölçüyü küresel olarak hesaplayın.
  • Ağırlıklı -her sınıf için ölçüyü hesaplayın ve sınıf başına örnek sayısına göre ağırlıklı ortalamayı alın.

Her ortalama Yöntem avantajlarına sahip olsa da, uygun yöntemi seçerken yaygın bir değerlendirme sınıf dengesizdir. Sınıflarda farklı sayıda örnek varsa, minypo sınıflarının çoğunluk sınıflarına eşit ağırlığa verildiği bir makro ortalaması kullanımı daha bilgilendirici olabilir. Otomatik ml, ikili ve çoklu sınıf ölçümlerihakkında daha fazla bilgi edinin.

aşağıdaki tabloda, denemeniz için oluşturulan her bir sınıflandırma modeli için otomatikleştirilmiş ML hesapladığı model performans ölçümleri özetlenmektedir. Daha fazla ayrıntı için, her ölçümün Hesaplama alanında bulunan scikit-öğrenme belgelerine bakın.

Not

Görüntü sınıflandırma modelleriyle ilgili ölçümler hakkında daha fazla bilgi için görüntü ölçümleri bölümüne bakın.

Metric Açıklama Hesaplama
AUC AUC, alıcı Işletim özelliği eğrisininaltındaki alandır.

Amaç: 1 ' e yaklaşarak daha iyi
Aralık: [0, 1]

Desteklenen ölçüm adları şunlardır
  • AUC_macro, her sınıf için AUC 'nin aritmetik ortalaması.
  • AUC_micro, toplam doğru pozitif sonuç sayısı, yanlış negatifler ve hatalı pozitif sonuçlar sayımına göre hesaplanır.
  • AUC_weighted, her sınıf için puanın aritmetik ortalaması, her bir sınıftaki doğru örnek sayısı tarafından ağırlıklı olarak hesaplanır.
  • AUC_binary, bir belirli sınıfı sınıf olarak düşünerek true ve diğer tüm sınıfları sınıf olarak birleştirerek AUC değeri false .

  • Hesaplama
    accuracy Doğruluk, doğru sınıf etiketleriyle tam olarak eşleşen tahminlerden oranıdır.

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: [0, 1]
    Hesaplama
    average_precision Ortalama duyarlık, her bir eşiğin elde ettiği ağırlıklı ortalamanın ağırlıklı ortalaması olarak bir duyarlık geri çağırma eğrisini özetler ve bu da ağırlık olarak kullanılan önceki eşikten geri çekme artışı artar.

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: [0, 1]

    Desteklenen ölçüm adları şunlardır
  • average_precision_score_macro, her sınıfın ortalama duyarlık puanının aritmetik ortalaması.
  • average_precision_score_micro, toplam doğru pozitif sonuç sayısı, yanlış negatifler ve hatalı pozitif sonuçlar sayımına göre hesaplanır.
  • average_precision_score_weighted, her sınıfın ortalama duyarlık puanı, her sınıftaki doğru örnek sayısı ile ağırlıklı aritmetik ortasıdır.
  • average_precision_score_binary, belirli bir sınıfı sınıf olarak düşünerek true ve diğer tüm sınıfları sınıf olarak birleştirerek ortalama duyarlık değeri false .
  • Hesaplama
    balanced_accuracy Dengeli doğruluk, her sınıf için geri çekmenin aritmetik ortalaması anlamına gelir.

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: [0, 1]
    Hesaplama
    f1_score F1 puanı duyarlık ve geri çağırma için harmonik bir anlama gelir. Bu, hem hatalı pozitif sonuçlar hem de yanlış negatifler için iyi bir dengeli ölçüdür. Ancak, hesaba doğru bir negatifler almaz.

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: [0, 1]

    Desteklenen ölçüm adları şunlardır
  • f1_score_macro: her sınıf için F1 puanı aritmetik ortalaması.
  • f1_score_micro: toplam doğru pozitif sonuç sayısı, yanlış negatifler ve hatalı pozitif sonuçlar sayımına göre hesaplanır.
  • f1_score_weighted: her bir sınıf için, her bir sınıf için bir F1 puanı sınıf sıklığı ağırlıklı ortalama
  • f1_score_binary, bir belirli sınıfı sınıf olarak düşünerek F1 değeri, true diğer tüm sınıfları sınıf olarak birleştirir false .
  • Hesaplama
    log_loss Bu, bir dayalı sınıflandırıcının tahminlerini verilen doğru etiketlerin olumsuz günlük olma olasılığı olarak tanımlanan (ÇOKTERİMLİ) Lojistik gerileme ve sinir Networks gibi uzantılar içinde kullanılan kayıp işlevidir.

    Amaç: 0 ' a yaklaşarak daha iyi
    Aralık: [0, INF)
    Hesaplama
    norm_macro_recall Normalleştirilmiş makro geri çağırma, makro ortalama ve normalleştirilmiştir. Bu nedenle rastgele performans 0 puana, mükemmel performans ise 1 puanına sahip olur.

    Amaç: 1'e yaklaştıkça daha iyi olur
    Aralık: [0, 1]
    (recall_score_macro - R) / (1 - R)

    burada, R rastgele tahminler için beklenen recall_score_macro değeridir.

    R = 0.5 ikili   sınıflandırma   için.
    R = (1 / C) C sınıfı sınıflandırma sorunları için.
    matthews_correlation Matthews bağıntı katsayısı, bir sınıfta diğer sınıftan çok daha fazla örnek olsa bile kullanılabilir olan dengeli bir doğruluk ölçüsüdür. 1 katsayısı mükemmel tahmini, 0 rastgele tahmini ve -1 ters tahmini gösterir.

    Amaç: 1'e yaklaştıkça daha iyi olur
    Aralık: [-1, 1]
    Hesaplama
    duyarlık Duyarlık, modelin negatif örnekleri pozitif olarak etiketlemesini önleme becerisidir.

    Amaç: 1'e yaklaştıkça daha iyi olur
    Aralık: [0, 1]

    Desteklenen ölçüm adları şunlardır:
  • precision_score_macro, her sınıf için duyarlık aritmetik ortalama.
  • precision_score_micro, toplam gerçek pozitiflerin ve hatalı pozitiflerin sayarak küresel olarak hesaplanır.
  • precision_score_weighted, her sınıf için duyarlık aritmetik ortalama, her sınıftaki gerçek örnek sayısına göre ağırlıklıdır.
  • precision_score_binary, duyarlık değeri olarak belirli bir sınıfı sınıf olarak işler true ve diğer tüm sınıfları sınıf olarak false birleştirir.
  • Hesaplama
    yakalama Geri çağırma, modelin tüm pozitif örnekleri algılama becerisidir.

    Amaç: 1'e yaklaştıkça daha iyi olur
    Aralık: [0, 1]

    Desteklenen ölçüm adları şunlardır:
  • recall_score_macro: her sınıf için geri çağırmanın aritmetik ortalaması.
  • recall_score_micro: toplam gerçek pozitifler, hatalı negatifler ve hatalı pozitifler sayarak küresel olarak hesaplanır.
  • recall_score_weighted: her sınıftaki gerçek örnek sayısına göre ağırlıklı olarak her bir sınıf için geri çağırmanın aritmetik ortalaması.
  • recall_score_binary, belirli bir sınıfı sınıf olarak işerek ve diğer tüm true sınıfları sınıf olarak birleştirerek geri çağırma false değeri.
  • Hesaplama
    weighted_accuracy Ağırlıklı doğruluk, her örneğin aynı sınıfa ait toplam örnek sayısına göre ağırlıklı olduğu doğruluktır.

    Amaç: 1'e yaklaştıkça daha iyi olur
    Aralık: [0, 1]
    Hesaplama

    İkili ve çok sınıflı sınıflandırma ölçümleri karşılaştırması

    Otomatik ML verilerin ikili olup olduğunu otomatik olarak algılar ve ayrıca bir sınıf belirterek veriler çok sınıflı olsa bile kullanıcıların ikili sınıflandırma ölçümlerini etkinleştirmelerini true sağlar. Çok sınıflı sınıflandırma ölçümleri, bir veri kümesi iki sınıfa veya ikiden fazla sınıfa sahip olursa olsun rapor edilir. İkili sınıflandırma ölçümleri yalnızca veriler ikili olduğunda rapor edilir veya kullanıcılar seçeneği etkinleştirir.

    Not

    bir ikili sınıflandırma görevi algılandığında, etiket kümesi bulmak için kullanırız ve sonraki numpy.unique etiket sınıf olarak true kullanılır. içinde bir sıralama yordamı olduğu numpy.unique için, sınıf true seçimi kararlı olacaktır.

    Çok sınıflı sınıflandırma ölçümlerinin çok sınıflı sınıflandırmaya yönelik olduğunu unutmayın. İkili veri kümesine uygulandığında, bu ölçümler beklediğiniz gibi herhangi bir sınıfı true sınıf olarak işlemz. Çok sınıflı ölçümler açıkça , veya ile son micro macro ekli olarak weighted hazırlar. Örnek olarak average_precision_score , , , ve örnekleri yer f1_score precision_score recall_score AUC arilmiştir. Örneğin, olarak geri çağırmayı hesaplamak yerine, çok sınıflı ortalama geri çağırma ( , veya ) ikili sınıflandırma veri kümesi her iki tp / (tp + fn) micro macro weighted sınıfa göre ortalamadır. Bu, sınıf ve sınıf için geri çağırmayı ayrı ayrı hesaplamaya ve ardından iki sınıfın true false ortalamasını almaya eşdeğerdir.

    Ayrıca, ikili sınıflandırmanın otomatik algılanması desteklese de, ikili sınıflandırma ölçümlerinin doğru sınıf için hesaplanmış olduğundan emin olmak için sınıfı her zaman el ile true belirtmeniz önerilir.

    Veri kümesi çok sınıflı olduğunda ikili sınıflandırma veri kümelerinin ölçümlerini etkinleştirmek için, kullanıcıların yalnızca sınıf olarak kabul edilen sınıfı belirtmesi gerekir ve bu true ölçümler hesaplanır.

    Karışıklık matrisi

    Karışıklık matrisleri, makine öğrenmesi modelinin sınıflandırma modellerine yönelik tahminlerinde sistematik hatalar yapmalarına yönelik bir görsel sağlar. "Karışıklık" sözcüğü, modelde "kafa karıştırıcı" veya yanlış etikete neden olan örneklerden gelir. Karışıklık matrisinde satırdaki ve sütundaki bir hücre, değerlendirme veri kümesinde sınıfa ait olan ve model tarafından sınıf olarak sınıflandırılan i j örnek sayısını C_i C_j içerir.

    Studio'da daha koyu bir hücre daha fazla sayıda örnek olduğunu gösterir. Açılan listeden Normalleştirilmiş görünüm'e seçmek, sınıf olarak tahmin edilen sınıfın yüzdelerini göstermek için her matris C_i satırı üzerinde normalleştirilecek. C_j Varsayılan Ham görünümün avantajı, gerçek sınıfların dağılımında dengesizlığın modelin dengesiz veri kümelerinde yaygın bir sorun olan temel sınıftan örnekleri yanlış sınıflandırmasına neden olup olmadığını görmektir.

    İyi bir modelin karışıklık matrisinde çoğu örnek çapraz olarak yer aacaktır.

    İyi bir model için karışıklık matrisi

    İyi bir model için karışıklık matrisi

    Hatalı model için karışıklık matrisi

    Hatalı model için karışıklık matrisi

    ROC eğrisi

    Alıcı çalışma özelliği (ROC) eğrisi, karar eşiği değiştiklerinin gerçek pozitif oranı (TPR) ile hatalı pozitif oranı (FPR) arasındaki ilişkiyi çiziyor. ROC eğrisi, modelleri yüksek sınıf dengesizliği olan veri kümelerinde eğitenler için daha az bilgilendirici olabilir çünkü çoğunluk sınıfı, sınıflardan gelen katkılardan ders çıkarabilir.

    Eğrinin (AUC) altındaki alan, doğru sınıflandırılmış örneklerin oranı olarak yorumlanır. Daha kesin olarak, AUC sınıflandırıcının rastgele seçilen pozitif örneği rastgele seçilen negatif örnekten daha yüksek bir dereceye sahip olma olasılığıdır. Eğrinin şekli, sınıflandırma eşiğinin veya karar sınırının bir işlevi olarak TPR ve FPR arasındaki ilişki için bir önsezi verir.

    Grafiğin sol üst köşesine yaklaşan bir eğri, mümkün olan en iyi model olan %100 TPR ve %0 FPR'a yaklaşmaktadır. Rastgele bir model, sol alt köşeden sağ üst köşeye doğru çizgi üzerinde bir ROC y = x eğrisi oluşturur. Rastgele modelden daha kötü bir model, çizginin altına inen bir ROC eğrisi y = x olabilir.

    İpucu

    Sınıflandırma denemeleri için otomatikleştirilmiş ML üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını oluşturmak için kullanılabilir. Grafiğin sağ üst bilgisinde yer alan göstergedeki sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçişebilirsiniz.

    İyi bir model için ROC eğrisi

    İyi bir model için ROC eğrisi

    Hatalı model için ROC eğrisi

    Hatalı model için ROC eğrisi

    Duyarlık geri çağırma eğrisi

    Duyarlık geri çağırma eğrisi, karar eşiği değişti olarak duyarlık ve geri çağırma arasındaki ilişkiyi çiziyor. Hatırlayarak modelin tüm pozitif örnekleri ve duyarlıkları algılama becerisi, modelin negatif örnekleri pozitif olarak etiketlemesini önleme becerisidir. Bazı iş sorunları, hatalı negatiflerden ve hatalı pozitiflerden kaçınmanın göreli önemine bağlı olarak daha yüksek geri çağırma ve biraz daha yüksek duyarlık gerektirir.

    İpucu

    Sınıflandırma denemeleri için otomatikleştirilmiş ML üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını oluşturmak için kullanılabilir. Grafiğin sağ üst bilgisinde yer alan göstergedeki sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçişebilirsiniz.

    İyi bir model için duyarlık geri çağırma eğrisi

    İyi bir model için duyarlık geri çağırma eğrisi

    Hatalı model için duyarlık geri çağırma eğrisi

    Hatalı model için duyarlık geri çağırma eğrisi

    Kümülatif kazançlar eğrisi

    Kümülatif kazanç eğrisi, örnekleri tahmin edilen olasılık sırasına göre değerlendiren örneklerin yüzde değeri olarak doğru şekilde sınıflandırılan pozitif örneklerin yüzdesini çiziyor.

    Kazanç hesaplamak için öncelikle tüm örnekleri model tarafından tahmin edilen en yüksekten en düşük olasılık düzeyine doğru sırala. Ardından en x% yüksek güven tahminlerini alır. Algılanan pozitif örnek sayısını, elde etmek x% için toplam pozitif örnek sayısına bölün. Kümülatif kazanç, pozitif sınıfa ait olma olasılığı en yüksek olan verilerin bir yüzdeyi göz önünde bulundurarak tespit edilen pozitif örneklerin yüzdedir.

    Mükemmel bir model, tüm pozitif örnekleri tüm negatif örneklerin üzerine sıralar ve iki düz segmentden oluşurken kümülatif kazanç eğrisi sağlar. Birincisi, pozitif sınıfa ait örneklerin kesri olan (sınıflar dengeli ise) olan eğime sahip 1 / x (0, 0) bir (x, 1) x 1 / num_classes çizgidir. İkincisi, ile yatay bir (x, 1) (1, 1) çizgidir. İlk segmentte tüm pozitif örnekler doğru sınıflandırılır ve kümülatif kazanç, 100% değerlendirilen örneklerin x% ilkinde olur.

    Temel rastgele model, yalnızca toplam pozitif örnekle ilgili olarak değerlendirilen örneklerin algılandığından sonraki bir y = x kümülatif x% kazanç x% eğrisi elde edilir. Dengeli bir veri kümesi için mükemmel bir model, bir mikro ortalama eğriye ve kümülatif kazanç %100'e ve ardından veri yüzde 100'e kadar yatay olana kadar eğime sahip makro ortalama çizgisine num_classes sahip olur.

    İpucu

    sınıflandırma denemeleri için, otomatik ML modelleri için üretilen her çizgi grafiği her sınıf için modeli veya tüm sınıfların ortalaması olarak değerlendirmek üzere kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketleri ' ne tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.

    İyi bir model için birikmeli kazançlar eğrisi

    İyi bir model için birikmeli kazançlar eğrisi

    Hatalı bir model için birikmeli kazançlar eğrisi

    Hatalı bir model için birikmeli kazançlar eğrisi

    Eğriyi yükselt

    Yükseltme eğrisi, bir modelin rastgele bir modelle karşılaştırıldığında kaç kez daha iyi performans gösterdiğini gösterir. Kaldırma, toplu kazancın rastgele bir modelin birikmeli kazancı (her zaman olması gerekir) olarak tanımlanır 1 .

    Bu göreli performans, sınıfların sayısını artırdıkça sınıflandırmanın zor olduğunu dikkate alır. (Rastgele bir model, iki sınıf içeren bir veri kümesiyle karşılaştırıldığında 10 sınıfı olan bir veri kümesinden örneklerin daha yüksek bir kısmını tahmin eder)

    Taban çizgisi kaldırma eğrisi, y = 1 model performansının rastgele bir modelle tutarlı olduğu yerdir. Genel olarak, iyi bir model için yükseltme eğrisi bu grafik üzerinde daha yüksek olacaktır ve x ekseninden uzaklaşarak model tahmine dayalı olarak rastgele tahmine göre çok daha iyi bir performans elde edildiğinde, bu grafikte daha fazla emin olur.

    İpucu

    sınıflandırma denemeleri için, otomatik ML modelleri için üretilen her çizgi grafiği her sınıf için modeli veya tüm sınıfların ortalaması olarak değerlendirmek üzere kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketleri ' ne tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.

    İyi bir model için eğriyi kaldırın

    İyi bir model için eğriyi kaldırın

    Hatalı bir model için eğriyi kaldırın

    Hatalı bir model için eğriyi kaldırın

    Ayar eğrisi

    Ayar eğrisi, her güven düzeyindeki pozitif örneklerin oranına göre tahmine dayalı olarak bir modelin güvenini çizer. İyi kalibre edilmiş bir model, %100 güvenirlik atayan tahminlerden %100 ' sini doğru olarak sınıflandırır 50 50, tahmine dayalı %20 ' nin %20 ' si için %20 güven atayan ve bu şekilde devam eder. Kusursuz kalibre edilmiş bir modelde, y = x modelin her sınıfa ait olma olasılığını mükemmel bir şekilde tahmin ettiği çizgiyi izleyen bir ayar eğrisi bulunur.

    Daha duyarlı olmayan bir model, olasılıkların sıfıra yakın olduğunu tahmin eder ve bir, genellikle her bir örneğin sınıfı hakkında daha belirsiz bir şekilde ve ayarlama eğrisi geriye doğru "S" e benzer. Bir alt sınır modeli, tahmin edilen sınıfa ortalama bir olasılık ve ilgili ayar eğrisi ise "S" ile benzer şekilde atanır. Ayar eğrisi, modelin doğru şekilde sınıflandırılacağı bir model göstermez, ancak bunun yerine tahmine dayalı olarak güvenilirliği doğru bir şekilde atayabilme özelliği. Model doğru bir şekilde düşük güvenirlik ve yüksek belirsizlik atarsa, hatalı bir model yine de iyi bir ayarlama eğrisine sahip olabilir.

    Not

    Ayar eğrisi, örnek sayısına duyarlıdır; bu nedenle küçük bir doğrulama kümesi, yorumlamak zor olabilecek gürültülü sonuçlar üretebilir. Bu, modelin iyi kalibre olmadığı anlamına gelmez.

    İyi bir model için ayarlama eğrisi

    İyi bir model için ayarlama eğrisi

    Hatalı model için ayarlama eğrisi

    Hatalı model için ayarlama eğrisi

    Gerileme/tahmin ölçümleri

    otomatik ML, bir gerileme veya tahmin denemesi olmasına bakılmaksızın oluşturulan her bir model için aynı performans ölçümlerini hesaplar. Bu ölçümler, farklı aralıklara sahip veriler üzerinde eğitilen modeller arasında karşılaştırmayı etkinleştirmek üzere normalleştirmeyi de olumsuz hale getirmek Daha fazla bilgi için bkz. ölçüm normalleştirmesi.

    Aşağıdaki tabloda, regresyon ve tahmin denemeleri için oluşturulan model performans ölçümleri özetlenmektedir. Sınıflandırma ölçümleri gibi, bu ölçümler de scıkıt öğrenme uygulamalarına dayalıdır. Uygun scikit öğreni belgeleri Hesaplama alanına göre bağlı olarak bağlanır.

    Metric Açıklama Hesaplama
    explained_variance Açıklanamayan Varyans, hedef değişkende varyasyon için model hesaplarının kapsamını ölçer. Bu, başlangıçtaki verilerin farkının, hataların farkının yüzdesidir. Hataların ortalaması 0 olduğunda, bu değer belirlemenin katsayısına eşittir (aşağıdaki r2_score bakın).

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: (-inf, 1]
    Hesaplama
    mean_absolute_error Mutlak ortalama hatası, hedef ve tahmin arasındaki mutlak fark değerinin beklenen değeridir.

    Amaç: 0 ' a yaklaşarak daha iyi
    Aralık: [0, INF)

    Türü
    mean_absolute_error
    normalized_mean_absolute_errormean_absolute_error, verilerin aralığına göre bölünür.
    Hesaplama
    mean_absolute_percentage_error Ortalama mutlak yüzde hatası (MAPE), tahmin edilen bir değer ve gerçek değer arasındaki ortalama farkın bir ölçümüdür.

    Amaç: 0 ' a yaklaşarak daha iyi
    Aralık: [0, INF)
    median_absolute_error Ortanca mutlak hatası, hedef ve tahmin arasındaki tüm mutlak farklılıkların ortancası. Bu kayıp, aykırı değerler için sağlam.

    Amaç: 0 ' a yaklaşarak daha iyi
    Aralık: [0, INF)

    Türü
    median_absolute_error
    normalized_median_absolute_error: median_absolute_error, verilerin aralığına göre bölünür.
    Hesaplama
    r2_score R2 (belirleme katsayısı), gözlemlenen verilerin toplam varyansı ile ilişkili ortalama kare IÇINDE (MSE) orantılı azaltı ölçer.

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: [-1, 1]

    Note: R2 genellikle aralığa sahiptir (-inf, 1]. MSE, gözlenen varyans değerinden daha büyük olabilir, bu nedenle R2 verilere ve model tahminlere bağlı olarak rastgele büyük negatif değerlere sahip olabilir. otomatik ML klipleri-1 ' de r2 puanlarını raporladı, bu nedenle r2 için-1 değeri büyük olasılıkla 1 ' den az olan gerçek r2 puanına neden olur. Negatif bir R2 puanı yorumlarken diğer ölçüm değerlerini ve verilerin özelliklerini göz önünde bulundurun.
    Hesaplama
    root_mean_squared_error Kök ortalama kare hatası (RMKEN), hedef ve tahmin arasındaki beklenen kare farkının kare köküdür. Taraflı olmayan bir Estimator için, RMSE standart sapmayla eşittir.

    Amaç: 0 ' a yaklaşarak daha iyi
    Aralık: [0, INF)

    Türü
    root_mean_squared_error
    normalized_root_mean_squared_error: root_mean_squared_error, verilerin aralığına göre bölünür.
    Hesaplama
    root_mean_squared_log_error Kök ortalama kare günlüğü hatası, beklenen kare içinde Logaritmik hatanın kare köküdür.

    Amaç: 0 ' a yaklaşarak daha iyi
    Aralık: [0, INF)

    Türü
    root_mean_squared_log_error
    normalized_root_mean_squared_log_error: root_mean_squared_log_error, verilerin aralığına göre bölünür.
    Hesaplama
    spearman_correlation Spearman bağıntısı, iki veri kümesi arasındaki ilişkinin monoton olmayan bir ölçüdür. Pearson bağıntı aksine, Spearman bağıntısı, her iki veri kümesinin de normalde dağıtıldığını varsaymaz. Diğer bağıntı katkatkatlara benzer şekilde, Spearman 0 ile 1 arasında farklılık gösterir. -1 veya 1 ' in correlations, tam monoton ilişkisini kapsıyor.

    Spearman, tahmin edilen veya gerçek değerlerin derece sırasını değiştirmeseler, öngörülen veya gerçek değerlerde yapılan değişikliklerin Spearman sonucunu değiştirmeyeceği anlamına gelen bir sıralama düzeni bağıntı ölçümdür.

    Amaç: 1 ' e yaklaşarak daha iyi
    Aralık: [-1, 1]
    Hesaplama

    Ölçüm normalleştirme

    Otomatikleştirilmiş ML regresyon ve tahmin ölçümlerini normalleştirerek farklı aralıklarla veriler üzerinde eğitilen modeller arasında karşılaştırma sağlar. Daha geniş bir aralıkta verilerle eğitilen bir model, hata normalleştirilmiş olmadığı sürece daha küçük bir aralıkta verilerle eğitilen modelden daha yüksek hataya sahip olur.

    Hata ölçümlerini normalleştirmenin standart bir yöntemi ML, hatanın veri aralığına bölünmesi için yaygın bir yaklaşım benimsemektedir:normalized_error = error / (y_max - y_min)

    Not

    Veri aralığı modelle birlikte kaydedlanmaz. Bir tutma test kümesinde aynı modelle çıkarım yaparsanız ve test verilerine göre değişebilirse ve normalleştirilmiş ölçümler modelin eğitim ve test kümelerinin performansını karşılaştırmak için doğrudan y_min y_max kullanılmayabilirsiniz. Karşılaştırmayı adil hale yapmak için y_min y_max eğitim kümenizin ve değerini geçesiniz.

    Zaman serisi verileri üzerinde tahmin modelini değerlendirirken otomatikleştirilmiş ML, her zaman serisinin hedef değerlerin farklı bir dağılımına sahip olduğundan zaman serisi kimliği (grain) başına normalleştirmenin olduğundan emin olmak için ek adımlar alır.

    Fazlalıklar

    Artıklar grafiği, regresyon ve tahmin denemeleri için oluşturulan tahmin hatalarının (artıklar) histogramıdır. Artıklar tüm y_predicted - y_true örneklerde olduğu gibi hesaplanır ve ardından model sapmasını göstermek için histogram olarak görüntülenir.

    Bu örnekte, her iki modelin de gerçek değerden daha düşük bir tahminde sapmaya sahip olduğunu unutmayın. Bu durum gerçek hedeflerin çarpık dağılımına sahip bir veri kümesi için yaygın değildir, ancak model performansının daha kötü olduğunu gösterir. İyi bir model, sıfırda zirve yapan ve uçlarda birkaç artık olan artık dağılımına sahip olur. Daha kötü bir model, sıfıra yakın daha az örnekle birlikte artık dağılımını dağıtacak.

    İyi bir model için artıklar grafiği

    İyi bir model için artıklar grafiği

    Kötü bir model için artıklar grafiği

    Kötü bir model için artıklar grafiği

    Tahmin edilen ile true karşılaştırması

    Regresyon ve tahmin denemesi için tahmin edilen ve gerçek grafik, hedef özellik (true/gerçek değerler) ile modelin tahminleri arasındaki ilişkiyi çizer. Gerçek değerler x ekseninde ve ortalama tahmin edilen değer her bir çöp kutusu için hata çubuklarıyla çizildi. Bu sayede modelin belirli değerleri tahmin etmek için sapmaya sahip olup olamay olduğunu görebilirsiniz. Çizgi, ortalama tahmini görüntüler ve gölgeli alan bu ortalamanın çevresindeki tahminlerin varyansını gösterir.

    Genellikle, en yaygın gerçek değer en doğru tahminlere en düşük varyansa sahip olur. Eğilim çizgisinin, birkaç gerçek değerin bulunduğu ideal çizgiden uzaklığı, model performansının y = x outliers üzerinde iyi bir ölçüsüdür. Gerçek veri dağılımını gerekçe olarak kullanmak için grafiğin altındaki histogramı kullanabilirsiniz. Dağılımın seyrek olduğu daha fazla veri örneği dahil olmak, seyrek verilerde model performansını geliştirebilir.

    Bu örnekte, daha iyi modelin ideal çizgiye daha yakın tahmin edilen gerçek bir çizgiye sahip olduğunu y = x unutmayın.

    İyi bir model için tahmin edilen ve gerçek grafik karşılaştırması

    İyi bir model için tahmin edilen ve gerçek grafik karşılaştırması

    Kötü model için tahmin edilen ve gerçek grafik karşılaştırması

    Kötü model için tahmin edilen ve gerçek grafik karşılaştırması

    Görüntü modelleri için ölçümler (önizleme)

    Otomatik ML, modelin performansını değerlendirmek için doğrulama veri kümesinden görüntüleri kullanır. Eğitimin nasıl ilerler olduğunu anlamak için modelin performansı dönem düzeyinde ölçülür. Bir veri kümesi nöral ağ üzerinden tam olarak bir kez ileri ve geri geçirilene bir dönem geçer.

    Görüntü sınıflandırma ölçümleri

    Değerlendirme için birincil ölçüm, ikili ve çok sınıflı sınıflandırma modellerinin doğruluğu ve çok etiketli sınıflandırma modelleri için IoU (Kesişim- Union ) ölçümüdir. Görüntü sınıflandırma modellerinin sınıflandırma ölçümleri, sınıflandırma ölçümleri bölümünde tanımlanan ölçümlerle aynıdır. Bir dönemle ilişkili kayıp değerleri de günlüğe kaydedilir ve bu da eğitimin nasıl ilerler ve modelin aşırı uygun mu yoksa uygun mu olduğunu belirlemeye yardımcı olabilir.

    Sınıflandırma modelinden gelen her tahmin, tahminin hangi güven düzeyinin olduğunu gösteren bir güven puanıyla ilişkilendirilmektedir. Çok etiketli görüntü sınıflandırma modelleri varsayılan olarak 0,5 puan eşiğiyle değerlendirilir ve bu da yalnızca bu güven düzeyine sahip tahminlerin ilişkili sınıf için pozitif tahmin olarak kabulılacağı anlamına gelir. Çok sınıflı sınıflandırma bir puan eşiği kullanmaz, bunun yerine en yüksek güven puanına sahip sınıf tahmin olarak kabul edilir.

    Görüntü sınıflandırması için dönem düzeyinde ölçümler

    Tablosal veri kümelerinin sınıflandırma ölçümlerinden farklı olarak, görüntü sınıflandırma modelleri tüm sınıflandırma ölçümlerini aşağıda gösterildiği gibi dönem düzeyinde günlüğe kaydedilir.

    Resim sınıflandırması için dönem düzeyinde grafikler

    Görüntü sınıflandırması için özet ölçümleri

    Görüntü sınıflandırma modeli, dönem düzeyinde günlüğe kaydedilen skaler ölçümlerin yanı sıra karışıklık matrisi, ROC eğrisi, duyarlık geri çağırma eğrisi ve sınıflandırma raporu gibi sınıflandırma grafiklerini de en yüksek birincil ölçüm (doğruluk) puanına sahip olan en iyi dönemden günlüğe kaydedmektedir.

    Sınıflandırma raporu duyarlılık, geri çağırma, f1-score, destek, auc ve average_precision gibi ölçümler için aşağıda gösterildiği gibi mikro, makro ve ağırlıklı olmak üzere çeşitli ortalama düzeyiyle sınıf düzeyinde değerler sağlar. Sınıflandırma ölçümleri bölümündeki ölçüm tanımlarına bakın.

    Görüntü sınıflandırması için sınıflandırma raporu

    Nesne algılama ve Örnek segmentasyon ölçümleri

    Bir görüntü nesne algılama veya örnek segmentasyon modelinden gelen her tahmin bir güven puanıyla ilişkilendirildi. Puan eşiğinden yüksek bir güven puanına sahip tahminler tahmin olarak çıkış olarak görüntülenir ve varsayılan değeri modele özgü olan ve hiperparametre ayarlama sayfasından ( box_score_threshold hiperparametre) başvurulabilirsiniz.

    Bir görüntü nesne algılama ve örnek segmentasyon modelinin ölçüm hesaplaması, temel gerçekle tahminler arasındaki çakışma alanı ile gerçekliğin ve tahminlerin bir arada olduğu alana bölünerek hesaplanan IoU (Kesişim- Union ) adlı bir ölçüm tarafından tanımlanan çakışma ölçümlerini temel almaktadır. Her tahminden hesaplanan IoU, pozitif tahmin olarak kabul etmek için bir tahminin kullanıcıya açıklamalı temel gerçekle ne kadar örtüşmesi gerektiğini belirleyen IoU eşiği adlı bir çakışma eşiğiyle karşılaştırıldı. Tahminden hesaplanan IoU çakışma eşiğinden küçükse tahmin ilişkili sınıf için pozitif tahmin olarak kabul edilir.

    Görüntü nesne algılama ve örnek segmentasyon modellerinin değerlendirilmesi için birincil ölçüm ortalama duyarlık (mAP) ölçümüdir. mAP, tüm sınıflarda ortalama duyarlığın (AP) ortalama değeridir. Otomatik ML nesne algılama modelleri, aşağıdaki iki popüler yöntem kullanılarak mAP'nin hesaplanmasına yardımcı olur.

    Pascal VOC ölçümleri:

    Pascal VOC mAP, nesne algılama/örnek segmentasyon modelleri için mAP hesaplamanın varsayılan yolutur. Pascal VOC stili mAP yöntemi, duyarlık geri çağırma eğrisi sürümünün altındaki alanı hesaplar. Hatırlayarak duyarlık olan ilk p(ri), tüm benzersiz geri çağırma değerleri için hesaplanır. p(ri) daha sonra herhangi bir geri çağırma r' >= ri elde edilen en yüksek duyarlık ile değiştirilir. Duyarlık değeri, eğrinin bu sürümünde monoton olarak azalan bir değerdir. Pascal VOC mAP ölçümü varsayılan olarak 0,5 IoU eşiğiyle değerlendirilir. Bu kavramın ayrıntılı açıklamasını bu blogda bulabilirsiniz.

    COCO ölçümleri:

    COCO değerlendirme yöntemi, AP hesaplaması için 101 nokta irdelenmiş yöntemi ve on IoU eşiğinin üzerinde ortalamayı kullanır. AP@[.5:.95], adım boyutu 0,05 olan IoU için ortalama AP'ye karşılık gelir. Otomatik ML API ve AR (ortalama geri çağırma) dahil olmak üzere COCO yöntemi tarafından tanımlanan on iki ölçümün hepsini uygulama günlüklerinde çeşitli ölçeklerde günlüğe kaydederken ölçüm kullanıcı arabirimi yalnızca MAP'i 0,5 IoU eşiğinde gösterir.

    İpucu

    Görüntü nesne algılama modeli değerlendirmesi, hiperparametrenin hiperparametre ayarlama bölümünde açıklanan şekilde 'coco' olarak ayarlanmış olması durumuyla coco validation_metric_type ölçümlerini kullanabilir.

    Nesne algılama ve örnek segmentasyonu için dönem düzeyinde ölçümler

    MAP, duyarlık ve geri çağırma değerleri görüntü nesne algılama/örnek segmentasyon modelleri için dönem düzeyinde günlüğe kaydedilir. MAP, duyarlık ve geri çağırma ölçümleri de 'per_label_metrics' adıyla sınıf düzeyinde günlüğe kaydedilir. 'per_label_metrics' tablo olarak görüntü gerekir.

    Not

    Duyarlık, geri çağırma ve geri çağırma per_label_metrics dönem düzeyinde ölçümler', 'coco' yöntemi kullanılırken kullanılamaz.

    Nesne algılama için dönem düzeyinde grafikler

    Model açıklamaları ve özellik önemleri

    Model değerlendirme ölçümleri ve grafikleri bir modelin genel kalitesini ölçmek için iyi bir değerdir ancak sorumlu bir AI'yi uygulama sırasında tahminlerini yapmak için kullanılan veri kümesi özelliklerini incelemek çok önemlidir. Bu nedenle otomatikleştirilmiş ML veri kümesi özelliklerinin göreli katkılarını ölçmek ve rapor etmek için bir model açıklamaları panosu sağlar. Azure Machine Learning Studio'da açıklamalar panosunun nasıl görüntü Azure Machine Learning bakın.

    Kod ilk deneyimi için, Python SDK'sı ile yapılan otomatikleştirilmiş ML model Azure Machine Learning ayarlama konusuna bakın.

    Not

    Yorumlanabilirlik, en iyi model açıklaması, en iyi model ML grup olarak aşağıdaki algoritmaları öneren denemeleri tahmin etmek için otomatikleştirilmiş ve kullanılabilir değildir:

    • TCNForecaster
    • AutoArima
    • ExponentialSmoothing
    • Peygamber
    • Ortalama
    • Naive (Naive)
    • Mevsimsel Ortalama
    • Mevsimsel Naive

    Sonraki adımlar