Share via


ölçümlerle ML.NET modelinizi değerlendirme

ML.NET modeli değerlendirmek için kullanılan ölçümleri anlayın.

Değerlendirme ölçümleri, modelin gerçekleştirdiği makine öğrenmesi görevinin türüne özgüdür.

Örneğin sınıflandırma görevi için model, tahmin edilen kategorinin gerçek kategoriyle ne kadar iyi eşleşeceği ölçülerek değerlendirilir. Kümeleme için değerlendirme, kümelenmiş öğelerin birbirine ne kadar yakın olduğuna ve kümeler arasında ne kadar ayrım olduğuna bağlıdır.

İkili Sınıflandırma için değerlendirme ölçümleri

Ölçümler Açıklama Aramak
Doğru -luk Doğruluk , test veri kümesiyle doğru tahminlerin oranıdır. Doğru tahmin sayısının toplam giriş örneği sayısına oranıdır. Her sınıfa ait benzer sayıda örnek varsa iyi çalışır. 1.00'e ne kadar yakınsa o kadar iyi. Ancak tam olarak 1.00 bir sorunu gösterir (yaygın olarak: etiket/hedef sızıntısı, aşırı sığdırma veya eğitim verileriyle test etme). Test verileri dengesiz olduğunda (örneklerin çoğu sınıflardan birine ait olduğunda), veri kümesi küçüktür veya 0,00 veya 1,00'a yaklaşırsa, doğruluk bir sınıflandırıcının etkinliğini yakalamaz ve ek ölçümleri denetlemeniz gerekir.
AUC aucROC veya Eğrinin altındaki Alan, gerçek pozitif oranı ve hatalı pozitif oranı süpürerek oluşturulan eğrinin altındaki alanı ölçer. 1.00'e ne kadar yakınsa o kadar iyi. Modelin kabul edilebilir olması 0,50'den büyük olmalıdır. 0,50 veya daha az AUC'ye sahip bir model değersizdir.
AUCPR aucPR veya Precision-Recall eğrisinin altındaki Alan: Sınıflar dengesiz olduğunda tahminin başarılı olup olmadığına ilişkin yararlı ölçü (yüksek oranda çarpık veri kümeleri). 1.00'e ne kadar yakınsa o kadar iyi. 1,00'a yakın yüksek puanlar, sınıflandırıcının doğru sonuçlar döndürdüğünü (yüksek duyarlık) ve tüm pozitif sonuçların çoğunluğunu döndürdüğünü (yüksek geri çağırma) gösterir.
F1 puanı F1 puanı dengeli F puanı veya F ölçüsü olarak da bilinir. Duyarlık ve yakalamanın harmonik ortalaması. Duyarlık ve Geri Çekme arasında bir denge aramak istediğinizde F1 Puanı yararlı olur. 1.00'e ne kadar yakınsa o kadar iyi. F1 puanı en iyi değerine 1,00 ve en kötü puan 0,00'a ulaşır. Sınıflandırıcınızın ne kadar hassas olduğunu gösterir.

İkili sınıflandırma ölçümleri hakkında daha fazla bilgi için aşağıdaki makaleleri okuyun:

Çok Sınıflı Sınıflandırma ve metin sınıflandırması için değerlendirme ölçümleri

Ölçümler Açıklama Aramak
Mikro Doğruluk Mikro ortalama doğruluk , ortalama ölçümü hesaplamak için tüm sınıfların katkılarını toplar. Doğru tahmin edilen örneklerin bölümüdür. Mikro ortalama sınıf üyeliğini hesaba katmıyor. Temel olarak, her örnek sınıf çifti doğruluk ölçümüne eşit katkıda bulunur. 1.00'e ne kadar yakınsa o kadar iyi. Çok sınıflı bir sınıflandırma görevinde, sınıf dengesizliği olabileceğinden şüpheleniyorsanız makro doğruluğuna göre mikro doğruluk tercih edilir (başka bir deyişle, diğer sınıflara göre bir sınıfa ait çok daha fazla örneğiniz olabilir).
Makro Doğruluğu Makro ortalama doğruluğu , sınıf düzeyindeki ortalama doğruluk değeridir. Her sınıfın doğruluğu hesaplanır ve makro doğruluğu bu doğrulukların ortalamasıdır. Temel olarak, her sınıf doğruluk ölçümüne eşit katkıda bulunur. Azınlık sınıfları büyük sınıflar kadar eşit ağırlık verilir. Makro ortalaması ölçümü, veri kümesinin içerdiği sınıftan kaç örnek olursa olsun her sınıfa aynı ağırlığı verir. 1.00'e ne kadar yakınsa o kadar iyi. Ölçümü her sınıf için bağımsız olarak hesaplar ve ardından ortalamayı alır (bu nedenle tüm sınıfları eşit şekilde ele alır)
Günlük kaybı Logaritmik kayıp, tahmin girişinin 0,00 ile 1,00 arasında bir olasılık değeri olduğu sınıflandırma modelinin performansını ölçer. Tahmin edilen olasılık gerçek etiketten uzaklaştıkça günlük kaybı artar. 0,00'a ne kadar yakınsa o kadar iyi. Mükemmel bir modelde günlük kaybı 0,00 olur. Makine öğrenmesi modellerimizin amacı bu değeri en aza indirmektir.
Günlük Kaybı Azaltma Logaritmik kayıp azaltma , sınıflandırıcının rastgele tahmine göre avantajı olarak yorumlanabilir. -inf ve 1.00 aralıkları, burada 1.00 mükemmel tahminler ve 0,00 ortalama tahminleri gösterir. Örneğin, değer 0,20'ye eşitse, "doğru tahmin olasılığı rastgele tahminden %20 daha iyidir" olarak yorumlanabilir

Mikro doğruluk genellikle ML tahminlerinin iş gereksinimleriyle daha iyi uyum sağlar. Çok sınıflı sınıflandırma görevinin kalitesini seçmek için tek bir ölçüm seçmek istiyorsanız, bu genellikle mikro doğruluk olmalıdır.

Destek bileti sınıflandırma görevi için örnek: (gelen biletleri destek ekiplerine eşler)

  • Mikro doğruluk— Gelen bilet ne sıklıkta doğru takıma sınıflandırılır?
  • Makro doğruluğu: Ortalama bir ekip için, gelen bilet ekibi için ne sıklıkta doğru olur?

Bu örnekte makro doğruluğu küçük ekiplerin aşırı kilolu olduğunu; Yılda yalnızca 10 bilet alan küçük bir takım, yılda 10 bin bileti olan büyük bir takım kadar sayılır. Bu durumda mikro doğruluk, "bilet yönlendirme sürecimi otomatikleştirerek şirketin ne kadar zaman/para tasarrufu sağlayabileceğiniz" iş gereksinimiyle daha iyi bağıntılıdır.

Çok sınıflı sınıflandırma ölçümleri hakkında daha fazla bilgi için aşağıdaki makaleleri okuyun:

Regresyon ve Öneri için değerlendirme ölçümleri

Hem regresyon hem de öneri görevleri bir sayıyı tahmin eder. Regresyon durumunda, sayı giriş özelliklerinden etkilenen herhangi bir çıkış özelliği olabilir. Öneri için, sayı genellikle bir derecelendirme değeridir (örneğin 1 ile 5 arasında) veya bir evet/hayır önerisidir (sırasıyla 1 ve 0 ile temsil edilir).

Metrik Sistem Açıklama Aramak
R Karesi R karesi (R2)veya Belirleme Katsayısı, -inf ile 1,00 arasında bir değer olarak modelin tahmin gücünü temsil eder. 1.00, mükemmel bir uyum olduğu anlamına gelir ve fit rastgele zayıf olabilir, böylece puanlar negatif olabilir. 0,00 puanı, modelin etiket için beklenen değeri tahmin ediyor olduğu anlamına gelir. Negatif R2 değeri, sığdırma işleminin verilerin eğilimini izlemediğini ve modelin rastgele tahminden daha kötü performans gösterdiğini gösterir. Bu yalnızca doğrusal olmayan regresyon modelleriyle veya kısıtlanmış doğrusal regresyonla mümkündür. R2, gerçek test veri değerlerinin tahmin edilen değerlere ne kadar yakın olduğunu ölçer. 1.00'a ne kadar yakınsa, o kadar iyi kalite. Ancak, bazen düşük R kare değerleri (0,50 gibi) senaryonuz için tamamen normal veya yeterince iyi olabilir ve yüksek R kare değerleri her zaman iyi değildir ve şüpheli olabilir.
Mutlak kayıp Mutlak kayıp veya Ortalama mutlak hata (MAE), tahminlerin gerçek sonuçlara ne kadar yakın olduğunu ölçer. Model hatasının tahmin edilen etiket değeri ile doğru etiket değeri arasındaki mutlak uzaklık olduğu tüm model hatalarının ortalamasıdır. Bu tahmin hatası, test veri kümesinin her kaydı için hesaplanır. Son olarak, kaydedilen tüm mutlak hatalar için ortalama değer hesaplanır. 0,00'a ne kadar yakınsa o kadar iyi kalite. Ortalama mutlak hata, ölçülen veriyle aynı ölçeği kullanır (belirli bir aralığa normalleştirilmemiştir). Mutlak kayıp, Kare kaybı ve RMS kaybı yalnızca aynı veri kümesine veya benzer etiket değeri dağılımına sahip veri kümesine yönelik modeller arasında karşılaştırma yapmak için kullanılabilir.
Kayıp karesi Ortalama Kare Sapması (MSD) olarak da adlandırılan kareli kayıp veya Ortalama Kare Hatası (MSE), bir regresyon çizgisinin, noktalardan regresyon çizgisine (bu uzaklıklar E hatalarıdır) ve karesini alarak bir dizi test verisi değerine ne kadar yakın olduğunu bildirir. Kare daha büyük farklara daha fazla ağırlık verir. Her zaman negatif değildir ve 0,00'a yakın değerler daha iyidir. Verilerinize bağlı olarak, ortalama hata karesi için çok küçük bir değer almak mümkün olmayabilir.
RMS kaybı RMS kaybı veya Kök Ortalama Kare Hatası (RMSE) (Kök Ortalama Kare Sapması, RMSD olarak da adlandırılır), bir model tarafından tahmin edilen değerler ile modellenen ortamdan gözlemlenen değerler arasındaki farkı ölçer. RMS-loss, Squared-loss'un karekökünü oluşturur ve etiketle aynı birimlere sahiptir; mutlak kaybına benzer ancak daha büyük farklara daha fazla ağırlık verir. Kök ortalama kare hatası, deneysel sonuçları doğrulamak için genellikle climatoloji, tahmin ve regresyon analizinde kullanılır. Her zaman negatif değildir ve 0,00'a yakın değerler daha iyidir. RMSD, ölçek bağımlı olduğundan veri kümeleri arasında değil belirli bir veri kümesi için farklı modellerin tahmin hatalarını karşılaştırmak için bir doğruluk ölçüsüdür.

Regresyon ölçümleri hakkında daha fazla bilgi için aşağıdaki makaleleri okuyun:

Kümeleme için değerlendirme ölçümleri

Metrik Sistem Açıklama Aramak
Ortalama Uzaklık Veri noktaları ile atanan kümenin merkezi arasındaki uzaklık ortalaması. Ortalama uzaklık, veri noktalarının küme merkez merkezlerine yakınlık ölçüsüdür. Kümenin ne kadar 'sıkı' olduğunu gösteren bir ölçüdür. 0'a yakın değerler daha iyidir. Ortalama uzaklık ne kadar yakınsa, veriler o kadar kümelenmiş olur. Ancak, küme sayısı artırılırsa bu ölçümün azalacağını ve aşırı durumda (her ayrı veri noktasının kendi kümesi olduğu durumlarda) sıfıra eşit olacağını unutmayın.
Davies Bouldin Endeksi Küme içi uzaklıkların küme arasındaki uzaklıklara ortalama oranı. Küme ne kadar sıkı olursa ve kümeler ne kadar ayrı olursa, bu değer o kadar düşüktür. 0'a yakın değerler daha iyidir. Daha uzak ve daha az dağınık kümeler daha iyi bir puanla sonuçlanır.
Normalleştirilmiş Karşılıklı Bilgiler Kümeleme modelini eğitmek için kullanılan eğitim verileri de temel gerçeklik etiketleriyle (denetimli kümeleme) birlikte geldiğinde kullanılabilir. Normalleştirilmiş Karşılıklı Bilgi ölçümü, benzer veri noktalarının aynı kümeye atanıp atanmayacağını ve farklı veri noktalarının farklı kümelere atanıp atanmayacağını ölçer. Normalleştirilmiş karşılıklı bilgiler 0 ile 1 arasında bir değerdir. 1'e yakın değerler daha iyidir.

Derecelendirme için değerlendirme ölçümleri

Metrik Sistem Açıklama Aramak
İndirimli Kümülatif Kazançlar İndirimli kümülatif kazanç (DCG), derecelendirme kalitesinin bir ölçüsüdür. İki varsayımdan türetilir. Bir: Derecelendirme sırasında daha yüksek görünürken yüksek oranda ilgili öğeler daha kullanışlıdır. İki: Kullanışlılık ilgiyi izler, yani ilgi ne kadar yüksekse, bir öğe o kadar yararlı olur. İndirimli kümülatif kazanç, sıralama düzenindeki belirli bir pozisyon için hesaplanır. İlgi puanlamasını, derecelendirme dizininin logaritmasıyla ilgi konumuna kadar böler. $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ İlgi notları bir derecelendirme eğitim algoritmasına temel gerçeklik etiketleri olarak sağlanır. Derecelendirme tablosundaki her konum için bir DCG değeri sağlanır ve bu nedenle İndirimli Toplu Kazançlar adı verilir. Daha yüksek değerler daha iyidir.
Normalleştirilmiş İndirimli Kümülatif Kazançlar DCG'nin normalleştirilmesi, ölçümün farklı uzunluklarda derecelendirme listeleri için karşılaştırılmasını sağlar. 1'e yakın değerler daha iyidir.

Anomali Algılama için değerlendirme ölçümleri

Metrik Sistem Açıklama Aramak
ROC Eğrisinin Altındaki Alan Alıcı işleci eğrisinin altındaki alan, modelin anormal ve normal veri noktalarını ne kadar iyi ayıracaklarını ölçer. 1'e yakın değerler daha iyidir. Yalnızca 0,5'ten büyük değerler modelin etkinliğini gösterir. 0,5 veya altındaki değerler, modelin girişleri anormal ve normal kategorilere rastgele ayırmaktan daha iyi olmadığını gösterir.
Hatalı Pozitif Sayı'da algılama oranı Hatalı pozitif sayıdaki algılama oranı, doğru tanımlanmış anomali sayısının, her hatalı pozitif tarafından dizinlenmiş bir test kümesindeki toplam anomali sayısına oranıdır. Başka bir ifadeyle, her hatalı pozitif öğe için hatalı pozitif sayıdaki algılama oranı için bir değer vardır. 1'e yakın değerler daha iyidir. Hatalı pozitif sonuç yoksa, bu değer 1'dir.

Cümle benzerliği için değerlendirme ölçümleri

Metrik Sistem Açıklama Aramak
Pearson Bağıntısı Bağıntı katsayısı olarak da bilinen Pearson bağıntısı, iki veri kümesi arasındaki bağımlılığı veya ilişkiyi ölçer. 1'e yakın mutlak değerler en benzerdir. Bu ölçüm -1 ile 1 arasında değişir. Mutlak değer olan 1, veri kümelerinin aynı olduğunu gösterir. 0 değeri, iki veri kümesi arasında ilişki olmadığını gösterir.