A ML.NET modell kiértékelése metrikákkal

Cikk
01/30/2024

Az ML.NET modell kiértékeléséhez használt metrikák ismertetése.

A kiértékelési metrikák a modell által végrehajtott gépi tanulási feladat típusára vonatkoznak.

A besorolási feladat esetében például a modell kiértékelése annak mérésével történik, hogy egy előrejelzett kategória mennyire felel meg a tényleges kategóriának. A fürtözés esetében a kiértékelés azon alapul, hogy mennyire közel vannak egymáshoz a fürtözött elemek, és hogy mekkora az elkülönítés a fürtök között.

Kiértékelési metrikák bináris besoroláshoz

Mérőszámok	Leírás	Keresni
Pontosság	A pontosság a tesztadatkészlettel rendelkező helyes előrejelzések aránya. Ez a helyes előrejelzések számának és a bemeneti minták teljes számának aránya. Jól működik, ha az egyes osztályokhoz hasonló számú minta tartozik.	Minél közelebb van az 1,00-hoz, annál jobb. De pontosan az 1.00 hibát jelez (gyakran: címke/célszivárgás, túlillesztés vagy tesztelés betanítási adatokkal). Ha a tesztadatok kiegyensúlyozatlanok (ahol a példányok többsége az egyik osztályhoz tartozik), az adathalmaz kicsi, vagy a pontszámok megközelítése 0,00 vagy 1,00, akkor a pontosság nem igazán rögzíti az osztályozó hatékonyságát, és további metrikákat kell ellenőriznie.
AUC	az aucROC vagy a görbe alatti terület a görbe alatti területet a valódi pozitív ráta és a hamis pozitív arány söprésével méri.	Minél közelebb van az 1,00-hoz, annál jobb. A modell elfogadhatóságához 0,50-nél nagyobbnak kell lennie. Egy 0,50-nél kisebb AUC-val rendelkező modell értéktelen.
AUCPR	aucPR vagy Area under the curve of a Precision-Recall curve: Hasznos mértéke sikeres előrejelzés, ha az osztályok kiegyensúlyozatlanok (erősen ferde adathalmazok).	Minél közelebb van az 1,00-hoz, annál jobb. Az 1,00-hoz közeli magas pontszámok azt mutatják, hogy az osztályozó pontos eredményeket (nagy pontosságot) ad vissza, és az összes pozitív eredmény többségét visszaadja (magas visszahívás).
F1-pontszám	F1 pontszám , más néven kiegyensúlyozott F-pontszám vagy F-mérték. Ez a pontosság és a visszahívás harmonikus középértéke. Az F1 pontszám akkor hasznos, ha egyensúlyt szeretne keresni a pontosság és a visszahívás között.	Minél közelebb van az 1,00-hoz, annál jobb. Az F1 pontszám 1,00-kor éri el a legjobb értékét, a legrosszabb pedig 0,00-nál. Megmutatja, hogy milyen pontos az osztályozó.

A bináris besorolási metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:

Értékelési metrikák többosztályos besoroláshoz és szövegbesoroláshoz

Mérőszámok	Leírás	Keresni
Mikropontosság	A mikroátlagos pontosság összesíti az összes osztály hozzájárulását az átlagos metrika kiszámításához. Ez a helyesen előrejelzett példányok töredéke. A mikroátlag nem veszi figyelembe az osztálytagságokat. Alapvetően minden mintaosztálypár egyenlő mértékben járul hozzá a pontossági metrikához.	Minél közelebb van az 1,00-hoz, annál jobb. A többosztályos besorolási feladatokban a mikropontosság előnyösebb a makró pontossága helyett, ha azt gyanítja, hogy az osztály kiegyensúlyozatlansága lehetséges (vagyis egy osztályra több példa lehet, mint a többi osztályra).
Makró pontossága	A makró-átlag pontosság az osztály szintjén megadott átlagos pontosság. Az egyes osztályok pontossága kiszámítva, a makró pontossága pedig ezeknek a pontosságoknak az átlaga. Alapvetően minden osztály egyenlő mértékben járul hozzá a pontossági metrikához. A kisebbségi osztályok egyenlő súlyt kapnak, mint a nagyobb osztályok. A makróátlagos metrika ugyanazt a súlyt adja az egyes osztályoknak, függetlenül attól, hogy az adathalmaz hány példányt tartalmaz.	Minél közelebb van az 1,00-hoz, annál jobb. Az egyes osztályok metrikáit egymástól függetlenül számítja ki, majd az átlagot veszi fel (így az összes osztályt egyenlően kezeli)
Naplóvesztés	A logaritmikus veszteség egy besorolási modell teljesítményét méri, ahol az előrejelzési bemenet 0,00 és 1,00 közötti valószínűségi érték. A naplóveszteség növekszik, mivel az előrejelzett valószínűség eltér a tényleges címkétől.	Minél közelebb van a 0,00-hoz, annál jobb. A tökéletes modell naplóvesztesége 0,00. Gépi tanulási modelljeink célja ennek az értéknek a minimalizálása.
Naplóveszteség csökkentése	A logaritmikus veszteségcsökkentés úgy értelmezhető, mint az osztályozó előnye egy véletlenszerű előrejelzéssel szemben.	Az -inf és az 1,00 tartomány, ahol az 1,00 tökéletes előrejelzés, a 0,00 pedig az átlagos előrejelzéseket jelzi. Ha például az érték 0,20, akkor "a helyes előrejelzés valószínűsége 20%-kal jobb, mint a véletlenszerű becslés"

A mikropontosság általában jobban igazodik az ML-előrejelzések üzleti igényeihez. Ha egyetlen metrikát szeretne kiválasztani egy többosztályos besorolási feladat minőségének kiválasztásához, annak általában mikropontosnak kell lennie.

Példa támogatási jegybesorolási feladatra: (a bejövő jegyeket a támogatási csapatokhoz rendeli)

Mikropontosság – milyen gyakran kerül besorolásra egy bejövő jegy a megfelelő csapathoz?
Makró pontossága – egy átlagos csapat esetében milyen gyakran helyes egy bejövő jegy a csapat számára?

A makró pontossága túlsúlyos a kis csapatoknál ebben a példában; Egy kis csapat, amely évente csak 10 jegyet kap, ugyanannyit számít, mint egy nagy csapat, amely évente 10 ezer jegyet kap. A mikropontosság ebben az esetben jobban korrelál az üzleti igényekkel, "mennyi időt/pénzt takaríthat meg a vállalat a jegy-útválasztási folyamat automatizálásával".

A többosztályos besorolási metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:

Kiértékelési metrikák a regresszióhoz és a javaslathoz

A regressziós és a javaslati tevékenységek egyaránt előrejeleznek egy számot. Regresszió esetén a szám bármilyen kimeneti tulajdonság lehet, amelyet a bemeneti tulajdonságok befolyásolnak. Javaslat esetén a szám általában egy minősítési érték (például 1 és 5 között), vagy egy igen/nem ajánlás (1 és 0).

Metrika	Leírás	Keresni
R-négyzet	Az R-négyzet (R2) vagy a meghatározási együttható a modell prediktív erejét jelöli az -inf és 1,00 közötti értékként. Az 1.00 azt jelenti, hogy tökéletes az illesztés, és az illesztés tetszőlegesen gyenge lehet, így a pontszámok negatívak lehetnek. A 0,00-es pontszám azt jelenti, hogy a modell a címke várt értékét találja ki. A negatív R2 érték azt jelzi, hogy az illesztés nem követi az adatok trendjének alakulását, és a modell rosszabbul teljesít, mint a véletlenszerű becslés. Ez csak nem lineáris regressziós modellek vagy korlátozott lineáris regresszió esetén lehetséges. Az R2 azt méri, hogy a tényleges tesztadat-értékek milyen közel vannak az előrejelzett értékekhez.	Minél közelebb van az 1,00-hoz, annál jobb a minőség. Néha azonban az alacsony R-négyzetértékek (például a 0,50) teljesen normálisak vagy elég jók lehetnek a forgatókönyvhöz, és a magas R-négyzet értékek nem mindig jók és gyanúsak.
Abszolút veszteség	Az abszolút veszteség vagy az átlagos abszolút hiba (MAE) azt méri, hogy az előrejelzések milyen közel vannak a tényleges eredményekhez. Ez az összes modellhiba átlaga, ahol a modellhiba az előrejelzett címkeérték és a helyes címkeérték közötti abszolút távolság. Ez az előrejelzési hiba a tesztadatkészlet minden rekordjára ki lesz számítva. Végül a középérték kiszámítása az összes rögzített abszolút hiba esetében történik.	Minél közelebb van a 0,00-hoz, annál jobb a minőség. Az átlagos abszolút hiba ugyanazt a skálát használja, mint a mért adatok (nem normalizálódik adott tartományra). Az abszolút veszteség, a négyzetes veszteség és az RMS-veszteség csak az azonos adatkészlethez vagy hasonló címkeérték-eloszlású adatkészlethez tartozó modellek összehasonlítására használható.
Négyzetes veszteség	A négyzetes veszteség vagy közép négyzetes hiba (M Standard kiadás), más néven közép négyzetes eltérés (MSD) azt jelzi, hogy a regressziós vonal milyen közel van a tesztadatértékek halmazához azáltal, hogy a pontoktól a regressziós vonalig (ezek a távolságok az E hibák) és a zömökkentésig tartanak. A guggolás nagyobb súlyt ad a nagyobb különbségeknek.	Ez mindig nem negatív, és a 0,00-hoz közelebbi értékek jobbak. Az adatoktól függően előfordulhat, hogy lehetetlen nagyon kis értéket kapni a középérték négyzetes hibájához.
RMS-veszteség	Az RMS-veszteség vagy a középérték négyzetes gyökérhiba (RM Standard kiadás) (más néven gyökérközeli négyzeteltérés, RMSD) a modell által előrejelzett értékek és a modellezett környezetből megfigyelt értékek közötti különbséget méri. Az RMS-veszteség a négyzetes veszteség négyzetgyöke, és ugyanazokkal az egységekkel rendelkezik, mint a címke, hasonló az abszolút veszteséghez, bár nagyobb súlyt ad a nagyobb különbségeknek. A fő középérték négyzetes hibát gyakran használják a climatológiában, az előrejelzésben és a regressziós elemzésben a kísérleti eredmények ellenőrzéséhez.	Ez mindig nem negatív, és a 0,00-hoz közelebbi értékek jobbak. Az RMSD egy pontossági mérték, amely egy adott adathalmaz különböző modelljeinek előrejelzési hibáit hasonlítja össze, nem pedig az adathalmazok között, mivel skálázásfüggő.

A regressziós metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:

Értékelési metrikák fürtözéshez

Metrika	Leírás	Keresni
Átlagos távolság	Az adatpontok és a hozzárendelt fürt középpontja közötti távolság átlaga. Az átlagos távolság az adatpontok fürt centroidokhoz való közelségét méri. Ez annak a mértéke, hogy mennyire "szűk" a fürt.	A 0-hoz közelebbi értékek jobbak. Minél közelebb van az átlagos távolság nullához, annál több a csoportosított adat. Vegye figyelembe azonban, hogy ez a metrika csökken, ha a fürtök száma növekszik, és szélsőséges esetben (ahol minden különálló adatpont a saját fürtje) nulla lesz.
Davies Bouldin Index	A fürtön belüli távolságok és a fürtök közötti távolságok átlagos aránya. Minél szűkebb a fürt, és minél távolabb vannak a fürtök, annál alacsonyabb ez az érték.	A 0-hoz közelebbi értékek jobbak. A távolabbi és kevésbé szétszórt fürtök jobb pontszámot eredményeznek.
Normalizált kölcsönös információ	Akkor használható, ha a fürtözési modell betanításához használt betanítási adatok alapigaz címkékkel (azaz felügyelt fürtözéssel) is járnak. A Normalized Mutual Information metrika azt méri, hogy a hasonló adatpontok ugyanahhoz a fürthöz vannak-e rendelve, és hogy a különböző adatpontok különböző fürtökhöz vannak-e rendelve. A normalizált kölcsönös információ 0 és 1 közötti érték.	Az 1-hez közelebbi értékek jobbak.

Értékelési metrikák a rangsoroláshoz

Metrika	Leírás	Keresni
Diszkontált halmozott nyereség	A kedvezményes kumulatív nyereség (DCG) a rangsorolási minőség mértéke. Két feltételezésből származik. Egy: A kiemelten releváns elemek akkor hasznosak, ha magasabb sorrendben jelennek meg. Kettő: A hasznosság nyomon követi a relevanciát, vagyis minél nagyobb a relevancia, annál hasznosabb egy elem. A diszkontált összesített nyereséget a rangsorolási sorrend egy adott pozíciójára számítjuk ki. Összegzi a rangsorolási index logaritmusával felosztott relevancia szerinti osztályozást a kamatpozícióig. A számítás a $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}} használatával történik. A relevancia-besorolások a rangsorolási betanítási algoritmus számára alapigazság-címkékként vannak megadva. A rangsorolási táblázat minden pozíciójához egy DCG-értéket adunk meg, így a név diszkontált összegző nyereség.	A magasabb értékek jobbak.
Normalizált diszkontált összesített nyereség	A DCG normalizálása lehetővé teszi a metrika összehasonlítását a különböző hosszúságú rangsorolási listákhoz.	Az 1-hez közelebbi értékek jobbak.

Az anomáliadetektálási értékelési metrikák

Metrika	Leírás	Keresni
Terület a ROC-görbe alatt	A fogadó operátor görbe alatti terület azt méri, hogy a modell mennyire választja el a rendellenes és a szokásos adatpontokat.	Az 1-hez közelebbi értékek jobbak. Csak a 0,5-nél nagyobb értékek mutatják a modell hatékonyságát. A 0,5-ös vagy újabb értékek azt jelzik, hogy a modell nem jobb, mint a bemenetek véletlenszerű elosztása rendellenes és szokásos kategóriákba.
Észlelési sebesség hamis pozitív számon	A hamis pozitív értékek észlelési aránya a helyesen azonosított anomáliák számának és a tesztkészletben lévő anomáliák teljes számának aránya, amelyet az egyes hamis pozitív értékek indexelnek. Ez azt jelzi, hogy az észlelési sebesség értéke minden hamis pozitív elemnél hamis pozitív.	Az 1-hez közelebbi értékek jobbak. Ha nincsenek hamis pozitív értékek, akkor ez az érték 1.

Kiértékelési metrikák a mondatok hasonlóságához

Metrika	Leírás	Keresni
Pearson-korreláció	A Pearson-korreláció, más néven korrelációs együttható két adathalmaz függőségét vagy kapcsolatát méri.	Az 1-hez közelebbi abszolút értékek a leginkább hasonlóak. Ez a metrika -1 és 1 között mozog. Az 1 abszolút értéke azt jelenti, hogy az adathalmazok azonosak. A 0 érték azt jelenti, hogy nincs kapcsolat a két adatkészlet között.

Share via