A ML.NET modell kiértékelése metrikákkal
Az ML.NET modell kiértékeléséhez használt metrikák ismertetése.
A kiértékelési metrikák a modell által végrehajtott gépi tanulási feladat típusára vonatkoznak.
A besorolási feladat esetében például a modell kiértékelése annak mérésével történik, hogy egy előrejelzett kategória mennyire felel meg a tényleges kategóriának. A fürtözés esetében a kiértékelés azon alapul, hogy mennyire közel vannak egymáshoz a fürtözött elemek, és hogy mekkora az elkülönítés a fürtök között.
Kiértékelési metrikák bináris besoroláshoz
Mérőszámok | Leírás | Keresni |
---|---|---|
Pontosság | A pontosság a tesztadatkészlettel rendelkező helyes előrejelzések aránya. Ez a helyes előrejelzések számának és a bemeneti minták teljes számának aránya. Jól működik, ha az egyes osztályokhoz hasonló számú minta tartozik. | Minél közelebb van az 1,00-hoz, annál jobb. De pontosan az 1.00 hibát jelez (gyakran: címke/célszivárgás, túlillesztés vagy tesztelés betanítási adatokkal). Ha a tesztadatok kiegyensúlyozatlanok (ahol a példányok többsége az egyik osztályhoz tartozik), az adathalmaz kicsi, vagy a pontszámok megközelítése 0,00 vagy 1,00, akkor a pontosság nem igazán rögzíti az osztályozó hatékonyságát, és további metrikákat kell ellenőriznie. |
AUC | az aucROC vagy a görbe alatti terület a görbe alatti területet a valódi pozitív ráta és a hamis pozitív arány söprésével méri. | Minél közelebb van az 1,00-hoz, annál jobb. A modell elfogadhatóságához 0,50-nél nagyobbnak kell lennie. Egy 0,50-nél kisebb AUC-val rendelkező modell értéktelen. |
AUCPR | aucPR vagy Area under the curve of a Precision-Recall curve: Hasznos mértéke sikeres előrejelzés, ha az osztályok kiegyensúlyozatlanok (erősen ferde adathalmazok). | Minél közelebb van az 1,00-hoz, annál jobb. Az 1,00-hoz közeli magas pontszámok azt mutatják, hogy az osztályozó pontos eredményeket (nagy pontosságot) ad vissza, és az összes pozitív eredmény többségét visszaadja (magas visszahívás). |
F1-pontszám | F1 pontszám , más néven kiegyensúlyozott F-pontszám vagy F-mérték. Ez a pontosság és a visszahívás harmonikus középértéke. Az F1 pontszám akkor hasznos, ha egyensúlyt szeretne keresni a pontosság és a visszahívás között. | Minél közelebb van az 1,00-hoz, annál jobb. Az F1 pontszám 1,00-kor éri el a legjobb értékét, a legrosszabb pedig 0,00-nál. Megmutatja, hogy milyen pontos az osztályozó. |
A bináris besorolási metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:
- Pontosság, pontosság, visszahívás vagy F1?
- Bináris besorolási metrikák osztály
- A pontosság-visszahívás és a ROC-görbék közötti kapcsolat
Értékelési metrikák többosztályos besoroláshoz és szövegbesoroláshoz
Mérőszámok | Leírás | Keresni |
---|---|---|
Mikropontosság | A mikroátlagos pontosság összesíti az összes osztály hozzájárulását az átlagos metrika kiszámításához. Ez a helyesen előrejelzett példányok töredéke. A mikroátlag nem veszi figyelembe az osztálytagságokat. Alapvetően minden mintaosztálypár egyenlő mértékben járul hozzá a pontossági metrikához. | Minél közelebb van az 1,00-hoz, annál jobb. A többosztályos besorolási feladatokban a mikropontosság előnyösebb a makró pontossága helyett, ha azt gyanítja, hogy az osztály kiegyensúlyozatlansága lehetséges (vagyis egy osztályra több példa lehet, mint a többi osztályra). |
Makró pontossága | A makró-átlag pontosság az osztály szintjén megadott átlagos pontosság. Az egyes osztályok pontossága kiszámítva, a makró pontossága pedig ezeknek a pontosságoknak az átlaga. Alapvetően minden osztály egyenlő mértékben járul hozzá a pontossági metrikához. A kisebbségi osztályok egyenlő súlyt kapnak, mint a nagyobb osztályok. A makróátlagos metrika ugyanazt a súlyt adja az egyes osztályoknak, függetlenül attól, hogy az adathalmaz hány példányt tartalmaz. | Minél közelebb van az 1,00-hoz, annál jobb. Az egyes osztályok metrikáit egymástól függetlenül számítja ki, majd az átlagot veszi fel (így az összes osztályt egyenlően kezeli) |
Naplóvesztés | A logaritmikus veszteség egy besorolási modell teljesítményét méri, ahol az előrejelzési bemenet 0,00 és 1,00 közötti valószínűségi érték. A naplóveszteség növekszik, mivel az előrejelzett valószínűség eltér a tényleges címkétől. | Minél közelebb van a 0,00-hoz, annál jobb. A tökéletes modell naplóvesztesége 0,00. Gépi tanulási modelljeink célja ennek az értéknek a minimalizálása. |
Naplóveszteség csökkentése | A logaritmikus veszteségcsökkentés úgy értelmezhető, mint az osztályozó előnye egy véletlenszerű előrejelzéssel szemben. | Az -inf és az 1,00 tartomány, ahol az 1,00 tökéletes előrejelzés, a 0,00 pedig az átlagos előrejelzéseket jelzi. Ha például az érték 0,20, akkor "a helyes előrejelzés valószínűsége 20%-kal jobb, mint a véletlenszerű becslés" |
A mikropontosság általában jobban igazodik az ML-előrejelzések üzleti igényeihez. Ha egyetlen metrikát szeretne kiválasztani egy többosztályos besorolási feladat minőségének kiválasztásához, annak általában mikropontosnak kell lennie.
Példa támogatási jegybesorolási feladatra: (a bejövő jegyeket a támogatási csapatokhoz rendeli)
- Mikropontosság – milyen gyakran kerül besorolásra egy bejövő jegy a megfelelő csapathoz?
- Makró pontossága – egy átlagos csapat esetében milyen gyakran helyes egy bejövő jegy a csapat számára?
A makró pontossága túlsúlyos a kis csapatoknál ebben a példában; Egy kis csapat, amely évente csak 10 jegyet kap, ugyanannyit számít, mint egy nagy csapat, amely évente 10 ezer jegyet kap. A mikropontosság ebben az esetben jobban korrelál az üzleti igényekkel, "mennyi időt/pénzt takaríthat meg a vállalat a jegy-útválasztási folyamat automatizálásával".
A többosztályos besorolási metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:
- A pontosság, a visszahívás és az F-pontszám mikro- és makróátlaga
- Többosztályos besorolás kiegyensúlyozatlan adatkészlettel
Kiértékelési metrikák a regresszióhoz és a javaslathoz
A regressziós és a javaslati tevékenységek egyaránt előrejeleznek egy számot. Regresszió esetén a szám bármilyen kimeneti tulajdonság lehet, amelyet a bemeneti tulajdonságok befolyásolnak. Javaslat esetén a szám általában egy minősítési érték (például 1 és 5 között), vagy egy igen/nem ajánlás (1 és 0).
Metrika | Leírás | Keresni |
---|---|---|
R-négyzet | Az R-négyzet (R2) vagy a meghatározási együttható a modell prediktív erejét jelöli az -inf és 1,00 közötti értékként. Az 1.00 azt jelenti, hogy tökéletes az illesztés, és az illesztés tetszőlegesen gyenge lehet, így a pontszámok negatívak lehetnek. A 0,00-es pontszám azt jelenti, hogy a modell a címke várt értékét találja ki. A negatív R2 érték azt jelzi, hogy az illesztés nem követi az adatok trendjének alakulását, és a modell rosszabbul teljesít, mint a véletlenszerű becslés. Ez csak nem lineáris regressziós modellek vagy korlátozott lineáris regresszió esetén lehetséges. Az R2 azt méri, hogy a tényleges tesztadat-értékek milyen közel vannak az előrejelzett értékekhez. | Minél közelebb van az 1,00-hoz, annál jobb a minőség. Néha azonban az alacsony R-négyzetértékek (például a 0,50) teljesen normálisak vagy elég jók lehetnek a forgatókönyvhöz, és a magas R-négyzet értékek nem mindig jók és gyanúsak. |
Abszolút veszteség | Az abszolút veszteség vagy az átlagos abszolút hiba (MAE) azt méri, hogy az előrejelzések milyen közel vannak a tényleges eredményekhez. Ez az összes modellhiba átlaga, ahol a modellhiba az előrejelzett címkeérték és a helyes címkeérték közötti abszolút távolság. Ez az előrejelzési hiba a tesztadatkészlet minden rekordjára ki lesz számítva. Végül a középérték kiszámítása az összes rögzített abszolút hiba esetében történik. | Minél közelebb van a 0,00-hoz, annál jobb a minőség. Az átlagos abszolút hiba ugyanazt a skálát használja, mint a mért adatok (nem normalizálódik adott tartományra). Az abszolút veszteség, a négyzetes veszteség és az RMS-veszteség csak az azonos adatkészlethez vagy hasonló címkeérték-eloszlású adatkészlethez tartozó modellek összehasonlítására használható. |
Négyzetes veszteség | A négyzetes veszteség vagy közép négyzetes hiba (M Standard kiadás), más néven közép négyzetes eltérés (MSD) azt jelzi, hogy a regressziós vonal milyen közel van a tesztadatértékek halmazához azáltal, hogy a pontoktól a regressziós vonalig (ezek a távolságok az E hibák) és a zömökkentésig tartanak. A guggolás nagyobb súlyt ad a nagyobb különbségeknek. | Ez mindig nem negatív, és a 0,00-hoz közelebbi értékek jobbak. Az adatoktól függően előfordulhat, hogy lehetetlen nagyon kis értéket kapni a középérték négyzetes hibájához. |
RMS-veszteség | Az RMS-veszteség vagy a középérték négyzetes gyökérhiba (RM Standard kiadás) (más néven gyökérközeli négyzeteltérés, RMSD) a modell által előrejelzett értékek és a modellezett környezetből megfigyelt értékek közötti különbséget méri. Az RMS-veszteség a négyzetes veszteség négyzetgyöke, és ugyanazokkal az egységekkel rendelkezik, mint a címke, hasonló az abszolút veszteséghez, bár nagyobb súlyt ad a nagyobb különbségeknek. A fő középérték négyzetes hibát gyakran használják a climatológiában, az előrejelzésben és a regressziós elemzésben a kísérleti eredmények ellenőrzéséhez. | Ez mindig nem negatív, és a 0,00-hoz közelebbi értékek jobbak. Az RMSD egy pontossági mérték, amely egy adott adathalmaz különböző modelljeinek előrejelzési hibáit hasonlítja össze, nem pedig az adathalmazok között, mivel skálázásfüggő. |
A regressziós metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:
- Regresszióelemzés: Hogyan értelmezhetem az R-négyzetet, és értékelhetem az illesztés jóságát?
- R-négyzet értelmezése a regresszióelemzésben
- R-négyzetdefiníció
- A meghatározási együttható és a lineáris regressziós modellek feltételezései
- Közép négyzetes hibadefiníció
- Mit jelent a négyzetes hiba és a gyökér középértéke négyzetes hiba?
Értékelési metrikák fürtözéshez
Metrika | Leírás | Keresni |
---|---|---|
Átlagos távolság | Az adatpontok és a hozzárendelt fürt középpontja közötti távolság átlaga. Az átlagos távolság az adatpontok fürt centroidokhoz való közelségét méri. Ez annak a mértéke, hogy mennyire "szűk" a fürt. | A 0-hoz közelebbi értékek jobbak. Minél közelebb van az átlagos távolság nullához, annál több a csoportosított adat. Vegye figyelembe azonban, hogy ez a metrika csökken, ha a fürtök száma növekszik, és szélsőséges esetben (ahol minden különálló adatpont a saját fürtje) nulla lesz. |
Davies Bouldin Index | A fürtön belüli távolságok és a fürtök közötti távolságok átlagos aránya. Minél szűkebb a fürt, és minél távolabb vannak a fürtök, annál alacsonyabb ez az érték. | A 0-hoz közelebbi értékek jobbak. A távolabbi és kevésbé szétszórt fürtök jobb pontszámot eredményeznek. |
Normalizált kölcsönös információ | Akkor használható, ha a fürtözési modell betanításához használt betanítási adatok alapigaz címkékkel (azaz felügyelt fürtözéssel) is járnak. A Normalized Mutual Information metrika azt méri, hogy a hasonló adatpontok ugyanahhoz a fürthöz vannak-e rendelve, és hogy a különböző adatpontok különböző fürtökhöz vannak-e rendelve. A normalizált kölcsönös információ 0 és 1 közötti érték. | Az 1-hez közelebbi értékek jobbak. |
Értékelési metrikák a rangsoroláshoz
Metrika | Leírás | Keresni |
---|---|---|
Diszkontált halmozott nyereség | A kedvezményes kumulatív nyereség (DCG) a rangsorolási minőség mértéke. Két feltételezésből származik. Egy: A kiemelten releváns elemek akkor hasznosak, ha magasabb sorrendben jelennek meg. Kettő: A hasznosság nyomon követi a relevanciát, vagyis minél nagyobb a relevancia, annál hasznosabb egy elem. A diszkontált összesített nyereséget a rangsorolási sorrend egy adott pozíciójára számítjuk ki. Összegzi a rangsorolási index logaritmusával felosztott relevancia szerinti osztályozást a kamatpozícióig. A számítás a $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}} használatával történik. A relevancia-besorolások a rangsorolási betanítási algoritmus számára alapigazság-címkékként vannak megadva. A rangsorolási táblázat minden pozíciójához egy DCG-értéket adunk meg, így a név diszkontált összegző nyereség. | A magasabb értékek jobbak. |
Normalizált diszkontált összesített nyereség | A DCG normalizálása lehetővé teszi a metrika összehasonlítását a különböző hosszúságú rangsorolási listákhoz. | Az 1-hez közelebbi értékek jobbak. |
Az anomáliadetektálási értékelési metrikák
Metrika | Leírás | Keresni |
---|---|---|
Terület a ROC-görbe alatt | A fogadó operátor görbe alatti terület azt méri, hogy a modell mennyire választja el a rendellenes és a szokásos adatpontokat. | Az 1-hez közelebbi értékek jobbak. Csak a 0,5-nél nagyobb értékek mutatják a modell hatékonyságát. A 0,5-ös vagy újabb értékek azt jelzik, hogy a modell nem jobb, mint a bemenetek véletlenszerű elosztása rendellenes és szokásos kategóriákba. |
Észlelési sebesség hamis pozitív számon | A hamis pozitív értékek észlelési aránya a helyesen azonosított anomáliák számának és a tesztkészletben lévő anomáliák teljes számának aránya, amelyet az egyes hamis pozitív értékek indexelnek. Ez azt jelzi, hogy az észlelési sebesség értéke minden hamis pozitív elemnél hamis pozitív. | Az 1-hez közelebbi értékek jobbak. Ha nincsenek hamis pozitív értékek, akkor ez az érték 1. |
Kiértékelési metrikák a mondatok hasonlóságához
Metrika | Leírás | Keresni |
---|---|---|
Pearson-korreláció | A Pearson-korreláció, más néven korrelációs együttható két adathalmaz függőségét vagy kapcsolatát méri. | Az 1-hez közelebbi abszolút értékek a leginkább hasonlóak. Ez a metrika -1 és 1 között mozog. Az 1 abszolút értéke azt jelenti, hogy az adathalmazok azonosak. A 0 érték azt jelenti, hogy nincs kapcsolat a két adatkészlet között. |
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: