Értékelési metrikák

Cikk
12/19/2023

Az adatkészlet két részre van felosztva : egy betanítási készletre és egy tesztelési készletre. A betanítási készlet a modell betanítására szolgál, míg a tesztelési készlet a modell tesztelésére szolgál a betanítás után a modell teljesítményének és kiértékelési teljesítményének kiszámításához. A tesztelési csoport nem kerül be a modellbe a betanítási folyamaton keresztül, így meggyőződhet arról, hogy a modell új adatokon van tesztelve.

A modell kiértékelése automatikusan aktiválódik a betanítás sikeres befejezése után. A kiértékelési folyamat a betanított modell használatával kezdődik a tesztkészletben lévő dokumentumok felhasználó által definiált osztályainak előrejelzésére, és összehasonlítja őket a megadott adatcímkékkel (amelyek az igazság alapkonfigurációját határozzák meg). A rendszer visszaadja az eredményeket, hogy áttekinthesse a modell teljesítményét. A kiértékeléshez az egyéni szövegbesorolás a következő metrikákat használja:

Pontosság: A modell pontosságát/pontosságát méri. Ez a helyesen azonosított pozitívok (valódi pozitívok) és az összes azonosított pozitív közötti arány. A pontossági metrika megmutatja, hogy az előrejelzett osztályok közül hány megfelelően van megjelölve.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Visszahívás: Méri a modell azon képességét, hogy előre jelezhesse a tényleges pozitív osztályokat. Ez az előrejelzett valódi pozitív értékek és a ténylegesen címkézett értékek aránya. A visszahívási metrika megmutatja, hogy az előrejelzett osztályok közül hány helyes.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 pontszám: Az F1 pontszám a pontosság és a visszahívás függvénye. Erre akkor van szükség, ha egyensúlyt keres a pontosság és a visszahívás között.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Megjegyzés:

A pontossági, visszahívási és F1-pontszámok kiszámítása minden osztályra külön történik (osztályszintű értékelés), valamint a modellre együttesen (modellszintű értékelés).

Modellszintű és osztályszintű kiértékelési metrikák

A pontosság, a visszahívás és a kiértékelés meghatározása az osztályszintű és a modellszintű értékelések esetében is megegyezik. Az igaz pozitív, hamis pozitív és hamis negatív értékek száma azonban eltér az alábbi példában látható módon.

Az alábbi szakaszok a következő példaadatkészletet használják:

Document	Tényleges osztályok	Előrejelzett osztályok
1	akció, vígjáték	Vígjáték
2	action	action
3	Romantika	Romantika
4	romantika, vígjáték	Romantika
5	Vígjáték	action

A műveleti osztály osztályszintű kiértékelése

Key	Gróf	Explanation
Valódi pozitív	1	A 2. dokumentum megfelelően lett besorolva műveletként.
Hamis pozitív	1	Az 5. dokumentumot tévesen műveletként sorolták be.
Téves negatív	1	Az 1. dokumentum nem lett műveletként besorolva, bár kellett volna.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Osztályszintű értékelés a vígjáték osztályhoz

Key	Gróf	Explanation
Valódi pozitív	1	Az 1. dokumentum helyesen vígjátékként lett besorolva.
False positive	0	Egyetlen dokumentumot sem soroltak be tévedésből vígjátéknak.
Hamis negatív	2	Az 5. és a 4. dokumentumot nem vígjátékként sorolták be, bár kellett volna.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 2) = 0.33

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.67) / (1 + 0.67) = 0.80

A kollektív modell modellszintű kiértékelése

Key	Gróf	Explanation
Valódi pozitív	4	Az 1., 2., 3. és 4. dokumentum helyes osztályokat kapott az előrejelzéskor.
Hamis pozitív	1	Az 5. dokumentum rossz osztályt kapott az előrejelzéskor.
Téves negatív	2	Az 1. és a 4. dokumentum nem kapott minden helyes osztályt az előrejelzéskor.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 4 / (4 + 1) = 0.8

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 4 / (4 + 2) = 0.67

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.8 * 0.67) / (0.8 + 0.67) = 0.73

Megjegyzés:

Az egycímkés besorolási modellek esetében a hamis negatívok és a hamis pozitívok száma mindig egyenlő. Az egyéni egycímkés besorolási modellek mindig egy osztályt jeleznek előre minden dokumentumhoz. Ha az előrejelzés nem helyes, az előrejelzett osztály FP-száma egyel nő, a tényleges osztály FN-jének száma pedig eggyel nő, a modell FP és FN teljes száma mindig egyenlő lesz. Ez a többcímke-besorolás esetében nem így van, mert a dokumentum egyik osztályának előrejelzése hamis negatívnak számít.

Osztályszintű értékelési metrikák értelmezése

Szóval mit jelent valójában, hogy nagy pontosságú vagy nagy visszahívás egy bizonyos osztály?

Visszavonás	Pontosság	Értelmezés
Magas	Magas	Ezt az osztályt tökéletesen kezeli a modell.
Alacsony	Magas	A modell nem mindig tudja előrejelezni ezt az osztályt, de ha igen, akkor nagy megbízhatósággal. Ennek az lehet az oka, hogy ez az osztály alulreprezentálva van az adathalmazban, ezért fontolja meg az adateloszlás kiegyensúlyozását.
Magas	Alacsony	A modell jól előrejelzi ezt az osztályt, azonban alacsony megbízhatósággal. Ennek az lehet az oka, hogy ez az osztály túl van jelölve az adathalmazban, ezért fontolja meg az adateloszlás kiegyensúlyozását.
Alacsony	Alacsony	Ezt az osztályt rosszul kezeli a modell, ahol általában nem előrejelzett, és ha igen, akkor nem nagy megbízhatósággal.

Az egyéni szövegbesorolási modellek várhatóan hamis negatív és hamis pozitív értékeket is tapasztalnak. Meg kell fontolnia, hogy ezek hogyan befolyásolják a teljes rendszert, és gondosan gondolja át azokat a forgatókönyveket, amelyekben a modell figyelmen kívül hagyja a helyes előrejelzéseket, és felismeri a helytelen előrejelzéseket. A forgatókönyvtől függően a pontosság vagy a visszahívás alkalmasabb lehet a modell teljesítményének kiértékelésére.

Ha például a forgatókönyv technikai támogatási jegyek feldolgozását is magában foglalja, a rossz osztály előrejelzése azt okozhatja, hogy a rendszer rossz részlegnek/csapatnak továbbítja azt. Ebben a példában érdemes megfontolni, hogy a rendszer érzékenyebb legyen a hamis pozitív értékekre, és a pontosság relevánsabb mérőszám a kiértékeléshez.

Egy másik példa, ha a forgatókönyv szerint az e-maileket "fontos" vagy "levélszemétként" kategorizálja, a helytelen előrejelzés miatt kihagyhat egy hasznos e-mailt, ha az "levélszemét" címkével van ellátva. Ha azonban fontosnak címkéz egy levélszemét e-mailt, figyelmen kívül hagyhatja. Ebben a példában érdemes megfontolni, hogy a rendszer érzékenyebb legyen a hamis negatív értékekre, és a visszahívás relevánsabb mérőszám lenne a kiértékeléshez.

Ha általános célú forgatókönyvekre szeretne optimalizálni, vagy ha a pontosság és a visszahívás is fontos, használhatja az F1 pontszámot. Az értékelési pontszámok a forgatókönyvtől és az elfogadási feltételektől függően szubjektívek. Nincs olyan abszolút metrika, amely minden forgatókönyvre használható.

Útmutató

A modell betanítása után útmutatást és javaslatot fog látni a modell továbbfejlesztéséhez. Javasoljuk, hogy az útmutató szakaszban szereplő összes pontot lefedő modell legyen.

A betanítási készlet elegendő adattal rendelkezik: Ha egy osztálytípusnak kevesebb mint 15 címkével ellátott példánya van a betanítási adatokban, az alacsonyabb pontossághoz vezethet, mivel a modell nem lett megfelelően betanítve ezekre az esetekre.
A tesztkészletben minden osztálytípus megtalálható: Ha a tesztelési adatok nem rendelkeznek osztálytípus címkével ellátott példányaival, a modell tesztelési teljesítménye kevésbé átfogóvá válhat a nem tesztelt forgatókönyvek miatt.
Az osztálytípusok a betanítási és tesztkészleteken belül kiegyensúlyozottak: Ha a mintavételezés torzításokat okoz egy osztálytípus gyakoriságának pontatlan ábrázolásához, az alacsonyabb pontossághoz vezethet, mivel a modell azt várja, hogy az osztálytípus túl gyakran vagy túl kevésen fordul elő.
Az osztálytípusok egyenletesen oszlanak el a betanítási és tesztkészletek között: Ha az osztálytípusok nem egyeznek a betanítási és a tesztkészletek között, az alacsonyabb tesztelési pontossághoz vezethet, mivel a modell betanítása eltér a tesztelés módjától.
A betanítási csoport osztálytípusai egyértelműen eltérőek: Ha a betanítási adatok több osztálytípushoz hasonlóak, az alacsonyabb pontossághoz vezethet, mivel az osztálytípusok gyakran helytelenül vannak besorolva egymáshoz.

Keveredési mátrix

Fontos

A keveredési mátrix nem érhető el többcímkés besorolású projektekhez. A keveredési mátrix egy modellteljesítmény-kiértékeléshez használt N x N mátrix, ahol az N az osztályok száma. A mátrix összehasonlítja a várt címkéket a modell által előrejelzett címkékkel. Ez holisztikus képet ad arról, hogy a modell milyen jól teljesít, és milyen típusú hibákat okoz.

A Keveredés mátrix segítségével azonosíthatja azokat az osztályokat, amelyek túl közel állnak egymáshoz, és gyakran tévednek (kétértelműség). Ebben az esetben fontolja meg ezeknek az osztályoknak az egyesítését. Ha ez nem lehetséges, fontolja meg több dokumentum címkézését mindkét osztálysal, hogy a modell különbséget tegyen közöttük.

Minden helyes előrejelzés a táblázat átlójában található, így könnyen vizuálisan megvizsgálható az előrejelzési hibák, mivel az átlón kívüli értékek jelölik őket.

A keveredési mátrixból kiszámíthatja az osztályszintű és a modellszintű kiértékelési metrikákat:

Az átlós értékek az egyes osztályok igaz pozitív értékei.
Az osztálysorok értékeinek összege (az átló kivételével) a modell hamis pozitív értéke.
Az osztályoszlopok értékeinek összege (az átló kivételével) a modell hamis negatívja .

Hasonlóképpen:

A modell valódi pozitív értéke az összes osztály valódi pozitívjainak összege.
A modell hamis pozitív értéke az összes osztály hamis pozitívjainak összege.
A modell hamis negatív értéke az összes osztály hamis negatívjainak összege.

Megosztás a következőn keresztül: