Bináris besorolás

Befejeződött

A besorolás, mint a regresszió, felügyelt gépi tanulási technika, ezért ugyanazt az iteratív folyamatot követi a betanítás, a validálás és a modellek kiértékelése során. Ahelyett, hogy numerikus értékeket, például regressziós modellt számítanak ki, a besorolási modellek betanításához használt algoritmusok kiszámítják az osztály-hozzárendelés valószínűségi értékeit, és a modell teljesítményének értékeléséhez használt kiértékelési metrikák összehasonlítják az előrejelzett osztályokat a tényleges osztályokkal.

A bináris besorolási algoritmusok olyan modellek betanítása, amelyek egy osztály két lehetséges címkéjének egyikét jelzik előre. Lényegében igaz vagy hamis előrejelzés. A legtöbb valós forgatókönyvben a modell betanítása és ellenőrzése során használt adatmegfigyelések több funkcióértékből (x) és egy 1 vagy 0 értékű y értékből állnak.

Példa – bináris besorolás

A bináris besorolás működésének megértéséhez tekintsünk meg egy egyszerűsített példát, amely egyetlen funkcióval (x) jelzi előre, hogy az y címke 1 vagy 0. Ebben a példában a páciens vércukorszintjének előrejelzésére használjuk, hogy a beteg cukorbeteg-e vagy sem. Az alábbi adatokkal tanítjuk be a modellt:

Diagram of a syringe. Diagram of a diabetic and non-diabetic person.
Vércukorszint (x) Diabéteszes? (y)
67 0
103 0
114 0
72 0
116 0
65 0

Bináris besorolási modell betanítása

A modell betanításához egy algoritmussal illesztjük be a betanítási adatokat egy olyan függvényhez, amely kiszámítja az osztálycímke igaz valószínűségét (vagyis azt, hogy a beteg cukorbetegségben szenved). A valószínűség 0,0 és 1,0 közötti értékként van megadva, így az összes lehetséges osztály teljes valószínűsége 1,0. Így például, ha a diabéteszes beteg valószínűsége 0,7, akkor 0,3-nak megfelelő valószínűsége van annak, hogy a beteg nem cukorbeteg.

Számos algoritmus használható bináris besoroláshoz, például logisztikai regresszióhoz, amely egy szigmoid (S-alakú) függvényt hoz létre 0,0 és 1,0 közötti értékekkel, például a következőhöz hasonlóan:

Diagram of a logistic function.

Feljegyzés

A neve ellenére a gépi tanulásban a logisztikai regressziót a besoroláshoz, nem a regresszióhoz használják. A fontos pont az általa előállított függvény logisztikai jellege, amely egy S alakú görbét ír le egy alsó és egy felső érték között (bináris besorolás esetén 0,0 és 1,0).

Az algoritmus által előállított függvény az y valószínűségét írja le (y=1) egy adott x értékre. Matematikailag így fejezheti ki a függvényt:

f(x) = P(y=1 | x)

A betanítási adatokban szereplő hat megfigyelés közül három esetében tudjuk, hogy az y határozottan igaz, így az y=1 megfigyelések valószínűsége 1,0, a másik három esetében pedig azt, hogy az y határozottan hamis, tehát az y=1 valószínűsége 0,0. Az S-alakú görbe a valószínűségeloszlást írja le, így az x érték ábrázolása a vonalon azonosítja az y valószínűségét 1.

A diagram egy vízszintes vonalat is tartalmaz, amely jelzi azt a küszöbértéket, amelynél a függvényen alapuló modell true (1) vagy false (0) értéket jelez előre. A küszöbérték az y (P(y) = 0,5) középpontján található. Az ezen a ponton vagy annál magasabb értékeknél a modell igaz értéket (1) jelez előre, míg a pont alatti értékek esetében hamis (0) értéket jelez előre. Például egy 90-es vércukorszinttel rendelkező betegnél a függvény 0,9-es valószínűségi értéket eredményezne. Mivel a 0,9 magasabb, mint a 0,5 küszöbérték, a modell igaz (1) előrejelzést adna - más szóval, a betegnek cukorbetegsége van.

Bináris besorolási modell kiértékelése

A regresszióhoz hasonlóan a bináris besorolási modellek betanításakor az adatok egy véletlenszerű részhalmazát is visszatartja, amellyel érvényesítheti a betanított modellt. Tegyük fel, hogy az alábbi adatokat visszatartottuk a cukorbetegség-osztályozó ellenőrzéséhez:

Vércukorszint (x) Diabéteszes? (y)
66 0
107 0
112 0
71 0
87 0
89 0

A korábban az x értékekre származtatott logisztikai függvény alkalmazása az alábbi ábrát eredményezi.

Diagram of predicted labels on a sigmoid curve.

Attól függően, hogy a függvény által kiszámított valószínűség a küszöbérték felett vagy alatt van-e, a modell minden megfigyeléshez 1 vagy 0 előrejelzett címkét hoz létre. Ezután összehasonlíthatjuk az előrejelzett osztályfeliratokat (ŷ) a tényleges osztálycímkékkel (y), ahogy az itt látható:

Vércukorszint (x) A cukorbetegség tényleges diagnosztizálása (y) Előrejelzett cukorbetegség diagnosztizálása (ŷ)
66 0 0
107 0 0
112 0 0
71 0 0
87 0 0
89 0 0

Bináris besorolás kiértékelési mérőszámai

A bináris besorolási modellek kiértékelési metrikáinak kiszámításának első lépése általában az egyes lehetséges osztálycímkék helyes és helytelen előrejelzéseinek számának mátrixának létrehozása:

Diagram of a confusion matrix.

Ezt a vizualizációt keveredési mátrixnak nevezzük, és megjeleníti az előrejelzési összegeket, ahol:

  • ŷ=0 és y=0: Igaz negatívok (TN)
  • ŷ=1 és y=0: Hamis pozitív értékek (FP)
  • ŷ=0 és y=1: Hamis negatívok (FN)
  • ŷ=1 és y=1: Igaz pozitívok (TP)

A keveredési mátrix elrendezése olyan, hogy a helyes (igaz) előrejelzések a bal felső és a jobb alsó sarok közötti átlós vonalban jelennek meg. A színintenzitást gyakran használják az egyes cellákban lévő előrejelzések számának jelzésére, ezért egy jól előrejelző modell gyors áttekintése egy mélyen árnyékolt átlós trendet jelenít meg.

Pontosság

A keveredési mátrixból kiszámítható legegyszerűbb metrika a pontosság – a modell által helyesen kapott előrejelzések aránya. A pontosság kiszámítása a következőképpen történik:

(TN+TP) ÷ (TN+FN+FP+TP)

Diabéteszes példánk esetében a számítás a következő:

(2+3) ÷ (2+1+0+3)

= 5 ÷ 6

= 0.83

Az ellenőrzési adatok alapján a cukorbetegség besorolási modellje az idő 83%-ában helyes előrejelzéseket hozott létre.

A pontosság kezdetben jó metrikának tűnhet egy modell kiértékeléséhez, de fontolja meg ezt. Tegyük fel, hogy a lakosság 11%-ának cukorbetegsége van. Létrehozhat egy modellt, amely mindig 0-t jelez előre, és 89%-os pontosságot érne el, annak ellenére, hogy nem tesz valódi kísérletet a betegek megkülönböztetésére a jellemzőik kiértékelésével. Amire igazán szükségünk van, az az, hogy jobban megértsük, hogyan teljesít a modell az 1 pozitív esetekre és 0 negatív esetekre történő előrejelzéséhez.

Visszavonás

A visszahívás egy olyan metrika, amely a modell által helyesen azonosított pozitív esetek arányát méri. Más szóval, összehasonlítva a cukorbetegek számával, hányat jósol a modell a cukorbetegségre?

A visszahívás képlete a következő:

TP ÷ (TP+FN)

Diabéteszes példánkhoz:

3 ÷ (3+1)

= 3 ÷ 4

= 0.75

Tehát a modellünk helyesen azonosította a cukorbetegek 75% -át cukorbetegségnek.

Pontosság

A pontosság hasonló a visszahíváshoz, de az előrejelzett pozitív esetek arányát méri, ahol a valódi címke valójában pozitív. Más szóval, milyen arányban a betegek előre a modell, hogy a cukorbetegség valójában cukorbetegség?

A pontosság képlete a következő:

TP ÷ (TP+FP)

Diabéteszes példánkhoz:

3 ÷ (3+0)

= 3 ÷ 3

= 1.0

Tehát a modellünk által előrejelzett betegek 100%-ának cukorbetegsége van.

F1-pontszám

Az F1-pontszám egy általános metrika, amely a visszahívást és a pontosságot kombinálja. Az F1-pontszám képlete:

(2 x Pontosság x visszahívás) ÷ (Pontosság + Visszahívás)

Diabéteszes példánkhoz:

(2 x 1,0 x 0,75) ÷ (1,0 + 0,75)

= 1,5 ÷ 1,75

= 0,86

A görbe alatti terület (AUC)

A visszahívás másik neve a valódi pozitív arány (TPR), és létezik egy egyenértékű metrika, az úgynevezett hamis pozitív ráta (FPR), amelyet FP÷(FP+TN) értékként számítunk ki. Már tudjuk, hogy a modell 0,5-ös küszöbérték használatakor a TPR értéke 0,75, és az FPR képletével kiszámíthatjuk a 0÷2 = 0 értéket.

Természetesen ha módosítanánk azt a küszöbértéket, amely felett a modell igaz (1) előrejelzést adna, az hatással lenne a pozitív és negatív előrejelzések számára, és ezért megváltoztatná a TPR- és FPR-metrikákat. Ezeket a metrikákat gyakran használják a modell kiértékelésére egy fogadott operátori jellemző (ROC) görbe ábrázolásával, amely összehasonlítja a TPR és az FPR értékét minden lehetséges küszöbérték 0,0 és 1,0 között:

Diagram of a ROC curve.

A tökéletes modell ROC-görbéje egyenesen felfelé halad a bal oldali TPR tengelyen, majd felül az FPR tengelyen. Mivel a görbe ábrázolási területe 1x1, a tökéletes görbe alatti terület 1,0 lenne (ami azt jelenti, hogy a modell az idő 100%-ában helyes). Ezzel szemben a bal alsó és a jobb felső sarok közötti átlós vonal azokat az eredményeket jelöli, amelyeket egy bináris címke véletlenszerű kitalálásával lehetne elérni; 0,5 görbe alatti területet hoz létre. Más szóval, két lehetséges osztálycímkével, ésszerűen számíthat arra, hogy az idő 50%-át helyesen kitalálja.

Cukorbetegség-modellünk esetében a fenti görbe jön létre, a görbe alatti terület (AUC) metrika pedig 0,875. Mivel az AUC magasabb, mint 0,5, azt a következtetést vonhatjuk le, hogy a modell jobban teljesít annak előrejelzésében, hogy egy beteg cukorbetegségben szenved-e, mint véletlenszerűen kitalálva.