A gépi tanulás alapelveinek megismerése

Befejeződött

A gépi tanulás egy prediktív modellek létrehozásához használt programozási technika. A tipikus programozástól eltérően, amelyben a kód az eredmény előállításának konkrét lépéseinek leírására szolgál; A gépi tanulás egy algoritmus használatával iteratív módon vizsgálja meg az adatentitások jellemzői és az eredményül kapott modell által előrejelzett címke közötti kapcsolatot. A gépi tanulási algoritmusok valószínűségelméleten és statisztikákon alapulnak, és nagy mennyiségű adatra támaszkodnak a modell betanításához.

A gépi tanulási modell egy olyan függvény, amely egy megfigyelt entitás (jellemzői) funkcióit veszi figyelembe, és számítást végez rajtuk egy előrejelzett címke visszaadásához. Az x és az előrejelzett címke általában y néven hivatkozik a funkciókra, így a gépi tanulási modell valójában az f függvény a kifejezésbeny = f(x).

A függvény által a funkciókon végrehajtott konkrét műveletet a modell betanításához használt algoritmus határozza meg a címke értékének kiszámításához.

A gépi tanulás típusai

Általánosságban elmondható, hogy kétféle gépi tanulás létezik:

  • Felügyelt gépi tanulás, amelyben a modell ismert címkeértékeket tartalmazó adatokkal van betanítve (így egy algoritmus a meglévő adatokat használja az x és az y közötti kapcsolat létrehozásához, ami egy függvényt eredményez, amely x-hez alkalmazható az y kiszámításához).
  • Nem felügyelt gépi tanulás, amelyben a modell betanítása csak funkcióértékek (x) használatával történik, és hasonló jellemzőkkel rendelkező csoportok (vagy fürtök) megfigyelései.

Felügyelt gépi tanulás

Ez a modul a felügyelt gépi tanulásra összpontosít, mivel ez a leggyakoribb forgatókönyv. A felügyelt gépi tanulás széles körű definíciója alatt kétféle gépi tanulási algoritmus létezik:

  • Regressziós algoritmusok, amelyekben a címke numerikus érték, például ár, hőmérséklet, összeg vagy más mérhető érték. A regressziós algoritmusok olyan modelleket hoznak létre, amelyekben az f függvény a jellemzőkön (x) működik a címke (y) numerikus értékének kiszámításához.

    Egy regressziós algoritmus például egy olyan modell betanítására használható, amely előrejelzi egy park kioszkja által egy adott napon értékesített fagylaltok várható számát olyan jellemzők alapján, mint az év hónapja, a hét napja, a hőmérséklet, a páratartalom stb.

  • Olyan besorolási algoritmusok, amelyekben a címke különálló kategória (vagy osztály). A besorolási algoritmusok olyan modelleket hoznak létre, amelyekben az f függvény a jellemzőkön (x) működik az egyes lehetséges osztályok valószínűségi értékének kiszámításához, és a legnagyobb valószínűségű osztály címkéjét (y) adja vissza.

    Egy besorolási algoritmus például egy olyan modell betanítására használható, amely előrejelzi, hogy egy beteg cukorbetegségben szenved-e olyan jellemzők alapján, mint a vér inzulinszintje, súlya, magassága, kora stb. A bináris besorolásra példa az a besorolási modell, amely két lehetséges osztály (például igaz vagy hamis) egyikét azonosítja. A többosztályos besoroláshoz olyan algoritmusokat használnak, amelyek két osztálynál nagyobb valószínűséggel jeleznek előre (például különbséget a cukorbetegek, az 1-es típusú cukorbetegség vagy a 2-es típusú cukorbetegség között).

Nem felügyelt gépi tanulás

A nem felügyelt tanulás leggyakoribb formája a fürtözés, amelyben az adatesetek jellemzői a többdimenziós térben lévő pontok vektorának tekinthetők. A fürtözési algoritmus célja olyan fürtök meghatározása, amelyek csoportosítják a pontokat, hogy a hasonló tulajdonságokkal rendelkező esetek közel legyenek egymáshoz, de a fürtök egyértelműen elkülönülnek egymástól.

A fürtözés akkor hasznos, ha különböző adatkategóriákat kell definiálnia, de nincsenek előre definiált kategóriái, amelyekhez a meglévő adatmegfigyelések már hozzá vannak rendelve. Előfordulhat például, hogy az ügyfeleket a profiljuk hasonlóságai alapján szeretné szegmentálásra használni. A fürtözés a besorolási megoldások létrehozásának kezdeti lépéseként is használható – lényegében a fürtözés használatával határozza meg az adatok megfelelő osztályait.