Algoritmusok kiválasztása Azure Machine Learning
Gyakori kérdés: "Melyik gépi tanulási algoritmust használjam?" A kiválasztott algoritmus elsősorban az adatelemzési forgatókönyv két különböző aspektusától függ:
Mit szeretne tenni az adataival? Konkrétan mi az az üzleti kérdés, amelyre választ szeretne kapni a korábbi adatokból való tanulással?
Mik az adatelemzési forgatókönyv követelményei? Pontosan mi a pontosság, a betanítási idő, a linearitás, a paraméterek száma és a megoldás által támogatott funkciók száma?

Üzleti forgatókönyvek és a Machine Learning Algoritmus Hasznos tanácsok
Az Azure Machine Learning Algorithm Cheat Sheet az első szempontban segít: Mit szeretne tenni az adataival? Az Machine Learning Algorithm Cheat Sheet (Machine Learning Algorithm Cheat Sheet) lapon keresse meg a kívánt feladatot, majd keresse meg a prediktív elemzési megoldáshoz tartozó Azure Machine Learning tervezői algoritmust.
Machine Learning tervező algoritmusok átfogó portfólióját biztosítja, például a többosztályos döntési erdőt, a javaslati rendszereket, a neurális hálózati regressziót, a többosztályos neurális hálózatot és a K-közép fürtözést. Mindegyik algoritmus más típusú gépi tanulási probléma megoldására lett kialakítva. A teljes listát a Machine Learning tervezői algoritmus és összetevő referenciája tartalmazza, valamint az egyes algoritmusok működésével és az algoritmus optimalizálásához szükséges paraméterek hangolásával kapcsolatos dokumentációt.
Megjegyzés
Töltse le a hasznos tanácsokat itt: Machine Learning Algorithm Cheat Sheet (11x17 in.)
A Azure Machine Learning Algorithm Cheat Sheet útmutatója mellett tartsa szem előtt a gépi tanulási algoritmusok megoldáshoz való kiválasztásának egyéb követelményeit is. Az alábbiakban további megfontolandó tényezőket is figyelembe kell venni, például a pontosságot, a betanítási időt, a linearitást, a paraméterek számát és a funkciók számát.
Gépi tanulási algoritmusok összehasonlítása
Egyes tanulási algoritmusok konkrét feltételezéseket feltételeznek az adatok struktúrájáról vagy a kívánt eredményekről. Ha talál olyant, amely megfelel az igényeinek, hasznosabb eredményeket, pontosabb előrejelzéseket vagy gyorsabb betanítási időt adhat.
Az alábbi táblázat összefoglalja az algoritmusok legfontosabb jellemzőit a besorolási, regressziós és fürtözési családokból:
| Algoritmus | Pontosság | Betanítási idő | Linearitás | Paraméterek | Megjegyzések |
|---|---|---|---|---|---|
| Besorolási család | |||||
| Kétosztályos logisztikai regresszió | Jó | Gyors | Yes | 4 | |
| Kétosztályos döntési erdő | Kiváló | Mérsékelt | No | 5 | Lassabb pontozási időket jelenít meg. Javasolja, hogy ne dolgozzon az egy-a-mindenhez többosztályos besorolással, mert lassabb pontozási időket okoz a futófelület zárolása a fa előrejelzéseinek összeadásában |
| Kétosztályos, kiemelt döntési fa | Kiváló | Mérsékelt | No | 6 | Nagy memóriaigény |
| Kétosztályos neurális hálózat | Jó | Mérsékelt | No | 8 | |
| Kétosztályos átlagos perceptron | Jó | Mérsékelt | Yes | 4 | |
| Kétosztályos támogatóvektor-gép | Jó | Gyors | Yes | 5 | Jó nagy funkciókészletekhez |
| Többosztályos logisztikai regresszió | Jó | Gyors | Yes | 4 | |
| Többosztályos döntési erdő | Kiváló | Mérsékelt | No | 5 | Lassabb pontozási időket jelenít meg |
| Multiclass boosted decision tree | Kiváló | Mérsékelt | No | 6 | A pontosság javítása a kisebb lefedettség kis kockázatával |
| Többosztályos neurális hálózat | Jó | Mérsékelt | No | 8 | |
| Egy-a-mindenhez többosztályos | - | - | - | - | A kiválasztott kétosztályos metódus tulajdonságainak megtekintése |
| Regressziós család | |||||
| Lineáris regresszió | Jó | Gyors | Yes | 4 | |
| Döntési erdőregresszió | Kiváló | Mérsékelt | No | 5 | |
| Döntési fa regressziója | Kiváló | Mérsékelt | No | 6 | Nagy memóriaigény |
| Neurális hálózati regresszió | Jó | Mérsékelt | No | 8 | |
| Fürtözési család | |||||
| K-közép fürtözés | Kiváló | Mérsékelt | Yes | 8 | Fürtözési algoritmus |
Adatelemzési forgatókönyv követelményei
Ha már tudja, mit szeretne tenni az adataival, meg kell határoznia a megoldás további követelményeit.
A következő követelményeknek megfelelő választásokat és esetleges kompromisszumokat hozhat:
- Pontosság
- Betanítási idő
- Linearitás
- Paraméterek száma
- Szolgáltatások száma
Pontosság
A gépi tanulás pontossága a modell hatékonyságát méri, mint a valós eredmények arányát az összes esethez. A Machine Learning tervezőben a Modell kiértékelése összetevő iparági szabvány szerinti értékelési metrikák készletét számítja ki. Ezzel az összetevővel mérheti egy betanított modell pontosságát.
A lehető legpontosabb válasz nem mindig szükséges. Néha a közelítés megfelelő attól függően, hogy mire szeretné használni. Ebben az esetben jelentősen csökkentheti a feldolgozási időt, ha a hozzávetőleges módszereket használja. A közelítő módszerek természetesen hajlamosak elkerülni a túlillesztést.
A Modell kiértékelése összetevő háromféleképpen használható:
- Pontszámok létrehozása a betanítási adatok alapján a modell kiértékeléséhez
- Pontszámok létrehozása a modellen, de összehasonlítja ezeket a pontszámokat egy fenntartott tesztelési csoportban lévő pontszámokkal
- Két különböző, de kapcsolódó modell pontszámainak összehasonlítása ugyanazon adatkészlet használatával
A gépi tanulási modellek pontosságának kiértékeléséhez használható metrikák és megközelítések teljes listájáért lásd a Modell kiértékelése összetevőt.
Betanítási idő
A felügyelt tanulásban a betanítás azt jelenti, hogy előzményadatok használatával olyan gépi tanulási modellt hoz létre, amely minimalizálja a hibákat. A modellek betanítása során szükséges percek vagy órák száma nagyban eltér az algoritmusok között. A betanítási idő gyakran szorosan kötődik a pontossághoz; az egyik általában a másikhoz tartozik.
Emellett egyes algoritmusok érzékenyebbek az adatpontok számára, mint mások. Egy adott algoritmust azért választhat, mert időkorlátja van, különösen akkor, ha az adathalmaz nagy.
A Machine Learning tervezőben a gépi tanulási modell létrehozása és használata általában három lépésből áll:
Konfiguráljon egy modellt egy adott algoritmustípus kiválasztásával, majd adja meg a paramétereit vagy hiperparamétereit.
Adjon meg egy címkézett és az algoritmussal kompatibilis adatokat tartalmazó adatkészletet. Csatlakozás az adatokat és a modellt is a Modell betanítása összetevőhöz.
A betanítás befejezése után a betanított modell és az egyik pontozási összetevő használatával előrejelzéseket készíthet az új adatokról.
Linearitás
A statisztika és a gépi tanulás linearitása azt jelenti, hogy lineáris kapcsolat van egy változó és egy állandó között az adathalmazban. A lineáris besorolási algoritmusok például feltételezik, hogy az osztályok egyenes vonallal (vagy magasabb dimenziós analógjával) elválaszthatók egymástól.
Számos gépi tanulási algoritmus használja a linearitást. A Azure Machine Learning tervezőben a következők szerepelnek:
A lineáris regressziós algoritmusok feltételezik, hogy az adattrendek egyenes vonalat követnek. Ez a feltételezés bizonyos problémák esetén nem rossz, másoknál azonban csökkenti a pontosságot. Hátrányaik ellenére a lineáris algoritmusok első stratégiaként népszerűek. Általában algoritmusosan egyszerűek és gyorsan taníthatók.

Nemlineáris osztályhatár: Ha lineáris besorolási algoritmusra támaszkodik, az alacsony pontosságot eredményezne.

Nemlineáris trendet használó adatok: Lineáris regressziós módszer használata a szükségesnél sokkal nagyobb hibákat eredményezne.
Paraméterek száma
A paraméterek azok a gombok, amelyeket az adatelemzők az algoritmusok beállításakor elfordulnak. Ezek olyan számok, amelyek befolyásolják az algoritmus viselkedését, például a hibatűrést vagy az iterációk számát, vagy az algoritmus viselkedésének különböző változatai közötti lehetőségeket. Az algoritmus betanítási ideje és pontossága néha érzékeny lehet arra, hogy csak a megfelelő beállításokat kapja meg. A nagy számú paraméterrel rendelkező algoritmusok általában a legtöbb próba- és hibalehetőséget igénylik a jó kombináció megtalálásához.
A modell hiperparamétereinek finomhangolása Machine Learning tervezőben is elérhető: Ennek az összetevőnek a célja a gépi tanulási modell optimális hiperparamétereinek meghatározása. Az összetevő több modellt készít és tesztel különböző beállítások kombinációjával. Összehasonlítja az összes modell metrikáit a beállítások kombinációinak lekéréséhez.
Bár ez nagyszerű módja annak, hogy biztosan átterjedjen a paraméterterületre, a modell betanításához szükséges idő exponenciálisan nő a paraméterek számával. A hátránya az, hogy sok paraméter általában azt jelzi, hogy egy algoritmus nagyobb rugalmasságot biztosít. Gyakran nagyon jó pontosságot érhet el, feltéve, hogy megtalálja a paraméterbeállítások megfelelő kombinációját.
Szolgáltatások száma
A gépi tanulásban a funkció az elemezni kívánt jelenség számszerűsíthető változója. Bizonyos adattípusok esetében a funkciók száma nagyon nagy lehet az adatpontok számához képest. Ez gyakran előfordul a genetika vagy szöveges adatok esetében.
Számos funkció ronthat néhány tanulási algoritmuson, így a betanítási idő elérhetetlenül hosszú lesz. A támogatóvektor-gépek különösen jól használhatók a sok jellemzővel rendelkező forgatókönyvekhez. Ezért számos alkalmazásban használták őket az információlekéréstől a szöveg- és képbesorolásig. A támogatóvektor-gépek besorolási és regressziós feladatokhoz is használhatók.
A jellemzők kiválasztása a statisztikai tesztek bemenetekre való alkalmazásának folyamatát jelenti egy megadott kimenet alapján. A cél annak meghatározása, hogy mely oszlopok prediktívabbak a kimenetben. A Machine Learning tervező szűrőalapú funkciókijelölési összetevője több funkciókijelölési algoritmus közül választhat. Az összetevő olyan korrelációs módszereket tartalmaz, mint a Pearson-korreláció és a khi-négyzetes értékek.
A Permutation Feature Importance összetevővel is kiszámíthatja az adathalmaz jellemző-fontossági pontszámainak készletét. Ezután ezeket a pontszámokat felhasználhatja a modellben használandó legjobb funkciók meghatározásához.
Következő lépések
- További információ Azure Machine Learning tervezőről
- A Azure Machine Learning tervezőben elérhető összes gépi tanulási algoritmus leírását lásd: Machine Learning tervezői algoritmus és összetevő-referencia
- A mély tanulás, a gépi tanulás és az AI közötti kapcsolat vizsgálatához lásd a Mély Tanulás és a Machine Learning című témakört.