Algoritmusok kiválasztása Azure Machine Learning

Gyakori kérdés: "Melyik gépi tanulási algoritmust használjam?" A kiválasztott algoritmus elsősorban az adatelemzési forgatókönyv két különböző aspektusától függ:

  • Mit szeretne tenni az adataival? Konkrétan mi az az üzleti kérdés, amelyre választ szeretne kapni a korábbi adatokból való tanulással?

  • Mik az adatelemzési forgatókönyv követelményei? Pontosan mi a pontosság, a betanítási idő, a linearitás, a paraméterek száma és a megoldás által támogatott funkciók száma?

Considerations for choosing algorithms: What do you want to know? What are the scenario requirements?

Üzleti forgatókönyvek és a Machine Learning Algoritmus Hasznos tanácsok

Az Azure Machine Learning Algorithm Cheat Sheet az első szempontban segít: Mit szeretne tenni az adataival? Az Machine Learning Algorithm Cheat Sheet (Machine Learning Algorithm Cheat Sheet) lapon keresse meg a kívánt feladatot, majd keresse meg a prediktív elemzési megoldáshoz tartozó Azure Machine Learning tervezői algoritmust.

Machine Learning tervező algoritmusok átfogó portfólióját biztosítja, például a többosztályos döntési erdőt, a javaslati rendszereket, a neurális hálózati regressziót, a többosztályos neurális hálózatot és a K-közép fürtözést. Mindegyik algoritmus más típusú gépi tanulási probléma megoldására lett kialakítva. A teljes listát a Machine Learning tervezői algoritmus és összetevő referenciája tartalmazza, valamint az egyes algoritmusok működésével és az algoritmus optimalizálásához szükséges paraméterek hangolásával kapcsolatos dokumentációt.

Megjegyzés

Töltse le a hasznos tanácsokat itt: Machine Learning Algorithm Cheat Sheet (11x17 in.)

A Azure Machine Learning Algorithm Cheat Sheet útmutatója mellett tartsa szem előtt a gépi tanulási algoritmusok megoldáshoz való kiválasztásának egyéb követelményeit is. Az alábbiakban további megfontolandó tényezőket is figyelembe kell venni, például a pontosságot, a betanítási időt, a linearitást, a paraméterek számát és a funkciók számát.

Gépi tanulási algoritmusok összehasonlítása

Egyes tanulási algoritmusok konkrét feltételezéseket feltételeznek az adatok struktúrájáról vagy a kívánt eredményekről. Ha talál olyant, amely megfelel az igényeinek, hasznosabb eredményeket, pontosabb előrejelzéseket vagy gyorsabb betanítási időt adhat.

Az alábbi táblázat összefoglalja az algoritmusok legfontosabb jellemzőit a besorolási, regressziós és fürtözési családokból:

Algoritmus Pontosság Betanítási idő Linearitás Paraméterek Megjegyzések
Besorolási család
Kétosztályos logisztikai regresszió Gyors Yes 4
Kétosztályos döntési erdő Kiváló Mérsékelt No 5 Lassabb pontozási időket jelenít meg. Javasolja, hogy ne dolgozzon az egy-a-mindenhez többosztályos besorolással, mert lassabb pontozási időket okoz a futófelület zárolása a fa előrejelzéseinek összeadásában
Kétosztályos, kiemelt döntési fa Kiváló Mérsékelt No 6 Nagy memóriaigény
Kétosztályos neurális hálózat Mérsékelt No 8
Kétosztályos átlagos perceptron Mérsékelt Yes 4
Kétosztályos támogatóvektor-gép Gyors Yes 5 Jó nagy funkciókészletekhez
Többosztályos logisztikai regresszió Gyors Yes 4
Többosztályos döntési erdő Kiváló Mérsékelt No 5 Lassabb pontozási időket jelenít meg
Multiclass boosted decision tree Kiváló Mérsékelt No 6 A pontosság javítása a kisebb lefedettség kis kockázatával
Többosztályos neurális hálózat Mérsékelt No 8
Egy-a-mindenhez többosztályos - - - - A kiválasztott kétosztályos metódus tulajdonságainak megtekintése
Regressziós család
Lineáris regresszió Gyors Yes 4
Döntési erdőregresszió Kiváló Mérsékelt No 5
Döntési fa regressziója Kiváló Mérsékelt No 6 Nagy memóriaigény
Neurális hálózati regresszió Mérsékelt No 8
Fürtözési család
K-közép fürtözés Kiváló Mérsékelt Yes 8 Fürtözési algoritmus

Adatelemzési forgatókönyv követelményei

Ha már tudja, mit szeretne tenni az adataival, meg kell határoznia a megoldás további követelményeit.

A következő követelményeknek megfelelő választásokat és esetleges kompromisszumokat hozhat:

  • Pontosság
  • Betanítási idő
  • Linearitás
  • Paraméterek száma
  • Szolgáltatások száma

Pontosság

A gépi tanulás pontossága a modell hatékonyságát méri, mint a valós eredmények arányát az összes esethez. A Machine Learning tervezőben a Modell kiértékelése összetevő iparági szabvány szerinti értékelési metrikák készletét számítja ki. Ezzel az összetevővel mérheti egy betanított modell pontosságát.

A lehető legpontosabb válasz nem mindig szükséges. Néha a közelítés megfelelő attól függően, hogy mire szeretné használni. Ebben az esetben jelentősen csökkentheti a feldolgozási időt, ha a hozzávetőleges módszereket használja. A közelítő módszerek természetesen hajlamosak elkerülni a túlillesztést.

A Modell kiértékelése összetevő háromféleképpen használható:

  • Pontszámok létrehozása a betanítási adatok alapján a modell kiértékeléséhez
  • Pontszámok létrehozása a modellen, de összehasonlítja ezeket a pontszámokat egy fenntartott tesztelési csoportban lévő pontszámokkal
  • Két különböző, de kapcsolódó modell pontszámainak összehasonlítása ugyanazon adatkészlet használatával

A gépi tanulási modellek pontosságának kiértékeléséhez használható metrikák és megközelítések teljes listájáért lásd a Modell kiértékelése összetevőt.

Betanítási idő

A felügyelt tanulásban a betanítás azt jelenti, hogy előzményadatok használatával olyan gépi tanulási modellt hoz létre, amely minimalizálja a hibákat. A modellek betanítása során szükséges percek vagy órák száma nagyban eltér az algoritmusok között. A betanítási idő gyakran szorosan kötődik a pontossághoz; az egyik általában a másikhoz tartozik.

Emellett egyes algoritmusok érzékenyebbek az adatpontok számára, mint mások. Egy adott algoritmust azért választhat, mert időkorlátja van, különösen akkor, ha az adathalmaz nagy.

A Machine Learning tervezőben a gépi tanulási modell létrehozása és használata általában három lépésből áll:

  1. Konfiguráljon egy modellt egy adott algoritmustípus kiválasztásával, majd adja meg a paramétereit vagy hiperparamétereit.

  2. Adjon meg egy címkézett és az algoritmussal kompatibilis adatokat tartalmazó adatkészletet. Csatlakozás az adatokat és a modellt is a Modell betanítása összetevőhöz.

  3. A betanítás befejezése után a betanított modell és az egyik pontozási összetevő használatával előrejelzéseket készíthet az új adatokról.

Linearitás

A statisztika és a gépi tanulás linearitása azt jelenti, hogy lineáris kapcsolat van egy változó és egy állandó között az adathalmazban. A lineáris besorolási algoritmusok például feltételezik, hogy az osztályok egyenes vonallal (vagy magasabb dimenziós analógjával) elválaszthatók egymástól.

Számos gépi tanulási algoritmus használja a linearitást. A Azure Machine Learning tervezőben a következők szerepelnek:

A lineáris regressziós algoritmusok feltételezik, hogy az adattrendek egyenes vonalat követnek. Ez a feltételezés bizonyos problémák esetén nem rossz, másoknál azonban csökkenti a pontosságot. Hátrányaik ellenére a lineáris algoritmusok első stratégiaként népszerűek. Általában algoritmusosan egyszerűek és gyorsan taníthatók.

Nonlinear class boundary

Nemlineáris osztályhatár: Ha lineáris besorolási algoritmusra támaszkodik, az alacsony pontosságot eredményezne.

Data with a nonlinear trend

Nemlineáris trendet használó adatok: Lineáris regressziós módszer használata a szükségesnél sokkal nagyobb hibákat eredményezne.

Paraméterek száma

A paraméterek azok a gombok, amelyeket az adatelemzők az algoritmusok beállításakor elfordulnak. Ezek olyan számok, amelyek befolyásolják az algoritmus viselkedését, például a hibatűrést vagy az iterációk számát, vagy az algoritmus viselkedésének különböző változatai közötti lehetőségeket. Az algoritmus betanítási ideje és pontossága néha érzékeny lehet arra, hogy csak a megfelelő beállításokat kapja meg. A nagy számú paraméterrel rendelkező algoritmusok általában a legtöbb próba- és hibalehetőséget igénylik a jó kombináció megtalálásához.

A modell hiperparamétereinek finomhangolása Machine Learning tervezőben is elérhető: Ennek az összetevőnek a célja a gépi tanulási modell optimális hiperparamétereinek meghatározása. Az összetevő több modellt készít és tesztel különböző beállítások kombinációjával. Összehasonlítja az összes modell metrikáit a beállítások kombinációinak lekéréséhez.

Bár ez nagyszerű módja annak, hogy biztosan átterjedjen a paraméterterületre, a modell betanításához szükséges idő exponenciálisan nő a paraméterek számával. A hátránya az, hogy sok paraméter általában azt jelzi, hogy egy algoritmus nagyobb rugalmasságot biztosít. Gyakran nagyon jó pontosságot érhet el, feltéve, hogy megtalálja a paraméterbeállítások megfelelő kombinációját.

Szolgáltatások száma

A gépi tanulásban a funkció az elemezni kívánt jelenség számszerűsíthető változója. Bizonyos adattípusok esetében a funkciók száma nagyon nagy lehet az adatpontok számához képest. Ez gyakran előfordul a genetika vagy szöveges adatok esetében.

Számos funkció ronthat néhány tanulási algoritmuson, így a betanítási idő elérhetetlenül hosszú lesz. A támogatóvektor-gépek különösen jól használhatók a sok jellemzővel rendelkező forgatókönyvekhez. Ezért számos alkalmazásban használták őket az információlekéréstől a szöveg- és képbesorolásig. A támogatóvektor-gépek besorolási és regressziós feladatokhoz is használhatók.

A jellemzők kiválasztása a statisztikai tesztek bemenetekre való alkalmazásának folyamatát jelenti egy megadott kimenet alapján. A cél annak meghatározása, hogy mely oszlopok prediktívabbak a kimenetben. A Machine Learning tervező szűrőalapú funkciókijelölési összetevője több funkciókijelölési algoritmus közül választhat. Az összetevő olyan korrelációs módszereket tartalmaz, mint a Pearson-korreláció és a khi-négyzetes értékek.

A Permutation Feature Importance összetevővel is kiszámíthatja az adathalmaz jellemző-fontossági pontszámainak készletét. Ezután ezeket a pontszámokat felhasználhatja a modellben használandó legjobb funkciók meghatározásához.

Következő lépések