Paraméterek kiválasztása az algoritmusok optimalizálásához a Machine Learning Studióban (klasszikus)

Cikk
11/29/2017

HATÓKÖR: Érvényes. A Machine Learning Studio (klasszikus) nem érvényes. Azure Machine Learning

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről.
További információ az Azure Machine Learningről

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a témakör azt ismerteti, hogyan választhatja ki a megfelelő hiperparaméter-készletet egy algoritmushoz a Machine Learning Studióban (klasszikus). A gépi tanulási algoritmusok többsége rendelkezik beállítandó paraméterekkel. A modellek betanításakor meg kell adnia ezeknek a paramétereknek az értékeit. A betanított modell hatékonysága a választott modellparamétereken múlik. Az optimális paraméterkészlet megkeresésének folyamatát modellkiválasztásnak nevezzük.

A modellválasztás többféleképpen is elvégezhető. A gépi tanulásban a keresztellenőrzés az egyik leggyakrabban használt modellkiválasztási módszer, és ez a Machine Learning Studio (klasszikus) alapértelmezett modellkiválasztási mechanizmusa. Mivel a Machine Learning Studio (klasszikus) támogatja az R-t és a Pythont is, az R vagy a Python használatával mindig implementálhatja saját modellkiválasztási mechanizmusait.

A legjobb paraméterkészlet megkeresésének folyamata négy lépésből áll:

Adja meg a paraméterterületet: Az algoritmus esetében először döntse el, hogy pontosan milyen paraméterértékeket szeretne figyelembe venni.
Adja meg a keresztérvényesítési beállításokat: Döntse el, hogyan válassza ki az adathalmaz keresztérvényesítési hajtásait.
A metrika meghatározása: Döntse el, hogy milyen metrikát használjon a paraméterek legjobb halmazának meghatározásához, például a pontosságot, a négyzetes hiba gyökerét, a pontosságot, a visszahívást vagy az f-pontszámot.
Betanítása, kiértékelése és összehasonlítása: A paraméterértékek minden egyes egyedi kombinációjánál a keresztérvényesítést a megadott hibametrika hajtja végre és alapul. A kiértékelés és összehasonlítás után kiválaszthatja a legjobban teljesítő modellt.

Az alábbi ábra bemutatja, hogyan érhető el ez a Machine Learning Studióban (klasszikus).

A legjobb paraméterkészlet megkeresése

A paramétertér definiálása

A paraméterkészletet a modell inicializálási lépésében adhatja meg. Az összes gépi tanulási algoritmus paraméterpaneljén két kiképző mód található: egyetlen paraméter és paramétertartomány. Válassza a Paramétertartomány módot. Paramétertartomány módban minden paraméterhez több értéket is megadhat. A szövegmezőbe vesszővel tagolt értékeket is beírhat.

Kétosztályos, kiemelt döntési fa, egyetlen paraméter

Másik lehetőségként megadhatja a rács maximális és minimális pontjait, valamint a Tartományszerkesztővel létrehozandó pontok teljes számát. Alapértelmezés szerint a paraméterértékek lineáris skálán jönnek létre. Ha azonban a naplóméretezés be van jelölve, az értékek a naplóskálán jönnek létre (azaz a szomszédos pontok aránya állandó a különbség helyett). Egész szám típusú paraméterek esetén kötőjel használatával definiálhat tartományt. Az "1-10" érték például azt jelenti, hogy a paraméterkészletet az 1 és 10 közötti egész számok alkotják (mindkettőt beleértve). A vegyes mód is támogatott. Az "1-10, 20, 50" paraméterkészlet például 1-10, 20 és 50 egész számokat tartalmaz.

Kétosztályos, kiemelt döntési fa, paramétertartomány

Keresztérvényesítési hajtások definiálása

A Partíció és a Minta modul használatával véletlenszerűen rendelhet hozzá hajtásokat az adatokhoz. A modul következő mintakonfigurációjában öt hajtást határozunk meg, és véletlenszerűen rendelünk hozzá egy hajtásszámot a mintapéldányokhoz.

Partíció és minta

A metrika meghatározása

A Modell hiperparamétereinek finomhangolása modul támogatást nyújt az adott algoritmus és adatkészlet legjobb paramétereinek empirikus kiválasztásához. A modell betanításával kapcsolatos egyéb információk mellett a modul Tulajdonságok panelje tartalmazza a legjobb paraméterkészlet meghatározására szolgáló metrikát. Két különböző legördülő listával rendelkezik a besorolási és regressziós algoritmusokhoz. Ha a vizsgált algoritmus besorolási algoritmus, a rendszer figyelmen kívül hagyja a regressziós metrikát, és fordítva. Ebben a konkrét példában a metrika a Pontosság.

Takarítási paraméterek

Betanítása, értékelése és összehasonlítása

Ugyanaz a Modell hiperparaméterek hangolása modul betanít minden modellt, amely megfelel a paraméterkészletnek, kiértékeli a különböző metrikákat, majd létrehozza a legjobban betanított modellt a választott metrika alapján. Ez a modul két kötelező bemenettel rendelkezik:

A nem betanított tanuló
Az adatkészlet

A modul egy opcionális adathalmaz-bemenettel is rendelkezik. Csatlakoztassa az adathalmazt a fold információval a kötelező adathalmaz-bemenethez. Ha az adathalmazhoz nincs megnyitható információ rendelve, a rendszer alapértelmezés szerint automatikusan végrehajt egy tízszeres keresztellenőrzést. Ha az átadás-hozzárendelés nem történik meg, és egy érvényesítési adatkészletet ad meg a választható adathalmaz-porton, akkor a rendszer egy betanító-tesztelési módot választ, és az első adatkészletet használja a modell betanítása minden paraméterkombinációhoz.

Kiemelt döntésifa-osztályozó

A modell kiértékelése az érvényesítési adathalmazon történik. A modul bal oldali kimeneti portja különböző metrikákat jelenít meg paraméterértékek függvényeként. A megfelelő kimeneti port biztosítja a betanított modellt, amely megfelel a legjobban teljesítő modellnek a választott metrika (ebben az esetben a pontosság ) szerint.

Érvényesítési adatkészlet

A pontos paramétereket a megfelelő kimeneti port megjelenítésével tekintheti meg. Ez a modell használható tesztkészletek pontozására vagy egy üzembe helyezett webszolgáltatásban a betanított modellként való mentés után.

Paraméterek kiválasztása az algoritmusok optimalizálásához a Machine Learning Studióban (klasszikus)

A paramétertér definiálása

Keresztérvényesítési hajtások definiálása

A metrika meghatározása

Betanítása, értékelése és összehasonlítása

További források