Modell-hiperparaméterek hangolása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Paraméteres átvizsgálás végrehajtása a modellen az optimális paraméterbeállítások meghatározásához

Kategória: Machine Learning / Betanítás

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a modell hiperparaméterek hangolása modul a Machine Learning Studióban (klasszikus) egy adott gépi tanulási modell optimális hiperparaméterének meghatározásához. A modul több modellt hoz létre és tesztel különböző beállításkombinációk használatával, és összehasonlítja az összes modell metrikákat a beállítások kombinációjának lekért érdekében.

A paraméter ésa hiperparaméter kifejezés zavaró lehet. A modell paramétereit a Tulajdonságok panelen állíthatja be. Ez a modul alapvetően egy paraméteres átvizsgálást végez a megadott paraméterbeállításokon, és megtanulja a hiperparaméterek optimális készletét, amelyek minden döntési fa, adatkészlet vagy regressziós módszer esetén eltérőek lehetnek. Az optimális konfiguráció megtalálásának folyamatát néha hangolásnak is nevezik.

A modul két módszert támogat a modell optimális beállításainak megkereséséhez:

  • Integrált betanítás és hangolás: Konfigurálhat egy használható paraméterkészletet, majd hagyja, hogy a modul több kombináción is iteráljon, és mérje a pontosságot, amíg meg nem találja a "legjobb" modellt. A legtöbb tanulói modul esetében kiválaszthatja, hogy mely paramétereket kell módosítani a betanítási folyamat során, és melyeknek kell rögzítettnek maradniuk.

    Attól függően, hogy mennyi ideig szeretné futtatni a hangolási folyamatot, dönthet úgy, hogy teljes körűen teszteli az összes kombinációt, vagy lerövidítheti a folyamatot paraméterkombinációk rácsának létrehozásával és a paraméterrács véletlenszerű részkészletének tesztelésével.

  • Keresztellenőrzés finomhangolással: Ezzel a beállítással felosztja az adatokat néhány összecsukott modellre, majd minden egyes összecsukásnál felépíti és teszteli a modelleket. Ez a módszer biztosítja a legjobb pontosságot, és segíthet az adatkészlet problémáinak keresésében; A betanítás azonban hosszabb időt vesz igénybe.

Mindkét metódus létrehoz egy betanított modellt, amely mentve lesz az újrahasználathoz.

  • Ha fürtözési modellt hoz létre, a Fürtözéses fürtszolgáltatás használatával automatikusan meghatározhatja a fürtök és egyéb paraméterek optimális számát.

  • A finomhangolás előtt alkalmazza a funkcióválasztást a legmagasabb információs értékű oszlopok vagy változók meghatározásához. További információ: Funkcióválasztás.

Modell-hiperparaméterek hangolásának konfigurálása

Egy adott gépi tanulási modell optimális hiperparaméterének elsajátítása általában jelentős kísérletezést igényel. Ez a modul a kezdeti finomhangolási folyamatot és keresztellenőrzést is támogatja a modell pontosságának teszteléséhez:

Modell betanítása paraméteres sikkent használatával

Ez a szakasz egy alapszintű paraméteres átvizsgálás elvégzését ismerteti, amely egy modellt a Modell hiperparaméterek hangolása modullal végez el .

  1. Adja hozzá a Modell hiperparaméterek hangolása modult a kísérlethez a Studióban (klasszikus).

  2. Csatlakozás (iLearner formátumú modell) a bal szélső bemenethez.

  3. Állítsa az Oktatói mód létrehozása paramétertartományt, és a Tartományszerkesztővel adja meg a paraméteres lekérdezésben használni kívánt értéktartományt.

    Szinte az összes besorolási és regressziós modul támogatja az integrált paraméteres átvizsgálást. Azok a tanulók, akik nem támogatják a paramétertartomány konfigurálását, csak az elérhető paraméterértékek tesztelhetőek.

    Manuálisan is beállíthatja egy vagy több paraméter értékét, majd átfésülheti a fennmaradó paramétereket. Ezzel időt takaríthat meg.

  4. Adja hozzá a betanításhoz használni kívánt adatkészletet, és csatlakoztassa a Modell hiperparaméterek hangolása középső bemenetéhez.

    Ha címkézett adatkészlettel rendelkezik, csatlakoztathatja azt a jobb szélső bemeneti porthoz (nem kötelező érvényesítési adatkészlet). Ez lehetővé teszi a pontosság mérését a betanítás és a finomhangolás során.

  5. A Modell hiperparaméterek finomhangolása panelen válassza ki a Paraméteres mód értékét. Ez a beállítás a paraméterek beállítását szabályozza.

    • Teljes rács: Ha ezt a lehetőséget választja, a modul a rendszer által előre meghatározott rácson hurkokat hoz létre a különböző kombinációk kipróbálására és a legjobb tanuló azonosítására. Ez a lehetőség olyan esetekben hasznos, amikor nem tudja, hogy melyek a legjobb paraméterbeállítások, és szeretné kipróbálni az értékek összes lehetséges kombinációját.

    Emellett csökkentheti a rács méretét, és futtathat egy véletlenszerű rácsesetet . A kutatások kimutatták, hogy ez a módszer ugyanazt az eredményt, de hatékonyabb számítást eredményez.

    • Véletlenszerű lekérdezés: Ha ezt a lehetőséget választja, a modul véletlenszerűen kiválasztja a paraméterértékeket egy rendszer által meghatározott tartományon. Meg kell adnia a modul által futtatott futtatások maximális számát. Ez a lehetőség olyan esetekben hasznos, amikor növelni szeretné a modell teljesítményét a választott metrikák használatával, de továbbra is számítási erőforrásokat szeretne megőrződni.
  6. A Címke oszlophoz indítsa el az oszlopválasztót egyetlen címkeoszlop kiválasztásához.

  7. Válasszon ki egyetlen metrikát a modellek rangsorolásakor .

    Paraméteres keresés futtatásakor a rendszer kiszámítja a modelltípus összes vonatkozó metrikát, és visszaadja a Keresési eredmények jelentésben . A regressziós és besorolási modellekhez külön metrikák használhatók.

    A kiválasztott metrika azonban meghatározza a modellek rangsorolásának a mikéntlétét. A pontozáshoz használt betanított modellként csak a legjobb modell lesz a kiválasztott metrika szerint rangsorolva.

  8. Véletlenszerű kezdőérték esetén írjon be egy számot a paraméteres lekérdezés inicializálásakor.

    Ha olyan modellt betanít, amely támogatja az integrált paraméteres mintavételt, beállíthatja a használni szükséges kezdőértékek tartományát, és a véletlenszerű halmazokat is iterálhatja. Ez hasznos lehet a kezdőmagok kiválasztásával bevezetett torzítások elkerüléséhez.

  9. Futtassa a kísérletet.

Hiperparaméterek finomhangolásának eredményei

A betanítás befejezésekor:

  • A legjobb modell pontossági metrikakészletének megtekintéséhez kattintson a jobb gombbal a modulra, válassza a Keresési eredmények, majd a Vizualizáció lehetőséget.

    A modelltípusra alkalmazható összes pontossági metrika kimenet, de a rangsoroláshoz kiválasztott metrika határozza meg, hogy melyik modell tekinthető "legjobbnak". A metrikák csak a rangsorolt modellhez jönnek létre.

  • A "legjobb" modellhez származtatott beállítások megtekintéséhez kattintson a jobb gombbal a modulra, válassza a Betanított legjobb modell lehetőséget, majd kattintson a Vizualizáció elemre. A jelentés paraméterbeállításokat és funkciósúlyokat tartalmaz a bemeneti oszlopokhoz.

  • Ha a modellt más kísérletek pontozására is használni tudja anélkül, hogy meg kell ismételnie a hangolási folyamatot, kattintson a jobb gombbal a modell kimenetére, és válassza a Mentés betanított modellként lehetőséget.

Keresztellenőrzés végrehajtása paraméteres ellenőrzéssel

Ez a szakasz azt ismerteti, hogyan kombinálható a paraméteres ellenőrzés és a keresztellenőrzés. Ez a folyamat hosszabb időt vesz igénybe, de megadhatja az összecsukott adatok számát, és a lehető legtöbb információt kaphatja meg az adatkészletről és a lehetséges modellekről.

  1. Adja hozzá a Partition (Partíció) és a Sample ( Minta) modult a kísérlethez, és kösse össze a betanítás adatait.

  2. Válassza a Hozzárendelés az összecsukáshoz lehetőséget, és adjon meg néhány összecsukott adatokat, amelyekre felosztja az adatokat. Ha nem ad meg számot, a rendszer alapértelmezés szerint 10-es összecsukásokat használ. A sorok véletlenszerűen vannak felcserélve ezekbe a delegáltakba.

  3. Egy oszlop mintavételezésének kiegyensúlyozása érdekében állítsa a Rétegzett felosztást TRUE (IGAZ) értékre, majd válassza ki a rétegoszlopot. Ha például kiegyensúlyozatlan adatkészlete van, érdemes lehet úgy elosztani az adatkészletet, hogy minden egyes adatáttára azonos számú kisebb esetet kap.

  4. Adja hozzá a kísérlethez a Modell hiperparaméterek hangolása modult.

  5. Csatlakozás kategória egyik gépi tanulási modulját a Modell hiperparaméterek hangolása bal oldali bemenetéhez.

  6. A tanuló Tulajdonságok panelén állítsa az Oktatói mód létrehozása paramétertartományt, és a Tartományszerkesztővel adja meg a paraméteres parancsban használni kívánt értéktartományt.

    Nem kell megadnia tartományt az összes értékhez. Egyes paraméterek értékét manuálisan is beállíthatja, majd átfésülheti a fennmaradó paramétereket. Ezzel időt takaríthat meg.

    Azon tanulók listáját, akik nem támogatják ezt a lehetőséget, tekintse meg a Műszaki megjegyzések szakaszt .

  7. Csatlakozás Partition (Partíció) és a Sample (Minta) kimenetét a Modell hiperparaméterek hangolása címkével jelölt Betanítás adatkészlet bemenetére.

  8. Szükség esetén egy érvényesítési adatkészletet is csatlakoztathat a Modell hiperparaméterek hangolása jobb szélső bemenetéhez. A keresztvalitkáláshoz csak egy betanítás adatkészletre van szükség.

  9. A Modell hiperparaméterek finomhangolása panelen adja meg, hogy véletlenszerű vagy rácsos sürgetni szeretne-e. A rácseset teljes körű, de időigényesebb. A véletlenszerű paraméteres keresés jó eredményeket kaphat, de nem vesz túl sok időt.

    Véletlenszerűen futtatott futtatások maximális száma: Ha véletlenszerű siklásznat választ, a paraméterértékek véletlenszerű kombinációjával megadhatja, hogy a modell hányszor legyen betanítva.

    Véletlenszerű rácson való futtatás maximális száma: Ez a beállítás a paraméterértékek véletlenszerű mintavételezése során történő iterációk számát is szabályozza, de az értékek nem jönnek létre véletlenszerűen a megadott tartományból; Ehelyett a rendszer létrehoz egy mátrixot a paraméterértékek összes lehetséges kombinációjából, és véletlenszerű mintavételezést használ a mátrix felett. Ez a módszer hatékonyabb, és kevésbé van kivetve a regionális túl- vagy aláásás-csökkentésnek.

    Tipp

    A lehetőségek részletes tárgyalását a Műszaki megjegyzések című szakaszban láthatja .

  10. Egyetlen feliratoszlop kiválasztása.

  11. Válasszon ki egyetlen metrikát a modell rangsorolására. Sok metrika van kiszámítva, ezért válassza ki a legfontosabbat az eredmények sorrendjének beállításhoz.

  12. Véletlenszerű kezdőérték esetén írjon be egy számot a paraméteres lekérdezés inicializálásakor.

    Ha olyan modellt betanít, amely támogatja az integrált paraméteres mintavételt, beállíthatja a használni szükséges kezdőértékek tartományát, és a véletlenszerű halmazokat is iterálhatja. Ez nem kötelező, de hasznos lehet a kezdő adatok kiválasztásával bevezetett torzítások elkerüléséhez.

  13. Adja hozzá a Cross-Validate Model (Modell kereszt-ellenőrzése) modult. Csatlakozás a Partition (Partíció) és a Sample (Minta) kimenetét az Adatkészlet bemenetéhez, és kösse össze a Modell hiperparaméterek hangolása kimenetét a Nem korlátozott modellbemenettel.

  14. Futtassa a kísérletet.

Keresztvalyenítés eredményei

A keresztvallálás befejezése után:

  • A kiértékelési eredmények megtekintéséhez kattintson a jobb gombbal a modulra, válassza a Kiértékelési eredmények összecsukva lehetőséget, majd válassza a Vizualizáció lehetőséget.

    A pontossági metrikák a keresztellenőrzési passz alapján vannak kiszámítva, és a kiválasztott összecsukott eredményektől függően némileg eltérhetnek.

  • Ha meg szeretné tudni, hogyan lett elosztva az adatkészlet, és hogy a "legjobb" modell hogyan pontozást adna az adatkészlet egyes sorai közül, kattintson a jobb gombbal a modulra, válassza a Pontozási eredmények lehetőséget, majd válassza a Vizualizáció lehetőséget.

  • Ha menti ezt az adatkészletet későbbi használatra, az adatátrendelések megmaradnak. A mentett datsaet például így néz ki:

    Dedukt hozzárendelések Osztály Age(1st feature column)
    2 0 35
    1 1 17
    3 0 62
  • A "legjobb" modell paraméterbeállításának lekért értékéhez kattintson a jobb gombbal a Modell hiperparaméterének hangolása elemre.

Példák

A modul használatára vonatkozó példákért lásd a Azure AI Gallery:

  • Tanulói teljesítmény előrejelzése: A kétosztályos, többosztályos döntési fa algoritmust használja különböző paraméterekkel egy olyan modell létrehozásához, amely a lehető legjobb gyökér-négyzetes hibát (RMSE) használja.

  • Tanulás a Counts: Binary Classification( Bináris besorolás) használatával: A funkciók kompakt készletét hozza létre számalapú tanulással, majd paraméteres kereséssel megkeresi a legjobb modellparamétereket.

  • Bináris besorolás: Hálózati behatolásészlelés: A Modell hiperparaméterek hangolása keresztellenőrzési módban, egyéni ötre osztható felosztással használja a kétosztályos logisztikai regressziós modell legjobb hiperparaméterének megkeresése érdekében.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

A paraméteres lekérdezés működése

Ez a szakasz általánosságban ismerteti a paraméteres átvizsgálás működését, valamint a modulban található lehetőségek működését.

Paraméteres keresés beállításakor meg kell határoznia a keresés hatókörét, hogy véges számú véletlenszerűen kiválasztott paramétert használjon, vagy teljes keresést használjon egy Ön által meghatározott paramétertéren.

  • Véletlenszerű siklelés: Ez a lehetőség egy adott számú iterációval adja ki a modellt.

    Meg kell adnia egy értéktartományt az iterálására, és a modul ezeknek az értékeknek egy véletlenszerűen kiválasztott részkészletét használja. Az értékek helyettesítő értékekkel vannak kiválasztva, ami azt jelenti, hogy a korábban véletlenszerűen kiválasztott számok nem törlődnek az elérhető számok készletből. Így annak az esélye, hogy bármely érték ki legyen választva, ugyanaz marad az összes bérletben.

  • Rácseset: Ez a beállítás létrehoz egy mátrixot vagy rácsot, amely a paraméterek minden kombinációját tartalmazza a megadott értéktartományban. Amikor elkezdi a hangolást ezzel a modullal, több modellt tanít be ezeknek a paramétereknek a kombinációjával.

  • Teljes rács: A teljes rács használatának lehetősége éppen ezt jelenti: minden egyes kombinációt tesztelnek. Ez a lehetőség tekinthető a legáthatóbbnak, de a legtöbb időt igényli.

  • Véletlenszerű rács: Ha ezt a lehetőséget választja, a rendszer kiszámítja az összes kombináció mátrixát, és a megadott iterációk számán keresztül mintát ad a mátrixból az értékekből.

    A közelmúltbeli kutatások kimutatták, hogy a véletlenszerű siklák jobb teljesítményre is képesek, mint a rácsos siklák.

A betanítás hosszának és összetettségének szabályozása

A beállítások számos kombinációján keresztüli iteálás időigényes lehet, ezért a modul több módszert is kínál a folyamat korlátozására:

  • A modell tesztelésére használt iterációk számának korlátozása
  • A paramétertér korlátozása
  • Korlátozza az iterációk számértékét és a paraméterterületet

Javasoljuk, hogy kísérletezzen a beállításokkal egy adott adatkészleten és modellen végzett betanítás leghatékonyabb módszerének meghatározásához.

Értékelési metrika kiválasztása

A rendszer az egyes modellek pontosságát tartalmazó jelentést mutat be a végén, így áttekintheti a metrika eredményeit. A rendszer minden besorolási modellhez egységes metrikakészletet, a regressziós modellekhez pedig eltérő metrikakészletet használ. A betanítás során azonban egyetlen metrikát kell választania a hangolási folyamat során létrehozott modellek rangsorolásához. Előfordulhat, hogy a legjobb metrika az üzleti problémától, valamint a téves pozitívak és téves negatívak árától függően változik.

További információ: Modell teljesítményének kiértékelése a Machine Learning

A besoroláshoz használt metrikák

  • Pontosság A valós eredmények aránya az összes esethez.

  • Precíziós A valódi eredmények aránya a pozitív eredményekhez.

  • Visszahív Az összes helyes eredmény hányadosa az összes eredményben.

  • F-pontszám A pontosságot és az előhívást egyensúlyba egyensúlyba egyen.

  • AUC Egy érték, amely a görbe alatti területet jelöli, amikor hamis pozitívak vannak ábrázolva az x tengelyen, és a valódi pozitívok az y tengelyen.

  • Átlagos naplóvesztés Két valószínűségi eloszlás különbsége: a valódi és a modellben.

  • Naplóvesztés betanítás A modell által a véletlenszerű előrejelzéshez nyújtott javulás.

A regresszióhoz használt metrikák

  • Átlagos abszolút hiba Átlagot ad a modellben található összes hibára, ahol a hiba az előrejel jelzett érték és a valódi érték távolságát jelenti. Gyakran MAE-ként rövidítve.

  • A négyzetes átlagos hiba gyöke Megmérték a hibák négyzetének átlagát, majd ennek az értéknek a gyökerét veszi fel. Gyakori rövidítés: RMSE

  • Relatív abszolút hiba A hibát a valódi érték százalékában jelöli.

  • Relatív négyzetes hiba Normalizálja a teljes négyzetes hibát úgy, hogy elosztja az előrejelelt értékek teljes négyzetes hibaértékeivel.

  • A meghatározás együtthatója Egyetlen szám, amely azt jelzi, hogy mennyire illeszkednek jól az adatok a modellbe. Az 1 érték azt jelenti, hogy a modell pontosan megfelel az adatoknak; A 0 érték azt jelenti, hogy az adatok véletlenszerűek vagy egyéb módon nem illeszkednek a modellhez. Ezt gyakran r2-nek, R2-nek vagy r-négyzetnek is nevezik.

Paraméteres lekérdezést nem támogató modulok

A teljes Machine Learning támogatja a keresztellenőrzést egy integrált paraméteres ellenőrzéssel, amellyel kiválaszthatja a kísérletezni szükséges paramétereket. Ha a tanuló nem támogatja egy értéktartomány beállítását, akkor is használhatja keresztellenőrzéshez. Ebben az esetben az engedélyezett értékek egy tartománya van kiválasztva a siklákhoz.

A következő tanulók nem támogatják a paraméteres lekérdezésben használni szükséges értéktartományok beállítását:

Várt bemenetek

Név Típus Description
Nem korlátozott modell ILearner interfész Nem képezett modell paraméteres lekérdezéshez
Betanítás adatkészlete Adattábla Bemeneti adatkészlet betanításhoz
Érvényesítési adatkészlet Adattábla Bemeneti adatkészlet ellenőrzéshez (Betanítás/Tesztelés ellenőrzési módhoz). Ez a bemenet nem kötelező.

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Paraméteres lekérdezési mód megadása Lista Siklott módszerek Véletlenszerű sikl Teljes rács átfutása a paraméterterületen, vagy siklás korlátozott számú mintafutat használatával
A véletlenszerűen futtatott futtatások maximális száma [1;10000] Egész szám 5 Futtatás maximális számának végrehajtása véletlenszerű siklák használatával
Véletlenszerű mag bármelyik Egész szám 0 Adja meg a véletlenszám-generátor kezdőértékét
Felirat oszlop bármelyik ColumnSelection (Oszlopválasztás) Felirat oszlop
A besorolás teljesítményének mérésére vonatkozó metrika Lista Bináris besorolás metrikatípusa Pontosság Válassza ki a besorolási modellek értékeléséhez használt metrikát
A regresszió teljesítményének mérésére vonatkozó metrika Lista Regressziómetriai típus Átlagos abszolút hiba A regressziós modellek értékeléséhez használt metrika kiválasztása

Kimenetek

Név Típus Description
Keresési eredmények Adattábla Eredmények metrika a paraméteres keresések futtatásaihoz
Betanított legjobb modell ILearner interfész Modell a betanítás adatkészletének legjobb teljesítményével

Lásd még

A-Z modullista
Betanítás
Modell kereszt-ellenőrzése