Modell keresztvalyent ellenőrzése

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

A besorolási vagy regressziós modellek paraméterbecslésének keresztszabása az adatok particionálása által

Kategória: Machine Learning / Értékelés

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk bemutatja, hogyan használható a Modell keresztvalyens érvényesítése modul a Machine Learning Studióban (klasszikus). A keresztellenőrzés egy fontos technika, amely gyakran használatos a gépi tanulás során az adatkészletek változékonyságának és az adatokkal betanított modellek megbízhatóságának értékelésére.

A Cross-Validate Model (Modell kereszt-ellenőrzése ) modul egy címkével jelölt adatkészletet, valamint egy nem korlátozott besorolási vagy regressziós modellt vesz fel bemenetként. Az adatkészletet néhány részhalmazra (összecsukottra) osztja fel, minden egyes összecsukásnál felépít egy modellt, majd visszaadja az egyes összecsukások pontossági statisztikáit. Az összes összecsukás pontossági statisztikáinak összehasonlításával értelmezheti az adathalmaz minőségét, és megértheti, hogy a modell ki van-e téve az adatok eltéréseinek.

A keresztvallálás az adatkészlet előrejeltett eredményeit és valószínűségeit is visszaadja, így felmérheti az előrejelzések megbízhatóságát.

A keresztvallálás működése

A keresztellenőrzés véletlenszerűen osztja fel a betanítás adatait több partícióra, más néven összecsukásra.
- Az algoritmus alapértelmezés szerint 10-szeres, ha korábban még nem particionálta az adatkészletet.
- Ha az adatkészletet különböző számú összecsukott adategységre osztja, használja a Partition ( Partíció) és a Sample (Minta) modult, és jelezze, hogy hány összecsukásokat kell használnia.
A modul feljegyezi az 1. egységben található adatokat az ellenőrzéshez (ezt néha holdout-foldnak is nevezik), és a fennmaradó összecsukásokat használja a modell betanítására.

Ha például öt egységből áll, a modul öt modellt hoz létre a keresztellenőrzés során, mindegyik modellt az adatok 4/5-ével tanítja be, és a fennmaradó 1/5-ben teszteli.
Az egyes összecsukott modellek tesztelése során a rendszer több pontossági statisztikát értékel ki. A használt statisztikák az értékelt modell típusától függnek. A besorolási modellek és a regressziós modellek kiértékeléséhez különböző statisztikák használhatók.
Ha az összes kiépítési és kiértékelési folyamat befejeződött, a Keresztvalyenítési modell teljesítménymetrikák készletét és pontozási eredményeket hoz létre az összes adathoz. Tekintse át ezeket a metrikákat, és ellenőrizze, hogy egy adott egyed különösen nagy vagy alacsony pontosságú-e

A keresztvallálás előnyei

A modellek kiértékelésének egy másik és nagyon gyakori módja az adatok betanítás és tesztelési készletre való felosztása az Adatok felosztása használatával, majd a modell ellenőrzése a betanítás adatain. A keresztellenőrzés azonban néhány előnnyel jár:

A keresztellenőrzés több tesztadatot használ.

A keresztellenőrzés a modell teljesítményét méri a megadott paraméterekkel egy nagyobb adatterületen. Ez azt jelenti, hogy a keresztellenőrzés a teljes betanítás adatkészletét használja a betanításhoz és az értékeléshez is, nem pedig bizonyos részhez. Ezzel szemben, ha egy modellt véletlenszerű felosztásból létrehozott adatokkal ellenőriz, általában csak a rendelkezésre álló adatok 30%-ában értékeli ki a modellt.

Mivel azonban a keresztellenőrzés többször is ellenőrzi a modellt egy nagyobb adatkészleten, sokkal nagyobb számítási igényű, és sokkal több időt vesz igénybe, mint egy véletlenszerű felosztás ellenőrzése.
A keresztellenőrzés az adatkészletet és a modellt is kiértékeli.

A keresztellenőrzés nem csupán egy modell pontosságát méri, hanem azt is, hogy mennyire reprezentatív az adatkészlet, és mennyire érzékeny a modell az adatok eltéréseire.

Keresztvalivalens modell használata

A keresztellenőrzésnek két fő módja van.

Egyszerű kiértékeléshez
Paraméteres lekérdezéssel együtt

Ha sok adatot használ, a keresztellenőrzés futtatása hosszú ideig is tart. Ezért a modell építésének és tesztelésének kezdeti fázisában kereszt-ellenőrzéssel kiértékelheti a modell paramétereinek megfelelőségét (feltéve, hogy a számítási idő tűrhető), majd betaníthatja és kiértékelheti a modellt a modell betanítása és kiértékelése a modell betanítása és kiértékelése modulokkal létrehozott paraméterekkel.

Egyszerű keresztellenőrzés

Ebben a forgatókönyvben a modell betanításán és tesztelésében is keresztvalyens modellt fog használni.

Adja hozzá a Keresztvalivaly-modell modult a kísérlethez. Ezt a Machine Learning Studio (klasszikus) kategóriában, Machine Learning Értékelés alatt találja.
Csatlakozás besorolási vagy regressziós modell kimenetét.

Ha például egy kétosztályos Bayes-pontgépet használ a besoroláshoz, konfigurálja a modellt a kívánt paraméterekkel, majd húzzon egy összekötőt az osztályozó Nem korlátozott modellportjára a Keresztvalyent modell megfelelő portjához.

Tipp

A modellt nem kell betanítanunk, mert a kereszt-ellenőrzés modell automatikusan betanítja a modellt az értékelés részeként.
A Cross Validate Model(Modell kereszt ellenőrzése) adatkészletporton kösse össze a címkével jelölt betanítás adatkészletét.
A Keresztvalyen érvényesítési modell Tulajdonságok paneljén kattintson az Oszlopválasztó indítása elemre, és válassza ki az osztálycímkét tartalmazó egyetlen oszlopot vagy a kiszámítható értéket.
Állítson be egy értéket a Véletlenszerű kezdőérték paraméterhez, ha meg szeretné ismételni a keresztellenőrzés eredményeit az ugyanazon adatokon futtatott egymást követő futtatásokkal.
Futtassa a kísérletet.
A jelentések leírását az Eredmények szakaszban láthatja.

Ha a modell másolatát később újra felhasználhatja, kattintson a jobb gombbal az algoritmust tartalmazó modul kimenetére (például a Kétosztályos Bayes-pont gépre), majd kattintson a Mentés betanított modellként lehetőségre.

Keresztellenőrzés paraméteres ellenőrzéssel

Ebben a forgatókönyvben a Modell hiperparaméterek hangolása segítségével egy paraméteres vizsgálat elvégzésével azonosítja a legjobb modellt, majd keresztellenőrzési modell használatával ellenőrzi annak megbízhatóságát. Ez a legegyszerűbb módszer arra, hogy Machine Learning a legjobb modellt, majd hozzon létre hozzá metrikákat.

Adja hozzá az adatkészletet a modell betanítása érdekében, majd adja hozzá az egyik olyan gépi tanulási modult, amely besorolási vagy regressziós modellt hoz létre.
Adja hozzá a kísérlethez a Modell hiperparaméterek hangolása modult. A következő kategóriában található Machine LearningBetanítás alatt.
Csatolja a besorolási vagy regressziós modellt a Modell hiperparaméterek hangolása nem képezett modellbemenethez.
Adja hozzá a Keresztvalivaly-modell modult a kísérlethez. Ezt a Machine Learning Studio (klasszikus) kategóriában, Machine Learning Értékelés alatt találja.
Keresse meg a Modellhiperparaméterek hangolása betanított legjobb modell kimenetét, és kösse össze a Keresztvalyentés modell betanítatlan bemenetéhez.
Csatlakozás a betanítás adatait a Kereszt-ellenőrzés modell Betanítás adatkészlet bemenetéhez.
Futtassa a kísérletet.
Az eredmények és a kiértékelési pontszámok áttekintése után a legjobb modell későbbi újrahasználathoz való másolatának lekért példányához kattintson a jobb gombbal a Modell hiperparaméterek hangolása modulra, válassza a Betanított legjobb modell lehetőséget, majd kattintson a Mentés betanított modellként lehetőségre.

Megjegyzés

Előfordulhat, hogy eltérő eredményeket kap, ha a Modell hiperparaméterek hangolása modul bemenetét használja a Választható ellenőrzési adatkészlethez.

Ennek az az oka, hogy ha ezt a beállítást használja, akkor statikus betanítás és tesztelési adatkészletet ad meg. Ezért a keresztellenőrzési folyamat a megadott betanítási és tesztelési adatkészleteket is használja ahelyett, hogy az adatokat n csoportra osztjuk fel betanítás és tesztelés céljából. A metrikák azonban n-szeresen jönnek létre.

Results (Eredmények)

Az összes iteráció befejezése után a Keresztellenőrzési modell létrehozza a pontszámokat a teljes adatkészlethez, valamint teljesítménymetrikákat, amelyek segítségével felmérheti a modell minőségét.

Pontozási eredmények

A modul első kimenete biztosítja az egyes sorok forrásadatát, valamint néhány előrejel jelzett értéket és a kapcsolódó valószínűségeket.

Az eredmények megtekintéséhez a kísérletben kattintson a jobb gombbal a Cross-Validate Model (Modell kereszt-ellenőrzése ) modulra, válassza a Scored results (Pontos eredmények) lehetőséget, majd kattintson a Visualize (Képi megjelenítés) elemre.

Új oszlop neve	Description
Dedukt hozzárendelések	A keresztellenőrzés során hozzárendelt adatsorok 0-alapú indexét jelzi.
Pontozott címkék	Ez az oszlop az adatkészlet végén lesz hozzáadva, és az egyes sorok előrejelezni kívánt értékét tartalmazza
Pontozási valószínűségek	A rendszer hozzáadja ezt az oszlopot az adatkészlet végéhez, és jelzi a Scored Labels (Pontozási címkék) oszlopban megadott érték becsült valószínűségét.

A kiértékelés eredménye

A második jelentés összecsukás szerint van csoportosítva. Ne feledje, hogy a végrehajtás során a Kereszt-ellenőrzés modell véletlenszerűen n-re osztja fel a betanítás adatait (alapértelmezés szerint 10). Az adatkészlet minden iterációja esetében a Keresztellenőrzési modell egy-egyed ellenőrzési adatkészletet használ, a többi n-1-es pedig a modell betanítása érdekében. Az n modellek mindegyikét teszteljük a többi összecsukott adat között.

Ebben a jelentésben az összecsukott értékek indexérték szerint, növekvő sorrendben vannak felsorolva. Bármely más oszlop alapján való sorrendbe mentheti az eredményeket adatkészletként.

Az eredmények megtekintéséhez a kísérletben kattintson a jobb gombbal a Cross-Validate Model (Modell kereszt-ellenőrzése ) modulra, válassza a Evaluation results by fold (Kiértékelési eredmények összecsukva) lehetőséget, majd kattintson a Visualize (Képi megjelenítés) elemre.

Oszlop neve	Leírás
Fold number (Összecsukás száma	Az egyes összecsukottak azonosítója. 5 összecsukás esetén az adatok 5 részkészlete lenne, 0 és 4 között.
Példák száma összecsukásban	Az egyes összecsukott sorok száma. Nagyjából egyenlőnek kell lennie.
Modellezés	A modellben használt algoritmus, amelyet az API neve azonosít

Emellett az alábbi metrikák is szerepelnek az egyes összecsukott modell típusától függően.

Besorolási modellek: Pontosság, felidézés, F-pontszám, AUC, átlagos naplóvesztés, betanítási naplóvesztés
Regressziós modellek: A naplók negatív valószínűsége, az átlagos abszolút hiba, a gyökér-négyzetes eltérés, a relatív abszolút hiba és a meghatározási együttható

Példák

A keresztellenőrzés gépi tanulásban való használatára vonatkozó példákért lásd a Azure AI Gallery:

Keresztvalifikálás bináris osztályozóhoz: Bemutatja, hogyan használható a keresztvalifikálás bináris besorolási modellel.
Keresztellenőrzési regresszió: Automatikus import adatkészlet: Bemutatja, hogyan használható a keresztellenőrzés regressziós modellekkel, és hogyan értelmezhetők az eredmények.

Technikai megjegyzések

Ajánlott eljárás az adatkészletek normalizálása, mielőtt keresztellenőrzésre használjuk őket.
Mivel a modell kereszt-ellenőrzése többször is beképi és ellenőrzi a modellt, sokkal nagyobb számítási igényű, és több időt vesz igénybe, mint ha a modellt egy véletlenszerűen felosztott adatkészlettel ellenőrizte volna.
Javasoljuk, hogy a modell megfelelőségét a megadott paraméterek alapján a Kereszt-ellenőrzés modell használatával állapítsa meg. A Modell hiperparaméterek hangolása használatával azonosíthatja az optimális paramétereket.
Nem kell betanító és tesztelési készletekre felosztani az adathalmazt, ha keresztellenőrzéssel méri a modell pontosságát.

Ha azonban egy érvényesítési adatkészletet ad meg fent, a modul a megadott betanítési és tesztelési adatkészleteket használja n egységre való felosztás helyett. Ez azt jelenti, hogy a rendszer az első adatkészletet használja a modell betanítása minden paraméterkombinációhoz, és a modellek kiértékelése az ellenőrzési adatkészleten történik. Tekintse meg a paraméteres ellenőrzés és keresztellenőrzés használatával című szakaszt.
Bár ez a cikk a modulok régebbi verzióit használja, jól bemutatja a keresztellenőrzési folyamatot: Paraméterek kiválasztása az algoritmusok optimalizálásához a Machine Learning

Várt bemenetek

Név	Típus	Description
Nem képezett modell	ILearner interfész	Nem képezett modell az adatkészlet keresztellenőrzéséhez
Adathalmaz	Adattábla	Bemeneti adatkészlet

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Felirat oszlop	bármelyik	ColumnSelection (Oszlopválasztás)		Válassza ki az érvényesítéshez használni kívánt címkét tartalmazó oszlopot
Véletlenszerű mag	bármelyik	Egész szám	0	A véletlenszám-generátor kezdőértéke Ez az érték nem kötelező. Ha nincs megadva

Kimenetek

Név	Típus	Description
Pontozási eredmények	Adattábla	Pontozás eredményei
Kiértékelési eredmények összecsukott eredmények szerint	Adattábla	Kiértékelési eredmények (összecsukott és teljes)

Kivételek

Kivétel	Description
0035-ös hiba	Kivétel akkor fordul elő, ha nem biztosítanak szolgáltatásokat egy adott felhasználóhoz vagy elemhez.
0032-es hiba	Kivétel akkor fordul elő, ha az argumentum nem szám.
0033-as hiba	Kivétel akkor fordul elő, ha az argumentum végtelen.
0001-es hiba	Kivétel akkor fordul elő, ha az adatkészlet egy vagy több megadott oszlopa nem található.
0003-as hiba	Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0006-os hiba	Kivétel akkor fordul elő, ha a paraméter nagyobb vagy egyenlő a megadott értékkel.
0008-as hiba	Kivétel akkor fordul elő, ha a paraméter nem a tartományon belül van.
0013-as hiba	Kivétel akkor fordul elő, ha a modulnak átadott tanuló típusa érvénytelen.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Értékelés
Ajánló értékelése
A-Z modullista