Lineáris regresszió

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Lineáris regressziós modellt hoz létre

Kategória: Machine Learning / Modell inicializálása / Regresszió

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Linear Regression (Lineáris regresszió) modul a Machine Learning Studióban) lineáris regressziós modell létrehozásához egy kísérlethez. A lineáris regresszió lineáris kapcsolatot kísérel meg létrehozni egy vagy több független változó és egy numerikus eredmény vagy egy függő változó között.

Ezzel a modullal lineáris regressziós módszert definiálhat, majd címkével jelölt adatkészlet használatával betaníthat egy modellt. A betanított modell ezután előrejelzésekhez használható. Másik lehetőségként a nem képezett modell át is átvitele a Modell keresztellenőrzése számára a címkézett adathalmazok keresztellenőrzése érdekében.

További információ a lineáris regresszióról

A lineáris regresszió egy gyakori statisztikai módszer, amelyet a gépi tanulás során alkalmaznak, és számos új módszerrel bővítettek a vonal illesztése és a hibák mérése érdekében. A regresszió a legapvetőbb értelemben egy numerikus cél előrejelzését jelenti. A lineáris regresszió akkor is jó választás, ha egy egyszerű modellt szeretne egy egyszerű prediktív feladathoz. A lineáris regresszió általában jól működik magas dimenziós, ritka adathalmazok összetettsége nélkül.

Machine Learning Studio (klasszikus) a lineáris regresszió mellett számos regressziós modellt is támogat. A "regresszió" kifejezés azonban lazán értelmezhető, és a studio (klasszikus) nem támogatja a más eszközökben biztosított regresszió bizonyos típusait.

  • A klasszikus regressziós probléma egyetlen független változót és egy függő változót tartalmaz. Ezt nevezzük egyszerű regressziónak. Ez a modul támogatja az egyszerű regressziót.

  • A többszörös lineáris regresszió két vagy több független változót foglal magában, amelyek egyetlen függő változóhoz járulnak hozzá. Azok a problémák, amelyekben egyetlen numerikus eredmény előrejelzésére több bemenetet használnak, többvál hanem lineáris regressziónak is nevezik.

    A Linear Regression (Lineáris regresszió ) modul képes megoldani ezeket a problémákat, ahogyan a Studio többi regressziós modulja (klasszikus) is.

  • A többcímkés regresszió feladata több függő változó előrejelzése egyetlen modellen belül. Többcímkés logisztikai regresszió esetén például egy minta több különböző címkéhez is hozzárendelhető. (Ez eltér az egyetlen osztályváltozón belüli több szint előrejelzésének feladattól.)

    Az ilyen típusú regresszió nem támogatott a Machine Learning. Ha több változót szeretne előrejelezni, hozzon létre egy külön tanulót minden előrejelezni kívánt kimenethez.

A statisztikusok évek óta egyre fejlettebb regressziós módszereket fejlesztnek. Ez még a lineáris regresszióra is igaz. Ez a modul két módszert támogat a hibák mérésére és a regressziós vonal illesztésére: a normál legkisebb négyzetek módszerét és a gradiens módszert.

  • A gradiens módszer egy olyan módszer, amely minimálisra csökkenti a modell betanítási folyamatának egyes lépéseinél a hibák mennyiségét. A gradiens módszernek számos változata van, és a különböző tanulási problémákra való optimalizálását széles körben tanulmányoztuk. Ha ezt a lehetőséget választja a Megoldási módszerhez, különböző paramétereket állíthat be a lépésméret, a tanulási sebesség stb. szabályozása érdekében. Ez a lehetőség támogatja az integrált paraméteres lekérdezés használatát is.

  • A normál legkisebb négyzetek a lineáris regresszió egyik leggyakrabban használt technikája. A legkisebb négyzetek például az Analysis Toolpak for Microsoft Excel.

    A normál legkisebb négyzetek a veszteség függvényre utalnak, amely a hibát a tényleges érték és az előrejelelt vonal közötti távolság négyzetének összegeként számítja ki, és a négyzetes hiba minimalizálása által megfelel a modellnek. Ez a metódus erős lineáris kapcsolatot feltételez a bemenetek és a függő változó között.

Lineáris regresszió konfigurálása

Ez a modul két módszert támogat a regressziós modell illesztéséhez, nagyon különböző beállításokkal:

Regressziós modell létrehozása normál legkisebb négyzetek használatával

  1. Adja hozzá a Linear Regression Model (Lineáris regressziós modell) modult a kísérlethez a Studióban (klasszikus).

    Ezt a modult a következő kategóriában találja Machine Learning kategóriában. Bontsa ki a Modell inicializálása, a Regresszió bontsa ki, majd húzza a Linear Regression Model (Lineáris regressziós modell) modult a kísérletre.

  2. A Tulajdonságok panel Megoldási módszer legördülő listájában válassza a Normál legkisebb négyzetek lehetőséget. Ez a beállítás határozza meg a regressziós vonal megkeresése során használt számítási módszert.

  3. Az L2 regularizációs súly mezőbe írja be az L2-regularizáció súlyozására használni használt értéket. Javasoljuk, hogy a túlilledés elkerülése érdekében használjon nem nulla értéket.

    Ha többet szeretne megtudni arról, hogy a regularizáció milyen hatással van a modell illesztésére, tekintse meg a következő cikket: L1 és L2 Regularization for Machine Learning

  4. Válassza az Elfogási kifejezés befogására vonatkozó lehetőséget, ha meg szeretné tekinteni a elfogásra vonatkozó kifejezést.

    Ha nem kell áttekintenünk a regressziós képletet, törölje a beállítás kijelölését.

  5. Véletlenszerű szám kezdőértékeként begépelhet egy értéket a modell által használt véletlenszám-generátor kezdőértékének bevetéseként.

    A kezdőérték akkor hasznos, ha ugyanazt az eredményt szeretné megőrizni ugyanazon kísérlet különböző futtatásai között. Ellenkező esetben az alapértelmezett érték a rendszeróra egyik értéke.

  6. Törölje az Ismeretlen kategorikus szintek engedélyezése beállítás kijelölését, ha azt szeretné, hogy a hiányzó értékek hibát okozzanak.

    Ha ez a beállítás be van jelölve, minden kategorikus oszlophoz egy további szint jön létre. A tesztadatkészletnek a betanítás adatkészletében nem található szintjei erre a további szintre vannak leképezve.

  7. Adja hozzá a Train Model (Modell betanítása ) modult a kísérlethez, és kösse össze a címkével jelölt adatkészletet.

  8. Futtassa a kísérletet.

A normál legkisebb négyzetek modelljének eredményei

A betanítás befejezése után:

  • A modell paramétereinek megtekintéséhez kattintson a jobb gombbal az oktató kimenetére, és válassza a Képi megjelenítés lehetőséget.

  • Az előrejelzésekhez csatlakoztassa a betanított modellt a Score Model (Modell pontozása) modulhoz, valamint az új értékek adatkészletét.

  • Ha keresztellenőrzést szeretne végezni egy címkézett adathalmazon, csatlakoztassa a nem képezett modellt a Modell keresztellenőrzése hez.

Regressziós modell létrehozása online gradiens módszer használatával

  1. Adja hozzá a Linear Regression Model (Lineáris regressziós modell) modult a kísérlethez a Studióban (klasszikus).

    Ezt a modult a következő kategóriában találja Machine Learning kategóriában. Bontsa ki a Modell inicializálása, a Regresszió bontsa ki, majd húzza a Linear Regression Model (Lineáris regressziós modell) modult a kísérletre

  2. A Tulajdonságok panel Megoldási módszer legördülő listájában válassza az Online Gradiens módszer lehetőséget a regressziós vonal megkeresése során használt számítási módszerként.

  3. Az oktatói mód létrehozása beállításnál adja meg, hogy előre definiált paraméterkészletekkel szeretné-e betaníteni a modellt, vagy paraméteres siklott módszerrel szeretné optimalizálni a modellt.

    • Egyetlen paraméter: Ha tudja, hogyan szeretné konfigurálni a lineáris regressziós hálózatot, argumentumként egy adott értékkészletet is meg lehet adni.

    • Paramétertartomány: Ha azt szeretné, hogy az algoritmus megtalálja az Ön számára legmegfelelőbb paramétereket, állítsa az Oktatói mód létrehozása beállítást Paramétertartomány lehetőségre. Ezután több értéket is megadhat a kipróbálni kívánt algoritmus számára.

  4. A Tanulás sebességhez adja meg a sztochasztikus gradiens gradiens optimalizáló kezdeti tanulási sebességét.

  5. A Number of training epochs (Betanítás alapidőinek száma) mezőben adjon meg egy értéket, amely azt jelzi, hogy az algoritmusnak hányszor kell iterálnia példákon keresztül. A kevés példával szemléltetett adattáraknál ennek a számnak nagynak kell lennie a konvergenciához.

  6. Jellemzők normalizálása: Ha már normalizálta a modell betanítása érdekében használt numerikus adatokat, akkor törölje a beállítás kijelölését. Alapértelmezés szerint a modul az összes numerikus bemenetet 0 és 1 közötti tartományba normalizálja.

    Megjegyzés

    Ne felejtse el ugyanazt a normalizálási módszert alkalmazni a pontozáshoz használt új adatokra.

  7. Az L2 regularizációs súly mezőbe írja be az L2-regularizáció súlyozására használni használt értéket. A túlilledés elkerülése érdekében javasoljuk, hogy ne nullát használjon.

    Ha többet szeretne megtudni arról, hogy a regularizáció milyen hatással van a modell illesztésére, tekintse meg a következő cikket: L1 és L2 Regularization for Machine Learning

  8. Válassza az Átlagos végső hipotézis lehetőséget az utolsó hipotézis átlagának kiválasztásához.

    A regressziós modellekben a hipotézisvizsgálat egy statisztikai adat használatával értékeli a null hipotézis valószínűségét, amely szerint nincs lineáris korreláció a függő és a független változók között. Számos regressziós probléma esetén egynél több változót érintő hipotézist kell tesztelnie.

    Ez a beállítás alapértelmezés szerint engedélyezve van, ami azt jelenti, hogy az algoritmus két vagy több paramétert is érintett paraméterek kombinációját teszteli.

  9. Válassza a Tanulási sebesség csökkentése lehetőséget, ha azt szeretné, hogy a tanulási sebesség csökkenjön az iterációk előrehaladása során.

  10. Véletlenszerű szám kezdőértékeként begépelhet egy értéket a modell által használt véletlenszám-generátor kezdőértékének bevetéseként. A kezdőérték használata akkor hasznos, ha ugyanazt az eredményt szeretné megőrizni ugyanazon kísérlet különböző futtatásai között.

  11. Törölje az Ismeretlen kategorikus szintek engedélyezése beállítás be kijelölését, ha azt szeretné, hogy a hiányzó értékek hibát okozzanak.

    Ha ez a beállítás be van jelölve, minden kategorikus oszlophoz egy további szint jön létre. A tesztadatkészletnek a betanítás adatkészletében nem található szintjei erre a további szintre vannak leképezve.

  12. Adjon hozzá egy címkével jelölt adatkészletet és egy betanító modult.

    Ha nem használ paraméteres lekérdezést, használja a Train Model (Modell betanítása) modult .

    Ahhoz, hogy az algoritmus megtalálja az Ön számára legmegfelelőbb paramétereket, betaníthatja a modellt a Modell hiperparaméterek hangolása használatával.

    Megjegyzés

    Ha a modellt adott értékekkel konfigurálja az Egyetlen paraméter lehetőséggel, majd átvált a Paramétertartomány beállításra, a modell betanítása az egyes paraméterek tartományában megadott minimális értékkel történik.

    Ezzel szemben, ha a modell létrehozásakor megadott beállításokat konfigurál, de a Paramétertartomány lehetőséget választja, a modell betanítása a tanuló alapértelmezett értékeivel történik, mint az átfedni kívánt értékek tartománya.

  13. Futtassa a kísérletet.

Eredmények online gradiens gradienshez

A betanítás befejezése után:

  • Az előrejelzésekhez csatlakoztassa a betanított modellt a Score Model (Modell pontozása) modulhoz az új bemeneti adatokkal.
  • Ha keresztellenőrzést szeretne végrehajtani egy címkézett adatkészleten, csatlakoztassa a nem képezett modellt a Modell keresztellenőrzése hez.

Példák

A regressziós modellekre vonatkozó példákért tekintse meg ezeket a mintakísérleteket a Azure AI Gallery:

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

Használati tippek

Számos eszköz támogatja a lineáris regresszió létrehozását, az egyszerűtől az összetettig. Például egyszerűen végezhet lineáris regressziót az Excel-ban a Solver Toolpak használatával, vagy megírhatja a saját regressziós algoritmusát R, Python vagy C# használatával.

Mivel azonban a lineáris regresszió egy jól bevált technika, amelyet számos különböző eszköz támogat, számos különböző értelmezés és implementáció van. Nem minden modelltípust támogat egyformán az összes eszköz. Az elnevezések között van néhány különbség is, amit megfigyelhet.

  • A regressziós metódusokat gyakran a válaszváltozók száma alapján kategorizálják. A többszörös lineáris regresszió például olyan modellt jelent, amely több előrejelzhető változóval rendelkezik.

  • A Matlab többváltozós regressziója olyan modellre utal, amely több válaszváltozóval rendelkezik.

  • A Machine Learning a regressziós modellek egyetlen válaszváltozót támogatnak.

  • Az R nyelvben a lineáris regresszióhoz biztosított funkciók a használt csomagtól függenek. A csomaggal például létrehozhat egy logisztikai regressziós modellt több független változóval. A Machine Learning Studio (klasszikus) általában ugyanazt a funkciót biztosítja, mint az R-csomag.

Javasoljuk, hogy ezt a Lineáris regresszió modult használja a tipikus regressziós problémákhoz.

Ezzel szemben, ha több változót használ egy osztály értékének előrejelzéséhez, javasoljuk a Kétosztályos logisztikai regresszió vagy a Többosztályos logisztikai regresszió modulokat .

Ha az R nyelvhez elérhető egyéb lineáris regressziós csomagokat szeretne használni, javasoljuk, hogy használja az R-szkript végrehajtása modult, és hívja meg az lm- vagy a csomagokat, amelyek az Machine Learning Studio (klasszikus) futásidejű környezetében szerepelnek.

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Funkciók normalizálása bármelyik Logikai true Annak jelzése, hogy a példányokat normalizálni kell-e
Végső hipotézis átlaga bármelyik Logikai true Annak jelzése, hogy a végső hipotézist átlagértékre kell-e átlagértékként jelezni
Tanulási sebesség >=double. Epsilon Float 0.1 A sztochasztikus gradiens gradiens optimalizáló kezdeti tanulási sebességének megadása
Betanítás alapidőinek száma >=0 Egész szám 10 Adja meg, hogy az algoritmus hányszor iteráljon példákon keresztül. A kevés példát is tartalmazó adatkészletek számának nagynak kell lennie a konvergenciához.
Tanulási sebesség csökkentése Bármelyik Logikai true Annak jelzése, hogy a tanulási sebességnek csökkenni kell-e az iterációk előrehaladása során
L2 regularizációs súly >=0,0 Float 0,001 Adja meg az L2-regularizáció súlyát. A túlilledés elkerülése érdekében használjon nem nulla értéket.
Véletlenszerű szám kezdőszáma bármelyik Egész szám Adjon meg egy értéket a modell által használt véletlenszám-generátor kezdőértékének megadásához. Hagyja üresen az alapértelmezett értéket.
Ismeretlen kategorikus szintek engedélyezése bármelyik Logikai true Jelezze, hogy minden kategorikus oszlophoz létre kell-e hoznunk egy további szintet. A tesztadatkészletnek a betanítás adatkészletben nem elérhető szintjei erre a további szintre vannak leképezve.
Elfogási kifejezés befogása Bármelyik Logikai Igaz Annak jelzése, hogy hozzá kell-e adni egy további kifejezést a elfogásra

Kimenetek

Név Típus Description
Nem képezett modell ILearner interfész Nem korlátozott regressziós modell

Lásd még

Regresszió