Számítási lineáris korreláció

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learning való áthelyezéséről olvashat.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Kiszámítja az adathalmaz oszlopértékei közötti lineáris korrelációt

Kategória: Statisztikai függvények

Megjegyzés

Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a compute linear correlation modul a Machine Learning Studio (klasszikus) alkalmazásban a Pearson korrelációs együtthatóinak kiszámítására a bemeneti adathalmaz minden lehetséges változópárja esetében.

A Pearson korrelációs együtthatója, más néven Pearson R-tesztje egy statisztikai érték, amely két változó lineáris kapcsolatát méri. Az együttható értékek vizsgálatával következtethet a két változó közötti kapcsolat erősségére, valamint arra, hogy azok pozitívan korreláltak vagy negatívan korreláltak-e.

Lineáris korreláció konfigurálása

A korrelációs együttható kiszámítása előtt van néhány előfeltétel, például az adatok tisztítása és annak ellenőrzése, hogy a változók közötti kapcsolat megfelelő-e ehhez a modulhoz. A hiányzó értékeket is el kell távolítania vagy impute-nak kell lennie.

A modul használatakor a következő korlátozások érvényesek:

A Számítási lineáris korreláció modul csak numerikus értékeket képes feldolgozni. Minden más típusú érték, beleértve a hiányzó értékeket, a nem numerikus értékeket és a kategorikus értékeket, naN-ként lesz kezelve.
A Pearson korrelációja az adathalmaz minden olyan numerikus oszlopára ki van számítva, amelyet bemenetként adnak át. Mindenképpen zárja ki az elemzéshez megfelelő oszlopokat.
A számítási lineáris korreláció nem használható hiányzó értékekkel rendelkező adatokkal.

1. lépés: A linearitás meghatározása

Ha a tesztelt oszlopoknak nem kell valamilyen lineáris kapcsolattal rendelkezniük, nincs értelme létrehozni ezt az együtthatót. Ezért érdemes először tesztelni az oszlopokat, hogy kiderüljön, a megfelelő típusú adatokkal és általában a megfelelő eloszlással rendelkeznek-e.

Többféleképpen is meghatározhatja, hogy az oszlopok közötti kapcsolat nagyjából lineáris-e:

Hozza létre a változók pontdiagramját a Studióban (klasszikus) az adathalmaz Vizualizáció lehetőségével. Kattintson az egyik numerikus változóoszlopra, bontsa ki a Vizualizációk elemet, és kattintson az Összehasonlítás gombra. Válasszon egy másik változót, és a pontdiagram automatikusan létrejön. Ha más típusú diagram jön létre, az azt jelenti, hogy legalább egy oszlopnak más (nem numerikus) adattípusa van.
Számítsa ki a regressziós egyenletet a két változóhoz. Ezt számos R-csomag támogatja, amelyeket betölthet és használhat az R-szkript végrehajtása modulban.

2. lépés: Adatok tisztítása

El kell távolítania vagy ki kell töltenie a hiányzó értékeket, el kell távolítania vagy ki kell vágnia a kiugró értékeket, és gondoskodnia kell arról, hogy az oszlopok megfelelő adattípussal rendelkezzenek.

A modul használata előtt ellenőrizze a helyőrzőket, és cserélje le az értéket más megfelelő értékekre. Ha az adathalmaz forrásból való betöltésekor hiányzik értékek miatt naN-eket szúrtak be, az hibát okozhat. A helyőrző értékek, például a 999-1 hibás eredmények is okozhatnak.

Az adatok előkészítéséhez az alábbi modulokat használhatja:

A metaadatok szerkesztésével módosíthatja az oszlopok adattípusát. Győződjön meg arról, hogy az elemezni kívánt oszlopok funkcióoszlopként vannak megjelölve.

3. lépés: Az együttható létrehozása

Adja hozzá a számítási lineáris korrelációs modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a (klasszikus) Machine Learning Studióban.
Adja hozzá az elemezni kívánt adathalmazt.
A szükségtelen oszlopok eltávolításához javasoljuk, hogy adjon hozzá egy Oszlopválasztás az Adathalmaz modulban az adathalmaz és a Számítási lineáris korreláció modul között. Konfigurálja az Adathalmaz oszlopainak kijelölése modult , hogy csak azt a két numerikus oszlopot kapja meg, amelyek együtthatóit ki szeretné számítani.

Ellenkező esetben a Számítási lineáris korreláció modul számos NaN-oszlopot generálhat.
Ehhez a modulhoz nincsenek beállítva paraméterek. Ez azonban sikertelen lesz, ha a bemenetként átadott oszlopok nem felelnek meg a követelményeknek.
Futtassa a kísérletet.

Két oszlop eredményei

Két jellemzőoszlop alapján a Compute Linear Correlation modul a skaláris Pearson-szorzat (minta) korrelációs együtthatóját adja vissza. A Pearson korrelációs együttható (amelyet gyakran r-nek neveznek) +1 és -1 közötti értéktartományok.

+1 erős pozitív lineáris kapcsolatot jelez
-1 erős negatív lineáris korrelációt jelez
0 A nem jelöl lineáris kapcsolatot a két változó között.

Az együtthatók értelmezése nagymértékben függ a modellező problémától és a tanulmányozott változóktól. Ezért fontos megérteni az adatok kontextusát a Pearson korrelációs együtthatójának jelentésekor és értelmezésekor.

Ha biztos abban, hogy a változók nem kapcsolódnak egymáshoz, és mégis a Pearson korrelációs együtthatója erősen pozitív (r.5 > vagy újabb), akkor érdemes további vizsgálatokat is megvizsgálni.
Ha lineáris korrelációt használ két olyan változón, amelyekről tudja, hogy tökéletesen korrelálnak, és az együttható értékek nem a várt értékek, az problémát jelezhet az adatokban.

Kétnél több oszlop eredményei

Egy mátrix (azaz több mint két jellemzőoszlop) alapján a Compute Linear Correlation modul a Pearson-termék pillanatnyi korrelációit adja vissza az egyes funkcióoszloppárok között.

Ezért az eredmény egy n x n tábla, amely az n oszlopok egyes kombinációinak együtthatóit tartalmazza. Ha bármelyik oszlop nem felel meg a feltételeknek, a naN ("nem szám" érték) lesz visszaadva.

Tegyük fel például, hogy a két numerikus oszlopot wheel-base és curb-weight egy kategorikus oszlopot make adta meg (az Automobile price adatkészletből). Az eredmény egy 3x3-ból álló együtthatók táblázata a bemeneti oszlopok összes lehetséges kombinációjához:

`make`	`wheel-base`	`curb-weight`
Nan	Nan	Nan
Nan	1	0.776386
Nan	0.776386	1

Ebben a táblázatban a sorok úgy vannak értelmezve, wheel-basehogy az egyes változókatmake, és curb-weightebben a sorrendben jelöljék.

Az önmagával való korreláció wheel-base r értéke 1.
A korreláció wheel-basecurb-weight r értéke 0,776386.
Az oszlopot make tartalmazó összes korreláció NaN-t eredményez, beleértve a önmagával való korrelációt is, mivel make ez egy sztringfunkció.

Javasoljuk, hogy távolítsa el a nem numerikus oszlopokat, hogy elkerülje a sok értelmetlen értékkel rendelkező összetett táblákat.

Példák

A modul gépi tanulási kísérletekben való felhasználásának megismeréséhez tekintse meg az Azure AI-katalógust:

Adatfeldolgozás és elemzés: Ez a minta több módszert mutat be az adatok módosítására. A számítási lineáris korreláció a lehetséges funkcióoszlopok azonosítására szolgál.

Technikai megjegyzések

Ez a szakasz a megvalósítás részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Megvalósítás részletei

Ha a bemenetként átadott oszlop skaláris értékeket tartalmaz, a bemeneti tömbök (x és y) vektorként lesznek kezelve, és a Pearson-szorzat pillanatnyi korrelációja az alábbiak szerint lesz kiszámítva:

linear correlation formula

Ebben a képletben minden tömb n elemet tartalmaz, az x és az y minta középeszköze pedig μx és μy.

Mátrix esetén az adatok mátrixa (X) bemenet, amelyben minden oszlop egy értékvektort jelöl. Az adatmátrixnak n-by-m értéknek kell lennie. A kimenet az M-by-m mátrix, az R az

formula for linear correlation

Ebben a képletben a μx az xi oszlop középértékét jelöli. Az I,j elemek mindig 1-nek hatnak, mivel egy vektor korrelációját képviselik önmagával.

Várt bemenetek

Név	Típus	Description
Adathalmaz	Adattábla	Bemeneti adatkészlet

Kimenetek

Név	Típus	Description
Eredmények adatkészlete	Adattábla	Korrelációs mátrix

Kivételek

Kivétel	Description
0003-ás hiba	Kivétel történik, ha egy vagy több bemenet null értékű vagy üres.
0020-ás hiba	Kivétel történik, ha a modulnak átadott adathalmazok némelyikében túl kicsi az oszlopok száma.
0021-s hiba	Kivétel történik, ha a modulnak átadott egyes adathalmazok sorainak száma túl kicsi.

A Studio (klasszikus) moduljaival kapcsolatos hibák listáját Machine Learning hibakódok között találja.

Az API-kivételek listáját Machine Learning REST API-hibakódok között találja.

Lásd még

Statisztikai függvények
A-Z modullista