Számítási elemi statisztika

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Kiszámítja a megadott összefoglaló statisztikákat a kiválasztott adatkészlet-oszlopokhoz

Kategória: Statisztikai függvények

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Compute Elementary Statistics modul a Machine Learning Studióban (klasszikus) egy összegző jelentés létrehozásához az adatkészlethez, amely felsorolja a kulcsfontosságú statisztikákat, például a átlagot, a szórást és az értékek tartományát az egyes kiválasztott oszlopokhoz.

Ez a jelentés a központi trend, az eloszlás és az adatok alakjának elemzéséhez hasznos.

A compute elemi statisztikáinak konfigurálása

  1. Adja hozzá a Compute Elementary Statistics modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a Machine Learning Studio (klasszikus) kategóriában.

  2. Csatlakozás az elemezni kívánt oszlopokat tartalmazó adatkészletet.

  3. Kattintson a Metódus legördülő listára, és válassza ki az egyes oszlopokhoz kiszámítani kívánt érték típusát.

    Az elérhető statisztikák teljes listáját és azok alatta álló adatokat a Támogatott statisztikák szakaszban láthatja.

  4. Alapértelmezés szerint a Metódus legördülő listában kiválasztott érték az adatkészlet összes numerikus adattípussal bírt oszlopára lesz kiszámítva. Ha bármely oszlop olyan értékekkel rendelkezik, amelyek megakadályozzák az érték kiszámítását, a rendszer hibát jelez, és a jelentés nem jön létre.

    A hiba elkerülése érdekében az oszlopválasztóval válassza ki azokat a numerikus oszlopokat, amelyekhez jelentést szeretne. Minden választott oszlopnak numerikusnak kell lennie.

  5. Futtassa a kísérletet.

Results (Eredmények)

A létrehozott jelentés tartalmazza az egyes oszlopok nevét és a kiszámított statisztikát. Az alábbi táblázat például az mpg oszlophoz létrehozott statisztikákat mutatja.

DeviationSquared (mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Tipp

A Compute elementary Statistics minden futtatásakor csak egyetlen összefoglaló statisztikát hozhat létre az egyes kijelölt oszlopokhoz. Az Oszlopok hozzáadása vagy a Sorok hozzáadása modullal azonban egyetlen táblában egyesítheti az eredményeket, ahogyan az előző példában is látható.

Támogatott statisztikák

Ez a modul a következő szabványos leíró statisztikákat támogatja.

Szórás négyzetre

Kiszámítja az oszlopértékek négyzetes eltérését. Más néven a négyzetek összege.

A négyzetes eltérés azt méri, hogy milyen távol vannak az értékek a átlagtól.

Geometriai átlagos

Kiszámítja az oszlopértékek geometriai átlagát.

A geometriai középpont a számok halmazának központi trendje mérésére használható. Az aritmetikai középértékhez képest kisebb a szélsőséges értékek száma. Különböző skálán végzett mérések összehasonlítására is használható, mivel hatékonyan normalizálja az összehasonlított számok skáláit. A geometriai átlagokkal néha meg lehet becsülni az összetett éves növekedési rátákat.

A függvény egyenértékű függvénye Excel GEOMEAN.

Harmonikus átlagos

Kiszámítja az oszlopértékek harmonikus átlagát.

A harmonikus átlag kiszámításához az összes érték a kölcsönös értékekké lesz konvertálva, majd ezek átlagát veszik fel. A harmonikus átlagos a reciproka. Ha az oszlop értékei pozitívak, a nagyobb számok kisebb súlyozást tartalmaznak, mint a kisebbek.

A harmonikus átlagos mindig kisebb, mint a geometriai átlagos, amely mindig kisebb, mint az aritmetikai átlagos. A harmonikus átlag olyan változók átlagolására használható, amelyek díjszabást képviselnek, például a sebességet (az idő alapjáni távolságot) vagy a negyedévenkénti értékesítéseket.

A függvény egyenértékű függvénye Excel HARMEAN.

Interquartile distance

Kiszámítja az oszlopértékek első és utolsó kvartilise közötti különbséget. Más néven a kvartilistartomány. Ha a kvartilis két szám közé esik, a kvartilis értéke a vágás mindkét oldalán található két érték átlaga.

A kvartilis érték az értékek oszlopát négy csoportba osztja egyenlő számú értékkel. Így az értékek negyede kisebb vagy egyenlő, mint a 25. percentilis. Az értékek három negyedéve kisebb vagy egyenlő, mint a 75. percentilis. A kvartilistartomány áttekintését áttekintve áttekintheti, hogy milyen széles körben vannak elterjesztve az adatértékek.

K-a-a-középső pillanat

Kiszámítja az oszlopértékek K-a-a-középső pillanatát.

A K-edik központi pillanat kiszámításakor az Order (Sorrend) értéket is meg kell adnia, ami a k értéket jelenti. A k értéke 0 és bármely megengedett egész szám között lehet, bár a magasabb sorrendű értékek általában nem értelmezhetők.

A leíró statisztikákban általában a pillanat egy olyan mérték, amely egy pontkészlet alakját írja le. A közép középre vonatkozó pillanatokat általában azért használják, mert jobb információkat nyújtanak az eloszlás alakjáról. A 2-es sorrend általában a varianciát jelöli; A 4-es sorrendet használjuk a -hez. Az első rendelési pillanat a mean. Így az összes pillanat gyűjteménye egyedileg írja le az oszlop értékeinek eloszlását.

Max

Megkeresi az oszlopban található maximális értéket.

Középérték

Kiszámítja az oszlopértékek számtani átlagát.

A függvény egyenértékű függvénye Excel AVERAGE.

Átlagos szórás

Kiszámítja az oszlopértékek abszolút szórásának átlagát.

Ez azt jelenti, hogy a rendszer kiszámítja az oszlopban lévő átlagos értéket, és az oszlopban lévő értékek eltérését. Az egyes szórási értékek abszolút értékeinek átlaga az átlageltérés.

Ez a statisztikai adat azt mutatja meg, hogy milyen elterjesztve van a számok oszlopának átlagos szórása.

Középérték

Az oszlopértékek mediánját adja vissza.

A medián egy számoszlop közepén található szám. Ha az oszlopban egyenletes számú szám található, a medián a középső két szám átlaga.

A medián a középt és a módot is a központi trendet ító három statisztikai adat egyike. Ha az értékek szimmetrikusak a átlag körül, a három szám körülbelül azonos lesz. A medián azonban robusztusabb a ki- és kierőlet, mint a közép.

Medián-eltérés

Kiszámítja az oszlop medián-eltérését .

Ez azt jelenti, hogy a rendszer kiszámítja az oszlop mediánját, és az oszlopban lévő egyes értékek eltérését. A rendszer az egyes eltérések értékeinek abszolút értékeinek mediánját veszik.

A medián abszolút szórás más néven MAD, és egy számminta változékonyságának leírására használatos. A MAD megmutatja, hogyan mekkora az elterjesztett érték a számok oszlopának átlagos értékében.

Min

Az oszlopértékek minimális értékét adja vissza.

Mód

Megkeresi az oszlop összes üzemmódját.

A mód az az érték, amely a legtöbbet jelenik meg az oszlopban. Ha egyszerre több érték is megjelenik, az oszlopnak több módja is lehet.

A központi trend mértékeként a mód robusztusabb a ki- és kieső adatokra, mint a középérték, és névleges adatokkal is használható.

Sokaság szórása

Kiszámítja az oszlopértékek sokasági szórását.

Ez a statisztika feltételezi, hogy az oszlopértékek a teljes sokaságot képviselik. Ha az adatok csak mintaadatok a sokaságból, a szórást a Minta szórása alapján kell kiszámítani. Nagy adatkészletek esetén azonban a két statisztika körülbelül egyenlő értékeket ad vissza.

A szórás az oszlop varianciájának négyzetgyökeként van kiszámítva. Ez a statisztika az oszlop változékonyságának mennyiségét rögzíti.

Populáció varianciája

Kiszámítja az oszlopértékek sokasági varianciát.

A variancia azt méri, hogy egy számkészlet mekkora része különbözik. Ha a variancia nulla, akkor minden szám azonos.

Ez a statisztika feltételezi, hogy az értékek oszlopa a teljes sokaságot jelöli. Ha az adatok csak az értékek egy mintáját tartalmazják, akkor a minta varianciáját használva számítsa ki a varianciát.

Ennek megfelelő Excel függvény a VAR.P.

Termék

Kiszámítja az oszlop elemeinek termékét.

A termék lekért értékében az oszlopban lévő összes számot meg kell kapnia. Az eredmény önmagában nem hasznos leíró statisztikai adatként, de a függvény számos más számításhoz is hasznos.

Tartomány

Kiszámítja az oszlopértékek tartományát. A tartomány a maximális érték és a minimális érték között van definiálva

Minta

Kiszámítja az oszlopértékek mintáját.

A mező az értékek eloszlásának alakját írja le – azaz azt, hogy az értékek eloszlása mennyire csúcsos vagy lapos– a normál eloszláshoz képest.

  • A normál eloszlás 0.

  • A magas hőmérsékleti értékek azt jelzik, hogy a valószínűségi tömeg egy csúcs körül vagy az eloszlás farok körül van koncentrálva.

  • A negatív időértékek viszonylag egyenlott eloszlást jeleznek.

Mintááslottság

Kiszámítja az oszlopértékek mintául vonatkozó elenyőségét.

Az eltolódás azt írja le, hogy az értékek nagy része a középen, balra vagy jobbra tolva van-e. Két eloszlásnak lehet azonos a szórása és a szórása, de nagyon másképpen formázható. Az alakzatot aewness (eltintás) és a torometria (torkosság) karakterrel lehet karakterizálni.

  • A negatív eltűnés azt jelenti, hogy az eloszlás balra van eltolt.

  • A 0 a normál eloszlást jelöli.

  • A pozitív eltoltság azt jelenti, hogy az eloszlás jobbra van eltolt.

Minta szórása

Kiszámítja az oszlopértékek szórásmintáját .

A minta szórása azt méri, hogy az oszlop értékei hogyan vannak elterjesztve a átlagtól. Ez a készletben található adatok értékei és a középérték közötti átlagos távolságot jelöli.

Ez a statisztika feltételezi, hogy az oszlopértékek a sokaság egy mintáját képviselik. Ha az adatok a teljes sokaságot jelölik, a szórást a Population szórása alapján kell kiszámítani.

Ennek megfelelő Excel st függvény. DEV.S.

Minta varianciája

Kiszámítja a minta varianciáját az oszlopértékek esetében.

Ez a metódus feltételezi, hogy az oszlopértékek a sokaság egy mintáját képviselik. Ha az oszlop a teljes sokaságot tartalmazza, akkor a Population standard varianciát kell használnia.

Az egyenértékű függvény Excel VAR.S.

Sum

Kiszámítja az oszlopértékek összegét.

Példák

A dokumentum következő Azure AI Gallery bemutatják, hogyan hozhat létre egy teljes adatkészlet leíró statisztikáit tartalmazó összegző jelentést. Az összefoglaló jelentés csak általános statisztikákat tartalmaz; Azonban mentheti adatkészletként, majd részletesebb statisztikákat adhat hozzá a Compute Elementary Statistics (Alapvető statisztikai adatok kiszámítása) lehetőséggel.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Tipp

A Compute Elementary Statistics modul használata esetén a következő feltételeknek kell teljesülnie :

  • A kiválasztott statisztikai adat kiszámításához elegendő számú adatpontnak (sornak) kell lennie. A szórásminta kiszámításához például legalább két adatpont szükséges; Ellenkező esetben az eredmény NaN lesz.
  • A bemeneti oszlopoknak numerikusnak vagy logikainak kell lennie.

Alapértelmezés szerint az összes numerikus oszlop ki van jelölve. Ha azonban valamelyik numerikus oszlop kategorikusként van megjelölve, a következő hibaüzenet jelenhet meg: "0056-os hiba: <> Az oszlopnévvel ellátott oszlop nem engedélyezett kategóriába tartozik." A hiba kijavítása érdekében adja hozzá a Metaadatok szerkesztése modul egy példányát, válassza ki a problémás oszlopot, és használja a Kategorikus eltávolítása lehetőséget.

Megvalósítás részletei

A logikai oszlopok a következőképpen vannak feldolgozva:

  • A MIN logikai AND értékként van kiszámítva.

  • A MAX logikai OR értékként van kiszámítva.

  • A RANGE azt ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.

  • A hiányzó értékeket a rendszer figyelmen kívül hagyja.

  • Lebegőpontos számítást igénylő statisztikák esetén igaz = 1,0 és hamis = 0,0

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Bemeneti adatkészlet

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Metódus Lista Elemi statisztikai módszer Kiválaszt egy statisztikai módszert a számításokhoz. Az értékek listájáért lásd a Használat szakaszt.
Oszlopkészlet bármelyik ColumnSelection (Oszlopválasztás) NumericAll Kiválasztja azokat az oszlopokat, amelyekhez ki kell számítani a statisztikai adatokat
Sorrend >=1 Egész szám 3 Megadja a központi pillanatrend értékét (csak a k. középső pillanathoz használatos)

Kimenet

Név Típus Description
Eredményadatkészlet Adattábla Kimeneti adatkészlet

Kivételek

Kivétel Description
0017-es hiba Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.

Lásd még

Statisztikai függvények
Elemi
Adatok összegzése
A–Z modullista