Adatok összegzése

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Alapszintű leíró statisztikai jelentést hoz létre egy adatkészlet oszlopai számára

Kategória: Statisztikai függvények

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható az Adatok összegzése modul a Machine Learning Studio (klasszikus) modulja olyan szabványos statisztikai mértékek létrehozására, amelyek leírják a bemeneti tábla egyes oszlopát.

Az ilyen összefoglaló statisztikák akkor hasznosak, ha meg szeretné érteni a teljes adatkészlet jellemzőit. Előfordulhat például, hogy a következőt kell tudnia:

Hány hiányzó érték található az egyes oszlopokban?
Hány egyedi érték található egy jellemzőoszlopban?
Mi az egyes oszlopok átlagos és szórása?

A modul kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összegző statisztikáinak sorát adja vissza.

Tipp

Lehet, hogy már tudja, hogy a Studio (klasszikus) Vizualizáció lehetőségével le tudja szerezni a statisztikák rövid listáját. Ez a vizualizáció azonban néhány legfelső számú sor alapján jön létre. Ezzel szemben az Adatok összegzése modul az összes adatsor statisztikáit kiszámítja.

Az Adatok összegzése használata

Adja hozzá az Adatok összegzése modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a Studióban (klasszikus).
Csatlakozás az adatkészletet, amelyhez jelentést szeretne létrehozni.

Ha csak néhány oszlopról szeretne jelentést készít, az Adatkészlet oszlopainak kijelölése modullal kivetítheti az oszlopok egy részkészletét a használathoz.
Nincs szükség további paraméterekre. Alapértelmezés szerint a modul a bemenetként megadott összes oszlopot elemzi, és az oszlopokban lévő értékek típusától függően releváns statisztikákat ad ki az Eredmények szakaszban leírtak szerint.
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.

Results (Eredmények)

A modul jelentése a következő statisztikákat tartalmazhatja.

A generált pontos statisztikák az oszlop adattípusától függnek. A részletekért tekintse meg a Műszaki megjegyzések szakaszt.
A feltételezés az, hogy a példányok egy populáció reprezentatív mintáját képviselik. Ha egy populációra vonatkozó statisztikákat kell kiszámítania, használja a Compute Elementary Statistics (Alapvető statisztikai számítás) modulban elérhető lehetőségeket, amelyek minta- vagy népességstatisztikákat is ki tudnak számítani.

Oszlop neve	Leírás
Szolgáltatás	Az oszlop neve
Darabszám	Az összes sor száma
Egyedi értékek száma	Egyedi értékek száma az oszlopban
Hiányzó értékek száma	Egyedi értékek száma az oszlopban
Min	Legalacsonyabb érték az oszlopban
Max	A legmagasabb érték az oszlopban
Jelent	Az összes oszlopérték átlaga
Átlagos szórás	Oszlopértékek átlagos szórása
1st Quartile	Érték az első kvartilisben
Medián	Oszlop középértékének értéke
3. Kvartile	Érték harmadik kvartilisnél
Mód	Oszlopértékek módja
Tartomány	A maximális és a minimális értékek közötti értékek számát képviselő egész szám
Minta varianciája	Oszlop varianciája; lásd: Megjegyzés
Minta szórása	Oszlop szórása; lásd: Megjegyzés
Mintá skewness	Az oszlop elajátsodása; lásd: Megjegyzés
Minta a 2018-i	Az oszlophoz: lásd: Megjegyzés
P0.5	0,5% percentilis
P1	1% percentilis
P5	5%-os percentilis
P95	95%-os percentilis
P99.5	99,5% percentilis

Tipp

Táblázatos adatkészletként adja ki a statisztikai jelentést, így használhatja az adatokat a BI jelentéskészítő eszközeiben, vagy a kísérlet egy másik műveletének bemeneteként használhatja az értékeket.

Példák

Az Adatok összegzése modul kísérletben való használatára vonatkozó példákért tekintse meg a következő Azure AI Gallery:

Adatkészlet letöltése az UCI-ból: CSV formátumban olvas be egy adatkészletet az UCI Machine Learning-adattárban található URL-címével, és létrehoz néhány alapvető statisztikát az adatkészletről.
Adatkészlet feldolgozása és elemzése: Betölti az adatkészletet a munkaterületre, módosítja az oszlopneveket, és hozzáadja a metaadatokat.
Tanulói teljesítmény előrejelzése: TSV formátumban tárolt adatokat olvas be az Azure Blob Storage-ból.

Technikai megjegyzések

Numerikus és logikai oszlopok esetén a középértéket, a mediánt, a módot és a szórást is ki lehet adni.
Nem numerikus oszlopok esetén a rendszer csak a Darabszám, az Egyedi értékek száma és a Hiányzó értékek száma értékeit számítja ki. Más statisztikákhoz null értéket ad vissza a rendszer.
A logikai értékeket tartalmazó oszlopok a következő szabályokkal vannak feldolgozva:
- A Min értékének kiszámításakor a rendszer logikai ÉS értékeket alkalmaz.
- A Max kiszámításakor logikai VAGY érték lesz alkalmazva
- A Tartomány számítása során a modul először azt ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.
- A lebegőpontos számításokat igénylő statisztikai adatok kiszámításakor a True (Igaz) értékeket 1,0-ként, a False (Hamis) értékeket pedig 0,0-ként kezeli.

Várt bemenetek

Név	Típus	Description
Adathalmaz	Adattábla	Bemeneti adatkészlet

Kimenet

Név	Típus	Description
Eredményadatkészlet	Adattábla	A bemeneti adatkészlet profilja, amely leíró statisztikákat tartalmaz

Kivételek

Kivétel	Description
0003-as hiba	Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0020-as hiba	Kivétel akkor fordul elő, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi.
0021-es hiba	Kivétel akkor fordul elő, ha a modulnak átadott egyes adathalmazok sorai túl kicsiek.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Statisztikai függvények
Elemi statisztika kiszámítása