Adatok összegzése

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Alapszintű leíró statisztikai jelentést hoz létre egy adatkészlet oszlopai számára

Kategória: Statisztikai függvények

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható az Adatok összegzése modul a Machine Learning Studio (klasszikus) modulja olyan szabványos statisztikai mértékek létrehozására, amelyek leírják a bemeneti tábla egyes oszlopát.

Az ilyen összefoglaló statisztikák akkor hasznosak, ha meg szeretné érteni a teljes adatkészlet jellemzőit. Előfordulhat például, hogy a következőt kell tudnia:

  • Hány hiányzó érték található az egyes oszlopokban?
  • Hány egyedi érték található egy jellemzőoszlopban?
  • Mi az egyes oszlopok átlagos és szórása?

A modul kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összegző statisztikáinak sorát adja vissza.

Tipp

Lehet, hogy már tudja, hogy a Studio (klasszikus) Vizualizáció lehetőségével le tudja szerezni a statisztikák rövid listáját. Ez a vizualizáció azonban néhány legfelső számú sor alapján jön létre. Ezzel szemben az Adatok összegzése modul az összes adatsor statisztikáit kiszámítja.

Az Adatok összegzése használata

  1. Adja hozzá az Adatok összegzése modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a Studióban (klasszikus).

  2. Csatlakozás az adatkészletet, amelyhez jelentést szeretne létrehozni.

    Ha csak néhány oszlopról szeretne jelentést készít, az Adatkészlet oszlopainak kijelölése modullal kivetítheti az oszlopok egy részkészletét a használathoz.

  3. Nincs szükség további paraméterekre. Alapértelmezés szerint a modul a bemenetként megadott összes oszlopot elemzi, és az oszlopokban lévő értékek típusától függően releváns statisztikákat ad ki az Eredmények szakaszban leírtak szerint.

  4. Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.

Results (Eredmények)

A modul jelentése a következő statisztikákat tartalmazhatja.

  • A generált pontos statisztikák az oszlop adattípusától függnek. A részletekért tekintse meg a Műszaki megjegyzések szakaszt.

  • A feltételezés az, hogy a példányok egy populáció reprezentatív mintáját képviselik. Ha egy populációra vonatkozó statisztikákat kell kiszámítania, használja a Compute Elementary Statistics (Alapvető statisztikai számítás) modulban elérhető lehetőségeket, amelyek minta- vagy népességstatisztikákat is ki tudnak számítani.

Oszlop neve Leírás
Szolgáltatás Az oszlop neve
Darabszám Az összes sor száma
Egyedi értékek száma Egyedi értékek száma az oszlopban
Hiányzó értékek száma Egyedi értékek száma az oszlopban
Min Legalacsonyabb érték az oszlopban
Max A legmagasabb érték az oszlopban
Jelent Az összes oszlopérték átlaga
Átlagos szórás Oszlopértékek átlagos szórása
1st Quartile Érték az első kvartilisben
Medián Oszlop középértékének értéke
3. Kvartile Érték harmadik kvartilisnél
Mód Oszlopértékek módja
Tartomány A maximális és a minimális értékek közötti értékek számát képviselő egész szám
Minta varianciája Oszlop varianciája; lásd: Megjegyzés
Minta szórása Oszlop szórása; lásd: Megjegyzés
Mintá skewness Az oszlop elajátsodása; lásd: Megjegyzés
Minta a 2018-i Az oszlophoz: lásd: Megjegyzés
P0.5 0,5% percentilis
P1 1% percentilis
P5 5%-os percentilis
P95 95%-os percentilis
P99.5 99,5% percentilis

Tipp

Táblázatos adatkészletként adja ki a statisztikai jelentést, így használhatja az adatokat a BI jelentéskészítő eszközeiben, vagy a kísérlet egy másik műveletének bemeneteként használhatja az értékeket.

Példák

Az Adatok összegzése modul kísérletben való használatára vonatkozó példákért tekintse meg a következő Azure AI Gallery:

Technikai megjegyzések

  • Numerikus és logikai oszlopok esetén a középértéket, a mediánt, a módot és a szórást is ki lehet adni.

  • Nem numerikus oszlopok esetén a rendszer csak a Darabszám, az Egyedi értékek száma és a Hiányzó értékek száma értékeit számítja ki. Más statisztikákhoz null értéket ad vissza a rendszer.

  • A logikai értékeket tartalmazó oszlopok a következő szabályokkal vannak feldolgozva:

    • A Min értékének kiszámításakor a rendszer logikai ÉS értékeket alkalmaz.

    • A Max kiszámításakor logikai VAGY érték lesz alkalmazva

    • A Tartomány számítása során a modul először azt ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.

    • A lebegőpontos számításokat igénylő statisztikai adatok kiszámításakor a True (Igaz) értékeket 1,0-ként, a False (Hamis) értékeket pedig 0,0-ként kezeli.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Bemeneti adatkészlet

Kimenet

Név Típus Description
Eredményadatkészlet Adattábla A bemeneti adatkészlet profilja, amely leíró statisztikákat tartalmaz

Kivételek

Kivétel Description
0003-as hiba Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0020-as hiba Kivétel akkor fordul elő, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi.
0021-es hiba Kivétel akkor fordul elő, ha a modulnak átadott egyes adathalmazok sorai túl kicsiek.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Statisztikai függvények
Elemi statisztika kiszámítása