Adatok összegzése
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Alapszintű leíró statisztikai jelentést hoz létre egy adatkészlet oszlopai számára
Kategória: Statisztikai függvények
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható az Adatok összegzése modul a Machine Learning Studio (klasszikus) modulja olyan szabványos statisztikai mértékek létrehozására, amelyek leírják a bemeneti tábla egyes oszlopát.
Az ilyen összefoglaló statisztikák akkor hasznosak, ha meg szeretné érteni a teljes adatkészlet jellemzőit. Előfordulhat például, hogy a következőt kell tudnia:
- Hány hiányzó érték található az egyes oszlopokban?
- Hány egyedi érték található egy jellemzőoszlopban?
- Mi az egyes oszlopok átlagos és szórása?
A modul kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összegző statisztikáinak sorát adja vissza.
Tipp
Lehet, hogy már tudja, hogy a Studio (klasszikus) Vizualizáció lehetőségével le tudja szerezni a statisztikák rövid listáját. Ez a vizualizáció azonban néhány legfelső számú sor alapján jön létre. Ezzel szemben az Adatok összegzése modul az összes adatsor statisztikáit kiszámítja.
Az Adatok összegzése használata
Adja hozzá az Adatok összegzése modult a kísérlethez. Ezt a modult a Statisztikai függvények kategóriában találja a Studióban (klasszikus).
Csatlakozás az adatkészletet, amelyhez jelentést szeretne létrehozni.
Ha csak néhány oszlopról szeretne jelentést készít, az Adatkészlet oszlopainak kijelölése modullal kivetítheti az oszlopok egy részkészletét a használathoz.
Nincs szükség további paraméterekre. Alapértelmezés szerint a modul a bemenetként megadott összes oszlopot elemzi, és az oszlopokban lévő értékek típusától függően releváns statisztikákat ad ki az Eredmények szakaszban leírtak szerint.
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.
Results (Eredmények)
A modul jelentése a következő statisztikákat tartalmazhatja.
A generált pontos statisztikák az oszlop adattípusától függnek. A részletekért tekintse meg a Műszaki megjegyzések szakaszt.
A feltételezés az, hogy a példányok egy populáció reprezentatív mintáját képviselik. Ha egy populációra vonatkozó statisztikákat kell kiszámítania, használja a Compute Elementary Statistics (Alapvető statisztikai számítás) modulban elérhető lehetőségeket, amelyek minta- vagy népességstatisztikákat is ki tudnak számítani.
Oszlop neve | Leírás |
---|---|
Szolgáltatás | Az oszlop neve |
Darabszám | Az összes sor száma |
Egyedi értékek száma | Egyedi értékek száma az oszlopban |
Hiányzó értékek száma | Egyedi értékek száma az oszlopban |
Min | Legalacsonyabb érték az oszlopban |
Max | A legmagasabb érték az oszlopban |
Jelent | Az összes oszlopérték átlaga |
Átlagos szórás | Oszlopértékek átlagos szórása |
1st Quartile | Érték az első kvartilisben |
Medián | Oszlop középértékének értéke |
3. Kvartile | Érték harmadik kvartilisnél |
Mód | Oszlopértékek módja |
Tartomány | A maximális és a minimális értékek közötti értékek számát képviselő egész szám |
Minta varianciája | Oszlop varianciája; lásd: Megjegyzés |
Minta szórása | Oszlop szórása; lásd: Megjegyzés |
Mintá skewness | Az oszlop elajátsodása; lásd: Megjegyzés |
Minta a 2018-i | Az oszlophoz: lásd: Megjegyzés |
P0.5 | 0,5% percentilis |
P1 | 1% percentilis |
P5 | 5%-os percentilis |
P95 | 95%-os percentilis |
P99.5 | 99,5% percentilis |
Tipp
Táblázatos adatkészletként adja ki a statisztikai jelentést, így használhatja az adatokat a BI jelentéskészítő eszközeiben, vagy a kísérlet egy másik műveletének bemeneteként használhatja az értékeket.
Példák
Az Adatok összegzése modul kísérletben való használatára vonatkozó példákért tekintse meg a következő Azure AI Gallery:
Adatkészlet letöltése az UCI-ból: CSV formátumban olvas be egy adatkészletet az UCI Machine Learning-adattárban található URL-címével, és létrehoz néhány alapvető statisztikát az adatkészletről.
Adatkészlet feldolgozása és elemzése: Betölti az adatkészletet a munkaterületre, módosítja az oszlopneveket, és hozzáadja a metaadatokat.
Tanulói teljesítmény előrejelzése: TSV formátumban tárolt adatokat olvas be az Azure Blob Storage-ból.
Technikai megjegyzések
Numerikus és logikai oszlopok esetén a középértéket, a mediánt, a módot és a szórást is ki lehet adni.
Nem numerikus oszlopok esetén a rendszer csak a Darabszám, az Egyedi értékek száma és a Hiányzó értékek száma értékeit számítja ki. Más statisztikákhoz null értéket ad vissza a rendszer.
A logikai értékeket tartalmazó oszlopok a következő szabályokkal vannak feldolgozva:
A Min értékének kiszámításakor a rendszer logikai ÉS értékeket alkalmaz.
A Max kiszámításakor logikai VAGY érték lesz alkalmazva
A Tartomány számítása során a modul először azt ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.
A lebegőpontos számításokat igénylő statisztikai adatok kiszámításakor a True (Igaz) értékeket 1,0-ként, a False (Hamis) értékeket pedig 0,0-ként kezeli.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Kimenet
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | A bemeneti adatkészlet profilja, amely leíró statisztikákat tartalmaz |
Kivételek
Kivétel | Description |
---|---|
0003-as hiba | Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres. |
0020-as hiba | Kivétel akkor fordul elő, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi. |
0021-es hiba | Kivétel akkor fordul elő, ha a modulnak átadott egyes adathalmazok sorai túl kicsiek. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listáját a hibakódok Machine Learning REST API.