Sumarizace dat

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vytvoří základní sestavu s popisem statistiky pro sloupce v datové sadě.

Kategorie: statistické funkce

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak používat modul shrnutí dat v aplikaci Machine Learning Studio (classic) k vytvoření sady standardních statistických měr, které popisují jednotlivé sloupce ve vstupní tabulce.

Tato souhrnná statistika je užitečná, když chcete pochopit vlastnosti kompletní datové sady. Můžete například potřebovat znát:

  • Kolik chybějících hodnot je v každém sloupci?
  • Kolik jedinečných hodnot ve sloupci funkce existuje?
  • Jaká je střední a směrodatná odchylka pro každý sloupec?

Modul vypočítá důležité skóre pro jednotlivé sloupce a vrátí řádek souhrnných statistik pro každou proměnnou (datový sloupec), který je zadaný jako vstup.

Tip

Je možné, že už víte, že můžete získat krátký seznam statistik pomocí možnosti vizualizace v nástroji Studio (Classic). Tato vizualizace je ale vytvořená na základě určitého počtu prvních řádků. Naproti tomu modul Shrnutí dat počítá své statistiky pro všechny řádky dat.

Jak používat souhrnná data

  1. Přidejte modul Shrnutí dat do experimentu. Tento modul můžete najít v kategorii statistické funkce v nástroji Studio (Classic).

  2. Připojení datovou sadu, pro kterou chcete vygenerovat sestavu.

    Pokud chcete vytvořit sestavu pouze pro některé sloupce, použijte modul Výběr sloupců v datové sadě k vytvoření podmnožiny sloupců, se kterými chcete pracovat.

  3. Nejsou vyžadovány žádné další parametry. Ve výchozím nastavení modul analyzuje všechny sloupce, které jsou zadány jako vstup, a v závislosti na typu hodnot ve sloupcích vypíše relevantní sadu statistik, jak je popsáno v části výsledky .

  4. Spusťte experiment nebo klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.

Výsledky

Sestava z modulu může zahrnovat následující statistiky.

  • Přesná statistika, která se generuje, závisí na datovém typu sloupce. Podrobnosti najdete v části technické poznámky .

  • Předpokladem je, že instance patří do reprezentativního vzorku populace. Pokud potřebujete na populaci vypočítat statistiku, použijte možnosti v modulu COMPUTE COMPUTE COMPUTE , který může vypočítat buď statistiku ukázek, nebo jejich populace.

Název sloupce Popis
Funkce Název sloupce
Počet Počet všech řádků
Počet jedinečných hodnot Počet jedinečných hodnot ve sloupci
Chybějící počet hodnot Počet jedinečných hodnot ve sloupci
Dlouhé Nejnižší hodnota ve sloupci
Počet Nejvyšší hodnota ve sloupci
Průměrná Střední hodnota všech hodnot sloupců
Střední odchylka Střední odchylka hodnot sloupců
1. kvartil Hodnota při první kvartil
Svisl Hodnota sloupce mediánu
třetí kvartil Hodnota při třetí kvartil
Režim Režim hodnot sloupců
Rozsah Celé číslo představující počet hodnot mezi maximální a minimální hodnotou
Odchylka vzorku Variance pro sloupec; Viz Poznámka
Vzorová směrodatná odchylka Směrodatná odchylka pro sloupec; Viz Poznámka
Dezkosení vzorku Zešikmení sloupce; Viz Poznámka
Ukázka špičatosti Špičatost pro sloupec; Viz Poznámka
P 0,5 0,5% percentil
P1 1% percentil
P5 5% percentil
P95 95% percentil
P 99,5 99,5% percentil

Tip

Výstup sestavy statistiky jako Tabulková datová sada, aby bylo možné použít data v nástrojích pro vytváření sestav BI, nebo použít hodnoty jako vstup k jiné operaci v experimentu.

Příklady

Příklady použití modulu sumarizace data v experimentu najdete v Azure AI Gallery:

Technické poznámky

  • U číselných a logických sloupců můžete vyhodnotit průměrnou odchylku, medián, režim a směrodatnou odchylku.

  • Pro nečíselné sloupce jsou vypočítány pouze hodnoty pro počet, jedinečný počethodnot a chybějící počet hodnot . Pro jiné statistiky se vrátí hodnota null.

  • Sloupce, které obsahují logické hodnoty, jsou zpracovávány pomocí těchto pravidel:

    • Při výpočtu hodnoty Min se použije logický operátor AND.

    • Při výpočtu hodnoty Max se použije logický operátor OR.

    • Při výpočtu rozsahu modul nejprve zkontroluje, jestli se počet jedinečných hodnot ve sloupci rovná 2.

    • Při výpočtu jakékoli statistiky, která vyžaduje výpočty s plovoucí desetinnou čárkou, se hodnoty True budou považovat za 1,0 a hodnoty False se budou považovat za 0,0.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Profil vstupní datové sady, který obsahuje popisné statistiky

Výjimky

Výjimka Description
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.
Chyba 0020 K výjimce dochází v případě, že je počet sloupců v některých datových sadách předaný modulu příliš malý.
Chyba 0021 K výjimce dochází v případě, že je počet řádků v některých datových sadách předaný modulu příliš malý.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Statistické funkce
Výpočet základních statistik