Typy vizualizací

Tento článek popisuje typy vizualizací, které jsou k dispozici v poznámkových blocích Azure Databricks a v Sql Databricks, a ukazuje, jak vytvořit příklad jednotlivých typů vizualizací.

Pruhový graf

Pruhové grafy znázorňují změnu metrik v průběhu času nebo zobrazují proporcionalitu, podobně jako výsečový graf.

Poznámka:

Pruhové grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Bar chart example

Konfigurační hodnoty: Pro tuto vizualizaci pruhového grafu byly nastaveny následující hodnoty:

  • Sloupec X:
    • Sloupec datové sady: o_orderdate
    • Úroveň data: Months
  • Sloupce Y:
    • Sloupec datové sady: o_totalprice
    • Typ agregace: Sum
  • Seskupte podle (sloupec datové sady): o_orderpriority
  • Stohování: Stack
  • Název osy X (přepsání výchozí hodnoty): Order month
  • Název osy Y (přepsat výchozí hodnotu): Total price

Možnosti konfigurace: Možnosti konfigurace pruhového grafu najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci pruhového grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.orders

Spojnicový graf

Spojnicové grafy představují změnu v jedné nebo více metrikách v průběhu času.

Poznámka:

Spojnicové grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Line chart example

Konfigurační hodnoty: Pro tuto vizualizaci spojnicového grafu byly nastaveny následující hodnoty:

  • Sloupec X:
    • Sloupec datové sady: o_orderdate
    • Úroveň data: Years
  • Sloupce Y:
    • Sloupec datové sady: o_totalprice
    • Typ agregace: Average
  • Seskupte podle (sloupec datové sady): o_orderpriority
  • Název osy X (přepsání výchozí hodnoty): Order year
  • Název osy Y (přepsat výchozí hodnotu): Average price

Možnosti konfigurace: Možnosti konfigurace spojnicového grafu najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci spojnicového grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.orders

Plošný graf

Plošné grafy kombinují spojnicový a pruhový graf a ukazují, jak se číselné hodnoty jedné nebo více skupin mění v průběhu druhé proměnné, obvykle podle času. Často se používají k zobrazení změn trychtýře prodeje v čase.

Poznámka:

Plošné grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Area chart example

Konfigurační hodnoty: Pro tuto vizualizaci plošného grafu byly nastaveny následující hodnoty:

  • Sloupec X:
    • Sloupec datové sady: o_orderdate
    • Úroveň data: Years
  • Sloupce Y:
    • Sloupec datové sady: o_totalprice
    • Typ agregace: Sum
  • Seskupte podle (sloupec datové sady): o_orderpriority
  • Stohování: Stack
  • Název osy X (přepsání výchozí hodnoty): Order year
  • Název osy Y (přepsat výchozí hodnotu): Total price

Možnosti konfigurace: Možnosti konfigurace plošných grafů najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci plošného grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.orders

Výsečové grafy

Výsečové grafy zobrazují proporcionalitu mezi metrikami. Nejsou určeny pro předávání dat časových řad.

Poznámka:

Výsečové grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Pie chart example

Konfigurační hodnoty: Pro tuto vizualizaci výsečového grafu byly nastaveny následující hodnoty:

  • Sloupec X (sloupec datové sady): o_orderpriority
  • Sloupce Y:
    • Sloupec datové sady: o_totalprice
    • Typ agregace: Sum
  • Popisek (přepsání výchozí hodnoty): Total price

Možnosti konfigurace: Možnosti konfigurace výsečového grafu najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci výsečového grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.orders

Histogramové grafy

Histogram vykreslí frekvenci výskytu dané hodnoty v datové sadě. Histogram vám pomůže pochopit, jestli datová sada obsahuje hodnoty, které jsou seskupené kolem malého počtu rozsahů nebo jsou rozprostřenější. Histogram se zobrazí jako pruhový graf, ve kterém řídíte počet jedinečných pruhů (označovaných také jako intervaly).

Poznámka:

Grafy histogramů podporují back-endové agregace a poskytují podporu pro dotazy vracející více než 64 tisíc řádků dat bez zkrácení sady výsledků.

Histogram chart example

Konfigurační hodnoty: Pro tuto vizualizaci histogramu byly nastaveny následující hodnoty:

  • Sloupec X (sloupec datové sady): o_totalprice
  • Počet intervalů: 20
  • Název osy X (přepsání výchozí hodnoty): Total price

Možnosti konfigurace: Možnosti konfigurace histogramu grafu najdete v tématu možnosti konfigurace histogramu.

Dotaz SQL: Pro tuto vizualizaci grafu histogramu se k vygenerování sady dat použil následující dotaz SQL.

select * from samples.tpch.orders

Heatmap chart

Heatmapové grafy kombinují funkce pruhových grafů, skládacích a bublinových grafů, které umožňují vizualizovat číselná data pomocí barev. Běžná paleta barev pro heat mapu zobrazuje nejvyšší hodnoty pomocí teplejších barev, jako je oranžová nebo červená, a nejnižší hodnoty používající chladnější barvy, jako je modrá nebo fialová.

Představte si například následující heat mapu, která vizualizuje nejčastěji se vyskytující vzdálenosti jízdy taxíkem v každém dni a seskupuje výsledky podle dne v týdnu, vzdálenosti a celkové jízdy.

Poznámka:

Heatmapové grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Heatmap example

Konfigurační hodnoty: Pro tuto vizualizaci grafu heat mapy byly nastaveny následující hodnoty:

  • Sloupec X (sloupec datové sady): o_orderpriority
  • Sloupce Y (sloupec datové sady): o_orderstatus
  • Barevný sloupec:
    • Sloupec datové sady: o_totalprice
    • Typ agregace: Average
  • Název osy X (přepsání výchozí hodnoty): Order priority
  • Název osy Y (přepsat výchozí hodnotu): Order status
  • Barevné schéma (přepsat výchozí hodnotu): YIGnBu

Možnosti konfigurace: Možnosti konfigurace heat mapy najdete v tématu Možnosti konfigurace grafu heat mapy.

Dotaz SQL: Pro tuto vizualizaci grafu heat mapy se k vygenerování sady dat použil následující dotaz SQL.

select * from samples.tpch.orders

Bodový graf

Bodové vizualizace se běžně používají k zobrazení vztahu mezi dvěma číselnými proměnnými. Kromě toho lze třetí dimenzi zakódovat barvou, aby bylo vidět, jak se číselné proměnné liší mezi skupinami.

Poznámka:

Bodové grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc řádků dat bez zkrácení sady výsledků.

Scatter example

Konfigurační hodnoty: Pro tuto vizualizaci bodového grafu byly nastaveny následující hodnoty:

  • Sloupec X (sloupec datové sady): l_quantity
  • Sloupec Y (sloupec datové sady): l_extendedprice
  • Seskupte podle (sloupec datové sady): l_returnflag
  • Název osy X (přepsání výchozí hodnoty): Quantity
  • Název osy Y (přepsat výchozí hodnotu): Extended price

Možnosti konfigurace: Možnosti konfigurace bodového grafu najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci bodového grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.lineitem

Bublinový graf

Bublinové grafy jsou bodové grafy, kde velikost každé značky bodu odráží relevantní metriku.

Poznámka:

Bublinové grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Bubble example

Konfigurační hodnoty: Pro tuto vizualizaci bublinového grafu byly nastaveny následující hodnoty:

  • X (sloupec datové sady): l_quantity
  • Sloupce Y (sloupec datové sady): l_extendedprice
  • Seskupte podle (sloupec datové sady): l-returnflag
  • Sloupec velikost bublin (sloupec datové sady): l_tax
  • Koeficient velikosti bublin: 20
  • Název osy X (přepsání výchozí hodnoty): Quantity
  • Název osy Y (přepsat výchozí hodnotu): Extended price

Možnosti konfigurace: Možnosti konfigurace bublinového grafu najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci bublinového grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.lineitem

Krabicový graf

Vizualizace krabicového grafu zobrazuje souhrn rozdělení číselných dat, volitelně seskupených podle kategorie. Pomocí vizualizace krabicového grafu můžete rychle porovnat rozsahy hodnot napříč kategoriemi a vizualizovat umístění, rozprostřet a zkosit skupiny hodnot prostřednictvím jejich kvartilů. V každém rámečku zobrazuje tmavší čára oblast interquartilu. Další informace o interpretaci krabicových vizualizací grafů najdete v článku Box chart na Wikipedii.

Poznámka:

Krabicové grafy podporují agregaci až pro 64 000 řádků. Pokud je datová sada větší než 64 000 řádků, data budou zkrácena.

Box chart example

Konfigurační hodnoty: Pro tuto vizualizaci krabicového grafu byly nastaveny následující hodnoty:

  • Sloupec X (sloupec datové sady): l-returnflag
  • Sloupce Y (sloupec datové sady): l_extendedprice
  • Seskupte podle (sloupec datové sady): l_shipmode
  • Název osy X (přepsání výchozí hodnoty): Return flag1
  • Název osy Y (přepsat výchozí hodnotu): Extended price

Možnosti konfigurace: Možnosti konfigurace krabicového grafu najdete v tématu Možnosti konfigurace krabicového grafu.

Dotaz SQL: Pro tuto vizualizaci krabicového grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.lineitem

Kombinovaný graf

Kombinované grafy kombinují spojnicové a pruhové grafy a prezentují změny v průběhu času pomocí proporcionality.

Poznámka:

Kombinované grafy podporují back-endové agregace, které poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků.

Combo example

Konfigurační hodnoty: Pro tuto vizualizaci kombinovaného grafu byly nastaveny následující hodnoty:

  • Sloupec X (sloupec datové sady): l_shipdate
  • Sloupce Y:
    • První sloupec datové sady: l_extendedprice
    • Typ agregace: průměr
    • Druhý sloupec datové sady: l_quantity
    • Typ agregace: průměr
  • Název osy X (přepsání výchozí hodnoty): Ship date
  • Název osy Y vlevo (přepsat výchozí hodnotu): Quantity
  • Název osy Y vpravo (přepsat výchozí hodnotu): Average price
  • Série:
    • Order1 (sloupec datové sady): AVG(l_extendedprice)
    • Osa Y: vpravo
    • Typ: Čára
    • Order2 (sloupec datové sady): AVG(l_quantity)
    • Osa Y: vlevo
    • Typ: Pruh

Možnosti konfigurace: Možnosti konfigurace kombinovaného grafu najdete v tématu Možnosti konfigurace grafu.

Dotaz SQL: Pro tuto vizualizaci kombinovaného grafu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.lineitem

Analýza kohorty

Analýza kohorty zkoumá výsledky předem určených skupin označovaných jako kohorty při procházení sadou fází. Vizualizace kohorty agreguje pouze data (umožňuje měsíční agregace). Neprovádí žádné další agregace dat v sadě výsledků. Všechny ostatní agregace se provádějí v samotném dotazu.

Cohort example

Konfigurační hodnoty: Pro tuto vizualizaci kohorty byly nastaveny následující hodnoty:

  • Datum (kbelík) (sloupec databáze): cohort_month
  • Fáze (sloupec databáze): months
  • Velikost populace kbelíku (sloupec databáze): size
  • Hodnota fáze (sloupec databáze): active
  • Časový interval: monthly

Možnosti konfigurace: Možnosti konfigurace kohorty najdete v tématu Možnosti konfigurace kohorty grafu.

Dotaz SQL: Pro tuto vizualizaci kohorty se k vygenerování datové sady použil následující dotaz SQL.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Zobrazení čítače

Čítače zobrazují jednu hodnotu zřetelně s možností jejich porovnání s cílovou hodnotou. Chcete-li použít čítače, určete, který řádek dat se má zobrazit ve vizualizaci čítače pro sloupec hodnot a cílový sloupec.

Poznámka:

Čítač podporuje pouze agregaci až pro 64 000 řádků. Pokud je datová sada větší než 64 000 řádků, data budou zkrácena.

Counter example

Hodnoty konfigurace: Pro tuto vizualizaci čítačů byly nastaveny následující hodnoty:

  • Sloupec Hodnoty
    • Sloupec datové sady: avg(o_totalprice)
    • Řádek 1:
  • Cílový sloupec:
    • Sloupec datové sady: avg(o_totalprice)
    • Řádek 2:
  • Formát cílové hodnoty: Povolit

Dotaz SQL: Pro tuto vizualizaci čítačů se k vygenerování datové sady použil následující dotaz SQL.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Trychtýřová vizualizace

Vizualizace trychtýře pomáhá analyzovat změnu metriky v různých fázích. Pokud chcete použít trychtýř, zadejte sloupec step a value sloupec.

Poznámka:

Trychtýř podporuje agregaci až pro 64 000 řádků. Pokud je datová sada větší než 64 000 řádků, data budou zkrácena.

Funnel example

Konfigurační hodnoty: Pro tuto vizualizaci trychtýře byly nastaveny následující hodnoty:

  • Sloupec kroku (sloupec datové sady): o_orderstatus
  • Sloupec hodnoty (sloupec datové sady): Revenue

Dotaz SQL: Pro tuto vizualizaci trychtýře se k vygenerování datové sady použil následující dotaz SQL.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Vizualizace mapy Choropleth

V choropleth vizualizacích jsou zeměpisné lokality, jako jsou země nebo státy, barevné podle agregovaných hodnot jednotlivých klíčových sloupců. Dotaz musí vracet geografická umístění podle názvu.

Poznámka:

Vizualizace Choropleth neprovedou žádné agregace dat v sadě výsledků. Všechny agregace se musí vypočítat v samotném dotazu.

Map choropleth example

Konfigurační hodnoty: Pro tuto vizualizaci choropleth byly nastaveny následující hodnoty:

  • Mapa (sloupec datové sady): Countries
  • Geografický sloupec (sloupec datové sady): Nation
  • Zeměpisný typ: Krátký název
  • Sloupec hodnoty (sloupec datové sady): revenue
  • Režim clusteringu: ekvividantní

Možnosti konfigurace: Možnosti konfigurace choropleth najdete v tématu možnosti konfigurace choropleth.

Dotaz SQL: Pro tuto vizualizaci choropleth se k vygenerování sady dat použil následující dotaz SQL.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Vizualizace mapy značek

Ve vizualizacích značek se značka umístí na sadu souřadnic na mapě. Výsledek dotazu musí vracet páry zeměpisné šířky a délky.

Poznámka:

Značka neprovádí žádné agregace dat v sadě výsledků. Všechny agregace se musí vypočítat v samotném dotazu.

Map marker example

Tento příklad značky se vygeneruje z datové sady, která obsahuje hodnoty zeměpisné šířky i délky – které nejsou k dispozici v ukázkových datových sadách Databricks. Možnosti konfigurace choropleth najdete v tématu Možnosti konfigurace značek.

Vizualizace kontingenční tabulky

Vizualizace kontingenční tabulky agreguje záznamy z výsledku dotazu do nového tabulkového zobrazení. Podobá se PIVOT příkazům nebo GROUP BY příkazům v SQL. Vizualizaci kontingenční tabulky nakonfigurujete přetažením polí.

Poznámka:

Kontingenční tabulky podporují back-endové agregace a poskytují podporu pro dotazy vracející více než 64 tisíc dat bez zkrácení sady výsledků. Kontingenční tabulka (starší verze) ale podporuje agregaci až pro 64 000 řádků. Pokud je datová sada větší než 64 000 řádků, data budou zkrácena.

Příklad kontingenční tabulky

Konfigurační hodnoty: Pro tuto vizualizaci kontingenční tabulky byly nastaveny následující hodnoty:

  • Vybrat řádky (sloupec datové sady): l_retkurnflag
  • Vybrat sloupce (sloupec datové sady): l_shipmode
  • Buňky
    • Sloupec datové sady: l_quantity
    • Typ agregace: Součet

Dotaz SQL: Pro tuto vizualizaci kontingenční tabulky se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.lineitem

Sankey

Sankey diagram vizualizuje tok z jedné sady hodnot do jiné.

Poznámka:

Vizualizace Sankey neprovedou žádné agregace dat v sadě výsledků. Všechny agregace se musí vypočítat v samotném dotazu.

Sankey example

Dotaz SQL: Pro tuto vizualizaci Sankey se k vygenerování sady dat použil následující dotaz SQL.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Vícevrstvá sekvence

Vícevrstvý diagram pomáhá vizualizovat hierarchická data pomocí soustředných kruhů.

Poznámka:

Sekvence nedochází k agregaci dat v sadě výsledků. Všechny agregace se musí vypočítat v samotném dotazu.

Sunburst example

Dotaz SQL: Pro tuto vizualizaci sunburst se k vygenerování datové sady použil následující dotaz SQL.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Table

Vizualizace tabulky zobrazuje data ve standardní tabulce, ale s možností ručního změny pořadí, skrytí a formátování dat. Viz možnosti tabulky.

Poznámka:

Vizualizace tabulek neprovedou žádné agregace dat v rámci sady výsledků. Všechny agregace se musí vypočítat v samotném dotazu.

Možnosti konfigurace tabulek najdete v tématu Možnosti konfigurace tabulky.

Word cloud

Word cloud vizuálně představuje frekvenci výskytu slova v datech.

Poznámka:

Word Cloud podporuje agregaci pouze pro 64 000 řádků. Pokud je datová sada větší než 64 000 řádků, data budou zkrácena.

Word cloud example

Konfigurační hodnoty: Pro tuto vizualizaci wordového cloudu byly nastaveny následující hodnoty: test

  • Sloupec slova (sloupec datové sady): o_comment
  • Omezení délky slov: 5
  • Limit četností: 2

Dotaz SQL: Pro tuto vizualizaci wordového cloudu se k vygenerování datové sady použil následující dotaz SQL.

select * from samples.tpch.orders