Typy wizualizacji

W tym artykule opisano typy wizualizacji dostępnych do użycia w notesach usługi Azure Databricks i w usłudze Databricks SQL oraz pokazano, jak utworzyć przykład każdego typu wizualizacji.

Wykres słupkowy

Wykresy słupkowe reprezentują zmianę metryk w czasie lub pokazujące proporcjonalność, podobnie jak wykres kołowy.

Uwaga

Wykresy słupkowe obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Bar chart example

Wartości konfiguracji: dla tej wizualizacji wykresu słupkowego ustawiono następujące wartości:

  • Kolumna X:
    • Kolumna zestawu danych: o_orderdate
    • Poziom daty: Months
  • Kolumny Y:
    • Kolumna zestawu danych: o_totalprice
    • Typ agregacji: Sum
  • Grupuj według (kolumna zestawu danych): o_orderpriority
  • Układania: Stack
  • Nazwa osi X (zastąpij wartość domyślną): Order month
  • Nazwa osi Y (zastąpij wartość domyślną): Total price

Opcje konfiguracji: aby uzyskać opcje konfiguracji wykresu słupkowego, zobacz opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu słupkowego do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.orders

Wykres liniowy

Wykresy liniowe przedstawiają zmianę w co najmniej jednej metryce w czasie.

Uwaga

Wykresy liniowe obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Line chart example

Wartości konfiguracji: dla tej wizualizacji wykresu liniowego ustawiono następujące wartości:

  • Kolumna X:
    • Kolumna zestawu danych: o_orderdate
    • Poziom daty: Years
  • Kolumny Y:
    • Kolumna zestawu danych: o_totalprice
    • Typ agregacji: Average
  • Grupuj według (kolumna zestawu danych): o_orderpriority
  • Nazwa osi X (zastąpij wartość domyślną): Order year
  • Nazwa osi Y (zastąpij wartość domyślną): Average price

Opcje konfiguracji: aby uzyskać opcje konfiguracji wykresu liniowego, zobacz Opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu liniowego do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.orders

Wykres warstwowy

Wykresy warstwowe łączą wykres liniowy i słupkowy, aby pokazać, jak wartości liczbowe jednej lub większej liczby grup zmieniają się w czasie progresji drugiej zmiennej. Są one często używane do pokazywania zmian lejka sprzedaży w czasie.

Uwaga

Wykresy warstwowe obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Area chart example

Wartości konfiguracji: dla tej wizualizacji wykresu warstwowego ustawiono następujące wartości:

  • Kolumna X:
    • Kolumna zestawu danych: o_orderdate
    • Poziom daty: Years
  • Kolumny Y:
    • Kolumna zestawu danych: o_totalprice
    • Typ agregacji: Sum
  • Grupuj według (kolumna zestawu danych): o_orderpriority
  • Układania: Stack
  • Nazwa osi X (zastąpij wartość domyślną): Order year
  • Nazwa osi Y (zastąpij wartość domyślną): Total price

Opcje konfiguracji: aby uzyskać opcje konfiguracji wykresu warstwowego, zobacz Opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu warstwowego do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.orders

Wykresy kołowe

Wykresy kołowe pokazują proporcjonalność między metrykami. Nieone przeznaczone do przekazywania danych szeregów czasowych.

Uwaga

Wykresy kołowe obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Pie chart example

Wartości konfiguracji: dla tej wizualizacji wykresu kołowego ustawiono następujące wartości:

  • Kolumna X (kolumna zestawu danych): o_orderpriority
  • Kolumny Y:
    • Kolumna zestawu danych: o_totalprice
    • Typ agregacji: Sum
  • Etykieta (przesłaniaj wartość domyślną): Total price

Opcje konfiguracji: w przypadku opcji konfiguracji wykresu kołowego zobacz opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu kołowego do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.orders

Wykresy histogramu

Histogram kreśli częstotliwość występowania danej wartości w zestawie danych. Histogram pomaga zrozumieć, czy zestaw danych zawiera wartości, które są grupowane wokół niewielkiej liczby zakresów, czy są bardziej rozłożone. Histogram jest wyświetlany jako wykres słupkowy, w którym kontrolujesz liczbę odrębnych słupków (nazywanych również pojemnikami).

Uwaga

Wykresy histogramu obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Histogram chart example

Wartości konfiguracji: dla tej wizualizacji wykresu histogramu ustawiono następujące wartości:

  • Kolumna X (kolumna zestawu danych): o_totalprice
  • Liczba pojemników: 20
  • Nazwa osi X (zastąpij wartość domyślną): Total price

Opcje konfiguracji: Aby uzyskać opcje konfiguracji wykresu histogramu, zobacz opcje konfiguracji wykresu histogramu.

Zapytanie SQL: na potrzeby tej wizualizacji wykresu histogramu do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.orders

Wykres mapy cieplnej

Wykresy cieplne łączą funkcje wykresów słupkowych, stosów i wykresów bąbelkowych, które umożliwiają wizualizowanie danych liczbowych przy użyciu kolorów. Wspólna paleta kolorów mapy cieplnej pokazuje najwyższe wartości przy użyciu cieplejszych kolorów, takich jak pomarańczowy lub czerwony, a najniższe wartości przy użyciu chłodniejszych kolorów, takich jak niebieski lub fioletowy.

Rozważmy na przykład następującą mapę cieplną, która wizualizuje najczęściej występujące odległości przejazdów taksówką każdego dnia i grupuje wyniki według dnia tygodnia, odległości i całkowitej taryfy.

Uwaga

Wykresy mapy cieplnej obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Heatmap example

Wartości konfiguracji: dla tej wizualizacji wykresu mapy cieplnej ustawiono następujące wartości:

  • Kolumna X (kolumna zestawu danych): o_orderpriority
  • Kolumny Y (kolumna zestawu danych): o_orderstatus
  • Kolumna koloru:
    • Kolumna zestawu danych: o_totalprice
    • Typ agregacji: Average
  • Nazwa osi X (zastąpij wartość domyślną): Order priority
  • Nazwa osi Y (zastępowanie wartości domyślnej): Order status
  • Schemat kolorów (przesłaniaj wartość domyślną): YIGnBu

Opcje konfiguracji: w przypadku opcji konfiguracji mapy cieplnej zobacz opcje konfiguracji wykresu cieplnego.

Zapytanie SQL: w przypadku tej wizualizacji wykresu mapy cieplnej do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.orders

Wykres punktowy

Wizualizacje punktowe są często używane do pokazywania relacji między dwiema zmiennymi liczbowymi. Ponadto trzeci wymiar można kodować za pomocą koloru, aby pokazać, jak zmienne liczbowe różnią się między grupami.

Uwaga

Wykresy punktowe obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Scatter example

Wartości konfiguracji: dla tej wizualizacji wykresu punktowego ustawiono następujące wartości:

  • Kolumna X (kolumna zestawu danych): l_quantity
  • Kolumna Y (kolumna zestawu danych): l_extendedprice
  • Grupuj według (kolumna zestawu danych): l_returnflag
  • Nazwa osi X (zastąpij wartość domyślną): Quantity
  • Nazwa osi Y (zastąpij wartość domyślną): Extended price

Opcje konfiguracji: aby uzyskać opcje konfiguracji wykresu punktowego, zobacz Opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu punktowego do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.lineitem

Bąbelkowym

Wykresy bąbelkowe to wykresy punktowe, w których rozmiar każdego znacznika punktu odzwierciedla odpowiednią metrykę.

Uwaga

Wykresy bąbelkowe obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Bubble example

Wartości konfiguracji: dla tej wizualizacji wykresu bąbelkowego ustawiono następujące wartości:

  • X (kolumna zestawu danych): l_quantity
  • Kolumny Y (kolumna zestawu danych): l_extendedprice
  • Grupuj według (kolumna zestawu danych): l-returnflag
  • Kolumna rozmiaru bąbelka (kolumna zestawu danych): l_tax
  • Współczynnik rozmiaru bąbelka: 20
  • Nazwa osi X (zastąpij wartość domyślną): Quantity
  • Nazwa osi Y (zastąpij wartość domyślną): Extended price

Opcje konfiguracji: w przypadku opcji konfiguracji wykresu bąbelkowego zobacz opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu bąbelkowego do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.lineitem

Wykres skrzynkowy

Wizualizacja wykresu skrzynkowego przedstawia podsumowanie rozkładu danych liczbowych, opcjonalnie pogrupowane według kategorii. Korzystając z wizualizacji wykresu skrzynkowego, można szybko porównać zakresy wartości między kategoriami i wizualizować lokalność, rozkładać i niesymetryczności grup wartości za pomocą ich kwartylów. W każdym polu ciemniejszy wiersz pokazuje zakres międzykwartylowy. Aby uzyskać więcej informacji na temat interpretowania wizualizacji wykresu skrzynkowego, zobacz artykuł Box chart w witrynie Wikipedia.

Uwaga

Wykresy skrzynkowe obsługują tylko agregację dla maksymalnie 64 000 wierszy. Jeśli zestaw danych jest większy niż 64 000 wierszy, dane zostaną obcięte.

Box chart example

Wartości konfiguracji: dla tej wizualizacji wykresu pola ustawiono następujące wartości:

  • Kolumna X (kolumna zestawu danych): l-returnflag
  • Kolumny Y (kolumna zestawu danych): l_extendedprice
  • Grupuj według (kolumna zestawu danych): l_shipmode
  • Nazwa osi X (zastąpij wartość domyślną): Return flag1
  • Nazwa osi Y (zastąpij wartość domyślną): Extended price

Opcje konfiguracji: aby uzyskać opcje konfiguracji wykresu skrzynkowego, zobacz opcje konfiguracji wykresu skrzynkowego.

Zapytanie SQL: w przypadku tej wizualizacji wykresu pola do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.lineitem

Wykres kombi

Wykresy kombi łączą wykresy liniowe i słupkowe , aby przedstawić zmiany w czasie z proporcjonalnością.

Uwaga

Wykresy kombi obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników.

Combo example

Wartości konfiguracji: dla tej wizualizacji wykresu kombi ustawiono następujące wartości:

  • Kolumna X (kolumna zestawu danych): l_shipdate
  • Kolumny Y:
    • Pierwsza kolumna zestawu danych: l_extendedprice
    • Typ agregacji: średnia
    • Druga kolumna zestawu danych: l_quantity
    • Typ agregacji: średnia
  • Nazwa osi X (zastąpij wartość domyślną): Ship date
  • Nazwa osi lewej Y (zastąpij wartość domyślną): Quantity
  • Nazwa prawej osi Y (zastąpij wartość domyślną): Average price
  • Serii:
    • Order1 (kolumna zestawu danych): AVG(l_extendedprice)
    • Oś Y: prawa
    • Typ: Linia
    • Order2 (kolumna zestawu danych): AVG(l_quantity)
    • Oś Y: po lewej
    • Typ: pasek

Opcje konfiguracji: Aby uzyskać opcje konfiguracji wykresu kombi, zobacz opcje konfiguracji wykresu.

Zapytanie SQL: w przypadku tej wizualizacji wykresu kombi następujące zapytanie SQL zostało użyte do wygenerowania zestawu danych.

select * from samples.tpch.lineitem

Analiza kohorty

Analiza kohorty analizuje wyniki wstępnie określonych grup, nazywanych kohortami, gdy przechodzą przez zestaw etapów. Wizualizacja kohorty agreguje tylko daty (umożliwia agregacje miesięczne). Nie wykonuje żadnych innych agregacji danych w zestawie wyników. Wszystkie inne agregacje są wykonywane w obrębie samego zapytania.

Cohort example

Wartości konfiguracji: dla tej wizualizacji kohorty ustawiono następujące wartości:

  • Data (zasobnik) (kolumna bazy danych): cohort_month
  • Etap (kolumna bazy danych): months
  • Rozmiar populacji zasobnika (kolumna bazy danych): size
  • Wartość etapu (kolumna bazy danych): active
  • Interwał czasu: monthly

Opcje konfiguracji: aby uzyskać opcje konfiguracji kohorty, zobacz opcje konfiguracji wykresu kohortowego.

Zapytanie SQL: w przypadku tej wizualizacji kohorty następujące zapytanie SQL zostało użyte do wygenerowania zestawu danych.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Wyświetlanie licznika

Liczniki wyświetlają pojedynczą wartość z opcją porównywania ich z wartością docelową. Aby użyć liczników, określ wiersz danych do wyświetlenia na wizualizacji licznika kolumny wartości i kolumny docelowej.

Uwaga

Licznik obsługuje tylko agregację dla maksymalnie 64 000 wierszy. Jeśli zestaw danych jest większy niż 64 000 wierszy, dane zostaną obcięte.

Counter example

Wartości konfiguracji: dla tej wizualizacji licznika ustawiono następujące wartości:

  • Kolumna wartości
    • Kolumna zestawu danych: avg(o_totalprice)
    • Wiersz 1:
  • Kolumna docelowa:
    • Kolumna zestawu danych: avg(o_totalprice)
    • Wiersz 2:
  • Formatuj wartość docelową: Włącz

Zapytanie SQL: w przypadku tej wizualizacji licznika użyto następującego zapytania SQL do wygenerowania zestawu danych.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Wizualizacja lejka

Wizualizacja lejka ułatwia analizowanie zmian w metryce na różnych etapach. Aby użyć lejka, określ kolumnę stepvalue i .

Uwaga

Lejek obsługuje tylko agregację dla maksymalnie 64 000 wierszy. Jeśli zestaw danych jest większy niż 64 000 wierszy, dane zostaną obcięte.

Funnel example

Wartości konfiguracji: dla tej wizualizacji lejka ustawiono następujące wartości:

  • Kolumna kroku (kolumna zestawu danych): o_orderstatus
  • Kolumna wartości (kolumna zestawu danych): Revenue

Zapytanie SQL: w przypadku tej wizualizacji lejka do wygenerowania zestawu danych użyto następującego zapytania SQL.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Wizualizacja mapy Choropleth

W wizualizacjach choropleth lokalizacje geograficzne, takie jak kraje lub stany, są kolorowane zgodnie z zagregowanymi wartościami każdej kolumny klucza. Zapytanie musi zwracać lokalizacje geograficzne według nazwy.

Uwaga

Wizualizacje choropleth nie wykonują żadnych agregacji danych w zestawie wyników. Wszystkie agregacje muszą być obliczane w obrębie samego zapytania.

Map choropleth example

Wartości konfiguracji: dla tej wizualizacji choropleth ustawiono następujące wartości:

  • Mapa (kolumna zestawu danych): Countries
  • Kolumna geograficzna (kolumna zestawu danych): Nation
  • Typ geograficzny: krótka nazwa
  • Kolumna wartości (kolumna zestawu danych): revenue
  • Tryb klastrowania: równozdecydowany

Opcje konfiguracji: w przypadku opcji konfiguracji choropleth zobacz opcje konfiguracji choropleth.

Zapytanie SQL: w przypadku tej wizualizacji choropleth do wygenerowania zestawu danych użyto następującego zapytania SQL.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Wizualizacja mapy znaczników

W wizualizacjach znaczników znacznik jest umieszczany w zestawie współrzędnych na mapie. Wynik zapytania musi zwracać pary szerokości i długości geograficznej.

Uwaga

Znacznik nie wykonuje żadnych agregacji danych w zestawie wyników. Wszystkie agregacje muszą być obliczane w obrębie samego zapytania.

Map marker example

Ten przykład znacznika jest generowany na podstawie zestawu danych zawierającego zarówno wartości szerokości geograficznej, jak i długości geograficznej — które nie są dostępne w przykładowych zestawach danych usługi Databricks. Aby uzyskać informacje o opcjach konfiguracji choropleth, zobacz opcje konfiguracji znacznika.

Wizualizacja tabeli przestawnej

Wizualizacja tabeli przestawnej agreguje rekordy z wyniku zapytania do nowego wyświetlania tabelarycznego. Jest on podobny do PIVOT instrukcji lub GROUP BY w języku SQL. Wizualizację tabeli przestawnej można skonfigurować przy użyciu pól przeciągania i upuszczania.

Uwaga

Tabele przestawne obsługują agregacje zaplecza, zapewniając obsługę zapytań zwracających ponad 64 000 wierszy danych bez obcinania zestawu wyników. Jednak tabela przestawna (starsza wersja) obsługuje tylko agregację dla maksymalnie 64 000 wierszy. Jeśli zestaw danych jest większy niż 64 000 wierszy, dane zostaną obcięte.

Przykład tabeli przestawnej

Wartości konfiguracji: dla tej wizualizacji tabeli przestawnej ustawiono następujące wartości:

  • Wybierz wiersze (kolumna zestawu danych): l_retkurnflag
  • Wybierz kolumny (kolumna zestawu danych): l_shipmode
  • Komórki
    • Kolumna zestawu danych: l_quantity
    • Typ agregacji: Suma

Zapytanie SQL: w przypadku tej wizualizacji tabeli przestawnej do wygenerowania zestawu danych użyto następującego zapytania SQL.

select * from samples.tpch.lineitem

Sankey

Diagram sankey wizualizuje przepływ z jednego zestawu wartości do innego.

Uwaga

Wizualizacje Sankey nie wykonują żadnych agregacji danych w zestawie wyników. Wszystkie agregacje muszą być obliczane w obrębie samego zapytania.

Sankey example

Zapytanie SQL: w przypadku tej wizualizacji Sankey do wygenerowania zestawu danych użyto następującego zapytania SQL.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Sekwencja sunburst

Diagram z wybuchem słońca ułatwia wizualizowanie danych hierarchicznych przy użyciu okręgów koncentrycznych.

Uwaga

Sekwencja Sunburst nie wykonuje żadnych agregacji danych w zestawie wyników. Wszystkie agregacje muszą być obliczane w obrębie samego zapytania.

Sunburst example

Zapytanie SQL: w przypadku tej wizualizacji sunburst następujące zapytanie SQL zostało użyte do wygenerowania zestawu danych.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Table

Wizualizacja tabeli wyświetla dane w standardowej tabeli, ale z możliwością ręcznego zmieniania kolejności, ukrywania i formatowania danych. Zobacz Opcje tabeli.

Uwaga

Wizualizacje tabel nie wykonują żadnych agregacji danych w zestawie wyników. Wszystkie agregacje muszą być obliczane w obrębie samego zapytania.

Aby uzyskać informacje o opcjach konfiguracji tabeli, zobacz Opcje konfiguracji tabeli.

Chmura programu Word

Chmura słów wizualnie reprezentuje częstotliwość występowania wyrazu w danych.

Uwaga

Chmura programu Word obsługuje tylko agregację dla maksymalnie 64 000 wierszy. Jeśli zestaw danych jest większy niż 64 000 wierszy, dane zostaną obcięte.

Word cloud example

Wartości konfiguracji: dla tej wizualizacji chmury słów ustawiono następujące wartości: test

  • Kolumna wyrazów (kolumna zestawu danych): o_comment
  • Limit długości wyrazów: 5
  • Limit częstotliwości: 2

Zapytanie SQL: w przypadku tej wizualizacji chmury słów następujące zapytanie SQL zostało użyte do wygenerowania zestawu danych.

select * from samples.tpch.orders