視覚化の種類

[アーティクル]
03/01/2024

この記事では、Azure Databricks ノートブックと Databricks SQL で使用できる視覚化の種類について説明し、各視覚化の種類の例を作成する方法について説明します。

横棒グラフ

横棒グラフは、円グラフと同様に、時間の経過に伴うメトリクスの変化を表したり、比例性を示したりします。

Note

横棒グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Bar chart example

構成値: この横棒グラフの視覚化では、次の値が設定されました。

X 列:
- データセット列: o_orderdate
- 日付レベル: Months
Y 列:
- データセット列: o_totalprice
- 集計の種類: Sum
グループ化 (データセット列): o_orderpriority
積み重ね: Stack
X 軸名 (既定値をオーバーライド): Order month
Y 軸名 (既定値をオーバーライド): Total price

構成オプション: 横棒グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この横棒グラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

折れ線グラフ

折れ線グラフは、時間の経過に伴う 1 つ以上のメトリックの変化を示します。

Note

折れ線グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Line chart example

構成値: この折れ線グラフの視覚化では、次の値が設定されました。

X 列:
- データセット列: o_orderdate
- 日付レベル: Years
Y 列:
- データセット列: o_totalprice
- 集計の種類: Average
グループ化 (データセット列): o_orderpriority
X 軸名 (既定値をオーバーライド): Order year
Y 軸名 (既定値をオーバーライド): Average price

構成オプション: 折れ線グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この折れ線グラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

面グラフ

面グラフは、折れ線と横棒のグラフを組み合わせて、1 つ以上のグループの数値が 2 番目の変数 (通常は時間) の推移中にどのように変化するかを示します。これらは、時間の経過に伴うセールスじょうごの変化を示すためによく使用されます。

Note

面グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Area chart example

構成値: この面グラフの視覚化では、次の値が設定されました。

X 列:
- データセット列: o_orderdate
- 日付レベル: Years
Y 列:
- データセット列: o_totalprice
- 集計の種類: Sum
グループ化 (データセット列): o_orderpriority
積み重ね: Stack
X 軸名 (既定値をオーバーライド): Order year
Y 軸名 (既定値をオーバーライド): Total price

構成オプション: 面グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この面グラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

円グラフ

円グラフは、メトリック間の比例性を示します。これは、時系列データを伝えるためのものでは "ありません"。

Note

円グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Pie chart example

構成値: この円グラフの視覚化では、次の値が設定されました。

X 列 (データセット列): o_orderpriority
Y 列:
- データセット列: o_totalprice
- 集計の種類: Sum
ラベル (既定値をオーバーライド): Total price

構成オプション: 円グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この円グラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

ヒストグラムグラフ

ヒストグラムは、データセット内で特定の値が発生する頻度をプロットします。ヒストグラムは、データセットに少数の範囲の周りにクラスター化された値があるのか、それともより分散している値があるのかを理解するのに役立ちます。ヒストグラムは、個別の棒の数 (ビンとも呼ばれます) を制御する棒グラフとして表示されます。

Note

ヒストグラムグラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Histogram chart example

構成値: このヒストグラムグラフの視覚化では、次の値が設定されました。

X 列 (データセット列): o_totalprice
ビン数: 20
X 軸名 (既定値をオーバーライド): Total price

構成オプション: ヒストグラムグラフの構成オプションについては、「ヒストグラムグラフ構成オプション」を参照してください。

SQL クエリ: このヒストグラムグラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

ヒートマップグラフ

ヒートマップグラフでは、横棒グラフ、積み重ねグラフ、バブルグラフの特徴を組み合わせて、色を使用して数値データを視覚化できます。ヒートマップの一般的なカラーパレットには、オレンジや赤などの暖色を使用して最高値が示され、青や紫などの寒色を使用して最低値が示されます。

たとえば、次のヒートマップについて考えてみます。この例では、曜日ごとにタクシー乗車で最も多く利用される距離を視覚化し、曜日、距離、合計料金に基づいて、結果をグループ化します。

Note

ヒートマップグラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Heatmap example

構成値: このヒートマップグラフの視覚化では、次の値が設定されました。

X 列 (データセット列): o_orderpriority
Y 列 (データセット列): o_orderstatus
カラー列:
- データセット列: o_totalprice
- 集計の種類: Average
X 軸名 (既定値をオーバーライド): Order priority
Y 軸名 (既定値をオーバーライド): Order status
配色 (既定値をオーバーライド): YIGnBu

構成オプション: ヒートマップの構成オプションについては、「ヒートマップグラフ構成オプション」を参照してください。

SQL クエリ: このヒートマップグラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

散布図

散布図は、2 つの数値変数間の関係を示すために一般的に使用されます。さらに、3 番目の次元を色でエンコードして、数値変数がグループ間でどのように異なるかを示すことができます。

Note

散布図はバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Scatter example

構成値: この散布図の視覚化では、次の値が設定されました。

X 列 (データセット列): l_quantity
Y 列 (データセット列): l_extendedprice
グループ化 (データセット列): l_returnflag
X 軸名 (既定値をオーバーライド): Quantity
Y 軸名 (既定値をオーバーライド): Extended price

構成オプション: 散布図の構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この散布図の視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

バブルチャート

バブルチャートは散布図であり、各ポイントマーカーのサイズに関連するメトリックが反映されます。

Note

バブルチャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Bubble example

構成値: このバブルチャートの視覚化では、次の値が設定されました。

X (データセット列): l_quantity
Y 列 (データセット列): l_extendedprice
グループ化 (データセット列): l-returnflag
バブルサイズ列 (データセット列): l_tax
バブルサイズ係数: 20
X 軸名 (既定値をオーバーライド): Quantity
Y 軸名 (既定値をオーバーライド): Extended price

構成オプション: バブルチャートの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: このバブルチャートの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

ボックスグラフ

ボックスグラフの視覚化では、必要に応じてカテゴリ別にグループ化された数値データの分布の概要が示されます。ボックスグラフの視覚化を使用すると、カテゴリ間で値の範囲をすばやく比較し、四分位数を通じて値の局所性、分散、傾斜のグループを視覚化できます。各ボックス内の濃い線は四分位範囲を示しています。ボックスグラフの視覚化の解釈の詳細については、Wikipedia の「ボックスグラフに関する記事」を参照してください。

Note

ボックスグラフでは、最大 64,000 行の集計のみがサポートされます。データセットが 64,000 行を超える場合、データは切り捨てられます。

Box chart example

構成値: このボックスグラフの視覚化では、次の値が設定されました。

X 列 (データセット列): l-returnflag
Y 列 (データセット列): l_extendedprice
グループ化 (データセット列): l_shipmode
X 軸名 (既定値をオーバーライド): Return flag1
Y 軸名 (既定値をオーバーライド): Extended price

構成オプション: ボックスグラフの構成オプションについては、「ボックスグラフ構成オプション」を参照してください。

SQL クエリ: このボックスグラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

複合グラフ

複合グラフは、折れ線グラフと横棒グラフを組み合わせて、時間の経過に伴う変化を比例的に示します。

Note

複合グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Combo example

構成値: この複合グラフの視覚化では、次の値が設定されました。

X 列 (データセット列): l_shipdate
Y 列:
- 最初のデータセット列: l_extendedprice
- 集計の種類: 平均
- 2 番目のデータセット列: l_quantity
- 集計の種類: 平均
X 軸名 (既定値をオーバーライド): Ship date
左 Y 軸名 (既定値をオーバーライド): Quantity
右 Y 軸名 (既定値をオーバーライド): Average price
系列:
- Order1 (データセット列): AVG(l_extendedprice)
- Y 軸: 右
- 種類: 折れ線
- Order2 (データセット列): AVG(l_quantity)
- Y 軸: 左
- 種類: 横棒

構成オプション: 複合グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この複合グラフの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

コーホート分析

コーホート分析は、前もって定義されたグループ (コーホート) の経過を一連のステージに沿って観察するものです。コーホートの視覚化は、日付に対してのみ集計されます (月単位の集計が可能です)。結果セット内のデータの他の集計は行われません。他のすべての集計は、クエリ自体内で実行されます。

Cohort example

構成値: このコーホートの視覚化では、次の値が設定されました。

日付 (バケット) (データベース列): cohort_month
ステージ (データベース列): months
バケットの母集団サイズ (データベース列): size
ステージ値 (データベース列): active
期間: monthly

構成オプション:コーホート構成オプションについては、「コーホートグラフ構成オプション」を参照してください。

SQL クエリ: このコーホートの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

カウンターディスプレイ

カウンターでは、1 つの値が目立つように表示され、ターゲット値と比較するオプションが表示されます。カウンターを使用するには、[値列] と [ターゲット列] のカウンター視覚エフェクトに表示するデータ行を指定します。

Note

カウンターでは、最大 64,000 行の集計のみがサポートされます。データセットが 64,000 行を超える場合、データは切り捨てられます。

Counter example

構成値: このカウンターの視覚化では、次の値が設定されました。

値列
- データセット列: avg(o_totalprice)
- 行 1:
ターゲット列:
- データセット列: avg(o_totalprice)
- 行 2:
ターゲット値の書式設定: 有効

SQL クエリ: このカウンターの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

じょうごの視覚化

じょうごの視覚化は、さまざまな段階でメトリックの変化を分析するのに役立ちます。じょうごを使用するには、step と value 列を指定します。

Note

じょうごでは、最大 64,000 行の集計のみがサポートされます。データセットが 64,000 行を超える場合、データは切り捨てられます。

Funnel example

構成値: このじょうごの視覚化では、次の値が設定されました。

ステップ列 (データセット列): o_orderstatus
値列 (データセット列): Revenue

SQL クエリ: このじょうごの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

階級区分図マップの視覚化

階級区分図の視覚化では、国や州などの地理的な地域は、各キー列の集計値に従って色付けされます。クエリでは、地理的な場所を名前で返す必要があります。

Note

階級区分図の視覚化では、結果セット内のデータの集計は行われません。すべての集計は、クエリ自体内で計算する必要があります。

Map choropleth example

構成値: この階級区分図の視覚化では、次の値が設定されました。

マップ (データセット列): Countries
地理列 (データセット列): Nation
地理的な種類: 短い名前
値列 (データセット列): revenue
クラスタリングモード: 等間隔

構成オプション:階級区分図の構成オプションについては、「階級区分図の構成オプション」を参照してください。

SQL クエリ: この:階級区分図の視覚化では、次の SQL クエリを使用してデータセットを生成しました。

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

マーカーマップの視覚化

マーカーの視覚かでは、マーカーは、マップ上の一連の座標に配置されます。クエリ結果は、緯度と経度のペアを返す必要があります。

Note

マーカーは、結果セット内のデータの集計を行いません。すべての集計は、クエリ自体内で計算する必要があります。

Map marker example

このマーカーの例は、緯度と経度の両方の値を含むデータセットから生成されます。これは Databricks サンプルデータセットでは使用できません。階級区分図の構成オプションについては、「マーカー構成オプション」を参照してください。

ピボットテーブルの視覚化

ピボットテーブルの視覚化では、クエリ結果のレコードが、新しい表形式の表示に集計されます。これは、SQL の PIVOT または GROUP BY ステートメントに似ています。ピボットテーブルの視覚化は、ドラッグアンドドロップフィールドで設定します。

Note

ピボットテーブルはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。ただし、ピボットテーブル (レガシ) では、最大 64,000 行の集計のみがサポートされます。データセットが 64,000 行を超える場合、データは切り捨てられます。

ピボットテーブルの例

構成値: このピボットテーブルの視覚化では、次の値が設定されました。

行 (データセット列) の選択: l_retkurnflag
列 (データセット列) の選択: l_shipmode
Cell (セル)
- データセット列: l_quantity
- 集計の種類: Sum

SQL クエリ: このピボットテーブルの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

サンキー

サンキーダイアグラムは、ある値のセットから別の値のセットへのフローを視覚化します。

Note

サンキーの視覚化では、結果セット内のデータの集計は行われません。すべての集計は、クエリ自体内で計算する必要があります。

Sankey example

SQL クエリ: このサンキーの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

サンバーストシーケンス

サンバースト図は、同心円を使用して階層データを視覚化するのに役立ちます。

Note

サンバーストシーケンスは、結果セット内のデータの集計を行いません。すべての集計は、クエリ自体内で計算する必要があります。

Sunburst example

SQL クエリ: このサンバーストの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

テーブル

テーブルの視覚化では、標準テーブルのデータが表示されますが、データの並べ替え、非表示、書式設定を手動で行う機能があります。「テーブルオプション」を参照してください。

Note

テーブルの視覚化では、結果セット内のデータの集計は行われません。すべての集計は、クエリ自体内で計算する必要があります。

テーブルの構成オプションについては、「テーブルの構成オプション」を参照してください。

ワードクラウド

ワードクラウドは、データ内で単語が出現する頻度を視覚的に表します。

Note

ワードクラウドでは、最大 64,000 行の集計のみがサポートされます。データセットが 64,000 行を超える場合、データは切り捨てられます。

Word cloud example

構成値: このワードクラウドの視覚化では、次の値が設定されました。

ワード列 (データセット列): o_comment
ワードの長さの制限: 5
頻度の制限: 2

SQL クエリ: このワードクラウドの視覚化では、次の SQL クエリを使用してデータセットを生成しました。

select * from samples.tpch.orders

視覚化の種類

横棒グラフ

折れ線グラフ

面グラフ

円グラフ

ヒストグラム グラフ

ヒートマップ グラフ

散布図

バブル チャート

ボックス グラフ

複合グラフ

コーホート分析

カウンター ディスプレイ

じょうごの視覚化

階級区分図マップの視覚化

マーカー マップの視覚化

ピボット テーブルの視覚化

サンキー

サンバースト シーケンス

テーブル

ワード クラウド

その他のリソース

ヒストグラムグラフ

ヒートマップグラフ

バブルチャート

ボックスグラフ

カウンターディスプレイ

マーカーマップの視覚化

ピボットテーブルの視覚化

サンバーストシーケンス

ワードクラウド