視覚化の種類

この記事では、Azure Databricks ノートブックと Databricks SQL で使用できる視覚化の種類について説明し、各視覚化の種類の例を作成する方法について説明します。

横棒グラフ

横棒グラフは、円グラフと同様に、時間の経過に伴うメトリクスの変化を表したり、比例性を示したりします。

Note

横棒グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Bar chart example

構成値: この横棒グラフの視覚化では、次の値が設定されました。

  • X 列:
    • データセット列: o_orderdate
    • 日付レベル: Months
  • Y 列:
    • データセット列: o_totalprice
    • 集計の種類: Sum
  • グループ化 (データセット列): o_orderpriority
  • 積み重ね: Stack
  • X 軸名 (既定値をオーバーライド): Order month
  • Y 軸名 (既定値をオーバーライド): Total price

構成オプション: 横棒グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この横棒グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders

折れ線グラフ

折れ線グラフは、時間の経過に伴う 1 つ以上のメトリックの変化を示します。

Note

折れ線グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Line chart example

構成値: この折れ線グラフの視覚化では、次の値が設定されました。

  • X 列:
    • データセット列: o_orderdate
    • 日付レベル: Years
  • Y 列:
    • データセット列: o_totalprice
    • 集計の種類: Average
  • グループ化 (データセット列): o_orderpriority
  • X 軸名 (既定値をオーバーライド): Order year
  • Y 軸名 (既定値をオーバーライド): Average price

構成オプション: 折れ線グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この折れ線グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders

面グラフ

面グラフは、折れ線と横棒のグラフを組み合わせて、1 つ以上のグループの数値が 2 番目の変数 (通常は時間) の推移中にどのように変化するかを示します。 これらは、時間の経過に伴うセールスじょうごの変化を示すためによく使用されます。

Note

面グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Area chart example

構成値: この面グラフの視覚化では、次の値が設定されました。

  • X 列:
    • データセット列: o_orderdate
    • 日付レベル: Years
  • Y 列:
    • データセット列: o_totalprice
    • 集計の種類: Sum
  • グループ化 (データセット列): o_orderpriority
  • 積み重ね: Stack
  • X 軸名 (既定値をオーバーライド): Order year
  • Y 軸名 (既定値をオーバーライド): Total price

構成オプション: 面グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この面グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders

円グラフ

円グラフは、メトリック間の比例性を示します。 これは、時系列データを伝えるためのものでは "ありません"。

Note

円グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Pie chart example

構成値: この円グラフの視覚化では、次の値が設定されました。

  • X 列 (データセット列): o_orderpriority
  • Y 列:
    • データセット列: o_totalprice
    • 集計の種類: Sum
  • ラベル (既定値をオーバーライド): Total price

構成オプション: 円グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この円グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders

ヒストグラム グラフ

ヒストグラムは、データセット内で特定の値が発生する頻度をプロットします。 ヒストグラムは、データセットに少数の範囲の周りにクラスター化された値があるのか、それともより分散している値があるのかを理解するのに役立ちます。ヒストグラムは、個別の棒の数 (ビンとも呼ばれます) を制御する棒グラフとして表示されます。

Note

ヒストグラム グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Histogram chart example

構成値: このヒストグラム グラフの視覚化では、次の値が設定されました。

  • X 列 (データセット列): o_totalprice
  • ビン数: 20
  • X 軸名 (既定値をオーバーライド): Total price

構成オプション: ヒストグラム グラフの構成オプションについては、「ヒストグラム グラフ構成オプション」を参照してください。

SQL クエリ: このヒストグラム グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders

ヒートマップ グラフ

ヒートマップ グラフでは、横棒グラフ、積み重ねグラフ、バブル グラフの特徴を組み合わせて、色を使用して数値データを視覚化できます。 ヒートマップの一般的なカラー パレットには、オレンジや赤などの暖色を使用して最高値が示され、青や紫などの寒色を使用して最低値が示されます。

たとえば、次のヒートマップについて考えてみます。この例では、曜日ごとにタクシー乗車で最も多く利用される距離を視覚化し、曜日、距離、合計料金に基づいて、結果をグループ化します。

Note

ヒートマップ グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Heatmap example

構成値: このヒートマップ グラフの視覚化では、次の値が設定されました。

  • X 列 (データセット列): o_orderpriority
  • Y 列 (データセット列): o_orderstatus
  • カラー列:
    • データセット列: o_totalprice
    • 集計の種類: Average
  • X 軸名 (既定値をオーバーライド): Order priority
  • Y 軸名 (既定値をオーバーライド): Order status
  • 配色 (既定値をオーバーライド): YIGnBu

構成オプション: ヒートマップの構成オプションについては、「ヒートマップ グラフ構成オプション」を参照してください。

SQL クエリ: このヒートマップ グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders

散布図

散布図は、2 つの数値変数間の関係を示すために一般的に使用されます。 さらに、3 番目の次元を色でエンコードして、数値変数がグループ間でどのように異なるかを示すことができます。

Note

散布図はバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Scatter example

構成値: この散布図の視覚化では、次の値が設定されました。

  • X 列 (データセット列): l_quantity
  • Y 列 (データセット列): l_extendedprice
  • グループ化 (データセット列): l_returnflag
  • X 軸名 (既定値をオーバーライド): Quantity
  • Y 軸名 (既定値をオーバーライド): Extended price

構成オプション: 散布図の構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この散布図の視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

バブル チャート

バブル チャートは散布図であり、各ポイント マーカーのサイズに関連するメトリックが反映されます。

Note

バブル チャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Bubble example

構成値: このバブル チャートの視覚化では、次の値が設定されました。

  • X (データセット列): l_quantity
  • Y 列 (データセット列): l_extendedprice
  • グループ化 (データセット列): l-returnflag
  • バブル サイズ列 (データセット列): l_tax
  • バブル サイズ係数: 20
  • X 軸名 (既定値をオーバーライド): Quantity
  • Y 軸名 (既定値をオーバーライド): Extended price

構成オプション: バブル チャートの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: このバブル チャートの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

ボックス グラフ

ボックス グラフの視覚化では、必要に応じてカテゴリ別にグループ化された数値データの分布の概要が示されます。 ボックス グラフの視覚化を使用すると、カテゴリ間で値の範囲をすばやく比較し、四分位数を通じて値の局所性、分散、傾斜のグループを視覚化できます。 各ボックス内の濃い線は四分位範囲を示しています。 ボックス グラフの視覚化の解釈の詳細については、Wikipedia の「ボックス グラフに関する記事」を参照してください。

Note

ボックス グラフでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。

Box chart example

構成値: このボックス グラフの視覚化では、次の値が設定されました。

  • X 列 (データセット列): l-returnflag
  • Y 列 (データセット列): l_extendedprice
  • グループ化 (データセット列): l_shipmode
  • X 軸名 (既定値をオーバーライド): Return flag1
  • Y 軸名 (既定値をオーバーライド): Extended price

構成オプション: ボックス グラフの構成オプションについては、「ボックス グラフ構成オプション」を参照してください。

SQL クエリ: このボックス グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

複合グラフ

複合グラフは、折れ線グラフと横棒グラフを組み合わせて、時間の経過に伴う変化を比例的に示します。

Note

複合グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。

Combo example

構成値: この複合グラフの視覚化では、次の値が設定されました。

  • X 列 (データセット列): l_shipdate
  • Y 列:
    • 最初のデータセット列: l_extendedprice
    • 集計の種類: 平均
    • 2 番目のデータセット列: l_quantity
    • 集計の種類: 平均
  • X 軸名 (既定値をオーバーライド): Ship date
  • 左 Y 軸名 (既定値をオーバーライド): Quantity
  • 右 Y 軸名 (既定値をオーバーライド): Average price
  • 系列:
    • Order1 (データセット列): AVG(l_extendedprice)
    • Y 軸: 右
    • 種類: 折れ線
    • Order2 (データセット列): AVG(l_quantity)
    • Y 軸: 左
    • 種類: 横棒

構成オプション: 複合グラフの構成オプションについては、「グラフ構成オプション」を参照してください。

SQL クエリ: この複合グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

コーホート分析

コーホート分析は、前もって定義されたグループ (コーホート) の経過を一連のステージに沿って観察するものです。 コーホートの視覚化は、日付に対してのみ集計されます (月単位の集計が可能です)。 結果セット内のデータの他の集計は行われません。 他のすべての集計は、クエリ自体内で実行されます。

Cohort example

構成値: このコーホートの視覚化では、次の値が設定されました。

  • 日付 (バケット) (データベース列): cohort_month
  • ステージ (データベース列): months
  • バケットの母集団サイズ (データベース列): size
  • ステージ値 (データベース列): active
  • 期間: monthly

構成オプション:コーホート構成オプションについては、「コーホート グラフ構成オプション」を参照してください。

SQL クエリ: このコーホートの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

カウンター ディスプレイ

カウンターでは、1 つの値が目立つように表示され、ターゲット値と比較するオプションが表示されます。 カウンターを使用するには、[値列][ターゲット列] のカウンター視覚エフェクトに表示するデータ行を指定します。

Note

カウンターでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。

Counter example

構成値: このカウンターの視覚化では、次の値が設定されました。

  • 値列
    • データセット列: avg(o_totalprice)
    • 行 1:
  • ターゲット列:
    • データセット列: avg(o_totalprice)
    • 行 2:
  • ターゲット値の書式設定: 有効

SQL クエリ: このカウンターの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

じょうごの視覚化

じょうごの視覚化は、さまざまな段階でメトリックの変化を分析するのに役立ちます。 じょうごを使用するには、stepvalue 列を指定します。

Note

じょうごでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。

Funnel example

構成値: このじょうごの視覚化では、次の値が設定されました。

  • ステップ列 (データセット列): o_orderstatus
  • 値列 (データセット列): Revenue

SQL クエリ: このじょうごの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

階級区分図マップの視覚化

階級区分図の視覚化では、国や州などの地理的な地域は、各キー列の集計値に従って色付けされます。 クエリでは、地理的な場所を名前で返す必要があります。

Note

階級区分図の視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリ自体内で計算する必要があります。

Map choropleth example

構成値: この階級区分図の視覚化では、次の値が設定されました。

  • マップ (データセット列): Countries
  • 地理列 (データセット列): Nation
  • 地理的な種類: 短い名前
  • 値列 (データセット列): revenue
  • クラスタリング モード: 等間隔

構成オプション:階級区分図の構成オプションについては、「階級区分図の構成オプション」を参照してください。

SQL クエリ: この:階級区分図の視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

マーカー マップの視覚化

マーカーの視覚かでは、マーカーは、マップ上の一連の座標に配置されます。 クエリ結果は、緯度と経度のペアを返す必要があります。

Note

マーカーは、結果セット内のデータの集計を行いません。 すべての集計は、クエリ自体内で計算する必要があります。

Map marker example

このマーカーの例は、緯度と経度の両方の値を含むデータセットから生成されます。これは Databricks サンプル データセットでは使用できません。 階級区分図の構成オプションについては、「マーカー構成オプション」を参照してください。

ピボット テーブルの視覚化

ピボット テーブルの視覚化では、クエリ結果のレコードが、新しい表形式の表示に集計されます。 これは、SQL の PIVOT または GROUP BY ステートメントに似ています。 ピボット テーブルの視覚化は、ドラッグ アンド ドロップ フィールドで設定します。

Note

ピボット テーブルはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。 ただし、ピボット テーブル (レガシ) では、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。

ピボット テーブルの例

構成値: このピボット テーブルの視覚化では、次の値が設定されました。

  • 行 (データセット列) の選択: l_retkurnflag
  • 列 (データセット列) の選択: l_shipmode
  • Cell (セル)
    • データセット列: l_quantity
    • 集計の種類: Sum

SQL クエリ: このピボット テーブルの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.lineitem

サンキー

サンキー ダイアグラムは、ある値のセットから別の値のセットへのフローを視覚化します。

Note

サンキーの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリ自体内で計算する必要があります。

Sankey example

SQL クエリ: このサンキーの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

サンバースト シーケンス

サンバースト図は、同心円を使用して階層データを視覚化するのに役立ちます。

Note

サンバースト シーケンスは、結果セット内のデータの集計を行いません。 すべての集計は、クエリ自体内で計算する必要があります。

Sunburst example

SQL クエリ: このサンバーストの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

テーブル

テーブルの視覚化では、標準テーブルのデータが表示されますが、データの並べ替え、非表示、書式設定を手動で行う機能があります。 「テーブル オプション」を参照してください。

Note

テーブルの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリ自体内で計算する必要があります。

テーブルの構成オプションについては、「テーブルの構成オプション」を参照してください。

ワード クラウド

ワード クラウドは、データ内で単語が出現する頻度を視覚的に表します。

Note

ワード クラウドでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。

Word cloud example

構成値: このワード クラウドの視覚化では、次の値が設定されました。

  • ワード列 (データセット列): o_comment
  • ワードの長さの制限: 5
  • 頻度の制限: 2

SQL クエリ: このワード クラウドの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。

select * from samples.tpch.orders