Типы визуализации

В этой статье описаны типы визуализаций, доступные для использования в записных книжках Azure Databricks и в Databricks SQL, и показано, как создать пример каждого типа визуализации.

Линейчатая диаграмма

Линейчатые диаграммы представляют собой изменение метрик с течением времени или отображение пропорциональности, аналогичной круговой диаграмме.

Примечание.

Линейчатые диаграммы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Bar chart example

Значения конфигурации: для визуализации линейчатой диаграммы были заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: o_orderdate
    • Уровень даты: Months
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Sum
  • Группировать по (столбец набора данных): o_orderpriority
  • Укладки: Stack
  • Имя оси X (переопределение значения по умолчанию): Order month
  • Имя оси Y (переопределение значения по умолчанию): Total price

Параметры конфигурации: параметры конфигурации линейчатой диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для визуализации линейчатой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

График

Графики представляют собой изменение одной или нескольких метрик с течением времени.

Примечание.

Графики поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Line chart example

Значения конфигурации: для этой визуализации диаграммы были заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: o_orderdate
    • Уровень даты: Years
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Average
  • Группировать по (столбец набора данных): o_orderpriority
  • Имя оси X (переопределение значения по умолчанию): Order year
  • Имя оси Y (переопределение значения по умолчанию): Average price

Параметры конфигурации: параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для визуализации этой графики для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Диаграмма области

Диаграммы областей объединяют линейчатую и линейчатую диаграмму, чтобы показать, как количество числовых значений одной или нескольких групп изменяется на протяжении хода выполнения второй переменной, как правило, времени. Эти диаграммы часто используются, чтобы показать изменений воронки продаж с течением времени.

Примечание.

Диаграммы областей поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора.

Area chart example

Значения конфигурации: для визуализации диаграммы области были заданы следующие значения:

  • Столбец X:
    • Столбец набора данных: o_orderdate
    • Уровень даты: Years
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Sum
  • Группировать по (столбец набора данных): o_orderpriority
  • Укладки: Stack
  • Имя оси X (переопределение значения по умолчанию): Order year
  • Имя оси Y (переопределение значения по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации диаграммы области см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для визуализации диаграммы этой области для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Круговая диаграмма

Круговая диаграмма показывает пропорциональность между метриками. Эти диаграммы не предназначены для передачи данных временных рядов.

Примечание.

Круговая диаграмма поддерживает агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Pie chart example

Значения конфигурации: для этой визуализации круговой диаграммы были заданы следующие значения:

  • Столбец X (столбец набора данных): o_orderpriority
  • Столбцы Y:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Sum
  • Метка (переопределите значение по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации круговой диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для визуализации круговой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Гистограммные диаграммы

Гистограмма отображает частоту появления определенного значения в наборе данных. Гистограмма помогает определить, в каком диапазоне находится кластер значений набора данных. Гистограмма отображается в виде линейчатой диаграммы, в которой можно управлять количеством отображаемых столбиков (также называемых контейнерами).

Примечание.

Гистограммные диаграммы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Histogram chart example

Значения конфигурации: для визуализации диаграммы гистограммы были заданы следующие значения:

  • Столбец X (столбец набора данных): o_totalprice
  • Количество ячеек: 20
  • Имя оси X (переопределение значения по умолчанию): Total price

Параметры конфигурации. Параметры конфигурации гистограммы см . в параметрах конфигурации гистограммы.

SQL-запрос. Для визуализации диаграммы гистограммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Диаграмма тепловой карты

Диаграммы тепловой карты смешивают функции линейчатых диаграмм, стеков и пузырьковых диаграмм, что позволяет визуализировать числовые данные с помощью цветов. Стандартная цветовая палитра для тепловой карты показывает максимальные значения оранжевым или красным цветом, а наименьшие — синим или сиреневым.

Например, рассмотрим следующую тепловую карту, которая визуализирует наиболее часто встречающиеся расстояния поездок на такси и группирует результаты по дню недели, расстоянию и общей сумме оплаты.

Примечание.

Диаграммы тепловой карты поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Heatmap example

Значения конфигурации: для визуализации диаграммы тепловой карты были заданы следующие значения:

  • Столбец X (столбец набора данных): o_orderpriority
  • Столбцы Y (столбец набора данных): o_orderstatus
  • Столбец цвета:
    • Столбец набора данных: o_totalprice
    • Тип агрегирования: Average
  • Имя оси X (переопределение значения по умолчанию): Order priority
  • Имя оси Y (переопределение значения по умолчанию): Order status
  • Цветовая схема (переопределение значения по умолчанию): YIGnBu

Параметры конфигурации: параметры конфигурации тепловой карты см. в разделе "Параметры конфигурации диаграммы тепловой карты".

SQL-запрос. Для визуализации диаграммы тепловой карты для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders

Точечная диаграмма

Точечные визуализации обычно используются для отображения связи между двумя числовыми переменными. Кроме того, третье измерение может быть закодировано цветом, чтобы показать, как числовые переменные отличаются между группами.

Примечание.

Точечная диаграмма поддерживает агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора.

Scatter example

Значения конфигурации: для этой визуализации точечной диаграммы были заданы следующие значения:

  • Столбец X (столбец набора данных): l_quantity
  • Столбец Y (столбец набора данных): l_extendedprice
  • Группировать по (столбец набора данных): l_returnflag
  • Имя оси X (переопределение значения по умолчанию): Quantity
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации: параметры конфигурации точечной диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для этой визуализации точечной диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem

Пузырьковая диаграмма

Пузырьковые диаграммы — это точечные диаграммы, где размер каждого маркера точек отражает соответствующую метрику.

Примечание.

Пузырьковые диаграммы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64K строк данных без усечения результируемого набора.

Bubble example

Значения конфигурации: для этой визуализации пузырьковой диаграммы были заданы следующие значения:

  • X (столбец набора данных): l_quantity
  • Столбцы Y (столбец набора данных): l_extendedprice
  • Группировать по (столбец набора данных): l-returnflag
  • Столбец размера пузырька (столбец набора данных): l_tax
  • Коэффициент размера пузыря: 20
  • Имя оси X (переопределение значения по умолчанию): Quantity
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации: параметры конфигурации пузырьковой диаграммы см . в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для визуализации пузырьковой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem

Прямоугольная диаграмма

Визуализация прямоугольной диаграммы показывает сводку распределения числовых данных, при необходимости сгруппированную по категориям. С помощью визуализации диаграммы можно быстро сравнить диапазоны значений между категориями и визуализировать локализацию, распределение и отклонение групп значений через их квартиль. В каждом поле темная линия показывает межквартильный диапазон. Дополнительные сведения о интерпретации визуализаций графиков прямоугольник см. в статье "Диаграмма", размещенной в Википедии.

Примечание.

Прямоугольные диаграммы поддерживают только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Box chart example

Значения конфигурации: для визуализации диаграммы в этом поле были заданы следующие значения:

  • Столбец X (столбец набора данных): l-returnflag
  • Столбцы Y (столбец набора данных): l_extendedprice
  • Группировать по (столбец набора данных): l_shipmode
  • Имя оси X (переопределение значения по умолчанию): Return flag1
  • Имя оси Y (переопределение значения по умолчанию): Extended price

Параметры конфигурации. Параметры конфигурации диаграммы см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для визуализации этой диаграммы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem

Диаграмма со списком

Комбо-диаграммы объединяют линии и линейчатые диаграммы, чтобы представить изменения с течением времени с пропорциональностью.

Примечание.

Диаграммы со списком поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора.

Combo example

Значения конфигурации: для этой визуализации диаграммы со списком были заданы следующие значения:

  • Столбец X (столбец набора данных): l_shipdate
  • Столбцы Y:
    • Первый столбец набора данных: l_extendedprice
    • Тип агрегирования: среднее
    • Второй столбец набора данных: l_quantity
    • Тип агрегирования: среднее
  • Имя оси X (переопределение значения по умолчанию): Ship date
  • Левое имя оси Y (переопределите значение по умолчанию): Quantity
  • Правое имя оси Y (переопределите значение по умолчанию): Average price
  • Серии:
    • Order1 (столбец набора данных): AVG(l_extendedprice)
    • Ось Y: справа
    • Тип: Строка
    • Order2 (столбец набора данных): AVG(l_quantity)
    • Ось Y: слева
    • Тип: линейчатая строка

Параметры конфигурации: параметры конфигурации диаграммы со списком см. в разделе "Параметры конфигурации диаграммы".

SQL-запрос. Для этой визуализации диаграммы со списком для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem

Анализ когорты

Когортный анализ позволяет исследовать результаты предварительно определенных групп, называемых когортами, по мере прохождения ими ряда этапов. Визуализация когорты агрегирует только даты (она позволяет выполнять ежемесячные агрегаты). Он не выполняет другие агрегаты данных в результирующем наборе. Все остальные агрегаты выполняются в самом запросе.

Cohort example

Значения конфигурации: для этой репетиторной визуализации были заданы следующие значения:

  • Дата (контейнер) (столбец базы данных): cohort_month
  • Этап (столбец базы данных): months
  • Размер совокупности контейнеров (столбец базы данных): size
  • Значение этапа (столбец базы данных): active
  • Интервал времени: monthly

Параметры конфигурации: параметры конфигурации когорты см . в параметрах конфигации диаграммы когорты.

SQL-запрос. Для этой визуализации когорты для создания набора данных использовался следующий SQL-запрос.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Отображение счетчика

Счетчики отображают одно значение в видном виде, с параметром сравнения их с целевым значением. Чтобы использовать счетчики, укажите, какая строка данных будет отображаться в визуализации счетчика для столбца значения и целевого столбца.

Примечание.

Счетчик поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Counter example

Значения конфигурации: для этой визуализации счетчика были заданы следующие значения:

  • Столбец значений
    • Столбец набора данных: avg(o_totalprice)
    • Строка 1:
  • Целевой столбец:
    • Столбец набора данных: avg(o_totalprice)
    • Строка 2:
  • Формат целевого значения: Включение

SQL-запрос. Для визуализации этого счетчика для создания набора данных использовался следующий SQL-запрос.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Визуализация воронки

Визуализация воронки помогает анализировать изменение метрик на разных этапах. Чтобы использовать воронку, укажите step и value столбец.

Примечание.

Воронка поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Funnel example

Значения конфигурации: для этой визуализации воронки были заданы следующие значения:

  • Столбец шага (столбец набора данных): o_orderstatus
  • Столбец значений (столбец набора данных): Revenue

SQL-запрос. Для этой визуализации воронки для создания набора данных использовался следующий SQL-запрос.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Визуализация карты Choropleth

В визуализациях хороплей географических мест, таких как страны или штаты, цветом являются статистические значения каждого ключевого столбца. Запрос должен возвращать географические объекты по имени.

Примечание.

Визуализации Choropleth не делают агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Map choropleth example

Значения конфигурации: для этой визуализации хороплей были заданы следующие значения:

  • Карта (столбец набора данных): Countries
  • Географический столбец (столбец набора данных): Nation
  • Географический тип: короткое имя
  • Столбец значений (столбец набора данных): revenue
  • Режим кластеризации: эквивалентный

Параметры конфигурации: параметры конфигурации choropleth см . в разделе параметров конфигурации хороплета.

SQL-запрос. Для этой визуализации хороплей для создания набора данных использовался следующий SQL-запрос.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Визуализация карты маркеров

В визуализациях маркеров маркер помещается в набор координат на карте. Результат запроса должен возвращать пару "широта — долгота".

Примечание.

Маркер не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Map marker example

Этот пример маркера создается из набора данных, включающего значения широты и долготы, которые недоступны в примерах наборов данных Databricks. Параметры конфигурации хороплей см. в разделе "Параметры конфигурации маркера".

Визуализация таблицы сводной таблицы

Визуализация сводной таблицы объединяет записи из результата запроса в новое табличное отображение. Это аналогично оператору PIVOT или GROUP BY в SQL. Вы можете настроить визуализацию сводной таблицы с помощью полей перетаскивания.

Примечание.

Таблицы сводной таблицы поддерживают агрегаты серверной части, обеспечивая поддержку запросов, возвращающих более 64 КБ строк данных без усечения результируемого набора. Однако таблица сводной таблицы (устаревшая версия) поддерживает только агрегирование до 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Пример таблицы сводной таблицы

Значения конфигурации: для этой визуализации сводной таблицы были заданы следующие значения:

  • Выберите строки (столбец набора данных): l_retkurnflag
  • Выберите столбцы (столбец набора данных): l_shipmode
  • Ячейки
    • Столбец набора данных: l_quantity
    • Тип агрегирования: Сумма

SQL-запрос. Для этой визуализации сводной таблицы для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.lineitem

Sankey

Схема sankey визуализирует поток из одного набора значений в другой.

Примечание.

Визуализации Sankey не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Sankey example

SQL-запрос. Для этой визуализации Sankey для создания набора данных использовался следующий SQL-запрос.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Последовательность Sunburst

Схема солнечных лучей помогает визуализировать иерархические данные с помощью концентрических кругов.

Примечание.

Последовательность Sunburst не выполняет агрегирование данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Sunburst example

SQL-запрос. Для этой визуализации солнечных лучей для создания набора данных использовался следующий SQL-запрос.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Таблицу

Визуализация таблицы отображает данные в стандартной таблице, но с возможностью ручного переупорядочения, скрытия и форматирования данных. См . параметры таблицы.

Примечание.

Визуализации таблиц не выполняют агрегирования данных в результирующем наборе. Все агрегаты должны вычисляться внутри самого запроса.

Параметры конфигурации таблицы см. в разделе "Параметры конфигурации таблицы".

Облако Word

Визуальное облако слова представляет частоту, которую слово происходит в данных.

Примечание.

Облако Word поддерживает агрегирование только для 64 000 строк. Если набор данных превышает 64 000 строк, данные будут усечены.

Word cloud example

Значения конфигурации: для этой визуализации облака word были заданы следующие значения: тест

  • Столбец слов (столбец набора данных): o_comment
  • Ограничение длины слов: 5
  • Ограничение частоты: 2

SQL-запрос. Для этой визуализации облака слова для создания набора данных использовался следующий SQL-запрос.

select * from samples.tpch.orders