Tipos de visualização

Este artigo descreve os tipos de visualizações disponíveis para uso nos blocos de anotações do Azure Databricks e no Databricks SQL e mostra como criar um exemplo de cada tipo de visualização.

Gráfico de barras

Os gráficos de barras representam a mudança nas métricas ao longo do tempo ou para mostrar proporcionalidade, semelhante a um gráfico de pizza .

Nota

Os gráficos de barras suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Bar chart example

Valores de configuração: Para esta visualização de gráfico de barras, foram definidos os seguintes valores:

  • Coluna X:
    • Coluna do conjunto de dados: o_orderdate
    • Nível de data: Months
  • Colunas Y:
    • Coluna do conjunto de dados: o_totalprice
    • Tipo de agregação: Sum
  • Agrupar por (coluna do conjunto de dados): o_orderpriority
  • Empilhamento: Stack
  • Nome do eixo X (substituir valor padrão): Order month
  • Nome do eixo Y (substituir o valor padrão): Total price

Opções de configuração: Para opções de configuração de gráfico de barras, consulte Opções de configuração de gráfico.

Consulta SQL: Para esta visualização de gráfico de barras, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de linhas

Os gráficos de linhas apresentam a mudança em uma ou mais métricas ao longo do tempo.

Nota

Os gráficos de linhas suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Line chart example

Valores de configuração: Para esta visualização de gráfico de linhas, foram definidos os seguintes valores:

  • Coluna X:
    • Coluna do conjunto de dados: o_orderdate
    • Nível de data: Years
  • Colunas Y:
    • Coluna do conjunto de dados: o_totalprice
    • Tipo de agregação: Average
  • Agrupar por (coluna do conjunto de dados): o_orderpriority
  • Nome do eixo X (substituir valor padrão): Order year
  • Nome do eixo Y (substituir o valor padrão): Average price

Opções de configuração: Para opções de configuração de gráfico de linha, consulte Opções de configuração de gráfico.

Consulta SQL: Para esta visualização de gráfico de linhas, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de área

Os gráficos de área combinam o gráfico de linhas e barras para mostrar como os valores numéricos de um ou mais grupos mudam ao longo da progressão de uma segunda variável, normalmente a do tempo. Eles são frequentemente usados para mostrar as mudanças do funil de vendas ao longo do tempo.

Nota

Os gráficos de área suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Area chart example

Valores de configuração: Para esta visualização de gráfico de área, foram definidos os seguintes valores:

  • Coluna X:
    • Coluna do conjunto de dados: o_orderdate
    • Nível de data: Years
  • Colunas Y:
    • Coluna do conjunto de dados: o_totalprice
    • Tipo de agregação: Sum
  • Agrupar por (coluna do conjunto de dados): o_orderpriority
  • Empilhamento: Stack
  • Nome do eixo X (substituir valor padrão): Order year
  • Nome do eixo Y (substituir o valor padrão): Total price

Opções de configuração: Para opções de configuração de gráfico de área, consulte Opções de configuração de gráfico.

Consulta SQL: Para esta visualização de gráfico de área, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráficos circulares

Os gráficos de pizza mostram a proporcionalidade entre as métricas. Não se destinam a transmitir dados de séries cronológicas.

Nota

Os gráficos de pizza suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Pie chart example

Valores de configuração: Para esta visualização de gráfico circular, foram definidos os seguintes valores:

  • Coluna X (coluna do conjunto de dados): o_orderpriority
  • Colunas Y:
    • Coluna do conjunto de dados: o_totalprice
    • Tipo de agregação: Sum
  • Rótulo (substituir o valor padrão): Total price

Opções de configuração: Para opções de configuração de gráfico circular, consulte Opções de configuração de gráfico.

Consulta SQL: Para esta visualização de gráfico de pizza, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráficos de histograma

Um histograma plota a frequência com que um determinado valor ocorre em um conjunto de dados. Um histograma ajuda você a entender se um conjunto de dados tem valores agrupados em torno de um pequeno número de intervalos ou mais espalhados. Um histograma é exibido como um gráfico de barras no qual você controla o número de barras distintas (também chamadas de compartimentos).

Nota

Os gráficos de histograma suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Histogram chart example

Valores de configuração: Para esta visualização de gráfico de histograma, foram definidos os seguintes valores:

  • Coluna X (coluna do conjunto de dados): o_totalprice
  • Número de caixotes: 20
  • Nome do eixo X (substituir valor padrão): Total price

Opções de configuração: Para opções de configuração de gráfico de histograma, consulte Opções de configuração de gráfico de histograma.

Consulta SQL: Para esta visualização de gráfico de histograma, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de mapa de calor

Os gráficos de mapa de calor combinam recursos de gráficos de barras, empilhamento e gráficos de bolhas, permitindo que você visualize dados numéricos usando cores. Uma paleta de cores comum para um mapa de calor mostra os valores mais altos usando cores mais quentes, como laranja ou vermelho, e os valores mais baixos usando cores mais frias, como azul ou roxo.

Por exemplo, considere o seguinte mapa de calor que visualiza as distâncias mais frequentes de corridas de táxi em cada dia e agrupa os resultados pelo dia da semana, distância e tarifa total.

Nota

Os gráficos de mapa de calor suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Heatmap example

Valores de configuração: Para esta visualização de gráfico de mapa de calor, foram definidos os seguintes valores:

  • Coluna X (coluna do conjunto de dados): o_orderpriority
  • Colunas Y (coluna do conjunto de dados): o_orderstatus
  • Coluna de cor:
    • Coluna do conjunto de dados: o_totalprice
    • Tipo de agregação: Average
  • Nome do eixo X (substituir valor padrão): Order priority
  • Nome do eixo Y (substituir valor padrão): Order status
  • Esquema de cores (substituir o valor padrão): YIGnBu

Opções de configuração: Para opções de configuração de mapa de calor, consulte Opções de configuração de gráfico de mapa de calor.

Consulta SQL: Para esta visualização de gráfico de mapa de calor, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de dispersão

As visualizações de dispersão são comumente usadas para mostrar a relação entre duas variáveis numéricas. Além disso, uma terceira dimensão pode ser codificada com cores para mostrar como as variáveis numéricas são diferentes entre os grupos.

Nota

Os gráficos de dispersão suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Scatter example

Valores de configuração: Para esta visualização de gráfico de dispersão, foram definidos os seguintes valores:

  • Coluna X (coluna do conjunto de dados): l_quantity
  • Coluna Y (coluna do conjunto de dados): l_extendedprice
  • Agrupar por (coluna do conjunto de dados): l_returnflag
  • Nome do eixo X (substituir valor padrão): Quantity
  • Nome do eixo Y (substituir o valor padrão): Extended price

Opções de configuração: Para opções de configuração de gráfico de dispersão, consulte Opções de configuração de gráfico.

Consulta SQL: Para essa visualização de gráfico de dispersão, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico de bolhas

Os gráficos de bolhas são gráficos de dispersão em que o tamanho de cada marcador de ponto reflete uma métrica relevante.

Nota

Os gráficos de bolhas suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Bubble example

Valores de configuração: Para esta visualização de gráfico de bolhas, foram definidos os seguintes valores:

  • X (coluna do conjunto de dados): l_quantity
  • Colunas Y (coluna do conjunto de dados): l_extendedprice
  • Agrupar por (coluna do conjunto de dados): l-returnflag
  • Coluna de tamanho de bolha (coluna do conjunto de dados): l_tax
  • Coeficiente de tamanho da bolha: 20
  • Nome do eixo X (substituir valor padrão): Quantity
  • Nome do eixo Y (substituir o valor padrão): Extended price

Opções de configuração: Para opções de configuração de gráfico de bolhas, consulte Opções de configuração de gráfico.

Consulta SQL: Para esta visualização de gráfico de bolhas, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico de caixa

A visualização do gráfico de caixa mostra o resumo da distribuição dos dados numéricos, opcionalmente agrupados por categoria. Usando uma visualização de gráfico de caixa, você pode comparar rapidamente os intervalos de valores entre categorias e visualizar os grupos de localidade, dispersão e assimetria dos valores através de seus quartis. Em cada caixa, a linha mais escura mostra o intervalo interquartílico. Para obter mais informações sobre como interpretar visualizações de gráfico de caixa, consulte o artigo Gráfico de caixa na Wikipédia.

Nota

Os gráficos de caixa suportam apenas agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.

Box chart example

Valores de configuração: Para esta visualização de gráfico de caixa, foram definidos os seguintes valores:

  • Coluna X (coluna do conjunto de dados): l-returnflag
  • Colunas Y (coluna do conjunto de dados): l_extendedprice
  • Agrupar por (coluna do conjunto de dados): l_shipmode
  • Nome do eixo X (substituir valor padrão): Return flag1
  • Nome do eixo Y (substituir o valor padrão): Extended price

Opções de configuração: Para opções de configuração de gráfico de caixa, consulte Opções de configuração de gráfico de caixa.

Consulta SQL: Para esta visualização de gráfico de caixa, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico de combinação

Os gráficos de combinação combinam gráficos de linhas e barras para apresentar as alterações ao longo do tempo com proporcionalidade.

Nota

Os gráficos de combinação suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados.

Combo example

Valores de configuração: Para esta visualização de gráfico de combinação, foram definidos os seguintes valores:

  • Coluna X (coluna do conjunto de dados): l_shipdate
  • Colunas Y:
    • Primeira coluna do conjunto de dados: l_extendedprice
    • Tipo de agregação: média
    • Segunda coluna do conjunto de dados: l_quantity
    • Tipo de agregação: média
  • Nome do eixo X (substituir valor padrão): Ship date
  • Nome do eixo Y esquerdo (substituir o valor padrão): Quantity
  • Nome do eixo Y direito (substituir o valor padrão): Average price
  • Série:
    • Order1 (coluna do conjunto de dados): AVG(l_extendedprice)
    • Eixo Y: direito
    • Tipo: Linha
    • Order2 (coluna do conjunto de dados): AVG(l_quantity)
    • Eixo Y: esquerda
    • Tipo: Bar

Opções de configuração: Para opções de configuração de gráfico de combinação, consulte Opções de configuração de gráfico.

Consulta SQL: Para esta visualização de gráfico de combinação, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Análise de coorte

Uma análise de coorte examina os resultados de grupos predeterminados, chamados coortes, à medida que progridem através de um conjunto de estágios. A visualização da coorte apenas agrega sobre datas (permite agregações mensais). Ele não faz nenhuma outra agregação de dados dentro do conjunto de resultados. Todas as outras agregações são feitas dentro da própria consulta.

Cohort example

Valores de configuração: Para esta visualização de coorte, foram definidos os seguintes valores:

  • Data (bucket) (coluna do banco de dados): cohort_month
  • Estágio (coluna do banco de dados): months
  • Tamanho da população do bucket (coluna do banco de dados): size
  • Valor do palco (coluna do banco de dados): active
  • Intervalo de tempo: monthly

Opções de configuração: Para opções de configuração de coorte, consulte Opções de configuração de gráfico de coorte.

Consulta SQL: Para esta visualização de coorte, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Visor de balcão

Os contadores exibem um único valor em destaque, com uma opção para compará-los com um valor de destino. Para usar contadores, especifique qual linha de dados exibir na visualização do contador para a Coluna de Valor e a Coluna de Destino.

Nota

O contador suporta apenas agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.

Counter example

Valores de configuração: Para esta visualização do contador, foram definidos os seguintes valores:

  • Coluna Valor
    • Coluna do conjunto de dados: avg(o_totalprice)
    • Linha: 1
  • Coluna de destino:
    • Coluna do conjunto de dados: avg(o_totalprice)
    • Linha: 2
  • Formatar valor de destino: Ativar

Consulta SQL: Para esta visualização de contador, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Visualização do funil

A visualização do funil ajuda a analisar a mudança em uma métrica em diferentes estágios. Para usar o funil, especifique a step e uma value coluna.

Nota

O funil só suporta agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.

Funnel example

Valores de configuração: Para esta visualização de funil, foram definidos os seguintes valores:

  • Coluna de etapa (coluna do conjunto de dados): o_orderstatus
  • Coluna de valor (coluna do conjunto de dados): Revenue

Consulta SQL: Para esta visualização de funil, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Visualização de mapa de choropleth

Nas visualizações coropléticas, as localidades geográficas, como países ou estados, são coloridas de acordo com os valores agregados de cada coluna chave. A consulta deve retornar localizações geográficas por nome.

Nota

As visualizações de choropleth não fazem agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.

Map choropleth example

Valores de configuração: Para esta visualização coroplética, foram definidos os seguintes valores:

  • Mapa (coluna do conjunto de dados): Countries
  • Coluna geográfica (coluna do conjunto de dados): Nation
  • Tipo geográfico: Nome curto
  • Coluna de valor (coluna do conjunto de dados): revenue
  • Modo de agrupamento: equidistante

Opções de configuração: Para opções de configuração de choropleth, consulte opções de configuração de choropleth.

Consulta SQL: Para esta visualização coroplética, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Visualização de mapa de marcador

Nas visualizações de marcadores, um marcador é colocado em um conjunto de coordenadas no mapa. O resultado da consulta deve retornar os pares de latitude e longitude.

Nota

O marcador não faz agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.

Map marker example

Este exemplo de marcador é gerado a partir de um conjunto de dados que inclui valores de latitude e longitude - que não estão disponíveis nos conjuntos de dados de exemplo Databricks. Para opções de configuração de coropleth, consulte Opções de configuração de marcador.

Visualização de tabela dinâmica

Uma visualização de tabela dinâmica agrega registros de um resultado de consulta em uma nova exibição tabular. É semelhante a PIVOT instruções ou GROUP BY em SQL. Configure a visualização de tabela dinâmica com campos de arrastar e soltar.

Nota

As tabelas dinâmicas suportam agregações de back-end, fornecendo suporte para consultas que retornam mais de 64K linhas de dados sem truncamento do conjunto de resultados. No entanto, a tabela dinâmica (legado) só suporta agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.

Exemplo de tabela dinâmica

Valores de configuração: Para esta visualização de tabela dinâmica, foram definidos os seguintes valores:

  • Selecionar linhas (coluna do conjunto de dados): l_retkurnflag
  • Selecionar colunas (coluna do conjunto de dados): l_shipmode
  • Célula
    • Coluna do conjunto de dados: l_quantity
    • Tipo de agregação: Soma

Consulta SQL: Para esta visualização de tabela dinâmica, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Sankey

Um diagrama sankey visualiza o fluxo de um conjunto de valores para outro.

Nota

As visualizações Sankey não fazem agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.

Sankey example

Consulta SQL: Para esta visualização Sankey, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Sequência Sunburst

Um diagrama sunburst ajuda a visualizar dados hierárquicos usando círculos concêntricos.

Nota

A sequência Sunburst não faz agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.

Sunburst example

Consulta SQL: Para esta visualização sunburst, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Table

A visualização de tabela exibe dados em uma tabela padrão, mas com a capacidade de reordenar, ocultar e formatar manualmente os dados. Consulte Opções de tabela.

Nota

As visualizações de tabela não fazem agregações de dados dentro do conjunto de resultados. Todas as agregações devem ser computadas dentro da própria consulta.

Para opções de configuração de tabela, consulte Opções de configuração de tabela.

Nuvem de palavras

Uma nuvem de palavras representa visualmente a frequência com que uma palavra ocorre nos dados.

Nota

A nuvem do Word suporta apenas agregação para até 64.000 linhas. Se um conjunto de dados for maior que 64.000 linhas, os dados serão truncados.

Word cloud example

Valores de configuração: Para esta visualização em nuvem de palavras, foram definidos os seguintes valores: teste

  • Coluna de palavras (coluna do conjunto de dados): o_comment
  • Limite de comprimento das palavras: 5
  • Limite de frequências: 2

Consulta SQL: Para esta visualização de nuvem de palavras, a seguinte consulta SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders