Comece a usar: Consultar e visualizar os dados de um notebook
Este artigo de introdução orienta você no uso de um notebook do Azure Databricks para consultar dados de amostra armazenados no Catálogo do Unity usando SQL, Python, Scala e R e, em seguida, visualizar os resultados da consulta no notebook.
Requisitos
Para concluir as tarefas nesse artigo, você deve atender aos seguintes requisitos:
- Seu espaço de trabalho deve ter o Catálogo do Unity habilitado. Para obter informações sobre como começar a usar o Catálogo do Unity, consulte Configurar e gerenciar o Catálogo do Unity.
- Você deve ter permissão para usar um recurso de computação existente ou criar um recurso de computação. Consulte Começar: Configuração da conta e do espaço de trabalho ou consulte o administrador do Databricks.
Etapa 1: Criar um notebook
Para criar um notebook em seu espaço de trabalho:
- Clique no Novo na barra lateral e clique em Notebook.
- Na página Criar Notebook:
- Especifique um nome exclusivo para seu notebook.
- Defina o idioma padrão do notebook e clique em Confirmar se solicitado.
- Use o menu suspenso Conectar para selecionar um recurso de computação. Para criar um recurso de computação, consulte Usar computação.
Para saber mais sobre como criar e gerenciar notebooks, consulte Gerenciar notebooks.
Etapa 2: Consultar uma tabela
Consulte a tabela samples.nyctaxi.trips
no Catálogo do Unity usando o idioma de sua preferência.
SQL
- Copie e cole o código a seguir na nova célula vazia do notebook. Esse código exibe os resultados da consulta da tabela
samples.nyctaxi.trips
no Catálogo do Unity.
SELECT * FROM samples.nyctaxi.trips
Python
- Copie e cole o código a seguir na nova célula vazia do notebook. Esse código exibe os resultados da consulta da tabela
samples.nyctaxi.trips
no Catálogo do Unity.
display(spark.read.table("samples.nyctaxi.trips"))
Scala
- Copie e cole o código a seguir na nova célula vazia do notebook. Esse código exibe os resultados da consulta da tabela
samples.nyctaxi.trips
no Catálogo do Unity.
display(spark.read.table("samples.nyctaxi.trips"))
R
- Copie e cole o código a seguir na nova célula vazia do notebook. Esse código exibe os resultados da consulta da tabela
samples.nyctaxi.trips
no Catálogo do Unity.
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
Pressione
Shift+Enter
para executar a célula e depois mova para a próxima célula.Os resultados da consulta aparecem no notebook.
Etapa 3: Exibir os dados
Exiba o valor da tarifa média por distância de viagem, agrupada pelo código postal da coleta.
Ao lado da guia Tabela, clique + e, em seguida, clique em Visualização.
O editor de visualização é exibido.
Na lista suspensa Tipo de Visualização, verifique se a Barra está selecionada.
Selecione
fare_amount
para a coluna X.Selecione
trip_distance
para a coluna Y.Selecione
Average
como o tipo de agregação.Selecione
pickup_zip
como a coluna Agrupar por.Clique em Save (Salvar).
Próximas etapas
- Para saber como carregar dados no Databricks usando o Apache Spark, consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames.
- Para saber mais sobre a ingestão de dados no Databricks, consulte Ingerir dados em um Databricks Lakehouse.
- Para saber mais sobre como consultar dados com o Databricks, consulte Dados de consulta.
- Para saber mais sobre visualizações, consulte Visualizações em notebooks do Databricks.
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de