Начало работы. Запрос и визуализация данных из записной книжки

Статья
04/25/2024

В этой статье описано, как использовать записную книжку Azure Databricks для запроса примеров данных, хранящихся в каталоге Unity, с помощью SQL, Python, Scala и R, а затем визуализировать результаты запроса в записной книжке.

Требования

Чтобы выполнить задачи в этой статье, необходимо выполнить следующие требования:

Рабочая область должна включать каталог Unity. Сведения о начале работы с каталогом Unity см. в разделе "Настройка каталога Unity" и управление ими.
Необходимо иметь разрешение на использование существующего вычислительного ресурса или создать новый вычислительный ресурс. См. статью "Начало работы: настройка учетной записи и рабочей области " или просмотр администратора Databricks.

Шаг 1. Создание записной книжки

Чтобы создать записную книжку в рабочей области, выполните следующие действия.

Нажмите кнопку "Создать" на боковой панели и щелкните "Записная книжка".
На странице создания записной книжки:
- Укажите уникальное имя для записной книжки.
- Задайте язык по умолчанию для записной книжки и нажмите кнопку "Подтвердить ", если появится запрос.
- Используйте раскрывающееся меню Подключение, чтобы выбрать вычислительный ресурс. Сведения о создании нового вычислительного ресурса см. в разделе "Использование вычислительных ресурсов".

Дополнительные сведения о создании записных книжек и управлении ими см. в статье Управление записными книжками.

Шаг 2. Запрос таблицы

Запросите таблицу samples.nyctaxi.trips в каталоге Unity с помощью выбранного языка.

SQL

Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.

SELECT * FROM samples.nyctaxi.trips

Python

Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.

display(spark.read.table("samples.nyctaxi.trips"))

Scala

Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.

display(spark.read.table("samples.nyctaxi.trips"))

R

Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.

library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))

Нажмите Shift+Enter , чтобы запустить ячейку, а затем перейдите к следующей ячейке.

Результаты запроса отображаются в записной книжке.

Шаг 3. Отображение данных

Отображение средней суммы тарифа по расстоянию поездки, сгруппированную по zip-коду пикапа.

Рядом с вкладкой "Таблица " щелкните + и щелкните " Визуализация".

Откроется редактор визуализации.
В раскрывающемся списке " Тип визуализации" убедитесь, что выбрана панель .
Выберите fare_amount для столбца X.
Выберите trip_distance столбец Y.
Выберите Average в качестве типа агрегирования.
Выберите pickup_zip в качестве группы по столбцу.
Нажмите кнопку Сохранить.

Следующие шаги

Сведения о загрузке данных в Databricks с помощью Apache Spark см. в руководстве по загрузке и преобразованию данных с помощью кадров данных Apache Spark.
Дополнительные сведения о приеме данных в Databricks см . в разделе "Прием данных" в lakehouse Databricks.
Дополнительные сведения о запросе данных с помощью Databricks см. в статье "Запрос данных".
Дополнительные сведения о визуализациях см. в разделе "Визуализации" в записных книжках Databricks.