Начало работы. Запрос и визуализация данных из записной книжки
В этой статье описано, как использовать записную книжку Azure Databricks для запроса примеров данных, хранящихся в каталоге Unity, с помощью SQL, Python, Scala и R, а затем визуализировать результаты запроса в записной книжке.
Требования
Чтобы выполнить задачи в этой статье, необходимо выполнить следующие требования:
- Рабочая область должна включать каталог Unity. Сведения о начале работы с каталогом Unity см. в разделе "Настройка каталога Unity" и управление ими.
- Необходимо иметь разрешение на использование существующего вычислительного ресурса или создать новый вычислительный ресурс. См. статью "Начало работы: настройка учетной записи и рабочей области " или просмотр администратора Databricks.
Шаг 1. Создание записной книжки
Чтобы создать записную книжку в рабочей области, выполните следующие действия.
- Нажмите кнопку "Создать" на боковой панели и щелкните "Записная книжка".
- На странице создания записной книжки:
- Укажите уникальное имя для записной книжки.
- Задайте язык по умолчанию для записной книжки и нажмите кнопку "Подтвердить ", если появится запрос.
- Используйте раскрывающееся меню Подключение, чтобы выбрать вычислительный ресурс. Сведения о создании нового вычислительного ресурса см. в разделе "Использование вычислительных ресурсов".
Дополнительные сведения о создании записных книжек и управлении ими см. в статье Управление записными книжками.
Шаг 2. Запрос таблицы
Запросите таблицу samples.nyctaxi.trips
в каталоге Unity с помощью выбранного языка.
SQL
- Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса
samples.nyctaxi.trips
таблицы в каталоге Unity.
SELECT * FROM samples.nyctaxi.trips
Python
- Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса
samples.nyctaxi.trips
таблицы в каталоге Unity.
display(spark.read.table("samples.nyctaxi.trips"))
Scala
- Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса
samples.nyctaxi.trips
таблицы в каталоге Unity.
display(spark.read.table("samples.nyctaxi.trips"))
R
- Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса
samples.nyctaxi.trips
таблицы в каталоге Unity.
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
Нажмите
Shift+Enter
, чтобы запустить ячейку, а затем перейдите к следующей ячейке.Результаты запроса отображаются в записной книжке.
Шаг 3. Отображение данных
Отображение средней суммы тарифа по расстоянию поездки, сгруппированную по zip-коду пикапа.
Рядом с вкладкой "Таблица " щелкните + и щелкните " Визуализация".
Откроется редактор визуализации.
В раскрывающемся списке " Тип визуализации" убедитесь, что выбрана панель .
Выберите
fare_amount
для столбца X.Выберите
trip_distance
столбец Y.Выберите
Average
в качестве типа агрегирования.Выберите
pickup_zip
в качестве группы по столбцу.Нажмите кнопку Сохранить.
Следующие шаги
- Сведения о загрузке данных в Databricks с помощью Apache Spark см. в руководстве по загрузке и преобразованию данных с помощью кадров данных Apache Spark.
- Дополнительные сведения о приеме данных в Databricks см . в разделе "Прием данных" в lakehouse Databricks.
- Дополнительные сведения о запросе данных с помощью Databricks см. в статье "Запрос данных".
- Дополнительные сведения о визуализациях см. в разделе "Визуализации" в записных книжках Databricks.