Начало работы. Запрос и визуализация данных из записной книжки

В этой статье описано, как использовать записную книжку Azure Databricks для запроса примеров данных, хранящихся в каталоге Unity, с помощью SQL, Python, Scala и R, а затем визуализировать результаты запроса в записной книжке.

Требования

Чтобы выполнить задачи в этой статье, необходимо выполнить следующие требования:

Шаг 1. Создание записной книжки

Чтобы создать записную книжку в рабочей области, выполните следующие действия.

  1. Нажмите кнопку Значок "Создать" на боковой панели и щелкните "Записная книжка".
  2. На странице создания записной книжки:
    • Укажите уникальное имя для записной книжки.
    • Задайте язык по умолчанию для записной книжки и нажмите кнопку "Подтвердить ", если появится запрос.
    • Используйте раскрывающееся меню Подключение, чтобы выбрать вычислительный ресурс. Сведения о создании нового вычислительного ресурса см. в разделе "Использование вычислительных ресурсов".

Дополнительные сведения о создании записных книжек и управлении ими см. в статье Управление записными книжками.

Шаг 2. Запрос таблицы

Запросите таблицу samples.nyctaxi.trips в каталоге Unity с помощью выбранного языка.

SQL

  1. Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.
SELECT * FROM samples.nyctaxi.trips

Python

  1. Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.
display(spark.read.table("samples.nyctaxi.trips"))

Scala

  1. Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.
display(spark.read.table("samples.nyctaxi.trips"))

R

  1. Скопируйте и вставьте следующий код в новую пустую ячейку записной книжки. Этот код отображает результаты запроса samples.nyctaxi.trips таблицы в каталоге Unity.
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
  1. Нажмите Shift+Enter , чтобы запустить ячейку, а затем перейдите к следующей ячейке.

    Результаты запроса отображаются в записной книжке.

Шаг 3. Отображение данных

Отображение средней суммы тарифа по расстоянию поездки, сгруппированную по zip-коду пикапа.

  1. Рядом с вкладкой "Таблица " щелкните + и щелкните " Визуализация".

    Откроется редактор визуализации.

  2. В раскрывающемся списке " Тип визуализации" убедитесь, что выбрана панель .

  3. Выберите fare_amount для столбца X.

  4. Выберите trip_distance столбец Y.

  5. Выберите Average в качестве типа агрегирования.

  6. Выберите pickup_zip в качестве группы по столбцу.

    Линейчатая диаграмма

  7. Нажмите кнопку Сохранить.

Следующие шаги