Подключение в Azure Databricks из Python или R

Статья
12/16/2023

В этой статье вы узнаете, как использовать драйвер ODBC Databricks для подключения Azure Databricks к языку Python или R. После установления подключения вы можете получить доступ к данным в Azure Databricks из клиентов Python или R. которые также можно использовать для дальнейшего анализа данных.

Необходимые компоненты

Необходима рабочая область Azure Databricks, кластер Spark и образцы данных, связанные с кластером. Если у вас еще нет этих предварительных требований, выполните краткое руководство по началу работы.
Скачайте драйвер ODBC Databricks со страницы загрузки. Установите 64-разрядную версию драйвера.
Настройте личный маркер доступа в Databricks. Инструкции см. в разделе об управлении маркерами.

Настройка имени DSN

Имя источника данных (DSN) содержит сведения о конкретном источнике данных. Оно необходимо драйверу ODBC для подключения к источнику данных. В этом разделе описана настройка dsN, которую можно использовать с драйвером ODBC Databricks для подключения к Azure Databricks от клиентов, таких как Python или R.

В рабочей области Azure Databricks перейдите к кластеру Databricks.
На вкладке конфигурации щелкните вкладку JDBC/ODBC и скопируйте значения параметров Server Hostname (Имя узла сервера) и HTTP Path (Путь HTTP). Эти значения необходимы для выполнения шагов в данной статье.
На компьютере 64-разрядное приложение "Источники данных ODBC" запустите.
На вкладке DSN пользователя щелкните Добавить. В диалоговом окне Создание нового источника данных выберите Simba Spark ODBC Driver (Драйвер ODBC для Simba Spark), а затем нажмите кнопку Готово.

В диалоговом окне Simba Spark ODBC Driver (Драйвер ODBC для Simba Spark) введите следующие значения.

Configure DSN

В следующей таблице содержатся сведения о значениях, которые необходимо указать в диалоговом окне.

Поле	значение
Имя источника данных	Укажите имя источника данных.
Узлы	Укажите скопированное из рабочей области Databricks значение имени узла сервера.
порт.	Введите 443.
Проверка подлинности>Механизм	Выберите Имя пользователя и пароль.
Имя пользователя	Введите маркер.
Пароль	Введите скопированное из рабочей области Databricks значение маркера.

Выполните следующие дополнительные действия в диалоговом окне настройки имени DSN.

Щелкните HTTP Options (Параметры HTTP). В открывшемся диалоговом окне вставьте значение пути HTTP, скопированное из рабочей области Databricks. Щелкните OK.
Щелкните SSL Options (Параметры SSL). В открывшемся диалоговом окне установите флажок Включить SSL. Щелкните OK.
Нажмите кнопку Проверка, чтобы проверить подключение к Azure Databricks. Нажмите кнопку ОК, чтобы сохранить конфигурацию.
В диалоговом окне Администратор источников данных ODBC нажмите кнопку ОК.

Теперь имя DSN настроено. В следующих разделах вы используете эту dsN для подключения к Azure Databricks из Python или R.

Подключение из R

Примечание.

Сведения о том, как интегрировать клиент R Studio, который запущен на компьютере, с Azure Databricks. Инструкции по использованию R Studio на кластере Azure Databricks см. в статье R Studio on Azure Databricks (R Studio в Azure Databricks).

В этом разделе вы используете интегрированную среду разработки для языка R, чтобы обратиться к данным, доступным в Azure Databricks. Перед началом работы на вашем компьютере должны быть установлены следующие компоненты.

Интегрированная среда разработки для языка R. В этой статье используется приложение RStudio для рабочего стола. Его можно установить со страницы загрузки RStudio.
При использовании RStudio для рабочего стола в качестве интегрированной среды разработки установите Microsoft R Client, перейдя по адресу https://aka.ms/rclient/.

Откройте RStudio и выполните описанные ниже действия.

Ссылаться на пакет RODBC. Это даст возможность подключиться к Azure Databricks с помощью созданного ранее имени DSN.
Установите подключение, используя имя DSN.
Выполните SQL-запрос к данным в Azure Databricks. В следующем фрагменте кода radio_sample_data — это таблица, уже существующая в Azure Databricks.
Выполните операции с запросом, чтобы проверить выходные данные.

Следующий фрагмент кода выполняет эти задачи:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Подключение из Python

В этом разделе вы используете интегрированную среду разработки для Python (например, IDLE) для обращения к данным, доступным в Azure Databricks. Перед началом работы выполните следующее:

Установите Python, перейдя по этой ссылке. Этот комплект также включает установку IDLE.
С помощью командной строки на компьютере установите пакет pyodbc. Выполните следующую команду:
```
pip install pyodbc
```

Откройте IDLE и выполните следующие действия.

Импортируйте пакет pyodbc. Это даст возможность подключиться к Azure Databricks с помощью созданного ранее имени DSN.
Установите подключение, используя созданное ранее имя DSN.
Выполните SQL-запрос с помощью созданного подключения. В следующем фрагменте кода radio_sample_data — это таблица, уже существующая в Azure Databricks.
Выполните операции с запросом, чтобы проверить выходные данные.