Databricks Подключение для Python
Примечание.
В этой статье рассматриваются Подключение Databricks runtime 13.0 и более поздних версий.
В этой статье показано, как быстро приступить к работе с Databricks Подключение с помощью Python и PyCharm.
- Сведения о версии R этой статьи см. в Подключение Databricks для R.
- Сведения о версии Scala этой статьи см. в Подключение Databricks для Scala.
Databricks Подключение позволяет подключать популярные идентификаторы, такие как PyCharm, серверы записной книжки и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Подключение?".
Учебник
Чтобы пропустить это руководство и использовать другую интегрированную среду разработки, см . следующие действия.
Требования
Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:
Целевая рабочая область Azure Databricks и кластер должны соответствовать требованиям к конфигурации кластера для Databricks Подключение.
У вас должен быть доступный идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между
clusters
URL-адресом иconfiguration
URL-адресом.Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.
На компьютере разработки установлен Python 3, а дополнительная версия клиентской установки Python совпадает с дополнительной версией Python кластера Azure Databricks. В следующей таблице показана версия Python, установленная для каждой среды выполнения Databricks.
Версия Databricks Runtime Python version 15.0 ML,
15,03.11 13.0 ML — 14.3 ML,
13.0 - 14.33,10
Шаг 1. Настройка проверки подлинности Azure Databricks
В этом руководстве используется проверка подлинности Azure Databricks OAuth на компьютере (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Чтобы использовать другой тип проверки подлинности, см. раздел "Настройка свойств подключения".
Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks, как показано ниже.
Если он еще не установлен, установите интерфейс командной строки Databricks следующим образом:
Linux, macos
Используйте Homebrew для установки интерфейса командной строки Databricks, выполнив следующие две команды:
brew tap databricks/tap brew install databricks
Windows
Вы можете использовать winget, Chocolatey или подсистема Windows для Linux (WSL) для установки интерфейса командной строки Databricks. Если вы не можете использовать
winget
, Chocolatey или WSL, следует пропустить эту процедуру и использовать командную строку или PowerShell для установки интерфейса командной строки Databricks из источника .Примечание.
Установка интерфейса командной строки Databricks с помощью Chocolatey является экспериментальной.
Чтобы установить
winget
интерфейс командной строки Databricks, выполните следующие две команды, а затем перезапустите командную строку:winget search databricks winget install Databricks.DatabricksCLI
Чтобы использовать Chocolatey для установки интерфейса командной строки Databricks, выполните следующую команду:
choco install databricks-cli
Чтобы использовать WSL для установки интерфейса командной строки Databricks:
Установите
curl
иzip
через WSL. Дополнительные сведения см. в документации по операционной системе.Используйте WSL для установки интерфейса командной строки Databricks, выполнив следующую команду:
curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
Убедитесь, что интерфейс командной строки Databricks установлен, выполнив следующую команду, которая отображает текущую версию установленного интерфейса командной строки Databricks. Эта версия должна быть 0.205.0 или более поздней:
databricks -v
Примечание.
Если вы выполняете, но получите ошибку, например
command not found: databricks
, или если вы запускаетеdatabricks
databricks -v
, а номер версии 0.18 или ниже указан, это означает, что компьютер не может найти правильную версию исполняемого файла Интерфейса командной строки Databricks. Чтобы устранить эту проблему, см . статью "Проверка установки CLI".
Инициируйте проверку подлинности OAuth U2M следующим образом:
Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.
В следующей команде замените
<workspace-url>
URL-адрес Azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите,
Enter
чтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.Чтобы получить список существующих профилей, в отдельном терминале или командной строке используйте интерфейс командной строки Databricks для выполнения команды
databricks auth profiles
. Чтобы просмотреть существующие параметры конкретного профиля, выполните командуdatabricks auth env --profile <profile-name>
.В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
В списке доступных кластеров, которые отображаются в терминале или командной строке, используйте клавиши СТРЕЛКА ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу
Enter
. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с
--host
одинаковым значением, может потребоваться указать и-p
параметры--host
вместе, чтобы помочь Databricks CLI найти правильные соответствующие сведения о маркере OAuth.
Шаг 2. Создание проекта
- Запустите PyCharm.
- В главном меню нажмите кнопку "Файл > нового проекта".
- В диалоговом окне "Создать проект" нажмите кнопку Pure Python.
- В поле "Расположение" щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
- Оставьте выбранный сценарий приветствия main.py.
- Для типа интерпретатора щелкните Project venv.
- Разверните версию Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python из предыдущих требований.
- Нажмите кнопку Создать.
Шаг 3. Добавление пакета Подключение Databricks
- В главном меню PyCharm выберите пункт "Просмотр пакетов Windows > Python" в средстве просмотра>.
- В поле поиска введите
databricks-connect
. - В списке репозитория PyPI щелкните databricks-connect.
- В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
- Нажмите кнопку " Установить пакет".
- После установки пакета можно закрыть окно пакетов Python.
Шаг 4. Добавление кода
В окне средства "Проект" щелкните правой кнопкой мыши корневую папку проекта и выберите новый > файл Python.
Введите
main.py
и дважды щелкните файл Python.Введите следующий код в файл и сохраните файл в зависимости от имени профиля конфигурации.
Если профиль конфигурации из шага 1 называется
DEFAULT
, введите следующий код в файл и сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Если профиль конфигурации из шага 1 не называется
DEFAULT
, введите следующий код в файл. Замените заполнитель<profile-name>
именем профиля конфигурации на шаге 1, а затем сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Шаг 5. Запуск кода
- Запустите целевой кластер в удаленной рабочей области Azure Databricks.
- После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
- В окне "Запуск" (запуск средства > просмотра>) на главной панели вкладки "Запуск" отображаются первые 5 строк
samples.nyctaxi.trips
.
Шаг 6. Отладка кода
- При выполнении кластера в приведенном выше коде щелкните заготовку рядом, чтобы
df.show(5)
задать точку останова. - В главном меню нажмите кнопку "Выполнить > отладку main".
- В окне средства отладки (отладка средства просмотра>)> на панели переменных отладчика разверните узлы переменных df и spark, чтобы просмотреть сведения о коде
df
иspark
переменных. - На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
- На панели консоли отладчика отображаются первые 5 строк
samples.nyctaxi.trips
.
Следующие шаги
Дополнительные сведения о Подключение Databricks см. в следующих статьях:
Сведения об использовании типов проверки подлинности Azure Databricks, отличных от маркера личного доступа Azure Databricks, см. в разделе "Настройка свойств подключения".
Сведения об использовании других удостоверов, серверов записных книжек и оболочки Spark см. в следующих статьях:
Дополнительные простые примеры кода см. в примерах кода для Databricks Подключение для Python.
Чтобы просмотреть более сложные примеры кода, см. примеры приложений для репозитория Databricks Подключение в GitHub, в частности:
Сведения об использовании служебных программ Databricks с Подключение Databricks см. в разделе "Служебные программы Databricks" с databricks Подключение для Python.
Сведения о миграции из Databricks Подключение для Databricks Runtime 12.2 LTS и ниже в Databricks Подключение для Databricks Runtime 13.0 и более поздних версий см. в разделе "Миграция на Databricks Подключение для Python".
См. также сведения об устранении неполадок и ограничениях.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по