Databricks Подключение для Python

Примечание.

В этой статье рассматриваются Подключение Databricks runtime 13.0 и более поздних версий.

В этой статье показано, как быстро приступить к работе с Databricks Подключение с помощью Python и PyCharm.

  • Сведения о версии R этой статьи см. в Подключение Databricks для R.
  • Сведения о версии Scala этой статьи см. в Подключение Databricks для Scala.

Databricks Подключение позволяет подключать популярные идентификаторы, такие как PyCharm, серверы записной книжки и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Подключение?".

Учебник

Чтобы пропустить это руководство и использовать другую интегрированную среду разработки, см . следующие действия.

Требования

Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:

  • Целевая рабочая область Azure Databricks и кластер должны соответствовать требованиям к конфигурации кластера для Databricks Подключение.

  • У вас должен быть доступный идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между clusters URL-адресом и configuration URL-адресом.

  • Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.

  • На компьютере разработки установлен Python 3, а дополнительная версия клиентской установки Python совпадает с дополнительной версией Python кластера Azure Databricks. В следующей таблице показана версия Python, установленная для каждой среды выполнения Databricks.

    Версия Databricks Runtime Python version
    15.0 ML,
    15,0
    3.11
    13.0 ML — 14.3 ML,
    13.0 - 14.3
    3,10

Шаг 1. Настройка проверки подлинности Azure Databricks

В этом руководстве используется проверка подлинности Azure Databricks OAuth на компьютере (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Чтобы использовать другой тип проверки подлинности, см. раздел "Настройка свойств подключения".

Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks, как показано ниже.

  1. Если он еще не установлен, установите интерфейс командной строки Databricks следующим образом:

    Linux, macos

    Используйте Homebrew для установки интерфейса командной строки Databricks, выполнив следующие две команды:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    Вы можете использовать winget, Chocolatey или подсистема Windows для Linux (WSL) для установки интерфейса командной строки Databricks. Если вы не можете использовать winget, Chocolatey или WSL, следует пропустить эту процедуру и использовать командную строку или PowerShell для установки интерфейса командной строки Databricks из источника .

    Примечание.

    Установка интерфейса командной строки Databricks с помощью Chocolatey является экспериментальной.

    Чтобы установить winget интерфейс командной строки Databricks, выполните следующие две команды, а затем перезапустите командную строку:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Чтобы использовать Chocolatey для установки интерфейса командной строки Databricks, выполните следующую команду:

    choco install databricks-cli
    

    Чтобы использовать WSL для установки интерфейса командной строки Databricks:

    1. Установите curl и zip через WSL. Дополнительные сведения см. в документации по операционной системе.

    2. Используйте WSL для установки интерфейса командной строки Databricks, выполнив следующую команду:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Убедитесь, что интерфейс командной строки Databricks установлен, выполнив следующую команду, которая отображает текущую версию установленного интерфейса командной строки Databricks. Эта версия должна быть 0.205.0 или более поздней:

    databricks -v
    

    Примечание.

    Если вы выполняете, но получите ошибку, напримерcommand not found: databricks, или если вы запускаете databricksdatabricks -v, а номер версии 0.18 или ниже указан, это означает, что компьютер не может найти правильную версию исполняемого файла Интерфейса командной строки Databricks. Чтобы устранить эту проблему, см . статью "Проверка установки CLI".

Инициируйте проверку подлинности OAuth U2M следующим образом:

  1. Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.

    В следующей команде замените <workspace-url> URL-адрес Azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите, Enter чтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.

    Чтобы получить список существующих профилей, в отдельном терминале или командной строке используйте интерфейс командной строки Databricks для выполнения команды databricks auth profiles. Чтобы просмотреть существующие параметры конкретного профиля, выполните команду databricks auth env --profile <profile-name>.

  3. В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.

  4. В списке доступных кластеров, которые отображаются в терминале или командной строке, используйте клавиши СТРЕЛКА ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу Enter. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.

  5. Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Если у вас есть несколько профилей с --host одинаковым значением, может потребоваться указать и -p параметры --host вместе, чтобы помочь Databricks CLI найти правильные соответствующие сведения о маркере OAuth.

Шаг 2. Создание проекта

  1. Запустите PyCharm.
  2. В главном меню нажмите кнопку "Файл > нового проекта".
  3. В диалоговом окне "Создать проект" нажмите кнопку Pure Python.
  4. В поле "Расположение" щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
  5. Оставьте выбранный сценарий приветствия main.py.
  6. Для типа интерпретатора щелкните Project venv.
  7. Разверните версию Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python из предыдущих требований.
  8. Нажмите кнопку Создать.

Создание проекта PyCharm

Шаг 3. Добавление пакета Подключение Databricks

  1. В главном меню PyCharm выберите пункт "Просмотр пакетов Windows > Python" в средстве просмотра>.
  2. В поле поиска введите databricks-connect.
  3. В списке репозитория PyPI щелкните databricks-connect.
  4. В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
  5. Нажмите кнопку " Установить пакет".
  6. После установки пакета можно закрыть окно пакетов Python.

Установка пакета Подключение Databricks

Шаг 4. Добавление кода

  1. В окне средства "Проект" щелкните правой кнопкой мыши корневую папку проекта и выберите новый > файл Python.

  2. Введите main.py и дважды щелкните файл Python.

  3. Введите следующий код в файл и сохраните файл в зависимости от имени профиля конфигурации.

    Если профиль конфигурации из шага 1 называется DEFAULT, введите следующий код в файл и сохраните файл:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Если профиль конфигурации из шага 1 не называется DEFAULT, введите следующий код в файл. Замените заполнитель <profile-name> именем профиля конфигурации на шаге 1, а затем сохраните файл:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Шаг 5. Запуск кода

  1. Запустите целевой кластер в удаленной рабочей области Azure Databricks.
  2. После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
  3. В окне "Запуск" (запуск средства > просмотра>) на главной панели вкладки "Запуск" отображаются первые 5 строкsamples.nyctaxi.trips.

Шаг 6. Отладка кода

  1. При выполнении кластера в приведенном выше коде щелкните заготовку рядом, чтобы df.show(5) задать точку останова.
  2. В главном меню нажмите кнопку "Выполнить > отладку main".
  3. В окне средства отладки (отладка средства просмотра>)> на панели переменных отладчика разверните узлы переменных df и spark, чтобы просмотреть сведения о коде df и spark переменных.
  4. На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
  5. На панели консоли отладчика отображаются первые 5 строкsamples.nyctaxi.trips.

Отладка проекта PyCharm

Следующие шаги

Дополнительные сведения о Подключение Databricks см. в следующих статьях: