Краткое руководство. Создание рабочей области Azure Databricks в собственной виртуальная сеть

При развертывании Azure Databricks по умолчанию создается виртуальная сеть, которой управляет Databricks. В этом кратком руководстве показано, как создать рабочую область Azure Databricks не в новой, а в существующей виртуальной сети. В этой рабочей области также создается кластер Apache Spark.

Дополнительные сведения о том, почему вам может понадобиться создать рабочую область Azure Databricks в своей виртуальной сети, см. в статье Развертывание Azure Databricks в существующей виртуальной сети Azure путем ее внедрения.

Необходимые компоненты

Войдите на портал Azure

Войдите на портал Azure.

Примечание.

Если вы хотите создать рабочую область Azure Databricks в коммерческом облаке Azure, которая содержит сертификаты соответствия для государственных организаций США, такие как FedRAMP High, обратитесь к группе учетных записей Майкрософт или Databricks, чтобы получить доступ к этому интерфейсу.

Создание виртуальной сети

  1. В меню портала Azure выберите Создать ресурс. Щелкните Сеть > Виртуальная сеть.

    Создание виртуальной сети на портале Azure

  2. В разделе Создание виртуальной сети укажите следующие параметры:

    Параметр Предлагаемое значение Description
    Подписка <Ваша подписка> Выберите подписку Azure, которую нужно использовать.
    Группа ресурсов databricks-quickstart Выберите Создать и введите имя новой группы ресурсов для учетной записи.
    Имя. databricks-quickstart Укажите имя для виртуальной сети.
    Область/регион <Выберите ближайший к пользователям регион> Выберите географическое расположение для виртуальной сети. Используйте ближайшее к пользователям расположение.

    Основные сведения о виртуальной сети на портале Azure

  3. выберите Далее: IP-адреса> и задайте указанные ниже параметры. Щелкните Просмотр и создание.

    Параметр Предлагаемое значение Description
    Диапазон IPv4-адресов 10.2.0.0/16 Диапазон адресов виртуальной сети в нотации CIDR. Префикс CIDR должен находиться в диапазоне от /16 до /24
    Имя подсети default Укажите имя подсети по умолчанию для виртуальной сети.
    Диапазон адресов подсети 10.2.0.0/24 Диапазон адресов подсети в нотации CIDR. Он должен содержаться в адресном пространстве виртуальной сети. Диапазон адресов используемой подсети изменить нельзя.

    Настройка IP-адресов виртуальной сети на портале Azure

  4. На вкладке Просмотр и создание выберите Создать, чтобы развернуть виртуальную сеть. После завершения развертывания перейдите к своей виртуальной сети и в разделе Параметры выберите Диапазон IP-адресов. В поле с текстом Добавить дополнительный диапазон адресов вставьте 10.179.0.0/16 и щелкните Сохранить.

    Диапазон адресов виртуальной сети Azure

Создайте рабочую область Azure Databricks.

  1. В меню портала Azure выберите Создать ресурс. Затем выберите Аналитика > Databricks.

    Создание рабочей области Azure Databricks на портале Azure

  2. В разделе Служба Azure Databricks укажите следующие параметры:

    Параметр Предлагаемое значение Description
    имя рабочей области. databricks-quickstart Укажите имя рабочей области Azure Databricks.
    Отток подписок <Ваша подписка> Выберите подписку Azure, которую нужно использовать.
    Группа ресурсов databricks-quickstart Выберите группу ресурсов, которая использовалась для виртуальной сети.
    Расположение <Выберите ближайший к пользователям регион> Выберите расположение, в котором находится виртуальная сеть.
    Ценовая категория Вы можете выбрать уровень "Стандартный" или "Премиум". Дополнительные сведения о ценовых категориях см. на странице Цены на Azure Databricks.

    Основные сведения о рабочей области Azure Databricks

  3. Завершив ввод параметров на странице Основные сведения, нажмите кнопку Далее: Сеть> и задайте указанные ниже параметры.

    Параметр Предлагаемое значение Description
    Развертывание рабочей области Azure Databricks в подготовленной виртуальной сети Да Указанные ниже параметры позволят развернуть рабочую область Azure Databricks в существующей виртуальной сети.
    Виртуальная сеть databricks-quickstart Выберите виртуальную сеть, созданную на предыдущем этапе.
    Имя общедоступной подсети public-subnet Используйте имя общедоступной подсети по умолчанию.
    Диапазон CIDR общедоступной подсети 10.179.64.0/18 Используйте диапазон CIDR до /26 включительно.
    Имя частной подсети private-subnet Используйте имя частной подсети по умолчанию.
    Диапазон CIDR частной подсети 10.179.0.0/18 Используйте диапазон CIDR до /26 включительно.

    Добавление сведений о виртуальной сети в рабочую область Azure Databricks на портале Azure

  4. После завершения развертывания перейдите к ресурсу Azure Databricks. Обратите внимание, что пиринг виртуальной сети отключен. Также обратите внимание на группу ресурсов и управляемую группу ресурсов на странице обзора.

    Страница обзора службы Azure Databricks на портале Azure

    Управляемую группу ресурсов нельзя изменить, как и использовать для создания виртуальных машин. Виртуальные машины можно создавать только в группе ресурсов, которой управляете вы.

    Управляемая группа ресурсов Azure Databricks

    Если при развертывании рабочей области произойдет сбой, она все равно будет создана, но в состоянии сбоя. Удалите такую рабочую область и создайте новую, чтобы устранить ошибки с развертыванием. При удалении рабочей области, для которой произошел сбой, также удаляются ее управляемую группу ресурсов и все успешно развернутые ресурсы.

Создание кластера

Примечание.

Чтобы использовать бесплатную учетную запись для создания кластера Azure Databricks, перед созданием кластера перейдите в свой профиль и измените свою подписку на оплату по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure.

  1. Вернитесь к службе Azure Databricks и на странице Обзор нажмите кнопку Запуск рабочей области.

  2. Выберите Кластеры>Создать кластер. Укажите имя кластера, например databricks-quickstart-cluster, и не изменяйте остальные параметры, заданные по умолчанию. Выберите Создать кластер.

    Создание кластера Azure Databricks

  3. После запуска кластера вернитесь в управляемую группу ресурсов на портале Azure. Обратите внимание на созданные виртуальные машины, диски, IP-адреса и сетевые интерфейсы. Сетевой интерфейс создается в каждой общедоступной и частной подсетях с IP-адресами.

    Управляемая группа ресурсов Azure Databricks после создания кластера

  4. Вернитесь в рабочую область Azure Databricks и выберите созданный кластер. Затем перейдите на вкладку Executors (Исполнители) на странице Spark UI (Пользовательский интерфейс Spark). Обратите внимание, что адреса драйвера и исполнителей находятся в диапазоне частных подсетей. В этом примере драйвер имеет адрес 10.179.0.6, а исполнители — 10.179.0.4 и 10.179.0.5. У вас IP-адреса могут быть другими.

    Исполнители пользовательского интерфейса Spark в Azure Databricks

Очистка ресурсов

Когда вы выполните задачи в статье, можно будет завершить работу кластера. Для этого в рабочей области Azure Databricks на левой панели выберите Кластеры. Для кластера, работу которого необходимо завершить, переместите указатель мыши на многоточие в столбце Actions (Действия) и выберите значок Завершить. Выполнение кластера прекратится.

Если не завершить работу кластера вручную, это можно сделать автоматически, выбрав флажок Terminate after __ minutes of inactivity (Завершить работу после __ минут бездействия) во время создания кластера. В этом случае работа кластера автоматически завершается, если он был неактивным в течение определенного времени.

Если вы не собираетесь повторно использовать кластер, можно удалить группу ресурсов, созданную на портале Azure.

Следующие шаги

Из этой статьи вы узнали, как создать кластер Spark в Azure Databricks и развернуть его в виртуальной сети. В следующей статье показано, как выполнить запрос к контейнеру Docker Linux для SQL Server в виртуальной сети с помощью JDBC из записной книжки Azure.