Подключение рабочей области Azure Databricks к локальной сети

В этой статье приведена информация о подключении рабочей области Azure Databricks к локальной сети. Трафик направляется через транзитную виртуальную сеть (VNet) в локальную сеть с использованием следующей звездообразной топологии.

Virtual network deployment

Если после ознакомления с данным разделом вам понадобится помощь, обратитесь в Службу поддержки учетных записей Майкрософт или Databricks.

Requirements

Рабочая область Azure Databricks должна быть развернута в собственной виртуальной сети, которая именуется также внедрением виртуальной сети.

Шаг 1. Настройка транзитной виртуальной сети с помощью шлюза виртуальной сети Azure

Вам потребуется шлюз виртуальной сети Azure (ExpressRoute или VPN) в транзитной виртуальной сети, настроенный с помощью одного из следующих методов. Если у вас уже есть соответствующий шлюз, перейдите к виртуальной сети Azure Databricks с транзитной виртуальной сетью.

Если вы уже настроили ExpressRoute между локальной сетью и Azure, выполните процедуру, описанную в разделе Настройка шлюза виртуальной сети для ExpressRoute с помощью портала Azure.

В противном случае выполните шаги 1–5 в разделе Настройка подключения VPN-шлюза "виртуальная сеть — виртуальная сеть" с использованием портала Azure.

Если вам нужна помощь, обратитесь в Службу поддержки учетных записей Майкрософт.

Шаг 2. Пиринг виртуальной сети Azure Databricks с транзитной виртуальной сетью

Если рабочая область Azure Databricks находится в той же виртуальной сети, что и шлюз виртуальных сетей, перейдите к разделу Создание определяемых пользователем маршрутов и связывание их с подсетями виртуальной сети Azure Databricks.

В противном случае следуйте инструкциям в разделе Пиринг виртуальных сетей, чтобы установить пиринг виртуальной сети Azure Databricks с транзитной виртуальной сетью, выбрав следующие параметры.

  • Использовать удаленные шлюзы на стороне виртуальной сети Azure Databricks.
  • Разрешить транзит шлюза на стороне транзитной виртуальной сети.

Дополнительные сведения см. в разделе Создание пиринга.

Примечание.

Если локальное сетевое подключение к Azure Databricks не работает с указанными выше параметрами, можно также выбрать параметр Разрешить перенаправленный трафик на обеих сторонах пиринга, чтобы устранить проблему.

Сведения о настройке транзита VPN-шлюза для пиринга между виртуальными сетями см. в разделе Настройка транзита VPN-шлюза для пиринга между виртуальными сетями.

Шаг 3: Создание определяемых пользователем маршрутов и связывание их с подсетями виртуальной сети Azure Databricks

После пиринга виртуальной сети Azure Databricks с транзитной виртуальной сетью Azure автоматически настроит все маршруты с помощью транзитной виртуальной сети. Автоматическая настройка не включает обратный маршрут от узлов кластера к уровню управления Azure Databricks. Эти пользовательские маршруты необходимо создавать вручную с помощью определяемых пользователем маршрутов.

  1. Создание таблицы маршрутизации с включением распространения маршрутов BGP.

    Примечание.

    В некоторых случаях распространение маршрутов BGP вызывает сбои при проверке настройки локального сетевого подключения. В качестве последнего средства можно отключить распространение маршрутов BGP.

  2. Добавьте определяемые пользователем маршруты для следующих служб, используя инструкции в разделе Пользовательские маршруты.

    Если для рабочей области включено безопасное подключение к кластеру (SCC), используйте IP-адрес ретранслятора SCC, а не IP-адрес уровня управления NAT.

    Оригинал Префикс адреса Тип следующего прыжка
    Значение по умолчанию IP-адрес плоскости управления NAT
    (Только если SCC отключено)
    Интернет
    По умолчанию IP-адрес ретранслятора SCC
    (Только если SCC включено)
    Интернет
    По умолчанию IP-адрес Webapp Интернет
    По умолчанию Расширенный IP-адрес инфраструктуры Интернет
    По умолчанию IP-адрес хранилища метаданных Интернет
    По умолчанию IP-адрес хранилища больших двоичных объектов артефакта Интернет
    По умолчанию IP-адрес хранилища больших двоичных объектов журнала Интернет
    По умолчанию IP-адрес корневого хранилища DBFS (ADLS) Интернет
    По умолчанию IP-адрес корневого хранилища DBFS (BLOB-объект) для рабочих областей, созданных до 6 марта 2023 г. Интернет

    Чтобы получить IP-адреса для каждой из этих служб, следуйте инструкциям в разделе Определяемые пользователем параметры маршрутизации для Azure Databricks.

    Если маршрут на основе IP-адресов завершается ошибкой при проверке установки, можно создать конечную точку службы для Microsoft.служба хранилища для маршрутизации всего трафика корневого хранилища DBFS через магистраль Azure. При использовании этого подхода вам не нужно создавать определяемые пользователем маршруты для корневого хранилища DBFS.

    Примечание.

    Чтобы получить доступ к другим службам данных PaaS Azure, таким как Cosmos DB или Azure Synapse Analytics, из Azure Databricks, необходимо добавить определяемые пользователем маршруты для этих служб в таблицу маршрутов. Сопоставьте каждую конечную точку с ее IP-адресом с помощью nslookup или эквивалентной команды.

  3. Свяжите таблицу маршрутов с общедоступными и частными подсетями виртуальной сети Azure Databricks, следуя инструкциям в Разделе Связывание таблицы маршрутов с подсетью.

    После того как пользовательская таблица маршрутов будет связана с подсетями виртуальных сетей Azure Databricks, вам не нужно изменять правила безопасности для исходящего трафика в группе безопасности сети. Например, не нужно делать это правило более конкретным, так как маршруты будут управлять фактическим исходящим трафиком.

Шаг 4. Проверка настройки

Чтобы проверить настройку, выполните следующие действия.

  1. Создайте кластер в рабочей области Azure Databricks.

    В случае сбоя при создании кластера выполните инструкции по установке, применяя по очереди альтернативные варианты настройки.

    Если вы по-прежнему не можете создать кластер, убедитесь, что таблица маршрутов содержит все необходимые определяемые пользователем маршруты. Если вы использовали конечные точки службы, а не определяемые пользователем маршруты для ADLS 2-го поколения (для рабочих областей, созданных до 6 марта 2023 г., Хранилище BLOB-объектов Azure), проверка этих конечных точек.

    Если вы по-прежнему не можете создать кластер, обратитесь за помощью в Службу поддержки учетных записей Майкрософт или Databricks.

  2. Проверьте связь с локальным IP-адресом из записной книжки с помощью следующей команды:

    %sh
    ping <IP>
    

Дополнительные сведения об устранении неполадок см. в следующих ресурсах.

Дополнительные шаги по настройке

Вариант. Маршрутизация трафика Azure Databricks с помощью виртуального модуля или брандмауэра

Вы можете отфильтровать весь исходящий трафик с узлов кластера Azure Databricks с помощью брандмауэра или устройства DLP, например брандмауэра Azure, Palo Alto или Barracuda. Это позволяет проверять исходящий трафик в соответствии с политиками безопасности, а также добавлять один общедоступный IP-адрес типа NAT или CIDR для всех кластеров в список разрешений.

Выполните необходимые действия для брандмауэра или устройства DLP:

  1. Настройте виртуальное устройство или брандмауэр в транзитной виртуальной сети, следуя инструкциям в разделе Создание NVA.

    Если требуется одна конфигурация брандмауэра для нескольких рабочих областей, можно создать брандмауэр в защищенной подсети или подсети DMZ в виртуальной сети Azure Databricks, отдельно от существующих частных и общедоступных подсетей.

  2. Создайте в таблице настраиваемых маршрутов дополнительный маршрут к 0.0.0.0/0.

  3. При использовании защищенной подсети или подсети DMZ можно создать дополнительную таблицу маршрутов, связанную только с подсетью DMZ. В таблице маршрутов создайте маршрут к 0.0.0.0.

    Задайте для параметра маршрута "Тип следующего прыжка" значение "Интернет", если трафик предназначен для общедоступной сети, или "Шлюз виртуальной сети", если трафик предназначен для локальной сети.

  4. Настройте в аппаратном брандмауэре правила разрешений и запретов.

    Если вы удалили маршруты для хранилища больших двоичных объектов, добавьте эти маршруты в список разрешений в брандмауэре.

    Если кластеры зависят от общедоступных репозиториев, таких как репозитории операционной системы или реестра контейнеров, добавьте их в список разрешений.

    Дополнительные сведения о списках разрешений см. в разделе Определяемые пользователем параметры маршрутизации для Azure Databricks.

Вариант. Настройка пользовательской службы DNS

Пользовательскую службу DNS можно использовать для рабочих областей Azure Databricks, развернутых в собственной виртуальной сети. Дополнительные сведения о настройке пользовательской службы DNS для виртуальной сети Azure см. в следующих статьях от Майкрософт:

.. Важно! Чтобы разрешить IP-адреса для артефактов Azure, необходимо настроить пользовательскую службу DNS для переадресации этих запросов в рекурсивный сопоставитель Azure.