Share via


Conectar o workspace do Azure Databricks à rede local

Este artigo mostra como estabelecer conectividade do seu workspace do Azure Databricks à rede local. O tráfego é roteado por meio de uma VNet (rede virtual) de trânsito para a rede local, usando a topologia de hub e spoke a seguir.

Virtual network deployment

Caso precise de assistência em seguir este guia, entre em contato com suas equipes de contas Microsoft e do Databricks.

Requisitos

O workspace do Azure Databricks precisa ser implantado em uma rede virtual própria, também conhecida como injeção de VNet.

Etapa 1: Configurar uma rede virtual de trânsito com um gateway de rede virtual do Azure

Você precisa ter um gateway de rede virtual do Azure (ExpressRoute ou VPN) em uma VNet de trânsito, configurada com um destes métodos. Se você já tiver um gateway apropriado, pule para Emparelhar a rede virtual do Azure Databricks com a rede virtual de trânsito.

Se você já tiver configurado o ExpressRoute entre a sua rede local e o Azure, siga o procedimento descrito em configurar um gateway de rede virtual para o ExpressRoute usando o portal do Azure.

Caso contrário, siga as etapas 1 a 5 descritas em Configurar uma conexão de gateway de VPN de VNet para VNet usando o portal do Azure.

Caso precise de assistência, entre em contato com a sua equipe de contas Microsoft.

Etapa 2: Emparelhar a rede virtual do Azure Databricks com a rede virtual de trânsito

Se o seu workspace do Azure Databricks estiver na mesma VNet do gateway de rede virtual, acesse Criar rotas definidas pelo usuário e associá-las às suas sub-redes de rede virtual do Azure Databricks.

Caso contrário, siga as instruções descritas em Emparelhar redes virtuais para emparelhar a VNet do Azure Databricks com a VNet de trânsito, selecionando as seguintes opções:

  • Use gateways remotos no lado da VNet do Azure Databricks.
  • Permitir trânsito de gateway no lado da VNet de trânsito.

Para obter detalhes, confira Criar um emparelhamento.

Observação

Se a sua conexão de rede local com o Azure Databricks não funcionar com as configurações acima, selecione também a opção Permitir Tráfego Encaminhado em ambos os lados do emparelhamento para resolver o problema.

Para obter informações sobre como configurar o tráfego de gateway de VPN para o emparelhamento de rede virtual, confira Configurar o tráfego de gateway de VPN para o emparelhamento de rede virtual.

Etapa 3: Criar rotas definidas pelo usuário e associá-las às suas sub-redes de rede virtual do Azure Databricks

Depois de emparelhar a VNet do Azure Databricks com a VNet de trânsito, o Azure configura automaticamente todas as rotas usando a VNet de trânsito. A configuração automática não inclui a rota de retorno dos nós de cluster para o painel de controle do Azure Databricks. Você precisa criar essas rotas personalizadas manualmente usando rotas definidas pelo usuário.

  1. Crie uma tabela de rotas habilitando a propagação de rota BGP.

    Observação

    Em alguns casos, a propagação de rota BGP causa falhas na validação da configuração de conexão de rede local. Como último recurso, você pode desabilitar a propagação de rota BGP.

  2. Adicione rotas definidas pelo usuário para os serviços a seguir, usando as instruções descritas em Rotas personalizadas.

    Se a SCC (conectividade de cluster seguro) estiver habilitada para o workspace, use o IP de retransmissão SCC em vez do IP da NAT do painel de controle.

    Fonte Prefixo de endereço Tipo do próximo salto
    Padrão IP da NAT do painel de controle
    (Somente se a SCC estiver desabilitada)
    Internet
    Padrão IP de retransmissão SCC
    (Somente se a SCC estiver habilitada)
    Internet
    Padrão IP do Webapp Internet
    Padrão IP de infraestrutura estendida Internet
    Padrão IP do metastore Internet
    Padrão IP de armazenamento de Blobs de artefato Internet
    Padrão IP do armazenamento de Blobs de log Internet
    Padrão Endereço IP do armazenamento raiz do DBFS (ADLS) Internet
    Padrão IP de armazenamento raiz do DBFS (Blob) para workspaces criados antes de 6 de março de 2023. Internet

    Para obter os endereços IP de cada um desses serviços, siga as instruções descritas em Configurações de rota definidas pelo usuário para o Azure Databricks.

    Se a rota baseada em IP falhar na validação da configuração, crie um ponto de extremidade de serviço para Microsoft.Storage a fim de rotear todo o tráfego de armazenamento de blobs por meio do backbone do Azure. Se você usar essa abordagem, não precisará criar rotas definidas pelo usuário para o armazenamento de blobs.

    Observação

    Para acessar outros serviços de dados de PaaS do Azure, como o Cosmos DB ou o Azure Synapse Analytics, por meio do Azure Databricks, você precisará adicionar rotas definidas pelo usuário para esses serviços à tabela de rotas. Resolva cada ponto de extremidade para o respectivo endereço IP usando nslookup ou um comando equivalente.

  3. Associe a tabela de rotas às suas sub-redes pública e privada de VNet do Azure Databricks usando as instruções descritas em Associar uma tabela de rotas a uma sub-rede.

    Depois que a tabela de rotas personalizada estiver associada às sub-redes de VNet do Azure Databricks, você não precisará editar as regras de segurança de saída no grupo de segurança de rede. Por exemplo, você não precisará tornar a regra de saída mais específica, porque as rotas controlarão a saída real.

Etapa 4: Validar a configuração

Para validar a configuração:

  1. Crie um cluster no seu workspace do Azure Databricks.

    Se a criação de um cluster falhar, siga as instruções de instalação, experimentando as opções de configuração alternativas uma por uma.

    Se ainda não for possível criar um cluster, verifique se a tabela de rotas inclui todas as rotas necessárias definidas pelo usuário. Se você usou pontos de extremidade de serviço em vez de rotas definidas pelo usuário para o ADLS gen2 (para workspaces criados antes de 6 de março de 2023, Armazenamento de Blobs do Azure), marque esses pontos de extremidade também.

    Se ainda não for possível criar um cluster, entre em contato com suas equipes de contas Microsoft e do Databricks para obter assistência.

  2. Execute ping em um IP local de um notebook usando o seguinte comando:

    %sh
    ping <IP>
    

Para obter mais diretrizes de solução de problemas, confira estes recursos:

Etapas de configuração opcionais

Opção: rotear o tráfego do Azure Databricks por meio de uma solução de virtualização ou um firewall

Você pode filtrar todo o tráfego de saída dos nós de cluster do Azure Databricks usando um firewall ou um dispositivo de DLP, como o Firewall do Azure, o Palo Alto ou o Barracuda. Isso permite que você inspecione o tráfego de saída para atender às políticas de segurança e adicionar um só IP público semelhante a NAT ou CIDR a todos os clusters em uma lista de permissões.

Ajuste estas etapas conforme necessário para seu firewall ou dispositivo de DLP:

  1. Configure uma solução de virtualização ou um firewall na VNet de trânsito usando as instruções descritas em Criar um NVA.

    Caso precise de uma só configuração de firewall para vários workspaces, crie o firewall em uma sub-rede segura ou DMZ na VNet do Azure Databricks, que é separada das sub-redes pública e privada existentes.

  2. Crie uma rota adicional na tabela de rotas personalizada para 0.0.0.0/0.

  3. Se você usar a abordagem de sub-rede segura ou DMZ, crie uma tabela de rotas adicional associada exclusivamente à sub-rede DMZ. Nessa tabela de rotas, crie uma rota para 0.0.0.0.

    Defina o tipo do próximo salto da rota como Internet se o tráfego for destinado a uma rede pública ou como Gateway de Rede Virtual se o tráfego for destinado a uma rede local.

  4. Configure as regras de permissão e negação no dispositivo de firewall.

    Se você removeu as rotas para o armazenamento de blobs, adicione essas rotas à lista de permissões no firewall.

    Se os clusters dependem de repositórios públicos, como repositórios de sistema operacional ou registros de contêiner, adicione-os à lista de permissões.

    Para obter informações sobre listas de permissões, confira Configurações de rota definidas pelo usuário para o Azure Databricks.

Opção: configurar um DNS personalizado

Use um DNS personalizado com workspaces do Azure Databricks implantados em uma rede virtual própria. Confira os seguintes artigos da Microsoft para obter mais informações sobre como configurar um DNS personalizado para uma rede virtual do Azure:

.. Importante: para resolver os endereços IP para artefatos do Azure, configure o DNS personalizado para encaminhar essas solicitações ao resolvedor recursivo do Azure.