Conexión del área de trabajo de Azure Databricks a una red local

En este artículo, se muestra cómo establecer conectividad desde el área de trabajo de Azure Databricks a la red local. El tráfico se enruta a través de una red virtual (VNet) de tránsito a la red local, mediante la topología en estrella tipo hub-and-spoke siguiente.

Virtual network deployment

Si necesita ayuda para seguir esta guía, póngase en contacto con los equipos de cuentas de Microsoft y Databricks.

Requisitos

El área de trabajo de Azure Databricks se debe implementar en su propia red virtual, también conocida como "inyección de red virtual".

Paso 1: Configuración de una red virtual de tránsito con puerta de enlace de Azure Virtual Network

Necesita una puerta de enlace de Azure Virtual Network (ExpressRoute o VPN) en una red virtual de tránsito, configurada mediante uno de estos métodos. Si ya tiene una puerta de enlace adecuada, vaya directamente a Emparejamiento de la red virtual de Azure Databricks con la red virtual de tránsito.

Si ya tiene configurado ExpressRoute entre la red virtual y Azure, siga el procedimiento que aparece en Configuración de una puerta de enlace de red virtual para ExpressRoute con Azure Portal.

De lo contrario, siga los pasos 1 al 5 de Configuración de una conexión de VPN Gateway de red virtual a red virtual mediante Azure Portal.

Si necesita ayuda, póngase en contacto con el equipo de cuentas de Microsoft.

Paso 2: Emparejamiento de la red virtual de Azure Databricks con la red virtual de tránsito

Si el área de trabajo de Azure Databricks está en la misma red virtual que la puerta de enlace de Virtual Network, vaya directamente a Creación de rutas definidas por el usuario y su asociación con las subredes de la red virtual de Azure Databricks.

De lo contrario, siga las instrucciones que aparecen en Emparejamiento de redes virtuales para emparejar la red virtual de Azure Databricks con la red virtual de tránsito y seleccione las opciones siguientes:

  • Utilice puertas de enlace remotas en el lado de la red virtual de Azure Databricks.
  • Permita el tránsito de puerta de enlace en el lado de la red virtual de tránsito.

Para información detallada, consulte Creación de un emparejamiento.

Nota:

Si la conexión de red local a Azure Databricks no funciona con la configuración anterior, también puede seleccionar la opción Permitir tráfico reenviado en ambos lados del emparejamiento para resolver el problema.

Para información sobre cómo configurar el tránsito de puerta de enlace de VPN para el emparejamiento de red virtual, consulte Configuración del tránsito de puerta de enlace de VPN para el emparejamiento de red virtual.

Paso 3: Creación de rutas definidas por el usuario y su asociación con las subredes de la red virtual de Azure Databricks

Después de empareja la red virtual de Azure Databricks con la red virtual de tránsito, Azure configura automáticamente todas las rutas con la red virtual de tránsito. La configuración automática no incluye la ruta de retorno de los nodos de clúster al plano de control de Azure Databricks. Debe crear manualmente estas rutas personalizadas, mediante rutas definidas por el usuario.

  1. Cree una tabla de rutas, habilitando la propagación de rutas BGP.

    Nota:

    En algunos casos, se produce un error en la propagación de rutas BGP al validar la configuración de la conexión de red local. Como último recurso, puede deshabilitar la propagación de rutas BGP.

  2. Agregue rutas definidas por el usuario para los servicios siguientes en función de las instrucciones que aparecen en Rutas personalizadas.

    Si la conectividad segura de clústeres (SCC) está habilitada para el área de trabajo, utilice la dirección IP de retransmisión de SCC en lugar de la dirección IP de NAT del plano de control.

    Origen Prefijo de dirección Tipo de próximo salto
    Valor predeterminado Dirección IP de NAT del plano de control
    (Solo si está deshabilitada la SCC)
    Internet
    Valor predeterminado Dirección IP de retransmisión de SCC
    (Solo si está habilitada la SCC)
    Internet
    Valor predeterminado IP de la aplicación web Internet
    Valor predeterminado Dirección IP de infraestructura extendida Internet
    Valor predeterminado Dirección IP de metastore Internet
    Valor predeterminado Dirección IP de Blob Storage de artefacto Internet
    Valor predeterminado Dirección IP de Blob Storage de registro Internet
    Valor predeterminado Dirección IP del almacenamiento raíz de DBFS (ADLS) Internet
    Valor predeterminado IP de almacenamiento raíz (Blob) de DBFS para áreas de trabajo creadas antes del 6 de marzo de 2023. Internet

    Para obtener las direcciones IP de cada uno de estos servicios, siga las instrucciones que aparecen en Configuración de rutas definidas por el usuario para Azure Databricks.

    Si se produce un error en la ruta basada en IP al validar la configuración, puede crear un punto de conexión de servicio para Microsoft.Storage a fin de enrutar todo el tráfico de almacenamiento de raíz DBFS a través de la red troncal de Azure. Si utiliza este enfoque, no es necesario crear rutas definidas por el usuario para el almacenamiento de raíz DBFS.

    Nota:

    Para acceder de Azure Databricks a otros servicios de datos de Azure de PaaS, como Cosmos DB o Azure Synapse Analytics, debe agregar rutas definidas por el usuario para esos servicios a la tabla de rutas. Resuelva cada punto de conexión a su dirección IP mediante nslookup o un comando equivalente.

  3. Asocie la tabla de rutas con las subredes privadas y pública de la red virtual de Azure Databricks según las instrucciones en Asociación de una tabla de rutas a una subred.

    Una vez que la tabla de rutas personalizada esté asociada con las subredes de la red virtual de Azure Databricks, no es necesario editar las reglas de seguridad de salida en el grupo de seguridad de red. Por ejemplo, no es necesario que la regla de salida sea más específica, porque las rutas controlarán la salida real.

Paso 4: Validación de la configuración

Para validar la configuración:

  1. Cree un clúster en el área de trabajo de Azure Databricks.

    Si se produce un error al crear el clúster, siga las instrucciones de instalación y pruebe una a una las opciones alternativas de configuración.

    Si todavía no puede crear un clúster, compruebe que la tabla de rutas incluya todas las rutas definidas por el usuario. Si usó puntos de conexión de servicio en lugar de rutas definidas por el usuario para ADLS gen2 (para áreas de trabajo creadas antes del 6 de marzo de 2023, Azure Blob Storage), compruebe también esos puntos de conexión.

    Si todavía no puede crear un clúster, póngase en contacto con los equipos de cuentas de Microsoft y Databricks para obtener ayuda.

  2. Haga ping a una dirección IP local desde un portátil con el comando siguiente:

    %sh
    ping <IP>
    

Para más instrucciones sobre la solución de problemas, consulte estos recursos:

Pasos de configuración adicional

Opción: Enrutamiento del tráfico de Azure Databricks mediante una aplicación virtual o un firewall

Puede filtrar todo el tráfico saliente de los nodos de clúster de Azure Databricks mediante un firewall o una aplicación DLP, como Azure Firewall, Palo Alto o Barracuda. Esto le permite inspeccionar el tráfico saliente para satisfacer las directivas de seguridad y agregar un CIDR o una IP pública de tipo NAT para todos los clústeres a una lista de permitidos.

Ajuste estos pasos según sea necesario para el firewall o la aplicación DLP:

  1. Configure una aplicación virtual o un firewall dentro de la red virtual de tránsito según las instrucciones detalladas en Creación de una aplicación virtual de red.

    Si necesita una configuración de firewall única para varias áreas de trabajo, puede crear el firewall en una subred segura o DMZ dentro de la red virtual de Azure Databricks, que es independiente de las subredes privada y pública existentes.

  2. Cree una ruta adicional en la tabla de rutas personalizada a 0.0.0.0/0.

  3. Si utiliza el enfoque de subred segura o DMZ, puede crear otra tabla de rutas asociada únicamente con la subred DMZ. En dicha tabla de rutas, cree una ruta a 0.0.0.0.

    Establezca el tipo de próximo salto de esa ruta en Internet si el tráfico tiene como destino una red pública, o en Puerta de enlace de Virtual Network si el tráfico está destinado a una red local.

  4. Configure las reglas de tipo "permitir" y "denegar" en la aplicación de firewall.

    Si quitó las rutas de Blob Storage, agregue dichas rutas a la lista de permitidos en el firewall.

    Si los clústeres dependen de repositorios públicos, como registros de contenedor o repositorios de sistema operativo, agréguelos a la lista de permitidos.

    Para información sobre las listas de permitidos, consulte Configuración de rutas definidas por el usuario para Azure Databricks.

Opción: Configuración de un DNS personalizado

Puede utilizar un DNS personalizado con áreas de trabajo de Azure Databricks implementadas en su propia red virtual. Consulte los artículos de Microsoft siguientes para más información sobre cómo configurar un DNS personalizado para una red virtual de Azure:

.. Importante: Para resolver las direcciones IP de los artefactos de Azure, debe configurar el DNS personalizado para desviar estas solicitudes a la resolución recursiva de Azure.