온-프레미스 네트워크에 Azure Databricks 작업 영역 연결

이 문서에는 Azure Databricks 작업 영역에서 온-프레미스 네트워크로 연결을 설정하는 방법이 나와 있습니다. 트래픽은 다음과 같은 허브 및 스포크 토폴로지를 사용하여 전송 VNet(가상 네트워크)을 통해 온-프레미스 네트워크로 라우팅됩니다.

Virtual network deployment

이 가이드에 따라 도움이 필요한 경우 Microsoft 및 Databricks 계정 팀에 문의하세요.

요구 사항

Azure Databricks 작업 영역을 사용자 고유의 가상 네트워크에 배포(VNet 삽입이라고도 함)해야 합니다.

1단계: Azure Virtual Network 게이트웨이를 사용하여 전송 가상 네트워크 설정

이러한 방법 중 하나를 사용하여 구성된 전송 VNet에 Azure Virtual Network 게이트웨이(ExpressRoute 또는 VPN)가 필요합니다. 적절한 게이트웨이가 이미 있는 경우, 전송 가상 네트워크와 Azure Databricks 가상 네트워크 피어로 건너뜁니다.

온-프레미스 네트워크와 Azure 간에 ExpressRoute를 이미 설정한 경우, Azure Portal을 사용하여 ExpressRoute에 대한 가상 네트워크 게이트웨이 구성의 절차를 따릅니다.

그렇지 않은 경우 Azure Portal을 사용하여 VNet 간 VPN Gateway 연결 구성의 1~5단계를 따릅니다.

도움이 필요하면 Microsoft 계정 팀에 문의하세요.

2단계: 전송 가상 네트워크와 Azure Databricks 가상 네트워크 피어

Azure Databricks 작업 영역이 Virtual Network 게이트웨이와 동일한 VNet에 있는 경우, 사용자 정의 경로를 만들어 Azure Databricks 가상 네트워크 서브넷에 연결로 건너뜁니다.

그렇지 않은 경우 피어 가상 네트워크의 지침에 따라 Azure Databricks VNet을 전송 VNet에 피어링하고 다음 옵션을 선택합니다.

  • Azure Databricks VNet 쪽에서 원격 게이트웨이 사용
  • 전송 VNet 쪽에서 게이트웨이 전송 허용

자세한 내용은 피어링 만들기를 참조하세요.

참고 항목

Azure Databricks에 대한 온-프레미스 네트워크 연결이 위의 설정에서 작동하지 않는 경우, 피어링 양쪽에서 전달된 트래픽 허용 옵션을 선택하여 문제를 해결할 수도 있습니다.

가상 네트워크 피어링을 위한 VPN 게이트웨이 전송을 구성하는 방법에 대한 자세한 내용은 가상 네트워크 피어링을 위한 VPN 게이트웨이 전송 구성을 참조하세요.

3단계: 사용자 정의 경로를 만들어 Azure Databricks 가상 네트워크 서브넷에 연결

Azure Databricks VNet을 전송 VNet과 피어링하면 Azure에서 전송 VNet을 사용해 모든 경로를 자동으로 구성합니다. 자동 구성에는 클러스터 노드에서 Azure Databricks 컨트롤 플레인으로 이어지는 반환 경로가 포함되지 않습니다. 사용자 정의 경로를 사용해 이러한 사용자 지정 경로를 수동으로 만들어야 합니다.

  1. 경로 테이블을 만들어 BGP 경로 전파를 사용하도록 설정합니다.

    참고 항목

    경우에 따라 BGP 경로 전파로 인해 온-프레미스 네트워크 연결 설정의 유효성을 검사할 때 오류가 발생합니다. 최후의 수단으로 BGP 경로 전파를 사용하지 않도록 설정할 수 있습니다.

  2. 사용자 지정 경로의 지침을 사용하여 다음 서비스에 대해 사용자 정의 경로를 추가합니다.

    작업 영역에 대해 SCC(보안 클러스터 연결)를 사용하는 경우 컨트롤 플레인 NAT IP 대신 SCC 릴레이 IP를 사용합니다.

    원본 주소 접두사 다음 홉 유형
    기본값 컨트롤 플레인 NAT IP
    (SCC를 사용하지 않는 경우에만)
    인터넷
    기본값 SCC 릴레이 IP
    (SCC를 사용하는 경우에만)
    인터넷
    기본값 웹앱 IP 인터넷
    기본값 확장 인프라 IP 인터넷
    기본값 메타스토어 IP 인터넷
    기본값 아티팩트 Blob 스토리지 IP 인터넷
    기본값 Blob 스토리지 IP 로그 인터넷
    기본값 DBFS ADLS(루트 스토리지 IP) 인터넷
    기본값 2023년 3월 6일 이전에 만든 작업 영역에 대한 DBFS Blob(루트 스토리지 IP)입니다. 인터넷

    이러한 각 서비스에 대한 IP 주소를 얻으려면 Azure Databricks에 대한 사용자 정의 경로 설정에 있는 지침을 따릅니다.

    설치의 유효성을 검사할 때 IP 기반 경로가 실패하는 경우 Microsoft.Storage에 대한 서비스 엔드포인트를 만들어 Azure 백본을 통해 모든 DBFS 루트 스토리지 트래픽을 라우팅할 수 있습니다. 이 방법을 사용하는 경우 DBFS 루트 스토리지에 대한 사용자 정의 경로를 만들 필요가 없습니다.

    참고 항목

    Azure Databricks에서 Cosmos DB 또는 Azure Synapse Analytics 같은 다른 PaaS Azure 데이터 서비스에 액세스하려면, 해당 서비스에 대한 사용자 정의 경로를 경로 테이블에 추가해야 합니다. nslookup 또는 이에 상응하는 명령을 사용하여 해당 IP 주소에 대한 각 엔드포인트를 확인합니다.

  3. 경로 테이블을 서브넷에 연결의 지침을 사용하여 경로 테이블을 Azure Databricks VNet 공개/비공개 서브넷과 연결합니다.

    사용자 지정 경로 테이블을 Azure Databricks VNet 서브넷과 연결한 후에는 네트워크 보안 그룹에서 아웃바운드 보안 규칙을 편집할 필요가 없습니다. 예를 들면, 경로가 실제 송신을 제어하기 때문에 아웃바운드 규칙을 보다 구체적으로 만들 필요가 없습니다.

4단계: 설정 유효성 검사

설정의 유효성을 검사하려면 다음을 수행합니다.

  1. Azure Databricks 작업 영역에서 클러스터를 만듭니다.

    클러스터를 만드는 데 실패하는 경우 설정 지침을 살펴보고 대체 구성 옵션을 하나씩 시도합니다.

    그래도 클러스터를 만들 수 없는 경우 경로 테이블에 필요한 사용자 정의 경로가 모두 포함되어 있는지 확인합니다. ADLS gen2(2023년 3월 6일 이전에 만든 작업 영역의 경우 Azure Blob Storage)에 대해 사용자 정의 경로 대신 서비스 엔드포인트를 사용한 경우 해당 엔드포인트도 검사.

    그래도 클러스터를 만들 수 없는 경우 Microsoft 및 Databricks 계정 팀에 문의하여 도움을 요청하세요.

  2. 다음 명령을 사용하여 Notebook에서 온-프레미스 IP를 Ping합니다.

    %sh
    ping <IP>
    

문제 해결에 관한 자세한 참고 자료는 다음 리소스를 참조하세요.

선택적 구성 단계

옵션: 가상 어플라이언스 또는 방화벽을 사용하여 Azure Databricks 트래픽 라우팅

Azure Firewall, Palo Alto 또는 Barracuda 같은 방화벽이나 DLP 어플라이언스를 사용하여 Azure Databricks 클러스터 노드에서 나가는 트래픽을 모두 필터링할 수 있습니다. 이렇게 하면 나가는 트래픽을 검사하여 보안 정책을 충족하고, 모든 클러스터에 대해 단일 NAT와 유사한 공용 IP 또는 CIDR를 허용 목록에 추가할 수 있습니다.

방화벽 또는 DLP 어플라이언스에서 필요에 따라 다음 단계를 조정합니다.

  1. NVA 만들기의 지침을 사용하여 전송 VNet 내에서 가상 어플라이언스 또는 방화벽을 설정합니다.

    여러 작업 영역에 대해 단일 방화벽 구성이 필요한 경우, 기존 공개/비공개 서브넷과는 별개인 Azure Databricks VNet 내 보안 또는 DMZ 서브넷에 방화벽을 만들 수 있습니다.

  2. 사용자 지정 경로 테이블에 0.0.0.0/0으로 추가 경로를 만듭니다.

  3. 보안 또는 DMZ 서브넷 접근 방식을 사용하는 경우 DMZ 서브넷과만 연결된 추가 경로 테이블을 만들 수 있습니다. 해당 경로 테이블에서 0.0.0.0에 대한 경로를 만듭니다.

    트래픽이 공용 네트워크로 향하는 경우 해당 경로의 다음 홉 형식을 인터넷으로 설정하거나, 트래픽이 온-프레미스 네트워크로 향하는 경우 Virtual Network 게이트웨이로 설정합니다.

  4. 방화벽 어플라이언스에서 허용/거부 규칙을 구성합니다.

    Blob 스토리지의 경로를 제거한 경우 해당 경로를 방화벽의 허용 목록에 추가합니다.

    클러스터가 운영 체제 리포지토리 또는 컨테이너 레지스트리 같은 공용 리포지토리를 사용하는 경우 허용 목록에 추가합니다.

    허용 목록에 대한 자세한 내용은 Azure Databricks에 대한 사용자 정의 경로 설정을 참조하세요.

옵션: 사용자 지정 DNS 구성

사용자 고유의 가상 네트워크에 배포된 Azure Databricks 작업 영역에서 사용자 지정 DNS를 사용할 수 있습니다. Azure 가상 네트워크에 대한 사용자 지정 DNS를 구성하는 방법에 대한 자세한 내용은 다음 Microsoft 문서를 참조하세요.

.. 중요: Azure 아티팩트에 대한 IP 주소를 확인하려면, 이러한 요청을 Azure 재귀 확인자로 전달하도록 사용자 지정 DNS를 구성해야 합니다.