워크플로 오케스트레이션 관리자란?

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

참고 항목

워크플로 오케스트레이션 관리자는 Apache Airflow를 통해 구동됩니다.

참고 항목

이 기능은 공개 미리 보기로 제공됩니다. 질문이나 기능 제안이 있는 경우 세부 정보를 포함하여 ManagedAirflow@microsoft.com으로 이메일을 보내주세요.

참고 항목

Azure Data Factory용 워크플로 오케스트레이션 관리자는 오픈 소스 Apache Airflow 애플리케이션을 사용합니다. Airflow에 대한 설명서 및 추가 자습서는 Apache Airflow 설명서 또는 커뮤니티 페이지에서 찾을 수 있습니다.

Azure Data Factory는 데이터 프로세스 오케스트레이션, 100개 이상의 관리 커넥터를 통한 데이터 이동, 매핑 데이터 흐름을 통한 시각적 변환을 위한 서버리스 파이프라인을 제공합니다.

Azure Data Factory의 워크플로 오케스트레이션 관리자 서비스는 Apache Airflow 환경을 만들고 관리하는 간단하고 효율적인 방법이므로 데이터 파이프라인을 대규모로 쉽게 실행할 수 있습니다. Apache Airflow는 복잡한 데이터 워크플로를 프로그래밍 방식으로 만들기, 예약 및 모니터링하는 데 사용되는 오픈 소스 플랫폼입니다. 이를 통해 데이터 파이프라인을 나타내기 위해 DAG(방향성 비순환 그래프)로 결합할 수 있는 연산자라고 하는 일련의 작업을 정의할 수 있습니다. Airflow를 사용하면 일정에 따라 또는 이벤트에 대한 응답으로 이러한 DAG를 실행하고, 워크플로 진행률을 모니터링하고, 각 작업의 상태에 대한 표시 여부를 제공할 수 있습니다. 이는 데이터 파이프라인을 오케스트레이션하기 위해 데이터 엔지니어링 및 데이터 과학에서 널리 사용되며 유연성, 확장성 및 사용 편의성으로 잘 알려져 있습니다.

스크린샷은 데이터 통합을 보여줍니다.

워크플로 오케스트레이션 관리자를 사용해야 하는 경우

Azure Data Factory는 데이터 프로세스를 시각적으로 오케스트레이션하기 위한 파이프라인을 제공합니다(UI 기반 작성). 워크플로 오케스트레이션 관리자는 Airflow 기반 Python DAG(Python 코드 중심 작성)를 제공하여 데이터 오케스트레이션 프로세스를 정의합니다. Airflow 배경이 있거나 현재 Apache Airflow를 사용하는 경우 파이프라인 대신 워크플로 오케스트레이션 관리자를 사용하는 것이 좋습니다. 반대로 데이터 프로세스 오케스트레이션을 위해 Python 기반 DAG를 작성/관리하고 싶지 않다면 파이프라인을 사용하는 것이 더 나을 수도 있습니다.

워크플로 오케스트레이션 관리자를 통해 Azure Data Factory는 이제 시각적 개체, 코드 중심 OSS 오케스트레이션 요구 사항에 걸친 다중 오케스트레이션 기능을 제공합니다.

기능

Azure Data Factory의 워크플로 오케스트레이션 관리자는 다음을 비롯한 다양한 강력한 기능을 제공합니다.

  • 빠르고 간단한 배포 - 워크플로 오케스트레이션 관리자를 만들 때 Apache Airflow 버전을 선택하여 Apache Airflow를 빠르고 쉽게 설정할 수 있습니다.
  • 클라우드 크기 조정 - 워크플로 오케스트레이션 관리자는 범위 사양(최소, 최대)에 따라 필요한 경우 Apache Airflow 노드의 크기를 자동으로 조정합니다.
  • Microsoft Entra 통합 - Microsoft Entra ID로 보호되는 Single Sign-On 환경을 위해 Airflow 환경에 대해 Microsoft Entra RBAC를 사용하도록 설정할 수 있습니다.
  • 메타데이터 암호화 - 워크플로 오케스트레이션 관리자는 Azure 관리형 키를 사용하여 메타데이터를 자동으로 암호화하여 환경이 기본적으로 안전한지 확인합니다. 또한 CMK(고객 관리형 키)를 사용한 이중 암호화를 지원합니다.
  • Azure 모니터링 및 경고 - 워크플로 오케스트레이션 관리자에서 생성된 모든 로그를 Azure Monitor로 내보냅니다. 또한 중요한 조건을 추적하고 필요한 경우 이를 알리는 데 도움이 되는 메트릭을 제공합니다.

아키텍처

스크린샷은 워크플로 오케스트레이션 관리자의 아키텍처를 보여줍니다.

지역 가용성(공개 미리 보기)

  • 미국 동부
  • 미국 중남부
  • 미국 서부
  • 브라질 남부
  • 영국 남부
  • 북유럽
  • 서유럽
  • 동남아시아

참고 항목

GA에서는 모든 ADF 지역이 지원됩니다. Airflow 환경 지역은 기본적으로 Data Factory 지역으로 설정되며 구성할 수 없으므로 위의 지원되는 지역에서 Data Factory를 사용하여 워크플로 오케스트레이션 관리자 미리 보기에 액세스할 수 있는지 확인합니다.

지원되는 Apache Airflow 버전

  • 2.6.3

참고 항목

기존 IR 내에서 Airflow 버전을 변경하는 것은 지원되지 않습니다. 대신 권장되는 솔루션은 원하는 버전으로 새 Airflow IR을 만드는 것입니다.

통합

Apache Airflow는 microsoft.azure 공급자를 통해 Microsoft Azure 서비스와 통합됩니다.

Azure Data Factory UI에서 Airflow 환경을 편집하여 공급자 패키지를 설치할 수 있습니다. 패키지를 설치하는 데 몇 분 정도 걸립니다.

스크린샷은 공기 흐름 통합을 보여줍니다.

제한 사항

  • 다른 지역의 워크플로 오케스트레이션 관리자는 GA에서 사용할 수 있습니다.
  • Airflow를 통해 연결되는 데이터 원본은 공용 엔드포인트(네트워크)를 통해 액세스할 수 있어야 합니다.
  • VNet의 Blob Storage 내부/방화벽 뒤에 있는 DAG는 현재 지원되지 않습니다. 대신 워크플로 오케스트레이션 관리자의 Git 동기화 기능을 사용하는 것이 좋습니다. 워크플로 오케스트레이션 관리자에서 GitHub 리포지토리 동기화 참조
  • Azure Key Vault에서 Dags 가져오기는 LinkedServices에서 지원되지 않습니다.