ワークフロー オーケストレーション マネージャーとは何か

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

Note

ワークフロー オーケストレーション マネージャーは Apache Airflow を利用しています。

Note

この機能はパブリック プレビュー段階にあります。 質問や機能の提案については、詳細を記載したメールを ManagedAirflow@microsoft.com に送信してください。

Note

Azure Data Factory 用のワークフロー オーケストレーション マネージャーは、オープンソースの Apache Airflow アプリケーションに依存しています。 Airflow のドキュメントとその他のチュートリアルについては、Apache Airflow のドキュメントまたはコミュニティのページを参照してください。

Azure Data Factory では、データ プロセス オーケストレーション、100 以上のマネージド コネクタを使用したデータ移動、マッピング データ フローを使用したビジュアル変換のためのサーバーレス パイプラインが提供されます。

Azure Data Factory のワークフロー オーケストレーション マネージャーは、Apache Airflow 環境を作成および管理するためのシンプルで効率的な方法であり、データ パイプラインを簡単に大規模に実行できます。 Apache Airflow は、複雑なデータ ワークフローをプログラムで作成、スケジュール、監視するために使用されるオープンソース プラットフォームです。 これにより、オペレーターと呼ばれる一連のタスクを定義でき、有向非循環グラフ (DAG) と組み合わせてデータ パイプラインを表すことができます。 Airflow を使用すると、これらの DAG をスケジュールに従って、またはイベントに応答して実行し、ワークフローの進行状況を監視し、各タスクの状態を可視化できます。 データ パイプラインを調整するために Data Engineering とデータ サイエンスで広く使用されており、その柔軟性、拡張性、使いやすさで知られています。

データ統合を示すスクリーンショット。

ワークフロー オーケストレーション マネージャーを使用する状況

Azure Data Factory では、データ プロセスの視覚的オーケストレーション (UI ベースの作成) のためのパイプラインが提供されます。 一方、ワークフロー オーケストレーション マネージャーでは、データ オーケストレーション プロセスの定義のために、Airflow ベースの Python DAG (Python コード中心の作成) が提供されます。 Airflow の経験があるか、現在 Apache Airflow を使用している場合は、パイプラインよりもワークフロー オーケストレーション マネージャーを使用する方が適している可能性があります。 それに対して、データ プロセス オーケストレーションのために Python ベースの DAG を記述して管理するのを好まない場合は、パイプラインを使用する方が適している可能性があります。

ワークフロー オーケストレーション マネージャーの導入により、Azure Data Factory では、視覚的、コード中心、OSS の各オーケストレーション要件を横断するマルチなオーケストレーション機能が提供されるようになりました。

機能

Azure Data Factory のワークフロー オーケストレーション マネージャーでは、次のような、幅広い強力な機能が提供されています。

  • 高速で簡単なデプロイ - ワークフロー オーケストレーション マネージャーの作成時に Apache Airflow バージョンを選択することで、Apache Airflow をすばやく簡単に設定できます。
  • クラウド スケール – ワークフロー オーケストレーション マネージャーでは必要に応じて、範囲指定 (最小、最大) に基づいて Apache Airflow ノードが自動的にスケーリングされます。
  • Microsoft Entra 統合 – ご自分の Airflow 環境に対して Microsoft Entra RBAC を有効にして、Microsoft Entra ID によってセキュリティ保護されたシングル サインオン エクスペリエンスを実現できます。
  • メタデータ暗号化 – ワークフロー オーケストレーション マネージャーでは、Azure マネージド キーを使用してメタデータが自動的に暗号化され、お客様の環境が既定でセキュリティで保護されるようにします。 カスタマー マネージド キー (CMK) を使用した二重暗号化もサポートされています。
  • Azure の監視とアラート – ワークフロー オーケストレーション マネージャーによって生成されたすべてのログが Azure Monitor にエクスポートされます。 また、重要な条件を追跡し、必要に応じて通知するのに役立つメトリックも提供されます。

Architecture

ワークフロー オーケストレーション マネージャーのアーキテクチャを示すスクリーンショット。

リージョンの可用性 (パブリック プレビュー)

  • 米国東部
  • 米国中南部
  • 米国西部
  • ブラジル南部
  • 英国南部
  • 北ヨーロッパ
  • 西ヨーロッパ
  • 東南アジア

Note

一般提供までに、すべての ADF リージョンがサポートされる予定です。 Airflow 環境のリージョンは既定で Data Factory のリージョンが使用され、変更できません。したがって、ワークフロー オーケストレーション マネージャーのプレビューにアクセスできるよう、上記のサポートされているリージョンで Data Factory を使用してください。

サポートされている Apache Airflow のバージョン

  • 2.6.3

Note

既存の IR 内の Airflow バージョンの変更はサポートされていません。 代わりに、目的のバージョンの新しい Airflow IR を作成することをお勧めします

統合

Apache Airflow は、microsoft.azure プロバイダーを介して Microsoft Azure サービスと統合します。

Azure Data Factory の UI から Airflow 環境を編集することで、任意のプロバイダー パッケージをインストールできます。 パッケージのインストールには数分ほどかかります。

Airflow 統合を示すスクリーンショット。

制限事項

  • 他のリージョンのワークフロー オーケストレーション マネージャーは、GA で使用できます。
  • エアフロー経由で接続するデータ ソースには、パブリック エンドポイント (ネットワーク) 経由でアクセスできる必要があります。
  • VNet 内またはファイアウォール背後の Blob Storage 内にある DAG は、現在サポートされていません。 代わりに、ワークフロー オーケストレーション マネージャーの Git 同期機能を使用することをお勧めします。 「ワークフロー オーケストレーション マネージャーで GitHub リポジトリを同期する」を参照してください
  • LinkedServices では、Azure Key Vault からの Dag のインポートはサポートされていません。