Azure Data Factory 工作流程協調流程管理員如何運作?

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告等所有項目。 了解如何免費啟動新的試用版

注意

工作流程協調流程管理員由 Apache Airflow 提供。

注意

適用於 Azure Data Factory 的工作流程協調流程管理員依賴 開放原始碼 Apache Airflow 應用程式。 您可以在 Apache Airflow 檔或社群頁面上找到 Airflow 的檔和更多教學課程。

Azure Data Factory 中的工作流程協調流程管理員會使用以 Python 為基礎的有向非循環圖形 (DAG) 來執行協調流程工作流程。 若要使用這項功能,您必須在 Azure Blob 儲存體 中提供 DAG 和外掛程式。 您可以使用命令行介面 (CLI) 或軟體開發工具套件 (SDK) 從 ADF 啟動 Airflow UI,以管理您的 DAG。

建立工作流程協調流程管理員環境

下列步驟會設定及設定您的工作流程協調流程管理員環境。

必要條件

Azure 訂用帳戶:如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶。 在支援工作流程協調流程管理員預覽的區域中,建立或選取現有的 Data Factory。

建立環境的步驟

  1. 建立新的工作流程協調流程管理員環境。 移至 管理 中樞 ->Airflow (預覽) ->+新增 以建立新的 Airflow 環境

    顯示如何建立新受控 Apache Airflow 環境的螢幕快照。

  2. 提供詳細資料 (Airflow 組態)

    顯示某些工作流程協調流程管理員環境詳細數據的螢幕快照。

    重要

    使用 基本 身份驗證時,請記住此畫面中指定的使用者名稱和密碼。 稍後必須在工作流程協調流程管理員 UI 中登入。 默認選項為 Microsoft Entra ID ,不需要為您的 Airflow 環境建立使用者名稱/密碼,而是改為使用登入使用者的認證 Azure Data Factory 來登入/監視 DAG。

  3. 環境變數 在 Airflow 中儲存和擷取任意內容或設定的簡單索引鍵值存放區。

  4. 需求 可用來預安裝 Python 連結庫。 您也可以稍後更新這些。

匯入 DAG

下列步驟說明如何將 DAG 匯入工作流程協調流程管理員。

必要條件

您必須將範例 DAG 上傳至可存取的 儲存體 帳戶(應該在 dags 資料夾下)。

注意

預覽期間不支援 VNet 後方的 Blob 儲存體。
storageLinkedServices 中的 KeyVault 組態不支持匯入 dag。

範例 Apache Airflow v2.x DAG範例 Apache Airflow v1.10 DAG

匯入的步驟

  1. 根據您已設定的 Airflow 環境複製內容(v2.x 或 v1.10)貼到名為 tutorial.py 的新檔案中。

    tutorial.py 上傳至 Blob 記憶體。 (如何將檔案上傳至 Blob

    注意

    您必須從 Blob 記憶體帳戶中選取目錄路徑,其中包含名為 dags外掛程式 的資料夾,以將這些資料夾匯入 Airflow 環境。 外掛程式並非必要專案。 您也可以有名為 dags 的 容器,並上傳其中的所有 Airflow 檔案。

  2. 在 [管理中樞]選取 [Airflow [預覽]。 然後將滑鼠停留在先前建立 的 Airflow 環境上,然後選取 [ 匯入檔案 ] 以將所有 DAG 和相依性匯入 Airflow 環境。

    顯示管理中樞中匯入檔案的螢幕快照。

  3. 將新的連結服務建立至必要條件中所述的可存取記憶體帳戶(如果您已經有自己的 DAG,請使用現有的記憶體帳戶)。

    顯示如何建立新連結服務的螢幕快照。

  4. 使用您上傳 DAG 的記憶體帳戶(檢查必要條件)。 測試連線,然後選取 [ 建立]。

    顯示一些鏈接服務詳細數據的螢幕快照。

  5. 如果使用範例 SAS URL,或選取包含 DAG 檔案之 dags 資料夾的資料夾,請瀏覽並選取 airflow

    注意

    您可以透過這個介面匯入 DAG 及其相依性。 您必須從 Blob 記憶體帳戶中選取目錄路徑,其中包含名為 dags外掛程式 的資料夾,以將這些資料夾匯入 Airflow 環境。 外掛程式並非必要專案。

    顯示匯入檔案中瀏覽記憶體的螢幕快照。

    顯示數據流中瀏覽的螢幕快照。

    顯示匯入檔案中匯入的螢幕快照。

    顯示匯入 dag 的螢幕快照。

注意

在預覽期間匯入 DAG 可能需要幾分鐘的時間。 通知中心(ADF UI 中的鈴鐺圖示)可用來追蹤匯入狀態更新。

針對匯入 DAG 問題進行疑難解答

  • 問題:DAG 匯入需要超過 5 分鐘的風險降低:使用單一匯入來減少匯入的 DAG 大小。 達成此目的的其中一種方式,是跨多個容器建立多個 DAG 資料夾,其 DAG 較少。

  • 問題:當您登入Airflow UI時,匯入的DAG不會顯示。 風險降低:登入 Airflow UI,並查看是否有任何 DAG 剖析錯誤。 如果 DAG 檔案包含任何不相容的程式代碼,就可能發生此情況。 您會發現確切的行號和檔案,這些檔案會透過 Airflow UI 發生問題。

    顯示匯入 dag 問題的螢幕快照。

監視DAG執行

若要監視 Airflow DAG,請使用先前建立的使用者名稱和密碼登入 Airflow UI。

  1. 選取建立的 Airflow 環境。

    顯示已建立 Airflow 環境的螢幕快照。

  2. 使用 Airflow Integration Runtime 建立期間所提供的使用者名稱密碼登入。 (您可以視需要編輯 Airflow 整合運行時間 來重設使用者名稱或密碼)

    顯示使用 Airflow Integration Runtime 建立期間所提供的使用者名稱密碼登入的螢幕快照。

從 Airflow 環境移除 DAG

如果您使用 Airflow 1.x 版,請刪除任何 Airflow 環境 (IR) 上部署的 DAG,您必須在兩個不同的位置刪除 DAG。

  1. 從 Airflow UI 刪除 DAG
  2. 刪除 ADF UI 中的 DAG

注意

這是公開預覽期間的目前體驗,我們將改善此體驗。