快速入門:使用數據流和數據管線移動和轉換數據

在本教學課程中,您會探索數據流和數據管線體驗如何建立強大且完整的 Data Factory 解決方案。

必要條件

若要開始使用,您必須具備下列必要條件:

與管線比較的數據流

數據流 Gen2 可讓您利用低程式代碼介面和 300 個以上的資料和 AI 型轉換,輕鬆清除、準備和轉換數據,並比其他任何工具更有彈性。 數據管線可啟用豐富的現用數據協調流程功能,以撰寫符合您企業需求的彈性數據工作流程。 在管線中,您可以建立執行工作的活動的邏輯群組,其中可能包括呼叫數據流來清除和準備您的數據。 雖然這兩者之間有一些功能重疊,但要針對特定案例使用的選擇取決於您是否需要管線的完整豐富性,或是可以使用更簡單但更有限的數據流功能。 如需詳細資訊,請參閱 網狀架構決策指南

使用數據流轉換數據

請遵循下列步驟來設定數據流。

步驟 1:建立數據流

  1. 選擇已啟用網狀架構的工作區,然後選取 [ 新增]。 然後選取 [數據流 Gen2]。

    Screenshot showing where to start creating a dataflow gen2.

  2. 數據流編輯器視窗隨即出現。 選取 [ 從 SQL Server 匯入] 卡片。

    Screenshot showing the dataflow editor window.

步驟 2:取得數據

  1. 在下一個顯示的 [連線 至數據源] 對話框中,輸入要連線到 Azure SQL 資料庫的詳細數據,然後選取 [下一步]。 在此範例中,您會使用 在必要條件中設定 Azure SQL 資料庫時所設定的 AdventureWorksLT 範例資料庫。

    Screenshot showing how to connect to an Azure SQL database.

  2. 選取您想要轉換的數據,然後選取 [ 建立]。 在本快速入門中,從提供給 Azure SQL DB 的 AdventureWorksLT 範例數據中選取 [SalesLT.Customer],然後選取 [選取相關數據表] 按鈕,以自動包含另外兩個相關數據表

    Screenshot showing where to choose from the available data.

步驟 3:轉換您的數據

  1. 如果未選取,請沿著頁面底部的狀態欄選取 [圖表檢視] 按鈕,或選取 Power Query 編輯器頂端 [檢視] 功能表下的[圖表檢視]。 其中一個選項都可以切換圖表檢視。

    Screenshot showing where to select diagram view.

  2. 以滑鼠右鍵按下 SalesLT 客戶 查詢,或選取查詢右側的垂直省略號,然後選取 [ 合併查詢]。

    Screenshot showing where to find the Merge queries option.

  3. 選取 SalesLTOrderHeader 資料表做為合併的右數據表、 每個數據表的 CustomerID 數據行做為聯結數據行,並將 左方 選取為聯結種類,以設定合併。 然後選取 [ 確定 ] 以新增合併查詢。

    Screenshot of the Merge configuration screen.

  4. 從您剛才建立的新合併查詢中,選取 [新增數據目的地] 按鈕,其看起來就像資料庫符號上方有箭號。 然後選取 [Azure SQL 資料庫 ] 作為目的地類型。

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. 提供要發佈合併查詢之 Azure SQL 資料庫連線的詳細數據。 在此範例中,您也可以使用 我們作為目的地數據源的 AdventureWorksLT 資料庫。

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. 選擇要儲存數據的資料庫,並提供數據表名稱,然後選取 [ 下一步]。

    Screenshot showing the Choose destination target window.

  7. 您可以在 [選擇目的地設定] 對話框中保留預設設定,只要選取 [儲存設定],即可在這裡進行任何變更。

    Screenshot showing the Choose destination settings dialog.

  8. 選取 [數據流編輯器] 頁面上的 [重新發佈 ],以發佈數據流。

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

使用數據管線移動數據

現在您已建立數據流 Gen2,您可以在管線中操作。 在此範例中,您會將數據流所產生的數據複製到 Azure Blob 儲存體 帳戶中的文字格式。

步驟 1:建立新的數據管線

  1. 從您的工作區中,選取 [ 新增],然後選取 [ 數據管線]。

    Screenshot showing where to start a new data pipeline.

  2. 為您的管線命名,然後選取 [ 建立]。

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

步驟 2:設定數據流

  1. 選取 [活動] 索引標籤中的 [資料流],將新的數據流活動新增至您的數據管線

    Screenshot showing where to select the Dataflow option.

  2. 選取管線畫布上的數據流,然後選取 [設定] 索引標籤。選擇您先前從下拉式清單中建立的數據流。

    Screenshot showing how to choose the dataflow you created.

  3. 選取 [ 儲存],然後 選取 [執行 ] 以執行數據流,以一開始填入您在上一個步驟中設計的合併查詢數據表。

    Screenshot showing where to select Run.

步驟 3:使用複製助理新增複製活動

  1. 選取 畫佈上的 [複製數據 ] 以開啟 複製小幫 手工具以開始使用。 或者,從功能區 [活動] 索引標籤底下的 [複製數據] 下拉式清單中選取 [使用複製小幫手]。

    Screenshot showing the two ways to access the copy assistant.

  2. 選取資料來源類型,以選擇您的資料來源。 在本教學課程中,您會在建立數據流以產生新的合併查詢時,使用先前使用的 Azure SQL 資料庫。 向下卷動至範例數據供應專案下方,然後選取 [Azure] 索引卷標,然後選取 [Azure SQL 資料庫]。 然後選取 [ 下一步 ] 繼續。

    Screenshot showing where to choose a data source.

  3. 選取 [建立新連線],以建立數據源的連線。 在面板上填入必要的連線資訊,然後輸入資料庫的 AdventureWorksLT,其中我們在數據流中產生合併查詢。 然後選取下一步

    Screenshot showing where to create a new connection.

  4. 選取您稍早在數據流步驟中產生的數據表,然後選取 [ 下一步]。

    Screenshot showing how to select from available tables.

  5. 針對您的目的地,選擇 [Azure Blob 儲存體],然後選取 [下一步]。

    Screenshot showing the Azure Blob Storage data destination.

  6. 選取 [建立新聯機],以建立目的地的連線。 提供連線的詳細數據,然後選取 [ 下一步]。

    Screenshot showing how to create a connection.

  7. 選取您的 資料夾路徑 並提供 檔名,然後選取 [ 下一步]。

    Screenshot showing how to select folder path and file name.

  8. 再次選取 [下一步 ] 以接受預設檔案格式、數據行分隔符、數據列分隔符和壓縮類型,選擇性地包含標頭。

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. 完成您的設定。 然後,檢閱並選取 [ 儲存 + 執行 ] 以完成程式。

    Screenshot showing how to review copy data settings.

步驟 5:設計您的數據管線並儲存以執行和載入數據

  1. 若要在數據流活動之後執行複製活動,請從數據流活動上的 [成功] 拖曳至 [複製] 活動。 複製活動只會在數據流活動成功之後執行。

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. 選取 [ 儲存 ] 以儲存您的資料管線。 然後選取 [ 執行 ] 以執行您的資料管線並載入您的數據。

    Screenshot showing where to select Save and Run.

排程管線執行

完成開發及測試管線之後,您可以排程它自動執行。

  1. 在管線編輯器視窗的 [ 首頁 ] 索引標籤上,選取 [ 排程]。

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. 視需要設定排程。 這裡的範例會排程管線每天在晚上 8:00 執行,直到年底為止。

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

此範例示範如何建立及設定 Dataflow Gen2 來建立合併查詢,並將其儲存在 Azure SQL 資料庫中,然後將資料庫的數據複製到 Azure Blob 儲存體 中的文字檔。 您已了解如何︰

  • 建立資料流程。
  • 使用數據流轉換數據。
  • 使用數據流建立數據管線。
  • 排序管線中的步驟執行。
  • 使用複製小幫手複製數據。
  • 執行並排程您的數據管線。

接下來,請繼續進行以深入瞭解如何監視管線執行。