使用 Azure Data Factory 或 Synapse 管線將資料載入 Azure Synapse Analytics

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory (部分機器翻譯),這是適用於企業的全方位分析解決方案。 Microsoft Fabric (部分機器翻譯) 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用 (部分機器翻譯)!

Azure Synapse Analytics 是一種水平擴充的雲端資料庫,可處理大量的關聯式及非關聯式資料。 Azure Synapse Analytics 以大量平行處理 (MPP) 架構為基礎,最適用於企業資料倉儲工作負載。 它透過單獨調整儲存體和計算的彈性,來提供雲端彈性。

現在開始使用 Azure Synapse Analytics 比以往更簡單。 Azure Data Factory 及其在 Azure Synapse 內的對等管線功能,可為您提供完全受控的雲端式資料整合服務。 您可使用此服務,在建置分析解決方案時於 Azure Synapse Analytics 填入現有系統的資料,並節省時間。

使用 Azure Data Factory和 Synapse 管線將資料載入 Azure Synapse Analytics 可有下列效益:

  • 容易設定:不需要編寫指令碼的直覺式 5 步驟精靈。
  • 豐富的資料存放區支援︰一組豐富內部部署和雲端式資料存放區的內部支援。 如需詳細清單,請參閱支援的資料存放區的資料表。
  • 安全且符合規範:資料會透過 HTTPS 或 ExpressRoute 來傳送。 具有全域服務,可確保資料絕不會離開地理界限。
  • 卓越的 PolyBase 使用效能:Polybase 是將資料移至 Azure Synapse Analytics 最有效的方式。 使用暫存 Blob 功能來讓您能夠從所有類型的資料存放區 (包括 Azure Blob 儲存體和 Data Lake Store) 高速載入資料。 (Polybase 預設支援 Azure Blob 儲存體和 Azure Data Lake Store)。如需詳細資料,請參閱複製活動效能

本文將示範如何使用複製資料工具,將資料從 Azure SQL Database 載入 Azure Synapse Analytics。 您可以依照類似的步驟,從其他類型的資料存放區複製資料。

必要條件

  • Azure 訂用帳戶:如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶
  • Azure Synapse Analytics:此資料倉儲會保存從 SQL 資料庫所複製過來的資料。 若您沒有 Azure Synapse Analytics,請參閱建立 Azure Synapse Analytics 中的指示。
  • Azure SQL Database:本教學課程會從 Azure SQL Database 中的 Adventure Works LT 範例資料集複製資料。 您可以遵循在 Azure SQL Database 中建立範例資料庫中的指示,在 SQL Database 中建立此範例資料庫。
  • Azure 儲存體帳戶:大量複製作業會使用 Azure 儲存體作為「暫存」Blob。 如果您沒有 Azure 儲存體帳戶,請參閱建立儲存體帳戶中的指示。

建立資料處理站

  1. 若您尚未建立資料處理站,請遵循快速入門:使用 Azure 入口網站和 Azure Data Factory Studio 建立資料處理站中的步驟加以建立。 建立後,請瀏覽至 Azure 入口網站中的資料處理站。

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. 在 [開啟 Azure Data Factory Studio] 圖格上選取 [開啟],在不同的索引標籤中啟動資料整合應用程式。

將資料載入 Azure Synapse Analytics

  1. 在 Azure Data Factory 或 Azure Synapse 工作區首頁中,選取 [擷取] 圖格以啟動 [複製資料] 工具。 接著選擇 [內建複製工作]

  2. 在 [屬性] 頁面中,選擇 [工作類型] 下的 [內建複製工作],並選取 [下一步]

    Properties page

  3. 在 [來源資料存放區] 頁面中,完成下列步驟:

    提示

    在本教學課程中,您會使用 SQL 驗證作為來源資料存放區的驗證類型,但也可選擇其他支援的驗證方法:服務主體受控識別 (視需要)。 如需詳細資訊,請參閱本文的對應章節。 若要安全地儲存資料存放區的秘密,也建議您使用 Azure Key Vault。 如需詳細說明,請參閱本文

    1. 選取 + 新增連線

    2. 從資源庫選取 [Azure SQL Database],然後選取 [繼續]。 您可以在搜尋方塊中輸入 "SQL",以篩選連接器。

      Select Azure SQL DB

    3. 在 [新增連線 (Azure SQL Database)] 頁面中,從下拉式清單選取您的伺服器名稱和資料庫名稱,並指定使用者名稱和密碼。 選取 [測試連線] 驗證設定,接著選取 [建立]

      Configure Azure SQL DB

    4. 在 [來源資料存放區] 頁面中,選取剛建立的連線作為 [連線] 區段中的來源。

    5. 在 [來源資料表] 區段中,輸入 SalesLT 以篩選資料表。 選擇 [(全選)] 方塊讓所有資料表用於複製,接著選取 [下一步]

    Screenshot showing the configuration of 'Source data store' page.

  4. 在 [套用篩選] 頁面中指定您的設定,或選取 [下一步]。 您可在此頁面上按一下 [預覽資料] 按鈕,以預覽資料,並檢視輸入資料結構描述。

     Screenshot showing the 'Apply filter' page.

  5. 在 [目的地資料存放區] 頁面中,完成下列步驟:

    提示

    在本教學課程中,您會使用 SQL 驗證作為目的地資料存放區的驗證類型,但也可選擇其他支援的驗證方法:服務主體受控識別 (視需要)。 如需詳細資訊,請參閱本文的對應章節。 若要安全地儲存資料存放區的秘密,也建議您使用 Azure Key Vault。 如需詳細說明,請參閱本文

    1. 選取 [+ 新增連線] 以新增連線。

    2. 從資源庫選取 [Azure Synapse Analytics],並選取 [繼續]

      Select Azure Synapse Analytics

    3. 在 [新增連線 (Azure Synapse Analytics)] 頁面中,從下拉式清單選取您的伺服器名稱和資料庫名稱,並指定使用者名稱和密碼。 選取 [測試連線] 驗證設定,接著選取 [建立]

      Configure Azure Synapse Analytics

    4. 在 [目的地資料存放區] 頁面中,選取 [連線] 區段中剛建立的連線作為接收器。

  6. 在 [資料表對應] 區段中檢閱內容,並選取 [下一步]。 隨即會顯示智慧型資料表對應。 來源資料表會根據資料表名稱來對應至目的地資料表。 若目的地沒有某個來源資料表,服務會依預設建立名稱相同的目的地資料表。 您也可以將來源資料表對應至現有的目的地資料表。

    Screenshot showing the configuration of 'Destination data store' page.

  7. 在 [資料行對應] 頁面中檢閱內容,並選取 [下一步]。 系統會根據資料行名稱來進行智慧型資料表對應。 若您讓服務自動建立資料表,系統便會在來源與目的地存放區不相容時轉換資料類型。 如果來源和目的地資料行之間有不支援的資料類型轉換,您就會在對應的資料表旁看到一則錯誤訊息。

    Column mapping page

  8. 在 [設定] 頁面中,完成下列步驟:

    1. 針對 [工作名稱] 欄位,指定 CopyFromSQLToSQLDW

    2. 在 [暫存設定] 區段中,選取 [+ 新增] 以新增暫存儲存體。 此儲存體用來暫存資料,之後再使用 PolyBase 將資料載入到 Azure Synapse Analytics。 複製完成後,系統便會自動清除 Azure Blob 儲存體中的過渡資料。

    3. 在 [新增連結服務] 頁面中選取您的儲存體帳戶,並選取 [建立] 部署連結服務。

    4. 取消選取 [使用類型預設值] 選項,接著選取 [下一步]

    Configure PolyBase

  9. 在 [摘要] 頁面中檢閱設定,並選取 [下一步]

  10. 部署頁面上選取 [監視] 來監視管線 (工作)。

     Screenshot showing the deployment page.

  11. 請注意,系統會自動選取左側的 [監視] 索引標籤。 當管線執行成功完成時,請選取 [管線名稱] 資料行下的 CopyFromSQLToSQLDW 連結,以檢視活動執行詳細資料,或重新執行管線。


  1. 若要切換回 [管線執行] 檢視,請選取頂端的 [所有管線執行] 連結。 選取 [重新整理] 可重新整理清單。

    Monitor activity runs

  2. 若要監視各項複製活動的執行詳細資料,請在活動執行檢視中選取 [活動名稱] 下的 [詳細資料] 連結 (眼鏡圖示)。 您可以監視的詳細資料包括從來源複製到接收的資料量、資料輸送量、執行步驟與對應的持續期間,以及所使用的組態。

    Monitor activity run details first

    Monitor activity run details second

前往下列文章,以了解 Azure Synapse Analytics 支援: