快速入門:使用複製資料工具複製資料

適用于:Azure Data Factory Azure Synapse Analytics

在此快速入門中,您會使用 Azure 入口網站建立資料處理站。 接著,您會使用「複製資料」工具建立管線,將資料從 Azure Blob 儲存體的一個資料夾複製到另一個資料夾。

注意

如果您不熟悉 Azure Data Factory,在執行此快速入門之前,請先參閱 Azure Data Factory 簡介

必要條件

Azure 訂用帳戶

如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶

Azure 角色

若要建立 Data Factory 執行個體,您用來登入 Azure 的使用者帳戶必須為「參與者」 或「擁有者」 角色,或是 Azure 訂用帳戶的「管理員」 。 若要檢視您在訂用帳戶中擁有的權限,請移至 Azure 入口網站,選取右上角的使用者名稱、選取更多選項的 " ... " 圖示,然後選取 [我的權限] 。 如果您有多個訂用帳戶的存取權,請選取適當的訂用帳戶。

若要建立及管理 Data factory 的子資源 (包括資料集、連結服務、管線、觸發程序和整合執行階段),必須要符合下列需求:

  • 若要在 Azure 入口網站中建立及管理子資源,您必須屬於資源群組層級或更高層級的 Data Factory 參與者角色。
  • 若要使用 PowerShell 或 SDK 來建立及管理子資源,具備資源層級或更高層級的參與者角色即已足夠。

如需將使用者新增至角色的範例指示,請參閱新增角色一文。

如需詳細資訊,請參閱下列文章:

Azure 儲存體帳戶

您可以使用一般用途的 Azure 儲存體帳戶 (特別是 Blob 儲存體) 作為本教學課程中的「來源」 和「目的地」 資料存放區。 如果您沒有一般用途的 Azure 儲存體帳戶,請參閱建立儲存體帳戶以建立帳戶。

取得儲存體帳戶名稱

您在此快速入門中需要使用 Azure 儲存體帳戶的名稱。 下列程序提供可取得儲存體帳戶名稱的步驟:

  1. 在網頁瀏覽器中,移至 Azure 入口網站,然後使用您的 Azure 使用者名稱與密碼登入。
  2. 在 [Azure 入口網站] 功能表中,選取 [所有服務],然後選取 [儲存體儲存體帳戶]。 您也可以從任何頁面搜尋並選取 [儲存體帳戶] 。
  3. 在 [儲存體帳戶] 頁面中,篩選您的儲存體帳戶 (如有需要),然後選取您的儲存體帳戶。

您也可以從任何頁面搜尋並選取 [儲存體帳戶] 。

建立 Blob 容器

在這一節中,您會在 Azure Blob 儲存體中建立一個名為 adftutorial 的 Blob 容器。

  1. 在 [儲存體帳戶] 頁面中,選取[總覽容器]。

  2. 在 [ 帳戶名稱 > - >] 頁面的工具列上,選取 [ - ]。

  3. 在 [新增容器] 對話方塊中,輸入 adftutorial 作為名稱,然後選取 [確定] 。 [ 帳戶名稱 > - >] 頁面會更新,以在容器清單中包含 - 。

    容器清單

新增 Blob 容器的輸入資料夾與檔案

在此節中,您會在您建立的容器中建立名為 input 的資料夾,然後將範例檔案上傳到 input 資料夾。 在您開始之前,請開啟文字編輯器 (例如 [記事本] ) 並使用下列內容建立名為 emp.txt 的檔案:

John, Doe
Jane, Doe

將該檔案儲存在 C:\ADFv2QuickStartPSH 資料夾中。 (如果該資料夾不存在,請予以建立。) 然後返回 Azure 入口網站並依照下列步驟執行:

  1. 在您離開的 [ 帳戶名稱 > - >] 頁面中,從已更新的容器清單中選取 [ - ]。

    1. 如果您關閉視窗,或移至另一個頁面,請再次登入 Azure 入口網站
    2. 在 [Azure 入口網站] 功能表中,選取 [所有服務],然後選取 [儲存體儲存體帳戶]。 您也可以從任何頁面搜尋並選取 [儲存體帳戶] 。
    3. 選取您的儲存體帳戶,然後選取 [容器] adftutorial
  2. 在 [adftutorial] 容器頁面的工具列上,選取 [上傳] 。

  3. 在 [上傳 Blob] 頁面上,選取 [檔案] 方塊,然後瀏覽並選取 emp.txt 檔。

  4. 展開 [進階] 標題。 現在會顯示該頁面,如下所示:

    選取進階連結

  5. 在 [上傳至資料夾] 方塊中,輸入 input

  6. 選取 [上傳] 按鈕。 您應該會在清單中看到 emp.txt 檔案以及上傳的狀態。

  7. 選取 [關閉] 圖示 (X) 以關閉 [上傳 Blob] 頁面。

保持 [adftutorial] 容器頁面開啟。 您可以在本快速入門結尾處使用它來確認輸出。

建立 Data Factory

  1. 啟動 Microsoft EdgeGoogle Chrome 網頁瀏覽器。 目前,只有 Microsoft Edge 和 Google Chrome 網頁瀏覽器支援 Data Factory UI。

  2. 移至 Azure 入口網站

  3. 從 Azure 入口網站] 功能表中,選取 [建立資源整合Data Factory

    新資料處理站的建立

  4. 在 [新增資料處理站] 頁面上,輸入 ADFTutorialDataFactory 作為 [名稱] 。

    Azure Data Factory 的名稱必須是「全域唯一的」。 如果您看到下列錯誤,請變更資料處理站的名稱 (例如 yourname>ADFTutorialDataFactory),然後試著重新建立。 如需 Data Factory 成品的命名規則,請參閱 Data Factory - 命名規則一文。

    名稱無法使用時的錯誤

  5. 針對 [訂用帳戶] ,選取您要用來建立資料處理站的 Azure 訂用帳戶。

  6. 針對 [資源群組] ,使用下列其中一個步驟︰

    • 選取 [使用現有的] ,然後從清單中選取現有的資源群組。
    • 選取 [建立新的] ,然後輸入資源群組的名稱。

    若要了解資源群組,請參閱 使用資源群組管理您的 Azure 資源

  7. 針對 [版本] ,選取 [V2] 。

  8. 針對 [位置] ,選取資料處理站的位置。

    清單只會顯示 Data Factory 支援的位置,以及儲存您 Azure Data Factory 中繼資料的位置。 Data Factory 所使用的相關聯資料存放區 (如 Azure 儲存體和 Azure SQL Database) 和計算 (如 Azure HDInsight) 可在其他區域中執行。

  9. 選取 [建立] 。

  10. 建立完成之後,您會看到 [Data Factory] 頁面。 選取 [開啟Azure Data Factory Studio ] 圖格上的 [開啟],在另一個索引標籤上啟動 AZURE DATA FACTORY 使用者介面 (UI) 應用程式。

    Azure Data Factory 的 [首頁] 頁面,其中包含 [開啟 Azure Data Factory Studio] 磚。

啟動複製資料工具

  1. 在 Azure Data Factory 的首頁上,選取 [內嵌 ] 磚以 啟動資料複製工具。

    顯示 Azure Data Factory 首頁的螢幕擷取畫面。

  2. 在資料複製工具的 [內容] 頁面上,選擇 [工作類型] 下的 [內建複製工作],然後選取[下一步]

    q屬性]  頁面

  3. 在 [來源資料存放區] 頁面上,完成下列步驟:

    1. 按一下 [+ 建立新連線] 以新增連線。

    2. 選取您要為來源連線建立的連結服務類型。 在本教學課程中,我們會使用 Azure Blob 儲存體。 請從資源庫中選取,然後選取 [繼續] 。

      選取 Blob

    3. 在 [新增連線] (Azure Blob 儲存體) 頁面上,指定您的連接名稱。 從 [ azure 訂用帳戶] 清單中選取您的 azure 訂用帳戶,並從 [儲存體帳戶名稱] 清單中選取您的儲存體帳戶,然後選取 [建立]。

      設定 Azure Blob 儲存體帳戶

    4. 連接 區塊中選取新建立的連接。

    5. 在 [檔案 或資料夾 ] 區段中,選取 [流覽] 以流覽至 [ Adftutorial]/[輸入 ] 資料夾,選取 emp.txt 檔案,然後按一下 [確定]

    6. 選取 [二進位複製] 核取方塊以依原狀複製檔案,然後選取 [下一步] 。

      顯示 [來源資料存放區] 頁面的螢幕擷取畫面。

  4. 在 [ 目的地資料存放區 ] 頁面上,完成下列步驟:

    1. 選取您在連接區塊中建立的AzureBlobStorage連接。

    2. 在 [ 資料夾路徑 ] 區段中,輸入資料夾路徑的 adftutorial/output

      顯示 [目的地資料存放區] 頁面的螢幕擷取畫面。

    3. 將其他設定保留為預設值,然後選取 [下一步]

  5. 在 [設定] 頁面上,指定管線的名稱和描述,然後選取[下一步]以使用其他預設設定。

    顯示 [設定] 頁面的螢幕擷取畫面。

  6. 檢閱 [摘要] 頁面上的所有設定,然後選取 [下一步] 。

  7. 在 [部署完成] 頁面上選取 [監視] ,以監視您建立的管線。

    [部署完成]  頁面

  8. 應用程式會切換至 [監視] 索引標籤。您會在此索引標籤上看到管線的狀態。選取 [重新整理] 可重新整理清單。 按一下 [ 管線名稱 ] 底下的連結以查看活動執行詳細資料,或重新執行管線。

    重新整理管線

  9. 在 [活動執行] 頁面上,選取 [活動名稱] 資料行下的 [詳細資料] 連結 (眼鏡圖示) ,以取得複製作業的詳細資料。 如需屬性的詳細資訊,請參閱複製活動概觀

  10. 若要回到 [管線執行] 視圖,請選取階層連結功能表中的 [ 所有管線執行 ] 連結。 若要重新整理檢視,請選取 [重新整理] 。

  11. 確認已在 adftutorial 容器的 output 資料夾中建立 emp.txt 檔案。 如果 output 資料夾不存在,Data Factory 服務會自動加以建立。

  12. 在左側面板上,切換至 [監視器] 索引標籤上方的 [編寫] 索引標籤,即可編輯連結服務、資料集和管線。 若要深入了解如何在 Data Factory UI 中加以編輯,請參閱使用 Azure 入口網站建立資料處理站

    選取作者索引標籤

後續步驟

此範例中的管線會將資料從 Azure Blob 儲存體中的一個位置複製到其他位置。 若想了解使用 Data Factory 的更多案例,請瀏覽教學課程