使用 Azure Data Factory 或 Synapse Analytics 中的 Hadoop Pig 活動轉換資料

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

Data Factory 管線中的 HDInsight Pig 活動會在您自己隨選的 HDInsight 叢集上執行 Pig 查詢。 本文是根據 資料轉換活動 一文,它呈現資料轉換和支援的轉換活動的一般概觀。

若要深入了解,請閱讀 Azure Data FactorySynapse Analytics 的簡介,並在閱讀本文之前進行教學課程:轉換資料

使用 UI 將 HDInsight Pig 活動新增至管線

若要將 HDInsight Pig 活動用於管線,請完成下列步驟:

  1. 在管線的 [活動] 窗格中搜尋 Pig,然後將 Pig 活動拖曳至管線畫布。

  2. 若尚未選取 Pig 活動,請在畫布上選取新 Pig 活動。

  3. 選取 [HDI 叢集] 索引標籤,選取或建立 HDInsight 叢集的新連結服務,該叢集會用來執行 MapReduce 活動。

    Shows the UI for a Pig activity.

  4. 選取 [指令碼] 索引標籤,以選取或建立將裝載指令碼之 Azure 儲存體位置的新指令碼連結服務。 指定要在其中執行的類別名稱,以及儲存體位置中的檔案路徑。 您也可以設定進階詳細資料,包含偵錯設定、引數,以及要傳遞至指令碼的參數。

    Shows the UI for the Script tab for a Pig activity.

語法

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

語法詳細資料

屬性 描述 必要
NAME 活動的名稱 Yes
description 說明活動用途的文字 No
type 對於 Hive 活動,活動類型為 HDinsightPig Yes
linkedServiceName 註冊為連結服務的 HDInsight 叢集參考。 若要深入了解此已連結的服務,請參閱計算已連結的服務一文。 Yes
scriptLinkedService Azure 儲存體已連結的服務用來儲存要執行之 Pig 指令碼的參考。 這裡僅支援 Azure Blob 儲存體ADLS Gen2 的連結服務。 如果您未指定這項連結服務,則會使用 HDInsight 已連結的服務中定義的 Azure 儲存體已連結的服務。 No
scriptPath 提供儲存在 scriptLinkedService 引用之 Azure 儲存體中指令碼檔案的路徑。 檔案名稱有區分大小寫。 No
getDebugInfo 指定何時將記錄檔複製到 HDInsight 叢集所使用 (或) scriptLinkedService 所指定的 Azure 儲存體。 允許的值︰None、Always 或 Failure。 預設值:無。 No
引數 指定 Hadoop 作業的引數陣列。 引數會以命令列引數的方式傳遞給每項工作。 No
定義 在使用 Pig 指令碼內指定參數做為參考的機碼/值組。 No

請參閱下列文章,其說明如何以其他方式轉換資料: