使用 Azure Data Factory 或 Synapse Analytics 中的 Hadoop 資料流活動轉換資料

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

Azure Data Factory 或 Synapse Analytics 管道中的 HDInsight 資料流活動會在您自己隨選 HDInsight 叢集上執行 Hadoop 資料流程式。 本文是根據 資料轉換活動 一文,它呈現資料轉換和支援的轉換活動的一般概觀。

若要深入瞭解,請閱讀 Azure Data FactorySynapse Analytics 的簡介文章,並在閱讀本文之前進行教學課程:轉換資料

使用 UI 將 HDInsight 資料流活動新增至管道

若要對管道使用 HDInsight 資料流活動,請完成下列步驟:

  1. 在管道 [活動] 窗格中搜尋資料流,然後將資料流活動拖曳至管線畫布。

  2. 如果尚未選取,請選取畫布上的新資料流活動。

  3. 選取 [HDI 叢集] 索引標籤,以選取或建立要用來執行資料流活動 HDInsight 叢集的新連結服務。

    Shows the UI for a Streaming activity.

  4. 選取 [檔案] 索引標籤以指定資料流作業的對應工具和減速工具名稱,然後選取或建立連結至 Azure 儲存體帳戶的新服務,以將對應工具、減速工具、輸入和輸出檔案用於作業。 您也可以設定進階詳細資料,包含偵錯設定、引數,以及要傳遞至作業的參數。

    Shows the UI for the File tab for a Streaming activity.

JSON 範例

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

語法詳細資料

屬性 描述 必要
NAME 活動的名稱 Yes
description 說明活動用途的文字 No
type 針對 Hadoop 資料流活動,活動類型是 HDInsightStreaming Yes
linkedServiceName 註冊為連結服務的 HDInsight 叢集參考。 若要深入了解此已連結的服務,請參閱計算已連結的服務一文。 Yes
mapper 指定對應程式可執行檔的名稱 Yes
reducer 指定減壓器可執行檔的名稱 Yes
結合子 指定結合子可執行檔的名稱 No
fileLinkedService Azure 儲存體已連結的服務用來儲存要執行之對應程式、結合子和減壓器的參考。 這裡僅支援 Azure Blob 儲存體ADLS Gen2 的連結服務。 如果您未指定這項連結服務,則會使用 HDInsight 已連結的服務中定義的 Azure 儲存體已連結的服務。 No
filePath 提供 fileLinkedService 引用之 Azure 儲存體中儲存的對應程式、結合子和減壓器程式的路徑陣列。 路徑會區分大小寫。 Yes
input 指定對應程式輸入檔案的 WASB 路徑。 Yes
output 指定減壓器輸出檔案的 WASB 路徑。 Yes
getDebugInfo 指定何時將記錄檔複製到 HDInsight 叢集所使用 (或) scriptLinkedService 所指定的 Azure 儲存體。 允許的值︰None、Always 或 Failure。 預設值:無。 No
引數 指定 Hadoop 作業的引數陣列。 引數會以命令列引數的方式傳遞給每項工作。 No
定義 指定參數作為機碼/值組,以供在 Hive 指令碼內參考。 No

請參閱下列文章,其說明如何以其他方式轉換資料: