Azure Data Factory での Hadoop Streaming アクティビティを使用したデータの変換Transform data using Hadoop Streaming activity in Azure Data Factory

Data Factory パイプラインの HDInsight Streaming アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Hadoop Streaming プログラムを実行します。The HDInsight Streaming Activity in a Data Factory pipeline executes Hadoop Streaming programs on your own or on-demand HDInsight cluster. この記事は、データ変換とサポートされる変換アクティビティの概要を説明する、 データ変換アクティビティ に関する記事に基づいています。This article builds on the data transformation activities article, which presents a general overview of data transformation and the supported transformation activities.

Azure Data Factory の使用経験がない場合は、この記事を読む前に、「Azure Data Factory の概要」を参照し、データの変換のチュートリアルを実行してください。If you are new to Azure Data Factory, read through Introduction to Azure Data Factory and do the Tutorial: transform data before reading this article.

JSON のサンプルJSON sample

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

構文の詳細Syntax details

プロパティProperty 説明Description 必須Required
名前name アクティビティの名前Name of the activity はいYes
descriptiondescription アクティビティの用途を説明するテキストです。Text describing what the activity is used for いいえNo
typetype Hadoop Streaming アクティビティの場合、アクティビティの種類は HDInsightStreaming です。For Hadoop Streaming Activity, the activity type is HDInsightStreaming はいYes
linkedServiceNamelinkedServiceName Data Factory のリンクされたサービスとして登録されている HDInsight クラスターへの参照。Reference to the HDInsight cluster registered as a linked service in Data Factory. このリンクされたサービスの詳細については、計算のリンクされたサービスに関する記事をご覧ください。To learn about this linked service, see Compute linked services article. はいYes
mappermapper mapper 実行可能ファイルの名前を指定します。Specifies the name of the mapper executable はいYes
reducerreducer reducer 実行可能ファイルの名前を指定します。Specifies the name of the reducer executable はいYes
combinercombiner combiner 実行可能ファイルの名前を指定します。Specifies the name of the combiner executable いいえNo
fileLinkedServicefileLinkedService 実行されるマッパー、コンバイナー、レジューサの各プログラムを格納するために使用される Azure Storage のリンクされたサービスへの参照。Reference to an Azure Storage Linked Service used to store the Mapper, Combiner, and Reducer programs to be executed. このリンクされたサービスを指定していない場合は、HDInsight のリンクされたサービスで定義されている Azure Storage のリンクされたサービスが使用されます。If you don't specify this Linked Service, the Azure Storage Linked Service defined in the HDInsight Linked Service is used. いいえNo
filePathfilePath fileLinkedService によって参照される、Azure Storage に格納された マッパー、コンバイナー、レジューサ の各プログラムのパスの配列を指定します。Provide an array of path to the Mapper, Combiner, and Reducer programs stored in the Azure Storage referred by fileLinkedService. パスでは大文字と小文字が区別されます。The path is case-sensitive. はいYes
inputinput マッパーの入力ファイルの WASB パスを指定します。Specifies the WASB path to the input file for the Mapper. はいYes
outputoutput レジューサの出力ファイルの WASB パスを指定します。Specifies the WASB path to the output file for the Reducer. はいYes
getDebugInfogetDebugInfo HDInsight クラスターで使用されている Azure Storage または scriptLinkedService で指定された Azure Storage にログ ファイルがコピーされるタイミングを指定します。Specifies when the log files are copied to the Azure Storage used by HDInsight cluster (or) specified by scriptLinkedService. 使用できる値は以下の通りです。None、Always、または Failure。Allowed values: None, Always, or Failure. 既定値:なし。Default value: None. いいえNo
argumentsarguments Hadoop ジョブの引数の配列を指定します。Specifies an array of arguments for a Hadoop job. 引数はコマンド ライン引数として各タスクに渡されます。The arguments are passed as command-line arguments to each task. いいえNo
definesdefines Hive スクリプト内で参照するキーと値のペアとしてパラメーターを指定します。Specify parameters as key/value pairs for referencing within the Hive script. いいえNo

次の手順Next steps

別の手段でデータを変換する方法を説明している次の記事を参照してください。See the following articles that explain how to transform data in other ways: