Azure Data Factory で Hadoop Pig アクティビティを使用してデータを変換するTransform data using Hadoop Pig activity in Azure Data Factory

Data Factory パイプラインの HDInsight Pig アクティビティでは、独自またはオンデマンドの HDInsight クラスターで Pig クエリを実行します。The HDInsight Pig activity in a Data Factory pipeline executes Pig queries on your own or on-demand HDInsight cluster. この記事は、データ変換とサポートされる変換アクティビティの概要を説明する、 データ変換アクティビティ に関する記事に基づいています。This article builds on the data transformation activities article, which presents a general overview of data transformation and the supported transformation activities.

Azure Data Factory の使用経験がない場合は、この記事を読む前に、「Azure Data Factory の概要」を参照し、データの変換のチュートリアルを実行してください。If you are new to Azure Data Factory, read through Introduction to Azure Data Factory and do the Tutorial: transform data before reading this article.

構文Syntax

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

構文の詳細Syntax details

プロパティProperty 説明Description 必須Required
名前name アクティビティの名前Name of the activity はいYes
descriptiondescription アクティビティの用途を説明するテキストです。Text describing what the activity is used for いいえNo
typetype Hive アクティビティの場合、アクティビティの種類は HDinsightPig ですFor Hive Activity, the activity type is HDinsightPig はいYes
linkedServiceNamelinkedServiceName Data Factory のリンクされたサービスとして登録されている HDInsight クラスターへの参照。Reference to the HDInsight cluster registered as a linked service in Data Factory. このリンクされたサービスの詳細については、計算のリンクされたサービスに関する記事をご覧ください。To learn about this linked service, see Compute linked services article. はいYes
scriptLinkedServicescriptLinkedService 実行される Pig スクリプトの格納に使用される Azure Storage のリンクされたサービスへの参照。Reference to an Azure Storage Linked Service used to store the Pig script to be executed. このリンクされたサービスを指定していない場合は、HDInsight のリンクされたサービスで定義されている Azure Storage のリンクされたサービスが使用されます。If you don't specify this Linked Service, the Azure Storage Linked Service defined in the HDInsight Linked Service is used. いいえNo
scriptPathscriptPath scriptLinkedService で参照される Azure Storage に格納されているスクリプト ファイルへのパスを指定します。Provide the path to the script file stored in the Azure Storage referred by scriptLinkedService. ファイル名は大文字と小文字が区別されます。The file name is case-sensitive. いいえNo
getDebugInfogetDebugInfo HDInsight クラスターで使用されている Azure Storage または scriptLinkedService で指定された Azure Storage にログ ファイルがコピーされるタイミングを指定します。Specifies when the log files are copied to the Azure Storage used by HDInsight cluster (or) specified by scriptLinkedService. 使用できる値は以下の通りです。None、Always、または Failure。Allowed values: None, Always, or Failure. 既定値:なし。Default value: None. いいえNo
argumentsarguments Hadoop ジョブの引数の配列を指定します。Specifies an array of arguments for a Hadoop job. 引数はコマンド ライン引数として各タスクに渡されます。The arguments are passed as command-line arguments to each task. いいえNo
definesdefines Pig スクリプト内で参照するキーと値のペアとしてパラメーターを指定します。Specify parameters as key/value pairs for referencing within the Pig script. いいえNo

次の手順Next steps

別の手段でデータを変換する方法を説明している次の記事を参照してください。See the following articles that explain how to transform data in other ways: