Azure Data Factory または Synapse Analytics で Hadoop Hive アクティビティを使用してデータを変換する

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

Azure Data Factory または Synapse Analytics パイプラインの HDInsight Hive アクティビティでは、独自のまたはオンデマンドの HDInsight クラスターで Hive クエリを実行します。 この記事は、データ変換とサポートされる変換アクティビティの概要を説明する、 データ変換アクティビティ に関する記事に基づいています。

Azure Data Factory と Synapse Analytics の使用経験がない場合は、この記事を読む前に、Azure Data Factory または Synapse Analytics の概要に関する記事を参照し、データ変換のチュートリアルを実行してください。

UI を使用して HDInsight Hive アクティビティをパイプラインに追加する

パイプラインで Azure Data Lake Analytics に対して HDInsight Hive アクティビティを使用するには、次の手順を実行します。

  1. パイプラインの [アクティビティ] ペイン内で Hive を検索し、Hive アクティビティをパイプライン キャンバスにドラッグします。

  2. まだ選択されていない場合は、キャンバスで新しい Hive アクティビティを選択します。

  3. HDI Cluster タブを選択して、Hive アクティビティの実行に使用する HDInsight クラスターへのリンク サービスを選択または新規作成します。

    Shows the UI for a Hive activity.

  4. [スクリプト] タブを選択して、新しいストレージのリンクされたサービスと、スクリプトをホストするストレージの場所内のパスを選択または作成します。

    Shows the UI for the Script tab for a Hive activity.

構文

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

構文の詳細

プロパティ Description 必須
name アクティビティの名前 はい
description アクティビティの用途を説明するテキストです。 いいえ
type Hive アクティビティの場合、アクティビティの種類は HDinsightHive です はい
linkedServiceName リンクされたサービスとして登録されている HDInsight クラスターへの参照。 このリンクされたサービスの詳細については、計算のリンクされたサービスに関する記事をご覧ください。 はい
scriptLinkedService 実行する Hiveスクリプトの格納に使用される Azure Storage のリンクされたサービスへの参照。 ここでは Azure Blob Storage および ADLS Gen2 にリンクされたサービスのみがサポートされています。 このリンクされたサービスを指定していない場合は、HDInsight のリンクされたサービスで定義されている Azure Storage のリンクされたサービスが使用されます。 いいえ
scriptPath scriptLinkedService で参照される Azure Storage に格納されているスクリプト ファイルへのパスを指定します。 ファイル名は大文字と小文字が区別されます。 はい
getDebugInfo HDInsight クラスターで使用されている Azure Storage または scriptLinkedService で指定された Azure Storage にログ ファイルがコピーされるタイミングを指定します。 使用できる値は以下の通りです。None、Always、または Failure。 既定値:[なし] : いいえ
引数 Hadoop ジョブの引数の配列を指定します。 引数はコマンド ライン引数として各タスクに渡されます。 いいえ
defines Hive スクリプト内で参照するキーと値のペアとしてパラメーターを指定します。 いいえ
queryTimeout クエリのタイムアウト値 (分単位)。 HDInsight クラスターで Enterprise セキュリティ パッケージが有効になっているときに適用できます。 いいえ

注意

queryTimeout の既定値は 120 分です。

別の手段でデータを変換する方法を説明している次の記事を参照してください。