チュートリアル:Azure Data Factory を使用して HDInsight でオンデマンドの Apache Hadoop クラスターを作成するTutorial: Create on-demand Apache Hadoop clusters in HDInsight using Azure Data Factory

このチュートリアルでは、Azure Data Factory を使用して Azure HDInsight で Apache Hadoop クラスター (オンデマンド) を作成する方法について説明します。In this tutorial, you learn how to create a Apache Hadoop cluster, on demand, in Azure HDInsight using Azure Data Factory. その後 Azure Data Factory でデータ パイプラインを使用して Hive ジョブを実行し、クラスターを削除します。You then use data pipelines in Azure Data Factory to run Hive jobs and delete the cluster. このチュートリアルを完了すると、クラスターの作成、ジョブの実行、クラスターの削除がスケジュールに従って実行されるビッグ データ ジョブの実行を作動可能な状態にする方法を習得できます。By the end of this tutorial, you learn how to operationalize a big data job run where cluster creation, job run, and cluster deletion are performed on a schedule.

このチュートリアルに含まれるタスクは次のとおりです。This tutorial covers the following tasks:

  • Azure のストレージ アカウントの作成Create an Azure storage account
  • Azure Data Factory のアクティビティを理解するUnderstand Azure Data Factory activity
  • Azure Portal を使用してデータ ファクトリを作成するCreate a data factory using Azure portal
  • リンクされたサービスを作成しますCreate linked services
  • パイプラインを作成する。Create a pipeline
  • パイプラインをトリガーするTrigger a pipeline
  • パイプラインを監視するMonitor a pipeline
  • 出力を検証するVerify the output

Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。If you don't have an Azure subscription, create a free account before you begin.

前提条件Prerequisites

  • インストール済みの PowerShell Az モジュールThe PowerShell Az Module installed.

  • Azure Active Directory サービス プリンシパル。An Azure Active Directory service principal. サービス プリンシパルを作成したら、リンク先の記事の手順に従って、アプリケーション ID認証キーを必ず取得してください。Once you've created the service principal, be sure to retrieve the application ID and authentication key using the instructions in the linked article. このチュートリアルで、後ほどこれらの値が必要になります。You need these values later in this tutorial. また、サービス プリンシパルが、サブスクリプションまたはクラスターが作成されるリソース グループの共同作成者ロールのメンバーであることを確認してください。Also, make sure the service principal is a member of the Contributor role of the subscription or the resource group in which the cluster is created. 必要な値を取得し、適切なロールを割り当てる手順については、Azure Active Directory サービス プリンシパルの作成に関する記事をご覧ください。For instructions to retrieve the required values and assign the right roles, see Create an Azure Active Directory service principal.

予備の Azure オブジェクトを作成します。Create preliminary Azure objects

このセクションでは、オンデマンドで作成する HDInsight クラスターに使用する各種オブジェクトを作成します。In this section, you create various objects that will be used for the HDInsight cluster you create on-demand. 作成されるストレージ アカウントには、クラスターで実行されるサンプル Apache Hive ジョブのシミュレートに使用するサンプル HiveQL スクリプトの partitionweblogs.hql が含まれます。The created storage account will contain the sample HiveQL script, partitionweblogs.hql, that you use to simulate a sample Apache Hive job that runs on the cluster.

このセクションでは、Azure PowerShell スクリプトを使用してストレージ アカウントを作成し、ストレージ アカウント内の必要なファイルをコピーします。This section uses an Azure PowerShell script to create the storage account and copy over the required files within the storage account. このセクションの Azure PowerShell サンプル スクリプトでは、次のタスクを実行します。The Azure PowerShell sample script in this section performs the following tasks:

  1. Azure へのサインインSigns in to Azure.
  2. Azure リソース グループを作成します。Creates an Azure resource group.
  3. Azure Storage アカウントを作成します。Creates an Azure Storage account.
  4. ストレージ アカウントに BLOB コンテナーを作成します。Creates a Blob container in the storage account
  5. サンプル HiveQL スクリプト (partitionweblogs.hql) を BLOB コンテナーにコピーします。Copies the sample HiveQL script (partitionweblogs.hql) the Blob container. このスクリプトは、https://hditutorialdata.blob.core.windows.net/adfhiveactivity/script/partitionweblogs.hql で入手できます。The script is available at https://hditutorialdata.blob.core.windows.net/adfhiveactivity/script/partitionweblogs.hql. サンプル スクリプトは、別のパブリック BLOB コンテナーで既に使用できます。The sample script is already available in another public Blob container. 下記の PowerShell スクリプトでは、作成された Azure ストレージ アカウントにこれらのファイルのコピーを作成します。The PowerShell script below makes a copy of these files into the Azure Storage account it creates.

Azure PowerShell を使用してストレージ アカウントを作成し、ファイルをコピーするには:To create a storage account and copy the files using Azure PowerShell:

重要

スクリプトを使って作成する Azure リソース グループと Azure ストレージ アカウントの名前を指定します。Specify names for the Azure resource group and the Azure storage account that will be created by the script. スクリプトによって出力されたリソース グループ名ストレージ アカウント名ストレージ アカウント キーを書き留めます。Write down resource group name, storage account name, and storage account key outputted by the script. これらは、次のセクションで必要になります。You need them in the next section.

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
$sub = Get-AzSubscription -ErrorAction SilentlyContinue
if(-not($sub))
{
    Connect-AzAccount
}

# If you have multiple subscriptions, set the one to use
# Select-AzSubscription -SubscriptionId "<SUBSCRIPTIONID>"

#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzResourceGroup `
    -Name $resourceGroupName `
    -Location $location

New-AzStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -Kind StorageV2 `
    -Location $location `
    -SkuName Standard_LRS `
    -EnableHttpsTrafficOnly 1

$destStorageAccountKey = (Get-AzStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous

$destContext = New-AzStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzStorageContainer `
    -Name $destContainerName `
    -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName `
    -Blob "hivescripts\hivescript.hql"

$blobs|Start-AzStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName `
    -DestBlob "hivescripts\partitionweblogs.hql"

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzStorageBlob `
    -Context $destContext `
    -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

ストレージ アカウントの作成を確認するにはTo verify the storage account creation

  1. Azure Portal にサインオンします。Sign on to the Azure portal.
  2. 左側から、 [すべてのサービス] > [全般] > [リソース グループ] の順に移動します。From the left, navigate to All services > General > Resource groups.
  3. PowerShell スクリプトで作成したリソース グループの名前を選択します。Select the resource group name you created in your PowerShell script. 一覧表示されるリソース グループが多すぎる場合は、フィルターを使用します。Use the filter if you have too many resource groups listed.
  4. [概要] ビューには、リソース グループを他のプロジェクトと共有する場合を除き、リソースが 1 つだけ表示されています。From the Overview view, you see one resource listed unless you share the resource group with other projects. このリソースが、前の手順で指定した名前のストレージ アカウントです。That resource is the storage account with the name you specified earlier. ストレージ アカウント名を選択します。Select the storage account name.
  5. [コンテナー] タイルを選択します。Select the Containers tile.
  6. adfgetstarted コンテナーを選択します。Select the adfgetstarted container. hivescripts というフォルダーが表示されます。You see a folder called hivescripts.
  7. このフォルダーを開き、サンプル スクリプト ファイル (partitionweblogs.hql) があることを確認します。Open the folder and make sure it contains the sample script file, partitionweblogs.hql.

Azure Data Factory のアクティビティを理解するUnderstand the Azure Data Factory activity

Azure Data Factory では、データの移動と変換を調整して自動化します。Azure Data Factory orchestrates and automates the movement and transformation of data. Azure Data Factory を使用すると、入力データ スライスを処理するために HDInsight Hadoop クラスターをジャスト イン タイムで作成し、処理が完了したらクラスターを削除できます。Azure Data Factory can create an HDInsight Hadoop cluster just-in-time to process an input data slice and delete the cluster when the processing is complete.

Azure Data Factory では、データ ファクトリに 1 つまたは複数のデータ パイプラインを設定できます。In Azure Data Factory, a data factory can have one or more data pipelines. データ パイプラインには、1 つ以上のアクティビティがあります。A data pipeline has one or more activities. 次の 2 種類のアクティビティがあります。There are two types of activities:

  • データ移動アクティビティ - データ移動アクティビティを使用して、ソース データ ストアから宛先データ ストアにデータを移動します。Data Movement Activities - You use data movement activities to move data from a source data store to a destination data store.
  • データ変換アクティビティ -Data Transformation Activities. データ変換アクティビティは、データを変換/処理するために使用します。You use data transformation activities to transform/process data. HDInsight Hive アクティビティは、Data Factory でサポートされるデータ変換アクティビティの 1 つです。HDInsight Hive Activity is one of the transformation activities supported by Data Factory. このチュートリアルでは、Hive 変換アクティビティを使用します。You use the Hive transformation activity in this tutorial.

この記事では、オンデマンドの HDInsight Hadoop クラスターを作成するように Hive アクティビティを構成します。In this article, you configure the Hive activity to create an on-demand HDInsight Hadoop cluster. アクティビティを実行してデータ を処理するときには、次のことが行われます。When the activity runs to process data, here is what happens:

  1. スライスを処理するために、HDInsight Hadoop クラスターが Just-In-Time 方式で自動的に作成されます。An HDInsight Hadoop cluster is automatically created for you just-in-time to process the slice.

  2. クラスター上で HiveQL スクリプトを実行することによって入力データが処理されます。The input data is processed by running a HiveQL script on the cluster. このチュートリアルの Hive アクティビティに関連付けられた HiveQL スクリプトは、次のアクションを実行します。In this tutorial, the HiveQL script associated with the hive activity performs the following actions:

    • 既存のテーブル (hivesampletable) を使用して別のテーブル (HiveSampleOut) を作成します。Uses the existing table (hivesampletable) to create another table HiveSampleOut.
    • HiveSampleOut テーブルに、元の hivesampletable の特定の列だけを設定します。Populates the HiveSampleOut table with only specific columns from the original hivesampletable.
  3. HDInsight Hadoop クラスターは、処理が完了し、(TimeToLive 設定で) 構成された時間アイドル状態になると、削除されます。The HDInsight Hadoop cluster is deleted after the processing is complete and the cluster is idle for the configured amount of time (timeToLive setting). この TimeToLive アイドル時間内に次のデータ スライスを処理できる場合、スライスを処理するために同じクラスターが使用されます。If the next data slice is available for processing with in this timeToLive idle time, the same cluster is used to process the slice.

Data Factory の作成Create a data factory

  1. Azure Portal にサインインします。Sign in to the Azure portal.

  2. 左側のメニューから、 [+ リソースの作成] > [Analytics] > [データ ファクトリ] に移動します。From the left menu, navigate to + Create a resource > Analytics > Data Factory.

    ポータルの Azure Data FactoryAzure Data Factory on the portal

  3. 新しいデータ ファクトリタイルに以下の値を入力するか選択します。Enter or select the following values for the New data factory tile:

    プロパティProperty Value
    名前Name データ ファクトリの名前を入力します。Enter a name for the data factory. この名前はグローバルに一意である必要があります。This name must be globally unique.
    SubscriptionSubscription Azure サブスクリプションを選択します。Select your Azure subscription.
    Resource groupResource group [既存のものを使用] を選択し、PowerShell スクリプトを使用して作成したリソース グループを選択します。Select Use existing and then select the resource group you created using the PowerShell script.
    VersionVersion V2のままにします。Leave at V2.
    LocationLocation 場所は、リソース グループの作成時に指定した場所に自動的に設定されます。The location is automatically set to the location you specified while creating the resource group earlier. このチュートリアルでは、場所は [米国東部] に設定されます。For this tutorial, the location is set to East US.
    Enable GITEnable GIT このボックスはオフにしてください。Uncheck this box.

    Azure portal を使用して Azure Data Factory を作成するCreate Azure Data Factory using Azure portal

  4. 作成 を選択します。Select Create. データ ファクトリの作成には、2 ~ 4 分ほどかかることがあります。Creating a data factory might take anywhere between 2 to 4 minutes.

  5. データ ファクトリが作成されると、 [リソースに移動] ボタンを含むデプロイ成功通知が届きます。Once the data factory is created, you'll receive a Deployment succeeded notification with a Go to resource button. [リソースに移動] を選択して、Data Factory の既定のビューを開きます。Select Go to resource to open the Data Factory default view.

  6. [作成と監視] を選択して、Azure Data Factory の作成および監視ポータルを起動します。Select Author & Monitor to launch the Azure Data Factory authoring and monitoring portal.

    Azure Data Factory ポータルの概要Azure Data Factory portal overview

リンクされたサービスを作成しますCreate linked services

このセクションでは、データ ファクトリ内に 2 つのリンクされたサービスを作成します。In this section, you author two linked services within your data factory.

  • Azure ストレージ アカウントをデータ ファクトリにリンクする、Azure Storage のリンクされたサービスAn Azure Storage linked service that links an Azure storage account to the data factory. このストレージは、オンデマンドの HDInsight クラスターによって使用されます。This storage is used by the on-demand HDInsight cluster. また、クラスター上で実行される Hive スクリプトも含まれています。It also contains the Hive script that is run on the cluster.
  • オンデマンドの HDInsight のリンクされたサービスAn on-demand HDInsight linked service. Azure Data Factory によって、HDInsight クラスターが自動的に作成され、Hive スクリプトが実行されます。Azure Data Factory automatically creates an HDInsight cluster and runs the Hive script. HDInsight クラスターは、事前に構成された時間だけアイドル状態になったら削除されます。It then deletes the HDInsight cluster after the cluster is idle for a preconfigured time.

Azure Storage のリンクされたサービスを作成するCreate an Azure Storage linked service

  1. [始めましょう] ページの左側のウィンドウで、 [作成者] アイコンをクリックします。From the left pane of the Let's get started page, select the Author icon.

    Azure Data Factory のリンクされたサービスを作成するCreate an Azure Data Factory linked service

  2. ウィンドウの左下隅にある [接続] を選択し、 [+ 新規] を選択します。Select Connections from the bottom-left corner of the window and then select +New.

    Azure Data Factory で接続を作成するCreate connections in Azure Data Factory

  3. [New Linked Service](新しいリンクされたサービス) ダイアログ ボックスで [Azure Blob Storage] を選択し、 [続行] をクリックします。In the New Linked Service dialog box, select Azure Blob Storage and then select Continue.

    Data Factory 用に Azure Storage のリンクされたサービスを作成するCreate Azure Storage linked service for Data Factory

  4. ストレージのリンク サービスに次の値を指定します。Provide the following values for the storage linked service:

    プロパティProperty Value
    名前Name HDIStorageLinkedService 」を入力します。Enter HDIStorageLinkedService.
    Azure サブスクリプションAzure subscription ドロップダウン リストからサブスクリプションを選択します。Select your subscription from the drop-down list.
    ストレージ アカウント名Storage account name PowerShell スクリプトの一部として作成した Azure Storage アカウントを選択します。Select the Azure Storage account you created as part of the PowerShell script.

    [テスト接続] を選択し、成功した場合は [作成] を選択します。Select Test connection and if successful, then select Create.

    Azure Storage のリンクされたサービスの名前を指定するProvide name for Azure Storage linked service

オンデマンドの HDInsight のリンクされたサービスを作成するCreate an on-demand HDInsight linked service

  1. [+ 新規] ボタンをもう一度選択して、別のリンクされたサービスを作成します。Select the + New button again to create another linked service.

  2. [New Linked Service](新しいリンクされたサービス) ウィンドウで、 [Compute] (計算) タブを選択します。In the New Linked Service window, select the Compute tab.

  3. [Azure HDInsight] を選択し、 [続行] を選択します。Select Azure HDInsight, and then select Continue.

    Azure Data Factory 用に HDInsight のリンクされたサービスを作成するCreate HDInsight linked service for Azure Data Factory

  4. [New Linked Service] (新しいリンク サービス) ウィンドウで 次の値を入力し、残りは既定値のままにしておきます。In the New Linked Service window, enter the following values and leave the rest as default:

    プロパティProperty Value
    名前Name HDInsightLinkedService 」を入力します。Enter HDInsightLinkedService.
    種類Type [On-demand HDInsight](オンデマンド HDInsight) を選択します。Select On-demand HDInsight.
    Azure Storage のリンクされたサービスAzure Storage Linked Service [HDIStorageLinkedService] を選択します。Select HDIStorageLinkedService.
    クラスターの種類Cluster type [hadoop] を選択します。Select hadoop
    Time to LiveTime to live HDInsight クラスターを使用できるようにしておく期間を指定します。この期間を過ぎると、クラスターは自動的に削除されます。Provide the duration for which you want the HDInsight cluster to be available before being automatically deleted.
    サービス プリンシパル IDService principal ID 前提条件の 1 つとして作成した Azure Active Directory サービス プリンシパルのアプリケーション ID を指定します。Provide the application ID of the Azure Active Directory service principal you created as part of the prerequisites.
    サービス プリンシパル キーService principal key Azure Active Directory サービス プリンシパルの認証キーを指定します。Provide the authentication key for the Azure Active Directory service principal.
    Cluster name prefix(クラスター名のプレフィックス)Cluster name prefix データ ファクトリによって作成されるすべてのクラスターの種類にプレフィックスとして追加する値を指定します。Provide a value that will be prefixed to all the cluster types that are created by the data factory.
    SubscriptionSubscription ドロップダウン リストからサブスクリプションを選択します。Select your subscription from the drop-down list.
    リソース グループの選択Select resource group 以前に使用した PowerShell スクリプトの一部として作成したリソース グループを選択します。Select the resource group you created as part of the PowerShell script you used earlier.
    OS type/Cluster SSH ユーザー名OS type/Cluster SSH user name SSH ユーザー名 (通常はsshuser) を入力します。Enter an SSH user name, commonly sshuser.
    OS type/Cluster SSH パスワードOS type/Cluster SSH password SSH ユーザーのパスワードを指定します。Provide a password for the SSH user
    OS type/Cluster ユーザー名OS type/Cluster user name クラスターのユーザー名 (通常はadmin) を入力します。Enter a cluster user name, commonly admin.
    OS type/Cluster パスワードOS type/Cluster password クラスター ユーザーのパスワードを指定します。Provide a password for the cluster user.

    [作成] を選択します。Then select Create.

    HDInsight のリンクされたサービスの値を指定するProvide values for HDInsight linked service

パイプラインを作成する。Create a pipeline

  1. + (正符号) ボタンを選択し、 [パイプライン] を選択します。Select the + (plus) button, and then select Pipeline.

    Azure Data Factory にパイプラインを作成するCreate a pipeline in Azure Data Factory

  2. [アクティビティ] ツールボックスで [HDInsight] を展開し、パイプライン デザイナー画面に Hive アクティビティをドラッグします。In the Activities toolbox, expand HDInsight, and drag the Hive activity to the pipeline designer surface. [全般] タブで、アクティビティの名前を指定します。In the General tab, provide a name for the activity.

    Data Factory パイプラインにアクティビティを追加するAdd activities to Data Factory pipeline

  3. Hive アクティビティが選択されていることを確認します。 [HDI Cluster](HDI クラスター) タブを選択し、 [HDInsight のリンクされたサービス] ドロップダウン リストから HDInsight 用に以前に作成したリンク サービスの HDInsightLinkedService を選択します。Make sure you have the Hive activity selected, select the HDI Cluster tab, and from the HDInsight Linked Service drop-down list, select the linked service you created earlier, HDInsightLinkedService, for HDInsight.

    パイプラインの HDInsight クラスターの詳細を指定するProvide HDInsight cluster details for the pipeline

  4. [スクリプト] タブを選択し、次の手順を実行します。Select the Script tab and complete the following steps:

    1. [スクリプトにリンクされたサービス] でドロップダウン リストから [HDIStorageLinkedService] を選択します。For Script Linked Service, select HDIStorageLinkedService from the drop-down list. この値は、以前に作成したストレージのリンクされたサービスです。This value is the storage linked service you created earlier.

    2. [ファイル パス][ストレージを参照] を選択し、サンプル Hive スクリプトがある場所に移動します。For File Path, select Browse Storage and navigate to the location where the sample Hive script is available. 以前に PowerShell スクリプトを実行した場合、この場所は adfgetstarted/hivescripts/partitionweblogs.hql になります。If you ran the PowerShell script earlier, this location should be adfgetstarted/hivescripts/partitionweblogs.hql.

      パイプラインの Hive スクリプトの詳細を指定するProvide Hive script details for the pipeline

    3. [詳細設定] > [パラメーター] で、 [Auto-fill from script](スクリプトから自動入力) を選択します。Under Advanced > Parameters, select Auto-fill from script. このオプションを選択すると、実行時に値を必要とする、Hive スクリプトのパラメーターが検索されます。This option looks for any parameters in the Hive script that require values at runtime. 使用するスクリプト (partitionweblogs.hql) には、Output パラメーターがあります。The script you use (partitionweblogs.hql) has an Output parameter. Azure Storage の既存のフォルダーを参照するwasbs://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ の形式で指定します。Provide the value in the format wasbs://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ to point to an existing folder on your Azure Storage. パスでは大文字と小文字が区別されます。The path is case-sensitive. これはスクリプトの出力が格納されるパスです。This is the path where the output of the script will be stored. ストレージ アカウントではセキュリティで保護された転送が既定で有効であることが必要になったため、wasbs スキーマが不可欠です。The wasbs schema is necessary because storage accounts now have secure transfer required enabled by default.

      Hive スクリプトのパラメーターを指定するProvide parameters for the Hive script

  5. [検証] を選択してパイプラインを検証します。Select Validate to validate the pipeline. >> (右矢印) ボタンを選択して、検証ウィンドウを閉じます。Select the >> (right arrow) button to close the validation window.

    Azure Data Factory パイプラインを検証するValidate the Azure Data Factory pipeline

  6. 最後に、 [すべて発行] を選択して、成果物を Azure Data Factory に発行します。Finally, select Publish All to publish the artifacts to Azure Data Factory.

    Azure Data Factory パイプラインを発行するPublish the Azure Data Factory pipeline

パイプラインをトリガーするTrigger a pipeline

  1. デザイナー画面のツール バーで、 [Add trigger] (トリガーを追加) > [Trigger Now](今すぐトリガー) を選択します。From the toolbar on the designer surface, select Add trigger > Trigger Now.

    Azure Data Factory パイプラインをトリガーするTrigger the Azure Data Factory pipeline

  2. ポップアップ サイド バーの [完了] をクリックします。Select Finish in the pop-up side bar.

パイプラインを監視するMonitor a pipeline

  1. 左側で [監視] タブに切り替えます。Switch to the Monitor tab on the left. [Pipeline Runs](パイプラインの実行) の一覧にパイプライン実行が表示されます。You see a pipeline run in the Pipeline Runs list. [状態] 列で実行の状態を確認します。Notice the status of the run under the Status column.

    Azure Data Factory パイプラインを監視するMonitor the Azure Data Factory pipeline

  2. [最新の情報に更新] を選択して、状態を更新します。Select Refresh to refresh the status.

  3. [View Activity Runs](アクティビティの実行の表示) アイコンをクリックして、パイプラインに関連付けられているアクティビティの実行を表示することもできます。You can also select the View Activity Runs icon to see the activity run associated with the pipeline. 作成したパイプラインにはアクティビティが 1 つしかないため、次のスクリーンショットでは、アクティビティの実行が 1 つしか表示されていません。In the screenshot below, you see only one activity run since there's only one activity in the pipeline you created. 前のビューに戻るには、ページの上部にある [パイプライン] を選択します。To switch back to the previous view, select Pipelines towards the top of the page.

    Azure Data Factory パイプライン アクティビティを監視するMonitor the Azure Data Factory pipeline activity

出力を検証するVerify the output

  1. 出力を検証するには、Azure Portal 上で、このチュートリアルで使用したストレージ アカウントに移動します。To verify the output, in the Azure portal navigate to the storage account that you used for this tutorial. 次のフォルダーまたはコンテナーが表示されます。You should see the following folders or containers:

    • パイプラインの一部として実行された Hive スクリプトの出力が含まれた adfgerstarted/outputfolder が表示されます。You see an adfgerstarted/outputfolder that contains the output of the Hive script that was run as part of the pipeline.

    • adfhdidatafactory-<リンクされたサービスの名前>-<タイムスタンプ> コンテナーが表示されます。You see an adfhdidatafactory-<linked-service-name>-<timestamp> container. このコンテナーは、パイプライン実行の一環として作成された HDInsight クラスターの既定のストレージの場所です。This container is the default storage location of the HDInsight cluster that was created as part of the pipeline run.

    • Azure Data Factory のジョブ ログがある adfjobs コンテナーが表示されます。You see an adfjobs container that has the Azure Data Factory job logs.

      Azure Data Factory パイプライン出力を検証するVerify the Azure Data Factory pipeline output

リソースのクリーンアップClean up resources

オンデマンドの HDInsight クラスターを作成した場合、HDInsight クラスターを明示的に削除する必要はありません。With the on-demand HDInsight cluster creation, you don't need to explicitly delete the HDInsight cluster. クラスターは、パイプラインの作成時に指定した構成に基づいて削除されます。The cluster is deleted based on the configuration you provided while creating the pipeline. ただし、クラスターを削除した後も、クラスターに関連付けられているストレージ アカウントは引き続き存在します。However, even after the cluster is deleted, the storage accounts associated with the cluster continue to exist. データをそのまま保持できるように、この動作は仕様です。This behavior is by design so that you can keep your data intact. データを保持する必要がない場合は、作成したストレージ アカウントを削除してかまいません。However, if you don't want to persist the data, you may delete the storage account you created.

また、このチュートリアルで作成したリソース グループ全体を削除することもできます。Alternatively, you can delete the entire resource group that you created for this tutorial. これにより、作成したストレージ アカウントと Azure Data Factory が削除されます。This deletes the storage account and the Azure Data Factory that you created.

リソース グループを削除しますDelete the resource group

  1. Azure Portal にサインオンします。Sign on to the Azure portal.

  2. 左側のウィンドウの [リソース グループ] を選択します。Select Resource groups on the left pane.

  3. PowerShell スクリプトで作成したリソース グループの名前を選択します。Select the resource group name you created in your PowerShell script. 一覧表示されるリソース グループが多すぎる場合は、フィルターを使用します。Use the filter if you have too many resource groups listed. リソース グループが開きます。It opens the resource group.

  4. [リソース] タイルには、リソース グループを他のプロジェクトと共有する場合を除き、既定のストレージ アカウントとデータ ファクトリが表示されます。On the Resources tile, you shall have the default storage account and the data factory listed unless you share the resource group with other projects.

  5. [リソース グループの削除] を選択します。Select Delete resource group. この操作を実行すると、ストレージ アカウントと、そのストレージ アカウントに格納されているデータが削除されます。Doing so deletes the storage account and the data stored in the storage account.

    Azure portal でのリソース グループの削除Azure portal delete resource group

  6. リソース グループ名を入力して削除を確認し、 [削除] をクリックします。Enter the resource group name to confirm deletion, and then select Delete.

次の手順Next steps

この記事では、Azure Data Factory を使用してオンデマンドの HDInsight クラスターを作成し、Apache Hive ジョブを実行する方法を説明しました。In this article, you learned how to use Azure Data Factory to create on-demand HDInsight cluster and run Apache Hive jobs. 次の記事に進み、HDInsight クラスターをカスタム構成で作成する方法を確認してください。Advance to the next article to learn how to create HDInsight clusters with custom configuration.