Azure portal を使用して、Azure Data Lake Storage Gen1 を使用する HDInsight クラスターを作成するCreate HDInsight clusters with Azure Data Lake Storage Gen1 by using the Azure portal

Azure portal を使用して、既定のストレージまたは追加のストレージとして Azure Data Lake Storage Gen1 アカウントを使用して HDInsight クラスターを作成する方法を説明します。Learn how to use the Azure portal to create a HDInsight cluster with an Azure Data Lake Storage Gen1 account as the default storage or an additional storage. 追加のストレージは HDInsight クラスターでは省略可能ですが、業務データは追加のストレージのアカウントに格納することをお勧めします。Even though additional storage is optional for a HDInsight cluster, it is recommended to store your business data in the additional storage accounts.

前提条件Prerequisites

このチュートリアルを開始する前に、次の要件を満たしていることを確認します。Before you begin this tutorial, ensure that you've met the following requirements:

  • Azure サブスクリプションAn Azure subscription. Azure 無料試用版の取得に関するページをご覧ください。Go to Get Azure free trial.

  • Data Lake Storage Gen1 アカウントA Data Lake Storage Gen1 account. Azure portal で Azure Data Lake Storage Gen1 の使用を開始する」の手順に従ってください。Follow the instructions from Get started with Azure Data Lake Storage Gen1 by using the Azure portal. アカウントのルート フォルダーも作成する必要があります。You must also create a root folder on the account. このチュートリアルでは、 /clusters という名前のルート フォルダーを使用します。In this tutorial, a root folder called /clusters is used.

  • Azure Active Directory サービス プリンシパルAn Azure Active Directory service principal. このチュートリアルでは、Azure Active Directory (Azure AD) でサービス プリンシパルを作成する方法について説明します。This tutorial provides instructions on how to create a service principal in Azure Active Directory (Azure AD). ただし、サービス プリンシパルを作成するには、Azure AD 管理者である必要があります。However, to create a service principal, you must be an Azure AD administrator. 管理者である場合は、この前提条件をスキップしてチュートリアルを進めることができます。If you are an administrator, you can skip this prerequisite and proceed with the tutorial.

    注意

    Azure AD 管理者である場合にのみ、サービス プリンシパルを作成することができます。You can create a service principal only if you are an Azure AD administrator. Data Lake Storage Gen1 で HDInsight クラスターを作成する前に、まず Azure AD 管理者がサービス プリンシパルを作成する必要があります。Your Azure AD administrator must create a service principal before you can create an HDInsight cluster with Data Lake Storage Gen1. また、「証明書を使用したサービス プリンシパルの作成」で説明しているように、サービス プリンシパルは証明書を使って作成する必要があります。Also, the service principal must be created with a certificate, as described at Create a service principal with certificate.

HDInsight クラスターの作成Create an HDInsight cluster

このセクションでは、既定のまたは追加のストレージとして Data Lake Storage Gen1 アカウントを使用して HDInsight クラスターを作成します。In this section, you create a HDInsight cluster with Data Lake Storage Gen1 accounts as the default or the additional storage. この記事では、Data Lake Storage Gen1 アカウントの構成の一部のみを取り上げます。This article only focuses the part of configuring Data Lake Storage Gen1 accounts. 一般的なクラスターの作成に関する情報および手順については、HDInsight での Hadoop クラスターの作成に関するページを参照してください。For the general cluster creation information and procedures, see Create Hadoop clusters in HDInsight.

Data Lake Storage Gen1 を既定のストレージとして使用してクラスターを作成するCreate a cluster with Data Lake Storage Gen1 as default storage

Data Lake Storage Gen1 アカウントを既定のストレージ アカウントとして使用する HDInsight クラスターを作成するにはTo create a HDInsight cluster with a Data Lake Storage Gen1 account as the default storage account

  1. Azure Portal にサインインします。Sign in to the Azure portal.

  2. HDInsight クラスターの作成に関する一般的な情報については、「クラスターの作成」を参照してください。Follow Create clusters for the general information on creating HDInsight clusters.

  3. [ストレージ] ブレードの [プライマリ ストレージの種類] で、 [Azure Data Lake Storage Gen1] を選択して、次の情報を入力します。On the Storage blade, under Primary storage type, select Azure Data Lake Storage Gen1, and then enter the following information:

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

    • Data Lake Store アカウントを選択する:既存の Data Lake Storage Gen1 アカウントを選択します。Select Data Lake Store account: Select an existing Data Lake Storage Gen1 account. 既存の Data Lake Storage Gen1 アカウントが必要です。An existing Data Lake Storage Gen1 account is required. 前提条件」を参照してください。See Prerequisites.
    • ルート パス:クラスターに固有のファイルが格納されるパスを入力します。Root path: Enter a path where the cluster-specific files are to be stored. このスクリーン ショットでは、 /clusters/myhdiadlcluster/ です。この場合、 /clusters フォルダーが存在する必要があり、Portal では myhdicluster フォルダーが作成されます。On the screenshot, it is /clusters/myhdiadlcluster/, in which the /clusters folder must exist, and the Portal creates myhdicluster folder. myhdicluster がクラスター名です。The myhdicluster is the cluster name.
    • [Data Lake Store アクセス] :Data Lake Storage Gen1 アカウントと HDInsight クラスターの間のアクセスを構成します。Data Lake Store access: Configure access between the Data Lake Storage Gen1 account and HDInsight cluster. 手順については、「Data Lake Storage Gen1 のアクセスの構成」を参照してください。For instructions, see Configure Data Lake Storage Gen1 access.
    • 追加のストレージ アカウント:クラスターの追加のストレージ アカウントとして Azure ストレージ アカウントを追加します。Additional storage accounts: Add Azure storage accounts as additional storage accounts for the cluster. Data Lake Storage Gen1 アカウントの追加は、プライマリ ストレージ タイプとして Data Lake Storage Gen1 アカウントを構成する際に、他の Data Lake Storage Gen1 アカウントのデータに対するクラスターのアクセス許可を与えることで完了します。To add additional Data Lake Storage Gen1 accounts is done by giving the cluster permissions on data in more Data Lake Storage Gen1 accounts while configuring a Data Lake Storage Gen1 account as the primary storage type. 「Data Lake Storage Gen1 のアクセスの構成」を参照してください。See Configure Data Lake Storage Gen1 access.
  4. [Data Lake Store アクセス] で、 [選択] をクリックし、HDInsight での Hadoop クラスターの作成に関するページの説明に従ってクラスターの作成に進みます。On the Data Lake Store access, click Select, and then continue with cluster creation as described in Create Hadoop clusters in HDInsight.

Data Lake Storage Gen1 を追加のストレージとして使用してクラスターを作成するCreate a cluster with Data Lake Storage Gen1 as additional storage

次に、既定のストレージとして Azure ストレージ アカウントを使用し、追加のストレージとして Data Lake Storage Gen1 アカウントを使用して、HDInsight クラスターを作成する方法を説明します。The following instructions create a HDInsight cluster with an Azure storage account as the default storage, and a Data Lake Storage Gen1 account as an additional storage.

Data Lake Storage Gen1 アカウントを追加のストレージ アカウントとして使用する HDInsight クラスターを作成するにはTo create a HDInsight cluster with a Data Lake Storage Gen1 account as an additional storage account

  1. Azure Portal にサインインします。Sign in to the Azure portal.

  2. HDInsight クラスターの作成に関する一般的な情報については、「クラスターの作成」を参照してください。Follow Create clusters for the general information on creating HDInsight clusters.

  3. [ストレージ] ブレードの [プライマリ ストレージの種類] で、 [Azure Storage] を選択して、次の情報を入力します。On the Storage blade, under Primary storage type, select Azure Storage, and then enter the following information:

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

    • [メソッドの選択] : 次のいずれかのオプションを使うことができます。Selection method: use one of the following options:

      • Azure サブスクリプションの一部であるストレージ アカウントを指定するには、 [個人用サブスクリプション] を選択し、ストレージ アカウントを選択します。To specify a storage account that is part of your Azure subscription, select My subscriptions, and then select the storage account.
      • Azure サブスクリプションの外部にあるストレージ アカウントを指定するには、 [アクセス キー] を選択し、外部のストレージ アカウントの情報を入力します。To specify a storage account that is outside your Azure subscription, select Access key, and then provide the information for the outside storage account.
    • 既定のコンテナー: 既定値を使用するか、独自の名前を指定します。Default container: use either the default value or specify your own name.

    • [追加のストレージ アカウント]: 追加のストレージとして Azure ストレージ アカウントを追加します。Additional storage accounts: add more Azure storage accounts as the additional storage.

    • [Data Lake Store アクセス]: Data Lake Storage Gen1 アカウントと HDInsight クラスターの間のアクセスを構成します。Data Lake Store access: configure access between the Data Lake Storage Gen1 account and HDInsight cluster. 手順については、「Data Lake Storage Gen1 のアクセスの構成」を参照してください。For instructions see Configure Data Lake Storage Gen1 access.

Data Lake Storage Gen1 のアクセスの構成Configure Data Lake Storage Gen1 access

このセクションでは、Azure Active Directory サービス プリンシパルを使用した、HDInsight クラスターからの Data Lake Storage Gen1 へのアクセスを構成します。In this section, you configure Data Lake Storage Gen1 access from HDInsight clusters using an Azure Active Directory service principal.

サービス プリンシパルの指定Specify a service principal

Azure Portal から、既存のサービス プリンシパルを使用するか、新しいものを作成することができます。From the Azure portal, you can either use an existing service principal or create a new one.

Azure Portal からサービス プリンシパルを作成するにはTo create a service principal from the Azure portal

  1. [ストレージ] ブレードから [Data Lake Store アクセス] をクリックします。Click Data Lake Store access from the Storage blade.

  2. [Data Lake Storage Gen1 アクセス] ブレードで、 [新規作成] をクリックします。On the Data Lake Storage Gen1 access blade, click Create new.

  3. [サービス プリンシパル] をクリックし、サービス プリンシパルを作成する手順に従います。Click Service principal, and then follow the instructions to create a service principal.

  4. 証明書を今後も使用する場合は、ダウンロードします。Download the certificate if you decide to use it again in the future. 証明書のダウンロードは、追加の HDInsight クラスターを作成するときに同じサービス プリンシパルを使用したい場合に役立ちます。Downloading the certificate is useful if you want to use the same service principal when you create additional HDInsight clusters.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

  5. [アクセス] をクリックして、フォルダーへのアクセスを構成します。Click Access to configure the folder access. ファイルのアクセス許可を構成する」を参照してください。See Configure file permissions.

Azure Portal から既存のサービス プリンシパルを使用するにはTo use an existing service principal from the Azure portal

  1. [Data Lake Store アクセス] をクリックします。Click Data Lake Store access.

  2. [Data Lake Storage Gen1 アクセス] ブレードで、 [既存のものを使用] をクリックします。On the Data Lake Storage Gen1 access blade, click Use existing.

  3. [サービス プリンシパル] をクリックし、サービス プリンシパルを選択します。Click Service principal, and then select a service principal.

  4. 選択したサービス プリンシパルに関連付けられている証明書 (.pfx ファイル) をアップロードし、証明書のパスワードを入力します。Upload the certificate (.pfx file) that's associated with your selected service principal, and then enter the certificate password.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

  5. [アクセス] をクリックして、フォルダーへのアクセスを構成します。Click Access to configure the folder access. ファイルのアクセス許可を構成する」を参照してください。See Configure file permissions.

ファイルのアクセス許可を構成するConfigure file permissions

構成は、アカウントを既定のストレージとして使用するか、追加のストレージとして使用するかによって異なります。The configures are different depending on whether the account is used as the default storage or an additional storage account:

  • 既定のストレージとして使用するUsed as default storage

    • Data Lake Storage Gen1 アカウントのルート レベルでのアクセス許可permission at the root level of the Data Lake Storage Gen1 account
    • HDInsight クラスター記憶域のルート レベルでのアクセス許可。permission at the root level of the HDInsight cluster storage. たとえば、このチュートリアルで使用した /clusters フォルダー。For example, the /clusters folder used earlier in the tutorial.
  • 追加のストレージとして使用するUse as an additional storage

    • ファイル アクセスが必要なフォルダーのアクセス許可。Permission at the folders where you need file access.

Data Lake Storage Gen1 アカウントのルート レベルでアクセス許可を割り当てるにはTo assign permission at the Data Lake Storage Gen1 account root level

  1. [Data Lake Storage Gen1 アクセス] ブレードで、 [アクセス] をクリックします。On the Data Lake Storage Gen1 access blade, click Access. [ファイル アクセス許可の選択] ブレードが開きます。The Select file permissions blade is opened. このブレードには、サブスクリプション内のすべての Data Lake Storage Gen1 アカウントが一覧表示されます。It lists all the Data Lake Storage Gen1 accounts in your subscription.

  2. Data Lake Storage Gen1 アカウント名の上にマウス ポインターを置いて (クリックしないでください) チェック ボックスを表示し、そのチェック ボックスを選択します。Hover (do not click) the mouse over the name of the Data Lake Storage Gen1 account to make the check box visible, then select the check box.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

    既定では、 [読み取り][書き込み][実行] がすべて選択されています。By default, READ, WRITE, AND EXECUTE are all selected.

  3. ページの下部にある [選択] をクリックします。Click Select on the bottom of the page.

  4. [実行] をクリックして、アクセス許可を割り当てます。Click Run to assign permission.

  5. [Done] をクリックします。Click Done.

HDInsight クラスターのルート レベルでアクセス許可を割り当てるにはTo assign permission at the HDInsight cluster root level

  1. [Data Lake Storage Gen1 アクセス] ブレードで、 [アクセス] をクリックします。On the Data Lake Storage Gen1 access blade, click Access. [ファイル アクセス許可の選択] ブレードが開きます。The Select file permissions blade is opened. このブレードには、サブスクリプション内のすべての Data Lake Storage Gen1 アカウントが一覧表示されます。It lists all the Data Lake Storage Gen1 accounts in your subscription.
  2. [ファイル アクセス許可の選択] ブレードで、そのコンテンツを表示する Data Lake Storage Gen1 アカウントの名前をクリックします。From the Select file permissions blade, click the Data Lake Storage Gen1 account name to show its content.
  3. フォルダーの左側のチェック ボックスを選択して HDInsight クラスター記憶域のルートを選択します。Select the HDInsight cluster storage root by selecting the checkbox on the left of the folder. 前のスクリーンショットでは、クラスター記憶域のルートは、Data Lake Storage Gen1 を既定のストレージとして選択したときに指定した /clusters フォルダーです。According to the screenshot earlier, the cluster storage root is /clusters folder that you specified while selecting Data Lake Storage Gen1 as default storage.
  4. フォルダーのアクセス許可を設定します。Set the permissions on the folder. 既定では、[読み取り]、[書き込み]、[実行] がすべて選択されています。By default, read, write, and execute are all selected.
  5. ページの下部にある [選択] をクリックします。Click Select on the bottom of the page.
  6. [実行] をクリックします。Click Run.
  7. [Done] をクリックします。Click Done.

Data Lake Storage Gen1 を追加のストレージとして使用している場合は、HDInsight クラスターからアクセスするフォルダーに対してのみアクセス許可を割り当てる必要があります。If you are using Data Lake Storage Gen1 as additional storage, you must assign permission only for the folders that you want to access from the HDInsight cluster. たとえば、次のスクリーンショットでは、Data Lake Storage Gen1 アカウントの mynewfolder フォルダーへのアクセスのみを提供します。For example, in the screenshot below, you provide access only to the mynewfolder folder in a Data Lake Storage Gen1 account.

HDInsight クラスターにサービス プリンシパルのアクセス許可を割り当てるAssign service principal permissions to the HDInsight cluster

クラスターのセットアップを確認するVerify cluster set up

クラスターのセットアップが完了したら、クラスター ブレードで、次の手順のいずれかまたは両方を実行して結果を確認します。After the cluster setup is complete, on the cluster blade, verify your results by doing either or both of the following steps:

  • クラスターに関連付けられているストレージが、指定した Data Lake Storage Gen1 アカウントであることを確認するには、左側のウィンドウで [ストレージ アカウント] をクリックします。To verify that the associated storage for the cluster is the Data Lake Storage Gen1 account that you specified, click Storage accounts in the left pane.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

  • サービス プリンシパルが HDInsight クラスターに正しく関連付けられていることを確認するには、左側のウィンドウで [Data Lake Storage Gen1 アクセス] をクリックします。To verify that the service principal is correctly associated with the HDInsight cluster, click Data Lake Storage Gen1 access in the left pane.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

Examples

Data Lake Storage Gen1 をストレージとして使用するクラスターの設定が完了したら、HDInsight クラスターを使用して Data Lake Storage Gen1 に格納されているデータを分析する方法について、以下に示すいくつかの例をご覧ください。After you have set up the cluster with Data Lake Storage Gen1 as your storage, refer to these examples of how to use HDInsight cluster to analyze the data that's stored in Data Lake Storage Gen1.

(プライマリ ストレージとしての) Data Lake Storage Gen1 アカウントに格納されているデータに対して Hive クエリを実行するRun a Hive query against data in a Data Lake Storage Gen1 account (as primary storage)

Hive クエリを実行する場合は、Ambari ポータルで提供されている Hive ビュー インターフェイスを使用します。To run a Hive query, use the Hive views interface in the Ambari portal. Ambari Hive ビューの使用方法については、「HDInsight での Hive View と Hadoop の使用」をご覧ください。For instructions on how to use Ambari Hive views, see Use the Hive View with Hadoop in HDInsight.

Data Lake Storage Gen1 アカウント内のデータを操作するときは、いくつかの文字列を変更する必要があります。When you work with data in a Data Lake Storage Gen1 account, there are a few strings to change.

たとえば、プライマリ ストレージとして Data Lake Storage Gen1 を使用するクラスターを作成した場合は、データのパスは adl://<data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file になります。If you use, for example, the cluster that you created with Data Lake Storage Gen1 as primary storage, the path to the data is: adl://<data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Data Lake Storage Gen1 アカウントに格納されているサンプル データからテーブルを作成する Hive クエリは、次のようなステートメントになります。A Hive query to create a table from sample data that's stored in the Data Lake Storage Gen1 account looks like the following statement:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

上記のクエリで、Descriptions:

  • adl://hdiadlsg1storage.azuredatalakestore.net/ は Data Lake Storage Gen1 アカウントのルートです。adl://hdiadlsg1storage.azuredatalakestore.net/ is the root of the Data Lake Storage Gen1 account.
  • /clusters/myhdiadlcluster はクラスターの作成時に指定したクラスター データのルートです。/clusters/myhdiadlcluster is the root of the cluster data that you specified while creating the cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ はクエリで使用したサンプル ファイルの場所です。/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ is the location of the sample file that you used in the query.

(追加ストレージとしての) Data Lake Storage Gen1 アカウントに格納されているデータに対して Hive クエリを実行するRun a Hive query against data in a Data Lake Storage Gen1 account (as additional storage)

作成したクラスターで既定のストレージとして Blob Storage を使用している場合、追加ストレージとして使用されている Data Lake Storage Gen1 アカウントにサンプル データは含まれません。If the cluster that you created uses Blob storage as default storage, the sample data is not contained in the Data Lake Storage Gen1 account that's used as additional storage. このような場合、Blob Storage から Data Lake Storage Gen1 アカウントにデータを転送してから、上の例に示したようにクエリを実行します。In such a case, first transfer the data from Blob storage to the Data Lake Storage Gen1 account, and then run the queries as shown in the preceding example.

Blob Storage から Data Lake Storage Gen1 アカウントにデータをコピーする方法については、次の記事をご覧ください。For information on how to copy data from Blob storage to a Data Lake Storage Gen1 account, see the following articles:

Spark クラスターで Data Lake Storage Gen1 を使用するUse Data Lake Storage Gen1 with a Spark cluster

Spark クラスターを使用すると、Data Lake Storage Gen1 アカウントに格納されているデータに対して Spark ジョブを実行できます。You can use a Spark cluster to run Spark jobs on data that is stored in a Data Lake Storage Gen1 account. 詳細については、HDInsight Spark クラスターを使用した Data Lake Storage Gen1 のデータの分析に関するページをご覧ください。For more information, see Use HDInsight Spark cluster to analyze data in Data Lake Storage Gen1.

Storm トポロジで Data Lake Storage Gen1 を使用するUse Data Lake Storage Gen1 in a Storm topology

Data Lake Storage Gen1 アカウントを使用して、Storm トポロジからデータを書き込むことができます。You can use the Data Lake Storage Gen1 account to write data from a Storm topology. このシナリオを実現する方法については、HDInsight で Apache Storm によって Azure Data Lake Storage Gen1 を使用する方法に関するページをご覧ください。For instructions on how to achieve this scenario, see Use Azure Data Lake Storage Gen1 with Apache Storm with HDInsight.

関連項目See also