Azure Portal を使用して、Data Lake Store を使用する HDInsight クラスターを作成するCreate HDInsight clusters with Data Lake Store by using the Azure portal

Azure Portal を使用して、既定のストレージまたは追加のストレージとして Azure Data Lake Store アカウントを使用して HDInsight クラスターを作成する方法を説明します。Learn how to use the Azure portal to create a HDInsight cluster with an Azure Data Lake Store account as the default storage or an additional storage. 追加のストレージは HDInsight クラスターでは省略可能ですが、業務データは追加のストレージのアカウントに格納することをお勧めします。Even though additional storage is optional for a HDInsight cluster, it is recommended to store your business data in the additional storage accounts.

前提条件Prerequisites

このチュートリアルを開始する前に、次の要件を満たしていることを確認します。Before you begin this tutorial, ensure that you've met the following requirements:

  • Azure サブスクリプションAn Azure subscription. Azure 無料試用版の取得に関するページをご覧ください。Go to Get Azure free trial.
  • Azure Data Lake Store アカウントAn Azure Data Lake Store account. Azure Portal で Azure Data Lake Store の使用を開始する」の手順に従ってください。Follow the instructions from Get started with Azure Data Lake Store by using the Azure portal. アカウントのルート フォルダーも作成する必要があります。You must also create a root folder on the account. このチュートリアルでは、/clusters という名前のルート フォルダーを使用します。In this tutorial, a root folder called /clusters is used.
  • Azure Active Directory サービス プリンシパルAn Azure Active Directory service principal. このチュートリアルでは、Azure Active Directory (Azure AD) でサービス プリンシパルを作成する方法について説明します。This tutorial provides instructions on how to create a service principal in Azure Active Directory (Azure AD). ただし、サービス プリンシパルを作成するには、Azure AD 管理者である必要があります。However, to create a service principal, you must be an Azure AD administrator. 管理者である場合は、この前提条件をスキップしてチュートリアルを進めることができます。If you are an administrator, you can skip this prerequisite and proceed with the tutorial.

    注意

    Azure AD 管理者である場合にのみ、サービス プリンシパルを作成することができます。 Data Lake Store で HDInsight クラスターを作成する前に、まず Azure AD 管理者がサービス プリンシパルを作成する必要があります。 また、「証明書を使用したサービス プリンシパルの作成」で説明しているように、サービス プリンシパルは証明書を使って作成する必要があります。

HDInsight クラスターの作成Create an HDInsight cluster

このセクションでは、既定のまたは追加のストレージとして Data Lake Store アカウントを使用して HDInsight クラスターを作成します。In this section, you create a HDInsight cluster with Data Lake Store accounts as the default or the additional storage. この記事では、Data Lake Store アカウントの構成の一部のみを取り上げます。This article only focuses the part of configuring Data Lake Store accounts. 一般的なクラスターの作成に関する情報および手順については、HDInsight での Hadoop クラスターの作成に関するページを参照してください。For the general cluster creation information and procedures, see Create Hadoop clusters in HDInsight.

Data Lake Store を既定のストレージとして使用してクラスターを作成するCreate a cluster with Data Lake Store as default storage

Data Lake Store を既定のストレージ アカウントとして使用する HDInsight クラスターを作成するにはTo create a HDInsight cluster with a Data Lake Store as the default storage account

  1. Azure Portal にサインインします。Sign in to the Azure portal.
  2. HDInsight クラスターの作成に関する一般的な情報については、「クラスターの作成」を参照してください。Follow Create clusters for the general information on creating HDInsight clusters.
  3. [ストレージ] ブレードの [プライマリ ストレージの種類] で、[Data Lake Store] を選択して、次の情報を入力します。On the Storage blade, under Primary storage type, select Data Lake Store, and then enter the following information:

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

    • [Data Lake Store アカウントを選択する]: 既存の Data Lake Store アカウントを選択します。Select Data Lake Store account: Select an existing Data Lake Store account. 既存の Data Lake Store アカウントが必要です。An existing Data Lake Store account is required. 前提条件」を参照してください。See Prerequisites.
    • [ルート パス]: クラスターに固有のファイルが格納されるパスを入力します。Root path: Enter a path where the cluster-specific files are to be stored. このスクリーン ショットでは、/clusters/myhdiadlcluster/ です。この場合、/clusters フォルダーが存在する必要があり、Portal では myhdicluster フォルダーが作成されます。On the screenshot, it is /clusters/myhdiadlcluster/, in which the /clusters folder must exist, and the Portal creates myhdicluster folder. myhdicluster がクラスター名です。The myhdicluster is the cluster name.
    • [Data Lake Store アクセス]: Data Lake Store アカウントと HDInsight クラスターの間のアクセスを構成します。Data Lake Store access: Configure access between the Data Lake Store account and HDInsight cluster. 手順については、「Data Lake Store へのアクセスを構成する」を参照してください。For instructions, see Configure Data Lake Store access.
    • [追加のストレージ アカウント]: クラスターの追加のストレージ アカウントとして Azure Storage アカウントを追加します。Additional storage accounts: Add Azure Storage Accounts as additional storage accounts for the cluster. Data Lake Store の追加は、プライマリ ストレージ タイプとして Data Lake Store アカウントを構成する際に、他の Data Lake Store アカウントのデータに対するクラスターのアクセス許可を与えることで完了します。To add additional Data Lake Stores is done by giving the cluster permissions on data in more Data Lake Store accounts while configuring a Data Lake Store account as the primary storage type. Data Lake Store へのアクセスを構成する」をご覧ください。See Configure Data Lake Store access.
  4. [Data Lake Store アクセス] で、[選択] をクリックし、HDInsight での Hadoop クラスターの作成に関するページの説明に従ってクラスターの作成に進みます。On the Data Lake Store access, click Select, and then continue with cluster creation as described in Create Hadoop clusters in HDInsight.

Data Lake Store を追加のストレージとして使用してクラスターを作成するCreate a cluster with Data Lake Store as additional storage

次に、既定のストレージとして Azure Storage アカウントを、追加のストレージとして Azure Data Lake Store アカウントを使用して HDInsight クラスターを作成する方法を説明します。The following instructions create a HDInsight cluster with an Azure Storage account as the default storage, and a Data Lake Store account as an additional storage. Data Lake Store を既定のストレージ アカウントとして使用する HDInsight クラスターを作成するにはTo create a HDInsight cluster with a Data Lake Store as the default storage account

  1. Azure Portal にサインインします。Sign in to the Azure portal.
  2. HDInsight クラスターの作成に関する一般的な情報については、「クラスターの作成」を参照してください。Follow Create clusters for the general information on creating HDInsight clusters.
  3. [ストレージ] ブレードの [プライマリ ストレージの種類] で、[Azure Storage] を選択して、次の情報を入力します。On the Storage blade, under Primary storage type, select Azure Storage, and then enter the following information:

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

    • [メソッドの選択]: 次のいずれかのオプションを使うことができます。Selection method: use one of the following options:

      • Azure サブスクリプションの一部であるストレージ アカウントを指定するには、[個人用サブスクリプション] を選択し、ストレージ アカウントを選択します。To specify a storage account that is part of your Azure subscription, select My subscriptions, and then select the storage account.
      • Azure サブスクリプションの外部にあるストレージ アカウントを指定するには、アクセス キー を選択し、外部のストレージ アカウントの情報を入力します。To specify a storage account that is outside your Azure subscription, select Access key, and then provide the information for the outside storage account.
    • 既定のコンテナー: 既定値を使用するか、独自の名前を指定します。Default container: use either the default value or specify your own name.

    • 追加のストレージ アカウント: 追加のストレージとして Azure Storage アカウントを追加します。Additional Storage accounts: add more Azure Storage accounts as the additional storage.

    • Data Lake Store アクセス: Data Lake Store アカウントと HDInsight クラスターの間のアクセスを構成します。Data Lake Store access: configure access between the Data Lake Store account and HDInsight cluster. 手順については、「Data Lake Store へのアクセスを構成する」を参照してください。For instructions see Configure Data Lake Store access.

Data Lake Store へのアクセスを構成するConfigure Data Lake Store access

このセクションでは、Azure Active Directory サービス プリンシパルを使用した、HDInsight クラスターからの Data Lake Store へのアクセスを構成します。In this section, you configure Data Lake Store access from HDInsight clusters using an Azure Active Directory service principal.

サービス プリンシパルの指定Specify a service principal

Azure Portal から、既存のサービス プリンシパルを使用するか、新しいものを作成することができます。From the Azure portal, you can either use an existing service principal or create a new one.

Azure Portal からサービス プリンシパルを作成するにはTo create a service principal from the Azure portal

  1. [ストア] ブレードから [Data Lake Store アクセス] をクリックします。Click Data Lake Store access from the Store blade.
  2. [Data Lake Store アクセス] ブレードで、[新規作成] をクリックします。On the Data Lake Store access blade, click Create new.
  3. [サービス プリンシパル] をクリックし、サービス プリンシパルを作成する手順に従います。Click Service Principal, and then follow the instructions to create a service principal.
  4. 証明書を今後も使用する場合は、ダウンロードします。Download the certificate if you decide to use it again in the future. 証明書のダウンロードは、追加の HDInsight クラスターを作成するときに同じサービス プリンシパルを使用したい場合に役立ちます。Downloading the certificate is useful if you want to use the same service principal when you create additional HDInsight clusters.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

  5. [アクセス] をクリックして、フォルダーへのアクセスを構成します。Click Access to configure the folder access. ファイルのアクセス許可を構成する」を参照してください。See Configure file permissions.

Azure Portal から既存のサービス プリンシパルを使用するにはTo use an existing service principal from the Azure portal

  1. [Data Lake Store アクセス] をクリックします。Click Data Lake Store access.
  2. [Data Lake Store アクセス] ブレードで、[既存のものを使用] をクリックします。On the Data Lake Store access blade, click Use existing.
  3. [サービス プリンシパル] をクリックし、サービス プリンシパルを選択します。Click Service Principal, and then select a service principal.
  4. 選択したサービス プリンシパルに関連付けられている証明書 (.pfx ファイル) をアップロードし、証明書のパスワードを入力します。Upload the certificate (.pfx file) that's associated with your selected service principal, and then enter the certificate password.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

  5. [アクセス] をクリックして、フォルダーへのアクセスを構成します。Click Access to configure the folder access. ファイルのアクセス許可を構成する」を参照してください。See Configure file permissions.

ファイルのアクセス許可を構成するConfigure file permissions

構成は、アカウントを既定のストレージとして使用するか、追加のストレージとして使用するかによって異なります。The configures are different depending on whether the account is used as the default storage or an additional storage account:

  • 既定のストレージとして使用するUsed as default storage

    • Data Lake Store アカウントのルート レベルでのアクセス許可permission at the root level of the Data Lake Store account
    • HDInsight クラスター記憶域のルート レベルでのアクセス許可。permission at the root level of the HDInsight cluster storage. たとえば、このチュートリアルで使用した /clusters フォルダー。For example, the /clusters folder used earlier in the tutorial.
  • 追加のストレージとして使用するUse as an additional storage

    • ファイル アクセスが必要なフォルダーのアクセス許可。Permission at the folders where you need file access.

Data Lake Store アカウントのルート レベルでアクセス許可を割り当てるにはTo assign permission at the Data Lake Store account root level

  1. [Data Lake Store アクセス] ブレードで、[アクセス] をクリックします。On the Data Lake Store access blade, click Access. [ファイル アクセス許可の選択] ブレードが開きます。The Select file permissions blade is opened. このブレードには、サブスクリプション内のすべての Data Lake Store アカウントが一覧表示されます。It lists all the Data Lake Store accounts in your subscription.
  2. Data Lake Store アカウント名の上にマウス ポインターを置いて (クリックしないでください) チェック ボックスを表示し、そのチェック ボックスを選択します。Hover (do not click) the mouse over the name of the Data Lake Store account to make the check box visible, then select the check box.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

    既定では、[読み取り][書き込み][実行] がすべて選択されています。By default, READ, WRITE, AND EXECUTE are all selected.

  3. ページの下部にある [選択] をクリックします。Click Select on the bottom of the page.

  4. [実行] をクリックして、アクセス許可を割り当てます。Click Run to assign permission.
  5. [Done] をクリックします。Click Done.

HDInsight クラスターのルート レベルでアクセス許可を割り当てるにはTo assign permission at the HDInsight cluster root level

  1. [Data Lake Store アクセス] ブレードで、[アクセス] をクリックします。On the Data Lake Store access blade, click Access. [ファイル アクセス許可の選択] ブレードが開きます。The Select file permissions blade is opened. このブレードには、サブスクリプション内のすべての Data Lake Store アカウントが一覧表示されます。It lists all the Data Lake Store accounts in your subscription.
  2. [ファイル アクセス許可の選択] ブレードで、そのコンテンツを表示する Data Lake Store の名前をクリックします。From the Select file permissions blade, click the Data Lake Store name to show its content.
  3. フォルダーの左側のチェック ボックスを選択して HDInsight クラスター記憶域のルートを選択します。Select the HDInsight cluster storage root by selecting the checkbox on the left of the folder. 前のスクリーンショットでは、クラスター記憶域のルートは、Data Lake Store を既定のストレージとして選択したときに指定した /clusters フォルダーです。According to the screenshot earlier, the cluster storage root is /clusters folder that you specified while selecting the Data Lake Store as default storage.
  4. フォルダーのアクセス許可を設定します。Set the permissions on the folder. 既定では、[読み取り]、[書き込み]、[実行] がすべて選択されています。By default, read, write, and execute are all selected.
  5. ページの下部にある [選択] をクリックします。Click Select on the bottom of the page.
  6. [実行] をクリックします。Click Run.
  7. [Done] をクリックします。Click Done.

Data Lake Store を追加のストレージとして使用している場合は、HDInsight クラスターからアクセスするフォルダーに対してのみアクセス許可を割り当てる必要があります。If you are using Data Lake Store as additional storage, you must assign permission only for the folders that you want to access from the HDInsight cluster. たとえば、次のスクリーンショットでは、Data Lake Store アカウントの hdiaddonstorage フォルダーへのアクセスのみを提供します。For example, in the screenshot below, you provide access only to hdiaddonstorage folder in a Data Lake Store account.

HDInsight クラスターにサービス プリンシパルのアクセス許可を割り当てるAssign service principal permissions to the HDInsight cluster

クラスターのセットアップを確認するVerify cluster set up

クラスターのセットアップが完了したら、クラスター ブレードで、次の手順のいずれかまたは両方を実行して結果を確認します。After the cluster setup is complete, on the cluster blade, verify your results by doing either or both of the following steps:

  • クラスターに関連付けられているストレージが、指定した Data Lake Store アカウントであることを確認するには、左側のウィンドウで [ストレージ アカウント] をクリックします。To verify that the associated storage for the cluster is the Data Lake Store account that you specified, click Storage accounts in the left pane.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

  • サービス プリンシパルが HDInsight クラスターに正しく関連付けられていることを確認するには、左側のウィンドウで [Data Lake Store アクセス] をクリックします。To verify that the service principal is correctly associated with the HDInsight cluster, click Data Lake Store access in the left pane.

    HDInsight クラスターにサービス プリンシパルを追加するAdd service principal to HDInsight cluster

Examples

Data Lake Store をストレージとして使用するクラスターのセットアップが完了したら、HDInsight クラスターを使用して Data Lake Store に格納されているデータを分析する方法について、以下に示すいくつかの例をご覧ください。After you have set up the cluster with Data Lake Store as your storage, refer to these examples of how to use HDInsight cluster to analyze the data that's stored in Data Lake Store.

(プライマリ ストレージとしての) Data Lake Store に格納されているデータに対して Hive クエリを実行するRun a Hive query against data in a Data Lake Store (as primary storage)

Hive クエリを実行する場合は、Ambari ポータルで提供されている Hive ビュー インターフェイスを使用します。To run a Hive query, use the Hive views interface in the Ambari portal. Ambari Hive ビューの使用方法については、「HDInsight での Hive View と Hadoop の使用」をご覧ください。For instructions on how to use Ambari Hive views, see Use the Hive View with Hadoop in HDInsight.

Data Lake Store 内のデータを操作するときは、いくつかの文字列を変更する必要があります。When you work with data in a Data Lake Store, there are a few strings to change.

たとえば、プライマリ ストレージとして Data Lake Store を使用するクラスターを作成した場合は、データのパスは adl://<data_lake_store_account_name>/azuredatalakestore.net/path/to/file になります。If you use, for example, the cluster that you created with Data Lake Store as primary storage, the path to the data is: adl://<data_lake_store_account_name>/azuredatalakestore.net/path/to/file. Data Lake Store アカウントに格納されているサンプル データからテーブルを作成する Hive クエリは、次のようなステートメントになります。A Hive query to create a table from sample data that's stored in the Data Lake Store account looks like the following statement:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsstorage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

上記のクエリで、Descriptions:

  • adl://hdiadlstorage.azuredatalakestore.net/ は Data Lake Store アカウントのルートです。adl://hdiadlstorage.azuredatalakestore.net/ is the root of the Data Lake Store account.
  • /clusters/myhdiadlcluster はクラスターの作成時に指定したクラスター データのルートです。/clusters/myhdiadlcluster is the root of the cluster data that you specified while creating the cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ はクエリで使用したサンプル ファイルの場所です。/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ is the location of the sample file that you used in the query.

(追加ストレージとしての) Data Lake Store に格納されているデータに対して Hive クエリを実行するRun a Hive query against data in a Data Lake Store (as additional storage)

作成したクラスターで既定のストレージとして Blob Storage を使用している場合、追加ストレージとして使用されている Azure Data Lake Store アカウントにサンプル データは含まれません。If the cluster that you created uses Blob storage as default storage, the sample data is not contained in the Azure Data Lake Store account that's used as additional storage. このような場合、Blob Storage から Data Lake Store にデータを転送してから、上の例に示したようにクエリを実行します。In such a case, first transfer the data from Blob storage to the Data Lake Store, and then run the queries as shown in the preceding example.

Blob Storage から Data Lake Store にデータをコピーする方法については、次の記事をご覧ください。For information on how to copy data from Blob storage to a Data Lake Store, see the following articles:

Spark クラスターで Data Lake Store を使用するUse Data Lake Store with a Spark cluster

Spark クラスターを使用すると、Data Lake Store に格納されているデータで Spark ジョブを実行できます。You can use a Spark cluster to run Spark jobs on data that is stored in a Data Lake Store. 詳細については、「HDInsight Spark クラスターを使用して Data Lake Store のデータを分析する」をご覧ください。For more information, see Use HDInsight Spark cluster to analyze data in Data Lake Store.

Storm トポロジで Data Lake Store を使用するUse Data Lake Store in a Storm topology

Data Lake Store を使用して、Storm トポロジからデータを書き込むことができます。You can use the Data Lake Store to write data from a Storm topology. このシナリオを実現する方法については、「 HDInsight で Apache Storm によって Azure Data Lake Store を使用する」をご覧ください。For instructions on how to achieve this scenario, see Use Azure Data Lake Store with Apache Storm with HDInsight.

関連項目See also