Hadoop、Spark、Kafka などの HDInsight クラスターをセットアップするSet up clusters in HDInsight with Hadoop, Spark, Kafka, and more

Hadoop、Spark、Kafka、Interactive Query、HBase、R Server、Storm の HDInsight クラスターをセットアップして構成する方法について説明します。Learn how to set up and configure clusters in HDInsight with Hadoop, Spark, Kafka, Interactive Query, HBase, R Server, or Storm. クラスターをドメインに参加させて、クラスターをカスタマイズしたりセキュリティを強化したりする方法についても説明します。Also, learn how to customize clusters and add security by joining them to a domain.

Hadoop クラスターは、タスクの分散処理に使用される複数の仮想マシン (ノード) で構成されます。A Hadoop cluster consists of several virtual machines (nodes) that are used for distributed processing of tasks. 各ノードのインストールと構成にかかわる細部の実装は Azure HDInsight が担うため、ユーザーは一般的な構成情報を指定するだけで済みます。Azure HDInsight handles implementation details of installation and configuration of individual nodes, so you only have to provide general configuration information.

重要

HDInsight クラスターの課金は、クラスターが作成されると開始し、クラスターが削除されると停止します。HDInsight cluster billing starts once a cluster is created and stops when the cluster is deleted. 課金は分単位なので、クラスターを使わなくなったら必ず削除してください。Billing is pro-rated per minute, so you should always delete your cluster when it is no longer in use. 詳細については、クラスターの削除方法に関するページを参照してください。Learn how to delete a cluster.

クラスターのセットアップ方法Cluster setup methods

次の表は、HDInsight クラスターのセットアップに使用できる各種の方法を示しています。The following table shows the different methods you can use to set up an HDInsight cluster.

クラスターの作成方法Clusters created with Web ブラウザーWeb browser コマンド ラインCommand line REST APIREST API SDKSDK
Azure ポータルAzure portal      
Azure Data FactoryAzure Data Factory
Azure CLIAzure CLI      
Azure PowerShellAzure PowerShell      
cURLcURL    
.NET SDK.NET SDK      
Azure リソース マネージャーのテンプレートAzure Resource Manager templates      

簡易作成: 基本的なクラスターのセットアップQuick create: Basic cluster setup

この記事では、Azure Portal でのセットアップ方法を説明します。"簡易作成" または "カスタム" を使用して HDInsight クラスターを作成することができます。This article walks you through setup in the Azure portal, where you can create an HDInsight cluster using Quick create or Custom.

画面の指示に従って、基本的なクラスターのセットアップを行います。Follow instructions on the screen to do a basic cluster setup. 以降、次の情報について詳しく説明します。Details are provided below for:

重要

Linux は、バージョン 3.4 以上の HDInsight で使用できる唯一のオペレーティング システムです。Linux is the only operating system used on HDInsight version 3.4 or greater. 詳細については、HDInsight 3.3 の廃止に関するページを参照してください。For more information, see HDInsight 3.3 retirement.

リソース グループ名Resource group name

Azure Resource Manager を使用すると、アプリケーション内の複数のリソースを、Azure リソース グループと呼ばれる 1 つのグループとして使用できます。Azure Resource Manager helps you work with the resources in your application as a group, referred to as an Azure resource group. アプリケーションのこれらすべてのリソースを、1 回の連携した操作でデプロイ、更新、監視、または削除できます。You can deploy, update, monitor, or delete all the resources for your application in a single coordinated operation.

クラスターの種類と構成Cluster types and configuration

現在、Azure HDInsight では、以下の種類のクラスターを提供しています。それぞれのクラスターは特定の機能を提供する一連のコンポーネントを備えています。Azure HDInsight currently provides the following cluster types, each with a set of components to provide certain functionalities.

重要

HDInsight クラスターには、さまざまな種類があり、それぞれ単一のワークロードまたはテクノロジに対応しています。HDInsight clusters are available in various types, each for a single workload or technology. 複数の種類 (Storm と HBase など) を組み合わせたクラスターを作成することはできません。There is no supported method to create a cluster that combines multiple types, such as Storm and HBase on one cluster. 複数の種類の HDInsight クラスターにまたがるテクノロジがソリューションに必要な場合は、必要な種類のクラスターを Azure 仮想ネットワークで接続してください。If your solution requires technologies that are spread across multiple HDInsight cluster types, an Azure virtual network can connect the required cluster types.

クラスターの種類Cluster type 機能Functionality
HadoopHadoop 格納されたデータのバッチ クエリとバッチ分析Batch query and analysis of stored data
HBaseHBase 大量のスキーマレス NoSQL データの処理Processing for large amounts of schemaless, NoSQL data
StormStorm リアルタイム イベント処理Real-time event processing
SparkSpark メモリ内処理、対話型クエリ、マイクロバッチ ストリーム処理In-memory processing, interactive queries, micro-batch stream processing
Kafka (プレビュー)Kafka (Preview) リアルタイムのストリーミング データ パイプラインとアプリケーションの構築に使用できる分散ストリーム プラットフォームA distributed streaming platform that can be used to build real-time streaming data pipelines and applications
R ServerR Server さまざまなビッグ データ統計、予測モデリング、機械学習の機能Various big data statistics, predictive modeling, and machine learning capabilities
Interactive QueryInteractive Query 対話型で高速な Hive クエリのメモリ内キャッシュIn-memory caching for interactive and faster Hive queries

各クラスターの種類のノード数Number of nodes for each cluster type

クラスターのノード数、ノードを表す用語、既定の VM サイズは、クラスターの種類によって異なります。Each cluster type has its own number of nodes, terminology for nodes, and default VM size. 次の表では、各ノードの種類のノード数がかっこ内に示されています。In the following table, the number of nodes for each node type is in parentheses.

Type NodesNodes ダイアグラムDiagram
Hadoop は、Hadoop ヘッド ノード (2)、データ ノード (1 以上)Head node (2), data node (1+) HDInsight Hadoop クラスター ノード
HBaseHBase ヘッド サーバー (2)、リージョン サーバー (1 以上)、マスター/ZooKeeper ノード (3)Head server (2), region server (1+), master/ZooKeeper node (3) HDInsight HBase クラスター ノード
StormStorm Nimbus ノード (2)、Supervisor サーバー (1 以上)、ZooKeeper ノード (3)Nimbus node (2), supervisor server (1+), ZooKeeper node (3) HDInsight Storm クラスター ノード
SparkSpark ヘッド ノード (2)、ワーカー ノード (1 以上)、ZooKeeper ノード (3) (A1 ZooKeeper VM サイズでは無料)Head node (2), worker node (1+), ZooKeeper node (3) (free for A1 ZooKeeper VM size) HDInsight Spark クラスター ノード

詳細については、HDInsight における Hadoop のコンポーネントとバージョンに関するページの「Default node configuration and virtual machine sizes for clusters (クラスターの既定のノード構成と仮想マシン サイズ)」を参照してください。For more information, see Default node configuration and virtual machine sizes for clusters in "What are the Hadoop components and versions in HDInsight?"

HDInsight のバージョンHDInsight version

このクラスターの HDInsight のバージョンを選択します。Choose the version of HDInsight for this cluster. 詳細については、「サポートされる HDInsight のバージョン」を参照してください。For more information, see Supported HDInsight versions.

クラスター ログインと SSH ユーザー名Cluster login and SSH user name

HDInsight クラスターでは、クラスターの作成時に次の 2 つのユーザー アカウントを構成できます。With HDInsight clusters, you can configure two user accounts during cluster creation:

  • HTTP ユーザー: 既定のユーザー名は admin です。Azure Portal の基本的な構成を使用します。HTTP user: The default user name is admin. It uses the basic configuration on the Azure portal. "クラスター ユーザー" と呼ばれることもあります。Sometimes it is called "Cluster user."
  • SSH ユーザー (Linux クラスター): SSH を使用してクラスターに接続する際に使用します。SSH user (Linux clusters): Used to connect to the cluster through SSH. 詳細については、HDInsight での SSH の使用に関するページを参照してください。For more information, see Use SSH with HDInsight.

クラスターとストレージの場所 (リージョン)Location (regions) for clusters and storage

クラスターの場所を明示的に指定する必要はありません。クラスターは、既定のストレージと同じ場所に存在します。You don't need to specify the cluster location explicitly: The cluster is in the same location as the default storage. サポートされているリージョンのリストについては、「 HDInsight の価格 」の [リージョン]ドロップダウン リストをクリックしてください。For a list of supported regions, click the Region drop-down list on HDInsight pricing.

クラスターのストレージ エンドポイントStorage endpoints for clusters

クラスターのストレージには、Hadoop のオンプレミス環境では Hadoop 分散ファイル システム (HDFS) が使用されますが、クラウドでは、クラスターに接続されたストレージ エンドポイントを使用します。Although an on-premises installation of Hadoop uses the Hadoop Distributed File System (HDFS) for storage on the cluster, in the cloud you use storage endpoints connected to cluster. HDInsight クラスターで使用されるのは、Azure Data Lake StoreAzure Storage の BLOB のいずれかとなります。HDInsight clusters use either Azure Data Lake Store or blobs in Azure Storage. Azure Storage または Data Lake Store を使用するということは、必要なデータは維持したまま、計算に使用された HDInsight クラスターを安全に削除できるということです。Using Azure Storage or Data Lake Store means you can safely delete the HDInsight clusters used for computation while still retaining your data.

警告

HDInsight クラスター以外の場所で追加のストレージ アカウントを使用することはできません。Using an additional storage account in a different location from the HDInsight cluster is not supported.

構成時、既定のストレージ エンドポイントには、Azure ストレージ アカウントまたは Data Lake Store の BLOB コンテナーを指定します。During configuration, for the default storage endpoint you specify a blob container of an Azure Storage account or a Data Lake Store. 既定のストレージには、アプリケーション ログとシステム ログが格納されます。The default storage contains application and system logs. それとは別に、クラスターからアクセスできるリンクされた Azure ストレージ アカウントまたは Data Lake Store アカウントを必要に応じて指定することもできます。Optionally, you can specify additional linked Azure Storage accounts and Data Lake Store accounts that the cluster can access. HDInsight クラスターとそのクラスターで使用されるストレージ アカウントは、同じ Azure リージョンに存在している必要があります。The HDInsight cluster and the dependent storage accounts must be in the same Azure location.

クラスター ストレージの設定: HDFS と互換性のあるストレージ エンドポイント

注意

"安全な転送が必須" 機能は、アカウントへのすべての要求が安全な接続を経由することを強制します。The Secure transfer required feature enforces all requests to your account through a secure connection. この機能は、HDInsight クラスター バージョン 3.6 以降でのみサポートされます。This feature is only supported by HDInsight cluster version 3.6 or newer. 詳細については、「Azure HDInsight の安全な転送のストレージ アカウントで Hadoop クラスターを作成する」を参照してください。For more information, see Create Hadoop cluster with secure transfer storage accounts in Azure HDInsight.

metastore (任意)Optional metastores

Hive metastore または Oozie metastore を作成できます (任意)。You can create optional Hive or Oozie metastores. ただし、クラスターの種類によっては metastore がサポートされません。また Azure SQL Data Warehouse は metastore と互換性がありません。However, not all cluster types support metastores, and Azure SQL Data Warehouse isn't compatible with metastores.

重要

カスタム metastore を作成するとき、ダッシュ、ハイフン、またはスペースをデータベース名に使用しないでください。When you create a custom metastore, don't use dashes, hyphens, or spaces in the database name. クラスター作成プロセスが失敗する可能性があります。This can cause the cluster creation process to fail.

Hive metastoreHive metastore

HDInsight クラスターを削除した後も Hive テーブルを保持する場合は、カスタムの metastore を使用することをお勧めします。If you want to retain your Hive tables after you delete an HDInsight cluster, use a custom metastore. その metastore を別の HDInsight クラスターにアタッチすることができます。You can then attach the metastore to another HDInsight cluster.

あるバージョンの HDInsight クラスター用に作成された HDInsight metastore は、別の HDInsight クラスター バージョン間で共有できません。An HDInsight metastore that is created for one HDInsight cluster version cannot be shared across different HDInsight cluster versions. HDInsight のバージョンの一覧は、「サポートされる HDInsight のバージョン」をご覧ください。For a list of HDInsight versions, see Supported HDInsight versions.

Oozie メタストアOozie metastore

Oozie の使用時にパフォーマンスを向上させるには、カスタム メタストアを使用します。To increase performance when using Oozie, use a custom metastore. また、metastore を使用すると、クラスターの削除後に、Oozie ジョブ データにアクセスすることができます。A metastore can also provide access to Oozie job data after you delete your cluster.

重要

カスタム Oozie メタストアを再利用することはできません。You cannot reuse a custom Oozie metastore. カスタム Oozie メタストアを使用するには、HDInsight クラスターの作成時に空の Azure SQL Database を提供する必要があります。To use a custom Oozie metastore, you must provide an empty Azure SQL Database when creating the HDInsight cluster.

クラスター サイズの構成Configure cluster size

ノードの使用に対する料金は、クラスターが存在する限り発生します。You are billed for node usage for as long as the cluster exists. 課金はクラスターが作成されると開始され、クラスターが削除されると停止されます。Billing starts when a cluster is created and stops when the cluster is deleted. クラスターを割り当て解除または保留にすることはできません。Clusters can’t be de-allocated or put on hold.

HDInsight クラスターのコストは、ノード数とノードの仮想マシンのサイズによって決まります。The cost of HDInsight clusters is determined by the number of nodes and the virtual machines sizes for the nodes.

クラスターの種類によって、ノードの種類、ノード数、ノード サイズが異なります。Different cluster types have different node types, numbers of nodes, and node sizes:

  • 種類が Hadoop のクラスターにおける既定のノード数:Hadoop cluster type default:
    • "ヘッド ノード" (x 2)Two head nodes
    • "データ ノード" (x 4)Four data nodes
  • 種類が Storm のクラスターにおける既定のノード数:Storm cluster type default:
    • "Nimbus ノード" (x 2)Two Nimbus nodes
    • "Zookeeper ノード" (x 3)Three ZooKeeper nodes
    • "スーパーバイザー ノード" (x 4)Four supervisor nodes

HDInsight を試すだけの目的ならば、使用するデータ ノードは 1 つにすることをお勧めします。If you are just trying out HDInsight, we recommend you use one data node. HDInsight の価格の詳細については、「 HDInsight 価格」をご覧ください。For more information about HDInsight pricing, see HDInsight pricing.

注意

クラスター サイズの制限は、Azure サブスクリプションによって異なります。The cluster size limit varies among Azure subscriptions. 制限値を上げるには、Azure の課金サポートにお問い合わせください。Contact Azure billing support to increase the limit.

Azure Portal を使用してクラスターを構成するときに、[ノード価格レベル] ブレードでノード サイズを利用できます。When you use the Azure portal to configure the cluster, the node size is available through the Node Pricing Tiers blade. また、別のノード サイズに関連するコストをポータルで確認することもできます。In the portal, you can also see the cost associated with the different node sizes.

HDInsight VM ノードのサイズ

仮想マシン サイズVirtual machine sizes

クラスターをデプロイするとき、デプロイ予定のソリューションに応じてコンピューティング リソースを選択します。When you deploy clusters, choose compute resources based on the solution you plan to deploy. HDInsight クラスターには次の VM が使用されます。The following VMs are used for HDInsight clusters:

各種の SDK または Azure PowerShell を使用してクラスターを作成する際、VM サイズの指定で必要となる値については、HDInsight クラスターに使用する VM サイズに関するページを参照してください。To find out what value you should use to specify a VM size while creating a cluster using the different SDKs or while using Azure PowerShell, see VM sizes to use for HDInsight clusters. リンク先の記事に掲載されている表の「サイズ」列の値を使用します。From this linked article, use the value in the Size column of the tables.

重要

1 つのクラスターで 32 個を超えるワーカー ノードが必要な場合、コア数が 8 個以上で RAM が 14 GB 以上のサイズのヘッド ノードを選択する必要があります。If you need more than 32 worker nodes in a cluster, you must select a head node size with at least 8 cores and 14 GB of RAM.

詳細については、 仮想マシンのサイズに関するページをご覧ください。For more information, see Sizes for virtual machines. さまざまなサイズの価格については、「HDInsight の価格」をご覧ください。For information about pricing of the various sizes, see HDInsight pricing.

カスタム クラスターのセットアップCustom cluster setup

カスタム クラスターのセットアップには、[簡易作成] の設定に次のオプションが加わります。Custom cluster setup builds on the Quick create settings, and adds the following options:

クラスターへの HDInsight アプリケーションのインストールInstall HDInsight applications on clusters

HDInsight アプリケーションは、ユーザーが Linux ベースの HDInsight クラスターにインストールすることのできるアプリケーションです。An HDInsight application is an application that users can install on a Linux-based HDInsight cluster. Microsoft やサード パーティから提供されたアプリケーションのほか、独自に開発したアプリケーションを使用することができます。You can use applications provided by Microsoft, third parties, or that you develop yourself. 詳細については、「Azure HDInsight へのサード パーティ製 Hadoop アプリケーションのインストール」を参照してください。For more information, see Install third-party Hadoop applications on Azure HDInsight.

HDInsight のアプリケーションのほとんどは、空のエッジ ノードにインストールされます。Most of the HDInsight applications are installed on an empty edge node. 空のエッジ ノードは、ヘッド ノードの場合と同じクライアント ツールがインストールされ、構成された Linux 仮想マシンです。An empty edge node is a Linux virtual machine with the same client tools installed and configured as in the head node. エッジ ノードは、クラスターへのアクセス、クライアント アプリケーションのテスト、およびクライアント アプリケーションのホストに使用できます。You can use the edge node for accessing the cluster, testing your client applications, and hosting your client applications. 詳細については、「 Use empty edge nodes in HDInsight」(HDInsight で空のエッジ ノードを使用する) を参照してください。For more information, see Use empty edge nodes in HDInsight.

詳細設定: スクリプト アクションAdvanced settings: Script actions

追加コンポーネントをインストールするか、作成中にスクリプトを使用してクラスターの構成をカスタマイズできます。You can install additional components or customize cluster configuration by using scripts during creation. このようなスクリプトは、スクリプト操作を使用して実行します。これは Azure ポータル、HDInsight Windows PowerShell コマンドレット、HDInsight .NET SDK で使用できる構成オプションです。Such scripts are invoked via Script Action, which is a configuration option that can be used from the Azure portal, HDInsight Windows PowerShell cmdlets, or the HDInsight .NET SDK. 詳しくは、「Script Action を使って HDInsight をカスタマイズする」をご覧ください。For more information, see Customize HDInsight cluster using Script Action.

Mahout や Cascading などの一部のネイティブ Java コンポーネントは、Java アーカイブ (JAR) ファイルとしてクラスター上で実行できます。Some native Java components, like Mahout and Cascading, can be run on the cluster as Java Archive (JAR) files. これらの JAR ファイルは、Azure Storage に分配し、Hadoop ジョブ送信メカニズムによって HDInsight クラスターに送信できます。These JAR files can be distributed to Azure Storage and submitted to HDInsight clusters with Hadoop job submission mechanisms. 詳細については、 プログラムによる Hadoop ジョブの送信に関するページを参照してください。For more information, see Submit Hadoop jobs programmatically.

注意

HDInsight クラスターへの JAR ファイルのデプロイ、または HDInsight クラスターでの JAR ファイルの呼び出しに関する問題がある場合は、Microsoft サポートにお問い合わせください。If you have issues deploying JAR files to HDInsight clusters, or calling JAR files on HDInsight clusters, contact Microsoft Support.

Cascading は HDInsight ではサポートされておらず、Microsoft サポートの対象でもありません。Cascading is not supported by HDInsight and is not eligible for Microsoft Support. サポートされているコンポーネントの一覧については、HDInsight で提供されるクラスター バージョンの新機能に関する記事をご覧ください。For lists of supported components, see What's new in the cluster versions provided by HDInsight.

場合によっては、作成プロセス中に次の構成ファイルを設定する必要があります。Sometimes, you want to configure the following configuration files during the creation process:

  • clusterIdentity.xmlclusterIdentity.xml
  • core-site.xmlcore-site.xml
  • gateway.xmlgateway.xml
  • hbase-env.xmlhbase-env.xml
  • hbase-site.xmlhbase-site.xml
  • hdfs-site.xmlhdfs-site.xml
  • hive-env.xmlhive-env.xml
  • hive-site.xmlhive-site.xml
  • mapred-sitemapred-site
  • oozie-site.xmloozie-site.xml
  • oozie-env.xmloozie-env.xml
  • storm-site.xmlstorm-site.xml
  • tez-site.xmltez-site.xml
  • webhcat-site.xmlwebhcat-site.xml
  • yarn-site.xmlyarn-site.xml

詳細については、「 ブートストラップを使って HDInsight クラスターをカスタマイズする」をご覧ください。For more information, see Customize HDInsight clusters using Bootstrap.

詳細設定: 仮想ネットワークによるクラスターの拡張Advanced settings: Extend clusters with a virtual network

複数の種類の HDInsight クラスターにまたがるテクノロジがソリューションに必要な場合は、必要な種類のクラスターを Azure 仮想ネットワークで接続してください。If your solution requires technologies that are spread across multiple HDInsight cluster types, an Azure virtual network can connect the required cluster types. この構成により、クラスターと、それにデプロイするすべてのコードが互いに通信できるようになります。This configuration allows the clusters, and any code you deploy to them, to directly communicate with each other.

Azure の仮想ネットワークの HDInsight との併用の詳細については、Azure の仮想ネットワークを使用した HDInsight 機能の拡張に関するページをご覧ください。For more information on using an Azure virtual network with HDInsight, see Extend HDInsight with Azure virtual networks.

Azure の仮想ネットワーク内で 2 つのクラスターの種類を使用した例の詳細については、Storm と HBase を使用したセンサー データの分析に関するページをご覧ください。For an example of using two cluster types within an Azure virtual network, see Analyze sensor data with Storm and HBase. 仮想ネットワークの具体的な構成要件など、仮想ネットワークで HDInsight を使用する方法の詳細については、「Azure Virtual Network を使用した HDInsight 機能の拡張」をご覧ください。For more information about using HDInsight with a virtual network, including specific configuration requirements for the virtual network, see Extend HDInsight capabilities by using Azure Virtual Network.

アクセス制御に関する問題のトラブルシューティングTroubleshoot access control issues

HDInsight クラスターの作成で問題が発生した場合は、「アクセス制御の要件」を参照してください。If you run into issues with creating HDInsight clusters, see access control requirements.

次のステップNext steps