Azure HDInsight クラスターの適切な VM サイズの選択

この記事では、HDInsight クラスター内のさまざまなノードに適した VM サイズを選択する方法について説明します。

まず、CPU 処理、RAM サイズ、ネットワーク待機時間などの仮想マシンの特性が、ワークロードの処理にどのように影響するかを理解します。 次に、アプリケーションについて考えます。使用するアプリケーションが、さまざまな VM ファミリの最適化対象にどれだけ合致しているかを検討します。 使用する予定の VM ファミリが、デプロイする予定のクラスターの種類と互換性があることを確認します。 クラスターの種類ごとの、サポート対象で推奨されるすべての VM サイズの一覧については、Azure HDInsight でサポートされるノード構成に関するページを参照してください。 最後に、ベンチマーク プロセスを使用していくつかのサンプル ワークロードをテストし、そのファミリ内のどの SKU が適しているかを調べます。

ストレージの種類やクラスター サイズの選択など、クラスターのその他の側面に関する計画の詳細については、「HDInsight クラスターの容量計画」を参照してください。

VM の特性とビッグ データのワークロード

VM のサイズと種類は、CPU の処理能力、RAM サイズ、ネットワーク待ち時間によって決まります。

  • CPU: VM サイズによってコア数が決まります。 コア数が増えるほど、各ノードで実現できる並列計算の度合いが上がります。 また、VM の一部の種類は高速コアを備えています。

  • RAM: VM サイズによって、VM で使用可能な RAM の容量も決まります。 処理するデータをディスクから読み取るのではなく、メモリに格納するワークロードの場合、ワーカー ノードにデータを格納できる十分なメモリがあることを確認します。

  • ネットワーク: ほとんどの種類のクラスターでは、そのクラスターで処理されるデータは、ローカル ディスク上に存在するのではなく、Data Lake Storage や Azure Storage などの外部ストレージ サービスに存在します。 ノードの VM とストレージ サービス間のネットワーク帯域幅とスループットを考慮します。 通常は、VM のサイズが大きいほど、VM が使用できるネットワーク帯域幅が増加します。 詳細については、VM サイズの概要に関する記事をご覧ください。

VM の最適化について

Azure の仮想マシン ファミリは、さまざまなユース ケースに適合するよう最適化されています。 次の表で、最も一般的なユース ケースの一部と、それに合致する VM ファミリを確認することができます。

Type サイズ 説明
エントリ レベル Av2 開発とテストのような、エントリ レベルのワークロードに最適な CPU パフォーマンスとメモリ構成を備えています。 A シリーズは経済的で、Azure の使用を開始するための低コストなオプションとなっています。
汎用 D、DSv2、Dv2 バランスのとれた CPU 対メモリ比。 テストと開発、小~中規模のデータベース、および低~中程度のトラフィックの Web サーバーに最適です。
コンピューティング最適化 F 高い CPU 対メモリ比。 トラフィックが中程度の Web サーバー、ネットワーク アプライアンス、バッチ処理、アプリケーション サーバーに適しています。
メモリの最適化 Esv3、Ev3 高いメモリ対 CPU 比。 リレーショナル データベース サーバー、中~大規模のキャッシュ、およびメモリ内分析に適しています。
  • HDInsight がサポートされるリージョンで提供されている VM インスタンスの価格については、HDInsight の価格に関するページを参照してください。

軽いワークロードに向けたコスト節約型の VM の種類

処理要件が厳しくない場合は、F シリーズが、HDInsight を使い始めるのに適した選択肢となる可能性があります。 F シリーズは時間あたりの料金が抑えられており、vCPU あたりの Azure コンピューティング ユニット (ACU) に基づく Azure ポートフォリオにおいて、最もコスト パフォーマンスに優れています。

次の表では、Fsv2 シリーズの VM で作成できるクラスターの種類とノードの種類について説明します。

クラスターの種類 Version ワーカー ノード ヘッド ノード Zookeeper ノード
Spark All F4 以上 no no
Hadoop All F4 以上 no no
Kafka All F4 以上 no no
hbase All F4 以上 no no
LLAP disabled no no no

F シリーズの各 SKU の仕様を確認するには、F シリーズの VM サイズに関するページを参照してください。

ベンチマーク

ベンチマークは、シミュレートされたワークロードをさまざまな VM で実行し、運用環境のワークロードに対してどれだけのパフォーマンスが発揮されるかを測定するプロセスです。

VM SKU とクラスター サイズのベンチマークの詳細については、Azure HDInsight のクラスターの容量計画に関するページを参照してください。

次のステップ