Azure HDInsight とは

[アーティクル]
12/05/2023

Azure HDInsight は、マネージドの、全範囲に対応した、クラウド上のオープンソースのエンタープライズ向け分析サービスです。 HDInsight を使用すると、Azure 環境で Apache Spark、Apache Hive、LLAP、Apache Kafka、Hadoop などのオープンソースフレームワークを使用できます。

HDInsight および Hadoop テクノロジスタックとは

Azure HDInsight は、Apache Spark、Apache Hive、LLAP、Apache Kafka、Apache Hadoop などのビッグデータフレームワークを Azure 環境で簡単に実行できるようにするマネージドクラスタープラットフォームです。大量のデータを高速かつ効率的に処理できるように設計されています。

どのようなときに Azure HDInsight を使用するか

機能	説明
クラウドネイティブ	Azure HDInsight を使うと、Spark、Interactive query (LLAP)、Kafka、HBase、Hadoop のための最適化されたクラスターを Azure 上に作成できます。また、HDInsight は、あらゆる運用環境のワークロードについてエンドツーエンドの SLA を提供します。
低コストでスケーラブル	HDInsight では、ワークロードをスケールアップまたはスケールダウンできます。 クラスターをオンデマンドで作成し、実際に使用する分にのみ支払うことでコストを削減できます。データパイプラインを作成して、必要なジョブを運用化することもできます。コンピューティングとストレージが分離され、より高いパフォーマンスと柔軟性が実現されています。
セキュリティとコンプライアンス	HDInsight を使用すると、Azure Virtual Network、暗号化、Microsoft Entra ID との統合によって、企業のデータ資産を保護することができます。また HDInsight は、業界や行政上の最も一般的なコンプライアンス基準を満たしています。
監視	Azure HDInsight と Azure Monitor ログの統合によって、すべてのクラスターを監視できる一元化されたインターフェイスが得られます。
グローバル対応	HDInsight は、他のあらゆるビッグデータ分析サービスより多くのリージョンで提供されています。 Azure HDInsight は、Azure Government、Azure China、Azure Germany でも提供されており、独自の法令が施行されている地域における企業のニーズに応えます。
生産性	Azure HDInsight を使用すると、お好みの開発環境で Hadoop および Spark 向けの豊富な生産性ツールを利用できます。これらの開発環境には、Visual Studio、VS Code、Eclipse、および IntelliJ for Scala、Python、Java、.NET サポートが含まれます。
拡張性	スクリプトアクションを使ったり、エッジノードを追加したり、定評のある他のビッグデータアプリケーションと連携したりすることで、インストールされたコンポーネント (Hue、Presto など) で HDInsight のクラスターを拡張することができます。 HDInsight は、特に普及率の高いビッグデータソリューションとワンクリックデプロイでシームレスに連携します。

ビッグデータとは

収集されるビッグデータの量は膨れ上がっています。その勢いはしだいに増し、以前よりも形式も多様化しています。ビッグデータの種類には、履歴データ (つまり、保存されたデータ) とリアルタイムデータ (つまり、ソースからストリーミングされるデータ) があります。ビッグデータの最も一般的な使用例については、「HDInsight を使用するシナリオ」をご覧ください。

HDInsight でのクラスターの種類

HDInsight には、特定のクラスターの種類のほか、コンポーネント、ユーティリティ、および言語を追加する機能などのクラスターカスタマイズ機能が含まれています。 HDInsight は、次のクラスターの種類を提供します。

クラスターの種類	説明	作業を開始する
Apache Hadoop	HDFS、YARN によるリソース管理、およびシンプルな MapReduce プログラミングモデルを使用して、バッチデータを同時に処理および分析するフレームワークです。	Apache Hadoop クラスターを作成する
Apache Spark	ビッグデータ分析アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする、オープンソースの並列処理フレームワークです。 HDInsight での Apache Spark の概要に関する記事を参照してください。	Apache Spark クラスターの作成
Apache HBase	Hadoop 上に構築された NoSQL データベースです。数十億行 x 数百万列に達する可能性のある大量の非構造化データや半構造化データへのランダムアクセスと厳密な整合性を実現します。 HDInsight での HBase の概要に関する記事を参照してください。	Apache HBase クラスターを作成する
Apache 対話型クエリ	対話型で高速な Hive クエリのメモリ内キャッシュです。 HDInsight での対話型クエリの使用に関する記事を参照してください。	対話型クエリクラスターの作成
Apache Kafka	オープンソースプラットフォームは、ストリーミングデータパイプラインおよびアプリケーションを構築するために使用されます。 Kafka には、データストリームの発行とサブスクライブを可能にするメッセージキュー機能も用意されています。「HDInsight での Apache Kafka の概要」を参照してください。	Apache Kafka クラスターを作成する

HDInsight を使用するシナリオ

Azure HDInsight は、ビッグデータ処理のさまざまなシナリオに使用できます。ビッグデータは履歴データ (既に収集され保存されているデータ) である場合もあれば、リアルタイムデータ (ソースから直接ストリーミングされるデータ) である場合もあります。そのようなデータの処理に関するシナリオは、次のカテゴリに集約することができます。

バッチ処理 (ETL)

ETL (抽出、変換、読み込み) は、異種データソースから非構造化データまたは構造化データを抽出する処理です。その後、構造化された形式に変換して、データストアに読み込みます。変換後のデータは、データサイエンスやデータウェアハウジングに使用することができます。

データウェアハウス

HDInsight を使用して、あらゆる形式の構造化データや非構造化データに対話型クエリをペタバイト規模で実行することができます。それらを BI ツールに接続するモデルを作成することもできます。

HDInsight architecture: Data warehousing.

モノのインターネット(IoT)

さまざまなデバイスからリアルタイムで受信したストリーミングデータを HDInsight を使用して処理することができます。詳細については、Azure マネージドディスクを使用した HDInsight での Apache Kafka のパブリックプレビューを知らせる Azure のブログ記事を参照してください。

Screenshot of the HDInsight architecture: Internet of Things.

ハイブリッド

HDInsight を使用して、既にあるオンプレミスのビッグデータインフラストラクチャを Azure にまで拡張し、そのクラウドの高度な分析機能を適用できます。

HDInsight architecture: Hybrid.

HDInsight のオープンソースコンポーネント

Azure HDInsight では、Spark、Hive、LLAP、Kafka、Hadoop、HBase などのオープンソースフレームワークを使ってクラスターを作成できます。これらのクラスターには、既定で、Apache Ambari、Avro、Apache Hive 3、HCatalog、Apache Hadoop MapReduce、Apache Hadoop YARN、Apache Phoenix、Apache Pig、Apache Sqoop、Apache Tez、Apache Oozie、Apache ZooKeeper などのさまざまなオープンソースコンポーネントが含まれています。

HDInsight のプログラミング言語

HDInsight クラスター (Spark、HBase、Kafka、Hadoopなど) は多数のプログラミング言語をサポートします。既定でインストールされないプログラミング言語があります。既定でインストールされないライブラリ、モジュール、またはパッケージは、スクリプトアクションを使用してコンポーネントをインストールします。

プログラミング言語	Information
既定のプログラミング言語のサポート	既定では、HDInsight クラスターは以下をサポートします。 Java Python .NET Go
Java 仮想マシン (JVM) 言語	Java 以外の多くの言語を Java 仮想マシン (JVM) で実行できます。ただし、これらの言語の一部を実行する場合は、クラスターにさらに多くのコンポーネントをインストールする必要があります。次の JVM ベースの言語が HDInsight クラスターでサポートされます。 Clojure Jython (Java 用の Python) Scala
Hadoop 固有言語	HDInsight クラスターでは、Hadoop テクノロジスタックに固有の次の言語をサポートしています。 Pig ジョブ用の Pig Latin Hive ジョブ用の HiveQL と SparkSQL

HDInsight 用の開発ツール

HDInsight のデータクエリやジョブは、Azure とシームレスに統合された HDInsight の開発ツール (IntelliJ、Eclipse、Visual Studio Code、Visual Studio) を使用して作成、送信することができます。

Azure toolkit for IntelliJ 10
Azure toolkit for Eclipse 6
Azure HDInsight tools for VS Code 13
Azure data lake tools for Visual Studio 9

HDInsight のビジネスインテリジェンス

Power Query アドインまたは Microsoft Hive ODBC ドライバーを使用すれば、使い慣れたビジネスインテリジェンス (BI) ツールを HDInsight と連携して、データの取得、分析、レポート生成を行うことができます。

リージョンのデータ所在地

Spark、Hadoop、LLAP は、顧客データを格納しないため、これらのサービスは、トラストセンターで指定されているリージョン内のデータ所在地要件を自動的に満たします。

Kafka と HBase は顧客データを格納します。このデータは、Kafka および HBase によって 1 つのリージョンに自動的に格納されるため、このサービスは、トラストセンターで指定されているリージョンのデータ所在地の要件を満たします。

Azure HDInsight とは

HDInsight および Hadoop テクノロジスタックとは

どのようなときに Azure HDInsight を使用するか

ビッグデータとは

HDInsight でのクラスターの種類

HDInsight を使用するシナリオ

バッチ処理 (ETL)

データウェアハウス

モノのインターネット(IoT)

ハイブリッド

HDInsight のオープンソースコンポーネント

HDInsight のプログラミング言語

HDInsight 用の開発ツール

HDInsight のビジネスインテリジェンス

リージョンのデータ所在地

次のステップ

その他のリソース

Azure HDInsight とは

HDInsight および Hadoop テクノロジ スタックとは

どのようなときに Azure HDInsight を使用するか

ビッグ データとは

HDInsight でのクラスターの種類

HDInsight を使用するシナリオ

バッチ処理 (ETL)

データ ウェアハウス

モノのインターネット(IoT)

ハイブリッド

HDInsight のオープンソース コンポーネント

HDInsight のプログラミング言語

HDInsight 用の開発ツール

HDInsight のビジネス インテリジェンス

リージョンのデータ所在地

次のステップ

その他のリソース

HDInsight および Hadoop テクノロジスタックとは

ビッグデータとは

データウェアハウス

HDInsight のオープンソースコンポーネント

HDInsight のビジネスインテリジェンス