HDInsight とは

完了

現在は非常に大量かつ多様なデータが高速で生成されるため、生成される半構造化データおよび非構造化データを効果的かつ効率的に操作できるシステムを使用する必要が生じています。 従来のリレーショナル データベース管理システム (RDBMS) によって、"ビッグ データ" の処理、格納、および分析が試行されました。 しかし、飛躍的進歩をもたらしたのはオープン ソース ソフトウェア (OSS) の分野でした。 OSS では、汎用的なハードウェアが分散方式で使用され、ソフトウェアと組み合わされて、単一サーバーに課される制限を超えてデータと分析がスケーリングされます。

OSS は、組織と個人の両方が自由に使用できます。 以前は OSS の管理とサポートが不十分であったため、一部の企業で導入が困難でした。 クラウドの登場により、多くのクラウド プロバイダーがこれらのサービスをホストし、OSS テクノロジを利用する組織に対して、管理されたサポートを提供するようになりました。 この提案は、管理とサポートのコストをかけずに OSS の利点を享受したい組織にとって魅力的です。 ビッグ データの領域では、OSS が一般的に使用されています。 この領域には、データを処理して格納するだけでなく、分析も実行するためのさまざまなテクノロジが存在します。 OSS 分析を使用すると、単一のクラウド ベンダーに関連付けられていない、マルチクラウドのオープン アプリケーション戦略を実現できます。 ソリューションをオンプレミスからクラウドへ移動するか、異なるクラウド ベンダー間で移動するかにかかわらず、移植性が提供されます。

ビッグ データ ソリューションで使用されるコア OSS 分析テクノロジの 1 つは、Hadoop です。 通常、Hadoop 分散ファイル システム (HDFS) にデータが格納され、MapReduce というプログラミング モデルと共に、汎用的なコンピューターのクラスターが使用されます。 このプログラミング モデルを使用すると、大規模なデータ セットの分散処理を線形データフローで行うことができます。 パフォーマンスを向上させるために、Hadoop のアーキテクチャ機能の上に Apache Spark が構築されますが、これにより、MapReduce パラダイムは Resilient Distributed Dataset (RDD) に置き換えられます。 RDD では、はるかに高速なメモリ内データ エンジンが提供されます。

OSS 分析が、Hadoop と Spark を使用したビッグ データ ソリューションの従来のアプリケーションの範疇を超えていることに注意してください。 OSS 分析には現在、次のような幅広いソフトウェアが組み込まれています。

  • ストリーミング シナリオ用の Kafka と Flink
  • SQL 抽象化レイヤーとしての Presto と Kylin
  • H20.ai と Dataiku で追加された AI レイヤー

Azure HDInsight は、マネージドの、包括的なクラウド上のオープン ソースのエンタープライズ向け分析サービスです。 Microsoft では、OSS 分析が Azure HDInsight 内に実装されています。 Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka などのオープンソース フレームワークを使用できます。 また、Azure でホストされるサービスから予想されるエンタープライズ レベルのセキュリティ、監視機能、高可用性オプションのメリットも得られます。 Azure HDInsight は、さまざまな顧客シナリオに対応するために拡張とカスタマイズも可能です。