HDInsight を使用した抽出、変換、および読み込み (ETL)

Azure Data Factory
Azure Data Lake Storage
Azure HDInsight

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。 このコンテンツにさらに多くの情報 (想定されるユース ケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

このソリューションのアイデアでは、Hadoop MapReduce と Apache Spark を使用して、ビッグ データ クラスターをオンデマンドで抽出、変換、読み込む方法を示します。

Architecture

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

データはアーキテクチャを介して次のように流れます。

  1. Azure Data Factory を使用して、ソース システムおよびデータ ストアに対する、リンクされたサービスを確立します。 Azure Data Factory パイプラインは、ネイティブ コネクタを使用できないデータソースの汎用プロトコルも含む、90 以上のコネクタをサポートしています。

  2. データのコピー ツールを使用して、ソース システムから Azure Data Lake にデータを読み込みます。

  3. Azure Data Factory は、オンデマンドの HDInsight クラスターを作成できます。 まず、オンデマンドの HDInsight のリンクされたサービスを作成します。 次に、パイプラインを作成し、使用される Hadoop フレームワーク (Hive、MapReduce、Spark など) に応じて適切な HDInsight アクティビティを使用します。

  4. Azure Data Factory でパイプラインをトリガーします。 このアーキテクチャでは、手順 3 で作成された HDInsight アクティビティによって実行される Hadoop スクリプトで、Azure Data Lake ストアがファイル システムとして使用されるものと想定しています。 スクリプトはオンデマンドの HDInsight クラスターによって実行され、Data Lake のキュレーションされた領域にデータが書き込まれます。

Components

  • Azure Data Factory - データ フローを調整するためのクラウド規模のデータ統合サービス。
  • Azure Data Lake Storage - ビッグ データを処理するための、スケーラブルでコスト効率に優れたクラウド ストレージ。
  • Apache Hadoop - ビッグ データ分散処理フレームワーク
  • Apache Spark - ビッグ データ アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする、ビッグ データ分散処理フレームワーク。
  • Azure HDInsight - Hadoop コンポーネントのクラウド ディストリビューション。

シナリオの詳細

このソリューションのアイデアでは、ETL ユース ケース向けのデータ フローについて説明します。

考えられるユース ケース

ビッグ データ処理のさまざまなシナリオで Azure HDInsight を使用できます。 ビッグ データは履歴データ (既に収集されて保存されているデータ) である場合もあれば、リアルタイム データ (ソースから直接ストリーミングされるデータ) である場合もあります。 このようなデータの処理の詳細については、「HDInsight を使用するシナリオ」を参照してください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

コンポーネントのテクノロジの詳細については、次を参照してください。

次の関連するアーキテクチャを確認してください。