HDInsight を使用した抽出、変換、および読み込み (ETL)

Azure Data Factory

Azure Data Lake Storage

Azure HDInsight

ソリューションのアイデア

このアーティクルはソリューションのアイデアです。このコンテンツにさらに多くの情報 (想定されるユースケース、代替サービス、実装に関する考慮事項、価格ガイダンスなど) の掲載をご希望の方は、GitHub のフィードバックでお知らせください。

このソリューションのアイデアでは、Hadoop MapReduce と Apache Spark を使用して、ビッグデータクラスターをオンデマンドで抽出、変換、読み込む方法を示します。

Architecture

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

データはアーキテクチャを介して次のように流れます。

Azure Data Factory を使用して、ソースシステムおよびデータストアに対する、リンクされたサービスを確立します。 Azure Data Factory パイプラインは、ネイティブコネクタを使用できないデータソースの汎用プロトコルも含む、90 以上のコネクタをサポートしています。
データのコピーツールを使用して、ソースシステムから Azure Data Lake にデータを読み込みます。
Azure Data Factory は、オンデマンドの HDInsight クラスターを作成できます。まず、オンデマンドの HDInsight のリンクされたサービスを作成します。次に、パイプラインを作成し、使用される Hadoop フレームワーク (Hive、MapReduce、Spark など) に応じて適切な HDInsight アクティビティを使用します。
Azure Data Factory でパイプラインをトリガーします。このアーキテクチャでは、手順 3 で作成された HDInsight アクティビティによって実行される Hadoop スクリプトで、Azure Data Lake ストアがファイルシステムとして使用されるものと想定しています。スクリプトはオンデマンドの HDInsight クラスターによって実行され、Data Lake のキュレーションされた領域にデータが書き込まれます。

Components

Azure Data Factory - データフローを調整するためのクラウド規模のデータ統合サービス。
Azure Data Lake Storage - ビッグデータを処理するための、スケーラブルでコスト効率に優れたクラウドストレージ。
Apache Hadoop - ビッグデータ分散処理フレームワーク
Apache Spark - ビッグデータアプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする、ビッグデータ分散処理フレームワーク。
Azure HDInsight - Hadoop コンポーネントのクラウドディストリビューション。

シナリオの詳細

このソリューションのアイデアでは、ETL ユースケース向けのデータフローについて説明します。

考えられるユースケース

ビッグデータ処理のさまざまなシナリオで Azure HDInsight を使用できます。ビッグデータは履歴データ (既に収集されて保存されているデータ) である場合もあれば、リアルタイムデータ (ソースから直接ストリーミングされるデータ) である場合もあります。このようなデータの処理の詳細については、「HDInsight を使用するシナリオ」を参照してください。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパル作成者:

Jon Dobrzeniecki | クラウドソリューションアーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

コンポーネントのテクノロジの詳細については、次を参照してください。

次の関連するアーキテクチャを確認してください。

HDInsight を使用した抽出、変換、および読み込み (ETL)

Architecture

データフロー

Components

シナリオの詳細

考えられるユース ケース

共同作成者

次のステップ

関連リソース

フィードバック

フィードバック

その他のリソース

考えられるユースケース