Azure でのデータ パイプライン オーケストレーション テクノロジの選択

ほとんどのビッグ データ ソリューションは、ワークフローにカプセル化された繰り返されるデータ処理操作で構成されます。 パイプライン オーケストレーターは、これらのワークフローを自動化するのに役立つツールです。 オーケストレーターは、ジョブのスケジュール設定、ワークフローの実行、およびタスク間の依存関係を調整できます。

データ パイプライン オーケストレーションのオプションとは

Azure では、次のサービスとツールがパイプライン オーケストレーション、制御フロー、およびデータ移動のコア要件を満たしています。

これらのサービスとツールは、単独で使用することも、一緒に使用してハイブリッド ソリューションを作成することもできます。 たとえば、Azure Data Factory V2 の Integration Runtime (IR) は、管理対象の Azure コンピューティング環境で SSIS パッケージをネイティブに実行できます。 これらのサービスの機能には重複がありますが、大きな違いはほとんどありません。

主要な選択条件

選択肢を絞り込むために、まず次の質問に答えてください。

  • データを移動して変換するためにビッグ データの機能が必要ですか。 通常、これは、数ギガバイトから数テラバイトのデータがあることを意味します。 「はい」の場合は、ビッグ データに最適なものにオプションを絞りです。

  • 大規模に操作できる管理対象サービスが必要ですか。 「はい」の場合は、ローカルな処理能力によって制限されないクラウド ベースのサービスのいずれかを選択します。

  • データ ソースの一部がオンプレミスに配置されていますか。 「はい」の場合は、クラウドとオンプレミスのデータ ソースまたは変換先の両方で機能できるオプションを探します。

  • ソース データは、HDFS ファイル システムの BLOB ストレージに格納されていますか。 該当する場合は、Hive クエリをサポートするオプションを選択します。

機能のマトリックス

次の表は、機能の主な相違点をまとめたものです。

一般的な機能

機能 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight での Oozie
マネージド はい いいえ はい
クラウド ベース はい いいえ (ローカル) はい
前提条件 Azure サブスクリプション SQL Server Azure サブスクリプション、HDInsight クラスター
管理ツール Azure Portal、PowerShell、CLI、.NET SDK SSMS、PowerShell Bash シェル、Oozie REST API、Oozie web UI
価格 使用した分を支払う ライセンス/機能の料金を支払う HDInsight クラスターでの実行に対する追加料金なし

パイプラインの機能

機能 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight での Oozie
データをコピーする はい イエス はい
カスタム変換 はい はい はい (MapReduce、Pig、および Hive ジョブ)
Azure Machine Learning のスコア付け はい はい (スクリプト使用) いいえ
HDInsight On-Demand はい いいえ いいえ
Azure Batch はい いいえ いいえ
Pig、Hive、MapReduce はい いいえ はい
Spark はい いいえ いいえ
SSIS パッケージの実行 はい はい いいえ
制御フロー はい イエス はい
オンプレミスのデータへのアクセス はい はい いいえ

スケーラビリティ機能

機能 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight での Oozie
スケールアップ はい いいえ いいえ
スケール アウト はい いいえ はい (クラスターへの worker ノードの追加)
ビッグ データに合わせて最適化 はい いいえ はい

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

次のステップ