Azure でのメインフレームデータのレプリケートと同期

Azure Data Factory

Azure Databricks

この参照アーキテクチャでは、Azure への最新化の間にデータをレプリケートおよび同期するための実装計画の概要について説明します。データストア、ツール、サービスなどの技術的な側面について説明します。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

メインフレームとミッドレンジのシステムにより、オンプレミスのアプリケーションデータベースが一定の間隔で更新されます。整合性を維持するため、ソリューションによって最新のデータが Azure データベースと同期されます。同期プロセスには以下の手順が含まれます。

これらの操作は、プロセス全体で実行されます。
1. オンプレミスのデータゲートウェイにより、オンプレミスシステムと Azure サービスの間でデータがすばやく安全に転送されます。この構成により、オンプレミスのデータゲートウェイを使用して、Azure から命令を受信し、オンプレミスのネットワークでローカルデータ資産を直接公開することなくデータをレプリケートできます。
2. Azure Data Factory パイプラインにより、データ抽出からデータ読み込みまでの範囲のアクティビティが調整されます。パイプラインのアクティビティをスケジュールしたり、手動で開始したり、自動的にトリガーしたりすることができます。
Db2 zOS、Db2 for i、Db2 LUW などのオンプレミスのデータベースに、データが格納されます。
パイプラインを使用して、タスクを実行するアクティビティがグループ化されます。データを抽出するため、Data Factory によってオンプレミスのテーブルごとに 1 つのパイプラインが動的に作成されます。その後、Azure でデータをレプリケートするときに、超並列実装を使用できます。ただし、要件を満たすようにソリューションを構成することもできます。
- 完全なレプリケーション: データベース全体をレプリケートし、ターゲットの Azure データベースのデータ型とフィールドに必要な変更を行います。
- 部分、差分、または増分レプリケーション: ソーステーブルの "基準値列" を使用して、更新された行を Azure データベースと同期します。これらの列には、連続してインクリメントされるキーか、テーブルの最終更新を示すタイムスタンプが含まれます。
Data Factory のパイプラインは、次の変換タスクにも使用されます。
- データ型の変換
- データの操作
- データの書式設定
- 列の派生
- データのフラット化
- データの並べ替え
- データのフィルタリング
セルフホステッド統合ランタイム (IR) により、Data Factory でアクティビティの実行とディスパッチのために使用される環境が提供されます。
Azure Data Lake Storage Gen2 と Azure Blob Storage により、データのステージングのための場所が提供されます。このステップは、複数のソースからデータを変換およびマージするために必要になることがあります。
次にデータの準備が行われます。 Data Factory により、Azure Databricks、カスタムアクティビティ、パイプラインデータフローを使用して、すばやく効率的にデータが変換されます。
Data Factory により、リレーショナルおよび非リレーショナルの Azure データベースにデータが読み込まれます。
- Azure SQL
- Azure Database for PostgreSQL
- Azure Cosmos DB
- Azure Data Lake Storage
- Azure Database for MariaDB
- Azure Database for MySQL
特定のユースケースでは、他のツールでデータを読み込むこともできます。
他のツールで、データのレプリケートと変換を行うこともできます。
- 分散型リレーショナルデータベースアーキテクチャ (DRDA) 用 Microsoft サービス: Azure SQL データベースファミリにこれらの DRDA サービスを接続し、オンプレミスのデータベースを最新の状態に維持できます。これらのサービスは、オンプレミスの仮想マシン (VM) または Azure VM 上で実行されます。
- SQL Server Migration Assistant (SSMA) for DB2: IBM DB2 データベースから Azure データベースにスキーマとデータを移行するには、このツールを使用します。
- SQL Server Integration Services (SSIS): このプラットフォームを使用すると、データの抽出、変換、読み込みを行うことができます。
- サードパーティ製のツール: ソリューションでほぼリアルタイムのレプリケーションが必要な場合は、サードパーティ製のツールを使用できます。これらのエージェントの一部は、Azure Marketplace で入手できます。
Azure Synapse Analytics を使用して、データを管理し、ビジネスインテリジェンスおよび機械学習アプリケーションで使用できるようにします。

Components

このソリューションでは、次のコンポーネントを使用します。

ツール

DRDA 用 Microsoft サービスは、Host Integration Server (HIS) のコンポーネントです。 DRDA 用 Microsoft サービスは、DRDA アプリケーションリクエスター (AR) クライアントによって使用されるアプリケーションサーバー (AS) です。 IBM DB2 for z/OS や DB2 for i5/OS は DRDA AR クライアントの例です。これらのクライアントにより、AS を使用して DB2 SQL ステートメントが変換され、SQL Server 上で実行されます。
SSMA for DB2 は、DB2 から Microsoft データベースサービスへの移行を自動化します。 VM でこのツールを実行すると、DB2 データベースオブジェクトが SQL Server データベースオブジェクトに変換され、SQL Server にそれらのオブジェクトが作成されます。 SSMA for DB2 は、DB2 から次のサービスにデータを移行します。
- SQL Server 2012
- SQL Server 2014
- SQL Server 2016
- Windows および Linux 上の SQL Server 2017
- Windows および Linux 上の SQL Server 2019
- Azure SQL データベース
Azure Synapse Analytics は、データウェアハウスおよびビッグデータシステム用の分析サービスです。 Spark テクノロジを使用するこのツールは、Power BI、Azure Machine Learning、その他の Azure サービスと緊密に統合されています。

データインテグレーター

Azure Data Factory は、ハイブリッドデータ統合サービスです。このフルマネージドのサーバーレスソリューションを使用して、ETL と ELT ワークフローの作成、スケジュール設定、調整を行うことができます。
Azure Synapse Analytics は、データウェアハウスやビッグデータシステム全体にわたって分析情報を取得する時間を早めるエンタープライズ分析サービスです。 Azure Synapse は、エンタープライズデータウェアハウスで使用される SQL テクノロジ、ビッグデータに使用される Spark テクノロジ、ログおよび時系列分析のための Data Explorer、データ統合と ETL および ELT のための Pipelines、Power BI、Azure Cosmos DB、Azure Machine Learning などの他の Azure サービスとの緊密な統合の長所を組み合わせたものです。
SQL Server Integration Services (SSIS) は、エンタープライズレベルのデータ統合およびデータ変換ソリューションを構築するためのプラットフォームです。 SSIS を使用して、データの管理、レプリケート、クレンジング、マイニングを行うことができます。
Azure Databricks はデータ分析プラットフォームです。 Apache Spark のオープンソース分散処理システムに基づく Azure Databricks は、Azure クラウドプラットフォーム用に最適化されています。分析ワークフローでは、Azure Databricks によって複数のソースからデータが読み取られ、Spark を使用して分析情報が提供されます。

データストレージ

Azure SQL Database は、Azure SQL ファミリの一部であり、クラウド向けに構築されています。このサービスは、フルマネージドで常に最新のサービスとしてのプラットフォームが持つすべての利点を備えています。 SQL Database は、パフォーマンスと持続性を最適化する、AI を活用した自動機能も備えています。サーバーレスコンピューティングとハイパースケールストレージオプションにより、リソースが必要に応じて自動的にスケーリングされます。
SQL Managed Instance は、Azure SQL サービスポートフォリオに含まれています。このインテリジェントでスケーラブルなクラウドデータベースサービスは、幅広い SQL Server エンジンとの互換性と、フルマネージドの常に最新のサービスとしてのプラットフォームのすべての利点を兼ね備えています。 SQL Managed Instance を使用すると、既存のアプリを大規模に最新化できます。
Azure VM 上の SQL Server により、100% のコード互換性で SQL Server ワークロードをクラウドにリフトアンドシフトする手段が提供されます。 Azure SQL ファミリの一部である Azure VM 上の SQL Server からは、SQL Server のパフォーマンス、セキュリティ、分析と、Azure の柔軟性とハイブリッド接続の両方が提供されます。 Azure VM 上の SQL Server を使用すると、既存のアプリを移行したり、新しいアプリを構築したりすることができます。また、SQL Server 2019 など、SQL Server の最新の更新プログラムとリリースにアクセスすることもできます。
Azure Database for PostgreSQL は、オープンソースの PostgreSQL データベースエンジンのコミュニティエディションに基づくフルマネージドリレーショナルデータベースサービスです。このサービスを使用すると、データベース管理ではなくアプリケーションのイノベーションに集中できます。ワークロードをすばやく簡単にスケーリングすることもできます。
Azure Cosmos DB は、グローバル分散型のマルチモデルデータベースです。 Azure Cosmos DB では、任意の数のリージョンにまたがって、ソリューションのスループットとストレージを弾力的かつ個別にスケーリングできます。このフルマネージドの NoSQL データベースサービスでは、世界中のどこにいても、99% の確率で数ミリ秒以内の待機時間が保証されます。
Data Lake Storage は、大量のデータを未加工のネイティブ形式で保持するストレージリポジトリです。データレイクストアは、テラバイト級およびペタバイト級のデータにスケーリングできるように最適化されています。通常、データは、構造化データ、半構造化データ、または非構造化データを含む複数の異種ソースから取得されます。 Data Lake Storage Gen2 は、Azure Data Lake Storage Gen1 の機能と Blob Storage が結合されたものです。この次世代データレイクソリューションからは、ファイルシステムのセマンティクス、ファイルレベルのセキュリティ、およびスケールが提供されます。その一方で、Blob Storage の階層型ストレージ、高可用性、ディザスターリカバリーの機能も提供されます。
Azure Database for MariaDB は、クラウドベースのリレーショナルデータベースサービスです。このサービスは、MariaDB コミュニティエディションデータベースエンジンに基づいています。
Azure Database for MySQL は、オープンソースの MySQL データベースエンジンのコミュニティエディションに基づくフルマネージドリレーショナルデータベースサービスです。
Blob Storage には、大量の非構造化データを管理する最適化されたクラウドオブジェクトストレージが用意されています。

ネットワーキング

オンプレミスデータゲートウェイは、オンプレミスデータをクラウドサービスに接続するブリッジとして機能します。通常、このゲートウェイは専用のオンプレミス VM にインストールします。これにより、クラウドサービスでオンプレミスデータを安全に使用できます。
IR はコンピューティングインフラストラクチャであり、さまざまなネットワーク環境間でデータを統合するために Data Factory によって使用されます。クラウドデータストアとオンプレミスネットワークのデータストアの間でデータをコピーするため、Data Factory でセルフホステッド IR が使用されます。 Azure Synapse Pipelines使用することもできます。

シナリオの詳細

データの可用性と整合性は、メインフレームとミッドレンジの最新化において重要な役割を果たします。データ優先戦略は、Azure への移行中にデータの完全性と可用性を維持するのに役立ちます。最新化の過程でアプリケーションが影響を受けないようにするには、データをすばやくレプリケートするか、オンプレミスのデータと Azure データベースを同期させることが、必要になる場合があります。

具体的には、次のものがこのソリューションの対象になります。

抽出: ソースデータベースへの接続とそこからの抽出。
変換:
- ステージング: 元の形式でのデータの一時的な格納と、変換のための準備。
- 準備: ターゲットデータベースの要件を満たすマッピング規則を使用した、データの変換と操作。
読み込み: ターゲットデータベースへのデータの挿入。

考えられるユースケース

このソリューションによってメリットのあるデータレプリケーションと同期のシナリオは次のとおりです。

Azure を使用してすべての問い合わせチャネルを処理するコマンドクエリ責務分離 (CQRS) アーキテクチャ。
オンプレミスのアプリケーションと再ホストまたは再設計されるアプリケーションを並行してテストする環境。
段階的な修復や最新化が必要な密接に結合されたアプリケーションが含まれるオンプレミスシステム。

推奨事項

Data Factory を使用してデータを抽出する場合は、コピーアクティビティのパフォーマンスを調整するための手順を実行します。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

このアーキテクチャを検討するときは、以下の点に留意してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。詳細については、「信頼性の重要な要素の概要」を参照してください。

可用性を含むインフラストラクチャ管理は、Azure のデータベースで自動化されています。
DRDA 用 Microsoft サービスによって提供されるフェールオーバー保護については、「プーリングとフェールオーバー」を参照してください。
オンプレミスのデータゲートウェイと IR をクラスター化して、高可用性を保証できます。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。詳細については、「セキュリティの重要な要素の概要」を参照してください。

ネットワークセキュリティグループを使用して、サービスのアクセスを機能に必要なものだけに制限します。
PaaS (サービスとしてのプラットフォーム) サービスにプライベートエンドポイントを使用します。サービスファイアウォールを使用して、インターネット経由で到達可能なサービスと到達不能なサービスのセキュリティを補完します。
オンプレミスのクライアント ID と Azure のクライアント ID の違いに注意してください。違いを補正する必要があります。
コンポーネント間のデータフローにはマネージド ID を使用します。
DRDA 用 Microsoft サービスでサポートされるクライアント接続の種類については、「DRDA 用 Microsoft サービスを使用したソリューションの計画と設計」を参照してください。クライアント接続は、ネットワーク上のトランザクション、プール、フェールオーバー、認証、暗号化の性質に影響します。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

価格モデルは、コンポーネントサービスによって異なります。利用可能なコンポーネントサービスの価格モデルを確認して、価格モデルが予算に合っていることを確認します。
このソリューションの実装コストを見積もるには、Azure 料金計算ツールを使用します。

オペレーショナルエクセレンス

オペレーショナルエクセレンスは、アプリケーションをデプロイし、それを運用環境で実行し続ける運用プロセスをカバーします。詳細については、「オペレーショナルエクセレンスの重要な要素の概要」を参照してください。

スケーラビリティを含むインフラストラクチャ管理は、Azure のデータベースで自動化されています。
アクティブ - アクティブモードで論理インスタンスをオンプレミスの複数のマシンに関連付けることにより、セルフホステッド IR をスケールアウトすることができます。
スケーラビリティのため、オンプレミスのデータゲートウェイと IR をクラスター化することができます。

パフォーマンス効率

パフォーマンス効率とは、ユーザーによって行われた要求に合わせて効率的な方法でワークロードをスケーリングできることです。詳細については、「パフォーマンス効率の柱の概要」を参照してください。

オンプレミスのアプリケーションゲートウェイを使用する場合は、読み取りおよび書き込み操作の制限に注意してください。
初期レプリケーションまたは変更されたデータの継続的なレプリケーションのために大きな帯域幅を使用する実装の場合は、高スケールのオプションとして Azure ExpressRoute を検討します。
セルフホステッド IR は、Windows オペレーティングシステムでのみ実行できます。

次のステップ

詳細については、Azure データエンジニアリング - オンプレミスの最新化に問い合わせてください。
移行ガイドを確認します。

[Azure データアーキテクチャガイド][Azure データアーキテクチャガイド]
Azure データプラットフォームのエンドツーエンド

Azure でのメインフレームデータのレプリケートと同期

Architecture

ワークフロー

Components

ツール

データインテグレーター

データストレージ

ネットワーキング

シナリオの詳細

考えられるユースケース

推奨事項

考慮事項

[信頼性]

セキュリティ

コストの最適化

オペレーショナルエクセレンス

パフォーマンス効率

次のステップ

フィードバック

フィードバック

その他のリソース

Azure でのメインフレーム データのレプリケートと同期

Architecture

ワークフロー

Components

ツール

データ インテグレーター

データ ストレージ

ネットワーキング

シナリオの詳細

考えられるユース ケース

推奨事項

考慮事項

[信頼性]

セキュリティ

コストの最適化

オペレーショナル エクセレンス

パフォーマンス効率

次のステップ

関連リソース

フィードバック

フィードバック

その他のリソース

Azure でのメインフレームデータのレプリケートと同期

データインテグレーター

データストレージ

考えられるユースケース

オペレーショナルエクセレンス