最新のデータウェアハウスの DataOps

Azure Data Factory

Azure Databricks

Azure DevOps

Azure Key Vault

Azure Synapse Analytics

この記事では、架空の都市計画室でこのソリューションをどのように使用できるかについて説明します。このソリューションでは、MDW アーキテクチャパターンに従うエンドツーエンドのデータパイプラインを、対応する DevOps および DataOps プロセスと共に提供し、駐車の使用を評価して、より多くの情報に基づくビジネス上の意思決定を行います。

アーキテクチャ

次の図は、ソリューションの全体的なアーキテクチャを示しています。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

データは、Azure Data Factory (ADF) によって調整され、Azure Data Lake Storage (ADLS) Gen2 によって格納されます。

Contoso の都市駐車 Web サービス API は、駐車場からデータを転送するために利用できます。
データをランディングスキーマに転送する ADF コピージョブがあります。
次に、Azure Databricks によってデータがクレンジングされ、標準化されます。データサイエンティストが使用できるように、生データと条件が取得されます。
検証で無効なデータがあることがわかった場合は、無効な形式スキーマにダンプされます。

重要

データが ADLS に格納される前に検証されないのはなぜでしょうか。理由は、データセットが破損する可能性のあるバグが検証時に発生する場合があるためです。この手順でバグが発生した場合は、そのバグを修正してパイプラインを再生できます。無効なデータを ADLS に追加する前にダンプした場合、パイプラインを再生できないため、破損したデータは役に立ちません。
データウェアハウスに格納できる形式にデータを変換する、2 番目の Azure Databricks 変換手順があります。
最後に、パイプラインによって、次の 2 つの異なる方法でデータが提供されます。
1. Databricks を利用すると、データサイエンティストはデータを使用できるようになり、モデルをトレーニングすることができます。
2. Polybase ではデータレイクから Azure Synapse Analytics にデータを移動し、Power BI ではデータにアクセスしてビジネスユーザーに提示します。

コンポーネント

このソリューションではこれらのコンポーネントを使用します。

シナリオの詳細

最新のデータウェアハウス (MDW) を使用すると、すべてのデータをあらゆる規模で簡単にまとめることができます。データが構造化、非構造化、あるいは半構造化であるかどうかは関係ありません。すべてのユーザーの分析ダッシュボード、操作レポート、または高度な分析を通じて、MDW に関する分析情報を得ることができます。

開発と運用の両方の環境に対する MDW 環境の設定は複雑です。プロセスの自動化が鍵となります。これは、エラーのリスクを最小限に抑えながら、生産性を向上させるのに役立ちます。

ソリューションの要件

さまざまなソースまたはシステムからデータを収集する機能。
コードとしてのインフラストラクチャ: 自動化された方法で新しい開発およびステージング環境をデプロイします。
自動化された方法でさまざまな環境間にアプリケーションの変更をデプロイする:
- 継続的インテグレーション/継続的デリバリー (CI/CD) パイプラインを実装します。
- 手動による承認でデプロイゲートを使用します。
コードとしてのパイプライン: CI/CD パイプラインの定義が確実にソース管理に含まれるようにします。
サンプルデータセットを使用して、変更に対する統合テストを実行します。
スケジュールに従ってパイプラインを実行します。
データサイエンスワークロードの追加など、将来のアジャイル開発をサポートします。
行レベルとオブジェクトレベルの両方のセキュリティのサポート:
- セキュリティ機能は SQL Database で利用できます。
- また、Azure Synapse Analytics、Azure Analysis Services (AAS)、Power BI で見つけることもできます。
10 人のダッシュボードの同時ユーザーと 20 人の同時パワーユーザーのサポート。
データパイプラインでは、データ検証を実行し、指定されたストアに対する無効な形式のレコードを除外する必要があります。
監視をサポートします。
Azure Key Vault のようなセキュリティで保護されたストレージで構成を一元化します。

考えられるユースケース

この記事では、Contoso という架空の都市を使用してユースケースシナリオについて説明します。この物語では、Contoso によって都市の駐車センサーが所有され、管理されています。また、センサーに接続してデータを取得する API も所有しています。多くの異なるソースからデータを収集するプラットフォームが必要です。その後、データを検証し、クレンジングして、既知のスキーマに変換する必要があります。 Contoso の都市プランナーは、その後、Power BI などのデータ視覚化ツールで駐車の使用に関するレポートデータを探索して評価し、より多くの駐車または関連リソースが必要かどうかを判断できます。

考慮事項

次の一覧は、このソリューションで示されている主な学習内容とベストプラクティスをまとめたものです。

注意

以下の一覧の各項目は、GitHub の駐車センサーソリューション例に関するドキュメントの、関連する「主な学習内容」セクションにリンクされています。

このシナリオのデプロイ

次の一覧には、対応するビルドとリリースのパイプラインを使用して、駐車センサーソリューションを設定するために必要な手順の概要が含まれています。詳細な設定手順と必須コンポーネントについては、こちらの Azure サンプルリポジトリを参照してください。

設定とデプロイ

初期設定: 必須コンポーネントをすべてインストールし、Azure サンプル GitHub リポジトリを独自のリポジトリにインポートして、必要な環境変数を設定します。
Azure リソースをデプロイする: このソリューションには、自動化されたデプロイスクリプトが付属しています。環境ごとに必要なすべての Azure リソースと Microsoft Entra サービスプリンシパルがデプロイされます。また、このスクリプトでは、Azure パイプライン、変数グループ、サービス接続もデプロイされます。
開発 Data Factory で Git 統合を設定する: インポートされた GitHub リポジトリと連動するように Git 統合を構成します。
初期ビルドおよびリリースを実行する: スケジュールトリガーの有効化など、Data Factory でサンプルを変更し、環境間で自動的にデプロイされる変更を監視します。

デプロイされるリソース

デプロイに成功した場合は、3 つの環境 (開発、ステージング、および運用) を表す 3 つのリソースグループが Azure にあるはずです。また、Azure DevOps には、これら 3 つの環境間で変更を自動的にデプロイできる、エンドツーエンドのビルドとリリースのパイプラインがあるはずです。

すべてのリソースの詳細な一覧については、「DataOps - 駐車センサーのデモ」 README の「デプロイされたリソース」セクションを参照してください。

継続的インテグレーションと継続的デリバリー

以下の図は、ビルドおよびリリースパイプラインの CI/CD プロセスとシーケンスを示しています。

このアーキテクチャの Visio ファイルをダウンロードします。

開発者は開発リソースグループ内の独自のサンドボックス環境で開発を行い、有効期間が短い Git ブランチに変更をコミットします。たとえば、「 <developer_name>/<branch_name> 」のように入力します。
変更が完了すると、開発者はレビューのためにメインブランチに対して pull request (PR) を行います。これにより、PR 検証パイプラインが自動的に開始され、単体テスト、リンティング、およびデータ層アプリケーションパッケージ (DACPAC) ビルドが実行されます。
PR 検証の完了時に、メインにコミットすると、必要なすべてのビルド成果物を公開するビルドパイプラインがトリガーされます。
正常なビルドパイプラインが完了すると、リリースパイプラインの最初のステージがトリガーされます。これにより、ADF を除き、開発環境に公開ビルド成果物がデプロイされます。

開発者は、コラボレーションブランチ (メイン) から開発 ADF に手動で公開します。手動による公開では、adf_publish ブランチ内の Azure Resource Manager (ARM) テンプレートが更新されます。
最初のステージが正常に完了すると、手動承認ゲートがトリガーされます。

承認されると、リリースパイプラインは 2 番目のステージに進み、変更をステージング環境にデプロイします。
統合テストを実行し、ステージング環境で変更をテストします。
2 番目のステージが正常に完了すると、パイプラインによって 2 番目の手動承認ゲートがトリガーされます。

承認されると、リリースパイプラインは 3 番目のステージに進み、運用環境に変更をデプロイします。

詳細については、README の「ビルドおよびリリースパイプライン」セクションを参照してください。

テスト

このソリューションには、単体テストと統合テストの両方のサポートが含まれています。 pytest-adf と Nutter テストフレームワークが使用されます。詳細については、README の「テスト」セクションを参照してください。

可観測性と監視

このソリューションでは、Databricks および Data Factory の可観測性と監視がサポートされます。詳細については、README の「可観測性と監視」セクションを参照してください。

次のステップ

ソリューションをデプロイする場合は、「DataOps - 駐車センサーのデモ」 README の「サンプルの使用方法」セクションの手順に従います。

GitHub のソリューションコードサンプル

GitHub のプロジェクトページにアクセスする

可観測性と監視

Azure Databricks

Data Factory

Synapse Analytics

Azure Storage

Azure Storage を監視する

回復性とディザスターリカバリー

Azure Databricks

Azure Databricks クラスターに対するリージョンのディザスターリカバリー

Data Factory

セルフホステッド統合ランタイムを作成して構成する - 高可用性とスケーラビリティ

Synapse Analytics

Azure Storage

詳細なチュートリアル

ソリューションと主要概念の詳細なチュートリアルについては、次のビデオ録画をご覧ください。Microsoft Azure の最新のデータウェアハウスの DataDevOps

Share via

最新のデータウェアハウスの DataOps

アーキテクチャ

データフロー

コンポーネント

シナリオの詳細

ソリューションの要件

考えられるユースケース

考慮事項

このシナリオのデプロイ

設定とデプロイ

デプロイされるリソース

継続的インテグレーションと継続的デリバリー

テスト

可観測性と監視

次のステップ

GitHub のソリューションコードサンプル

可観測性と監視

回復性とディザスターリカバリー

詳細なチュートリアル

フィードバック

フィードバック

その他のリソース

Share via

最新のデータ ウェアハウスの DataOps

アーキテクチャ

データフロー

コンポーネント

シナリオの詳細

ソリューションの要件

考えられるユース ケース

考慮事項

このシナリオのデプロイ

設定とデプロイ

デプロイされるリソース

継続的インテグレーションと継続的デリバリー

テスト

可観測性と監視

次のステップ

GitHub のソリューション コード サンプル

可観測性と監視

回復性とディザスター リカバリー

詳細なチュートリアル

関連リソース

フィードバック

フィードバック

その他のリソース

最新のデータウェアハウスの DataOps

考えられるユースケース

GitHub のソリューションコードサンプル

回復性とディザスターリカバリー