Microsoft Purview のデータ系列

この記事では、Microsoft Purview データ カタログのデータ系列の概要について説明します。 また、データ システムをカタログと統合してデータの系列をキャプチャする方法についても詳しく説明します。 Microsoft Purview では、organizationのデータ資産のさまざまな部分のデータと、次のようなさまざまな準備レベルのデータ系列をキャプチャできます。

  • さまざまなプラットフォームからステージングされた生データ
  • 変換および準備されたデータ
  • 視覚化プラットフォームで使用されるデータ

ユース ケース

データ系列は、データの配信元にまたがるライフサイクルと、データ資産間で時間の経過と同時に移動するライフサイクルとして広く理解されています。 これは、トラブルシューティング、データ パイプラインの根本原因のトレース、デバッグなど、さまざまな種類の後方表示シナリオに使用されます。 系列は、データ品質分析、コンプライアンス、および影響分析と呼ばれる "what if" シナリオにも使用されます。 系列は、データがどのように変換されたかを含め、ソースから変換先へのデータの移動を示すために視覚的に表されます。 ほとんどのエンタープライズ データ環境の複雑さを考えると、これらのビューは、周辺データ ポイントの統合やマスクを行わずに理解するのが難しい場合があります。

Microsoft Purview データ カタログでの系列の経験

Microsoft Purview データ カタログは、他のデータ処理、ストレージ、分析システムと接続して系列情報を抽出します。 この情報は、カタログ内の一般的なシナリオ固有の系列エクスペリエンスを表すために結合されます。

BLOB ストアから Power BI ダッシュボードまでコピーされたデータを示すエンド エンド系列

データ資産には、データ抽出、変換 (ETL/ELT システム)、分析、視覚化システムを実行するシステムが含まれる場合があります。 各システムは、システム境界内のデータの状態と品質を記述する豊富な静的および運用メタデータをキャプチャします。 データ カタログ内の系列の目標は、各データ システムから可能な限り最小限の粒度で移動、変換、および運用メタデータを抽出することです。

次の例は、複数のシステム間を移動するデータの一般的なユース ケースであり、Data Catalogは系列のために各システムに接続します。

  • Data Factory は、オンプレミス/生ゾーンからクラウド内のランディング ゾーンにデータをコピーします。
  • Synapse、Databricks などのデータ処理システムでは、ノートブックを使用してランディング ゾーンからキュレーション ゾーンにデータを処理して変換します。
  • 最適なクエリ パフォーマンスと集計を実現するために、分析モデルへのデータをさらに処理します。
  • データ視覚化システムは、データセットを使用し、メタ モデルを介して処理して、BI ダッシュボードや ML 実験などを作成します。

系列の細分性

次のセクションでは、系列情報が Microsoft Purview によって収集される粒度の詳細について説明します。 この細分性は、Microsoft Purview でサポートされているデータ システムによって異なる場合があります。

エンティティ レベル系列: ソース > プロセス > ターゲット

  • 系列はグラフとして表され、通常、コンピューティング システムによって呼び出されたプロセスによって接続されるデータ ストレージ システム内のソースエンティティとターゲット エンティティが含まれます。
  • データ システムは、データ カタログに接続して、基になるデータ システムの物理オブジェクトを参照する一意のオブジェクト (SQL ストアド プロシージャ、ノートブックなど) を生成して報告します。
  • 所有権などの他のメタデータとの忠実性の高い系列がキャプチャされ、ソース & ターゲット エンティティの人間が判読できる形式で系列が表示されます。 たとえば、パーティションまたはファイル レベルではなく、Hive テーブル レベルでの系列です。

列レベルまたは属性レベル系列

ターゲット エンティティで属性を作成または派生するために使用されるソース エンティティの属性を識別します。 ソース属性の名前は、ターゲットで保持または名前変更できます。 ADF などのシステムでは、オンプレミス環境からクラウドへの 1 つのコピーを実行できます。 (例: Table1/ColumnA -> Table2/ColumnA)。

プロセスの実行状態

根本原因分析とデータ品質のシナリオをサポートするために、データ処理システムのジョブの実行状態をキャプチャします。 この要件は、他のデータ処理システムの監視機能を置き換えることとは関係ありません。どちらの目標も、それらを置き換えることではありません。

概要

系列は、品質、信頼、監査のシナリオをサポートするためのMicrosoft Purview データ カタログの重要な機能です。 データ カタログの目標は、環境内のすべてのデータ システムが自然に接続して系列を報告できる堅牢なフレームワークを構築することです。 メタデータが使用可能になると、データ カタログはデータ システムによって提供されるメタデータをまとめ、データ ガバナンスのユース ケースを強化できます。

次の手順