Azure Purview Data Catalog の系列のユーザー ガイドAzure Purview Data Catalog lineage user guide

この記事では、Azure Purview Data Catalog のデータ系列機能の概要について説明します。This article provides an overview of the data lineage features in Azure Purview Data Catalog.

バックグラウンドBackground

Azure Purview のプラットフォーム機能の 1 つに、データ プロセスによって作成されたデータセット間の系列を表示する機能があります。One of the platform features of Azure Purview is the ability to show the lineage between datasets created by data processes. Data Factory、Data Share、Power BI などのシステムでは、データの移動時に系列がキャプチャされます。Systems like Data Factory, Data Share, and Power BI capture the lineage of data as it moves. カスタム系列レポートは、Atlas フックと REST API を通じてもサポートされます。Custom lineage reporting is also supported via Atlas hooks and REST API.

系列の収集Lineage collection

エンタープライズ データ システムから Azure Purview に収集されたメタデータは、エンドツーエンドのデータ系列を表示するために合成されます。Metadata collected in Azure Purview from enterprise data systems are stitched across to show an end to end data lineage. Purview に系列が収集されるデータ システムは、次の 3 種類に大別されます。Data systems that collect lineage into Purview are broadly categorized into following three types.

データ処理システムData processing system

データ統合と ETL ツールでは、実行時に Azure Purview に系列をプッシュできます。Data integration and ETL tools can push lineage in to Azure Purview at execution time. Data Factory、Data Share、Synapse、Azure Databricks などのツールは、このカテゴリのデータ システムに属します。Tools such as Data Factory, Data Share, Synapse, Azure Databricks, and so on, belong to this category of data systems. データ処理システムでは、さまざまなデータベースおよびストレージ ソリューションからのデータセットをソースとして参照して、ターゲット データセットが作成されます。The data processing systems reference datasets as source from different databases and storage solutions to create target datasets. 系列のために Purview と現在統合されるデータ処理システムの一覧を次の表に示します。The list of data processing systems currently integrated with Purview for lineage are listed in below table.

データ処理システムData processing system サポートされるスコープSupported scope
Azure Data FactoryAzure Data Factory コピー アクティビティCopy activity
データ フロー アクティビティData flow activity
SSIS パッケージの実行アクティビティExecute SSIS package activity
Azure Data ShareAzure Data Share スナップショットの共有Share snapshot

データ ストレージ システムData storage systems

データベースとストレージ ソリューション (SQL Server、Teradata、SAP など) には、スクリプト言語を使用してデータを変換するクエリ エンジンがあります。Databases & storage solutions such as SQL Server, Teradata, and SAP have query engines to transform data using scripting language. ストアド プロシージャからのデータ系列は、Purview に収集され、他のシステムの系列と合成されます。Data lineage from stored procedures is collected in to Purview and stitched with lineage from other systems.

データ ストレージ システムData storage system サポートされるスコープSupported scope
TeradataTeradata ストアド プロシージャStored procedures

データ分析とレポート システムData analytics & reporting systems

Azure ML や Power BI などデータ システムでは、Azure Purview に系列が報告されます。Data systems like Azure ML and Power BI report lineage into Azure Purview. これらのシステムでは、ストレージ システムからのデータセットを使用して、メタ モデルを介して処理し、BI ダッシュボードや ML の実験などが作成されます。These systems will use the datasets from storage systems and process through their meta model to create BI Dashboard, ML experiments and so on.

データ分析とレポート システムData analytics & reporting system サポートされるスコープSupported scope
Power BIPower BI データセット、データフロー、レポートとダッシュボードDatasets, Dataflows, Reports & Dashboards

系列の使用を開始するGet started with lineage

Purview の系列には、データセットとプロセスが含まれます。Lineage in Purview includes datasets and processes. データセットはノードとも呼ばれ、プロセスはエッジとも呼ばれます。Datasets are also referred to as nodes while processes can be also called edges:

  • データセット (ノード) :プロセスへの入力として提供されるデータセット (構造化または非構造化)。Dataset (Node): A dataset (structured or unstructured) provided as an input to a process. たとえば、SQL テーブル、Azure BLOB、ファイル (.csv や .xml など) は、すべてデータセットと見なされます。For example, a SQL Table, Azure blob, and files (such as .csv and .xml), are all considered datasets. Purview の系列セクションでは、データセットは四角形のボックスで表されます。In the lineage section of Purview, datasets are represented by rectangular boxes.

  • プロセス (エッジ) :データセットに対して実行されるアクティビティまたは変換は、プロセスと呼ばれます。Process (Edge): An activity or transformation performed on a dataset is called a process. たとえば、ADF のコピー アクティビティ、Data Share のスナップショットなどです。For example, ADF Copy activity, Data Share snapshot and so on. Purview の系列セクションでは、プロセスは端が丸いボックスによって表されます。In the lineage section of Purview, processes are represented by round-edged boxes.

Purview で資産の系列情報にアクセスするには、次の手順に従います。To access lineage information for an asset in Purview, follow the steps:

  1. Azure portal で、[Azure Purview アカウント] ページに移動します。In the Azure portal, go to the Azure Purview accounts page.

  2. 一覧から Azure Purview アカウントを選択し、 [概要] ページで [Purview アカウントの起動] を選択します。Select your Azure Purview account from the list, and then select Launch purview account from the Overview page.

  3. Azure Purview の [ホーム] ページで、データセット名またはプロセス名 (ADF のコピーまたはデータ フロー アクティビティなど) を検索します。On the Azure Purview Home page, search for a dataset name or the process name such as ADF Copy or Data Flow activity. Enter キーを押します。And then press Enter.

  4. 検索結果から資産を選択し、 [系列] タブを選択します。From the search results, select the asset and select its Lineage tab.

    [系列] タブを選択する方法を示すスクリーンショット。

資産レベルの系列Asset-level lineage

Azure Purview では、データセットとプロセスの資産レベルの系列がサポートされます。Azure Purview supports asset level lineage for the datasets and processes. 資産レベルの系列を表示するには、カタログ内の現在の資産の [系列] タブに移動します。To see the asset level lineage go to the Lineage tab of the current asset in the catalog. 現在のデータセットの資産ノードを選択します。Select the current dataset asset node. 既定では、データに属する列の一覧が、左側のペインに表示されます。By default the list of columns belonging to the data appears in the left pane.

[系列] ページで列の表示を選択する方法を示すスクリーンショット

列レベルの系列Column-level lineage

Azure Purview では、データセットの列レベルの系列がサポートされます。Azure Purview supports column-level lineage for the datasets. 列レベルの系列を表示するには、カタログ内の現在の資産の [系列] タブに移動して、次の手順に従います。To see column-level lineage, go to the Lineage tab of the current asset in the catalog and follow below steps:

  1. [系列] タブが表示されたら、左側のペインで、データ系列に表示する各列の横にあるチェック ボックスをオンにします。Once you are in the lineage tab, in the left pane, select the check box next to each column you want to display in the data lineage.

    [系列] ページに表示する列を選択する方法を示すスクリーンショット。

  2. 列のマッピングを表示するには、左側のペインで選択されている列、または系列キャンバスのデータセットの上にマウス ポインターを置きます。Hover over a selected column on the left pane or in the dataset of the lineage canvas to see the column mapping. すべての列インスタンスが強調表示されます。All the column instances are highlighted.

    データ系列パスの列フローを強調表示するために、列名の上にマウス ポインターを置く方法を示すスクリーンショット。

  3. 列の数が左側のペインに表示できる数よりも多い場合は、フィルター オプションを使用して、名前で特定の列を選択します。If the number of columns is larger than what can be displayed in the left pane, use the filter option to select a specific column by name. または、マウスを使用して一覧をスクロールすることができます。Alternatively, you can use your mouse to scroll through the list.

    [系列] ページで、列名で列をフィルター処理する方法を示すスクリーンショット。

  4. 系列キャンバスにより多くのノードとエッジが含まれている場合は、フィルターを使用してデータ資産またはプロセスのノードを名前で選択します。If the lineage canvas contains more nodes and edges, use the filter to select data asset or process nodes by name. または、マウスを使用して系列ウィンドウをパンすることができます。Alternatively, you can use your mouse to pan around the lineage window.

    [系列] ページの名前別のデータ資産ノードを示すスクリーンショット。

  5. 左側のペインのトグルを使用して、系列キャンバス内のデータセットの一覧を強調表示します。Use the toggle in the left pane to highlight the list of datasets in the lineage canvas. トグルをオフにすると、選択した列のうち少なくとも 1 つが含まれている資産が表示されます。If you turn off the toggle, any asset that contains at least one of the selected columns is displayed. トグルをオンにすると、すべての列を含むデータセットのみが表示されます。If you turn on the toggle, only datasets that contain all of the columns are displayed.

    [系列] ページのノードの一覧をフィルター処理するためのトグルの使用方法を示すスクリーンショット。

  6. 任意の資産で [資産に切り替え] を選択し、[系列] ビューから対応するメタデータを表示します。Select Switch to asset on any asset to view its corresponding metadata from the lineage view. これは、[系列] ビューからカタログ内の別の資産を参照する効果的な方法です。Doing so is an effective way to browse to another asset in the catalog from the lineage view.

    系列データ資産で [資産に切り替え] を選択する方法を示すスクリーンショット。

  7. 系列の多いデータセットでは、系列キャンバスが複雑になることがあります。The lineage canvas could become complex for popular datasets. 見やすくするために、既定のビューには、フォーカスされている資産の 5 レベルの系列のみが表示されます。To avoid clutter, the default view will only show five levels of lineage for the asset in focus. 系列の残りの部分は、系列キャンバスのバブルをクリックすると展開できます。The rest of the lineage can be expanded by clicking the bubbles in the lineage canvas. データ コンシューマーは、キャンバス内の不要な資産を非表示にすることもできます。Data consumers can also hide the assets in the canvas that are of no interest. さらに見やすくするには、系列キャンバスの上部にある [より多くの系列] のトグルをオフにします。To further reduce the clutter, turn off the toggle More Lineage at the top of lineage canvas. この操作により、系列キャンバスのすべてのバブルが非表示になります。This action will hide all the bubbles in lineage canvas.

    [より多くの系列] を切り替える方法を示すスクリーンショット。

  8. 系列キャンバスのスマート ボタンを使用すると、系列の最適なビューを表示できます。Use the smart buttons in the lineage canvas to get an optimal view of the lineage. [自動レイアウト]、[適したサイズに変更]、[拡大/縮小]、[全画面表示]、[ナビゲーション マップ] を使用すると、カタログのイマーシブな系列のエクスペリエンスを利用できます。Auto layout, Zoom to fit, Zoom in/out, Full screen, and navigation map are available for an immersive lineage experience in the catalog.

    系列のスマート ボタンを選択する方法を示すスクリーンショット。

次のステップNext steps