Microsoft Purview でデータ マップの作成を監視する

Microsoft Purview では、さまざまな種類のデータ ソースをスキャンし、時間の経過と同時にスキャン状態を表示できます。また、他のサービスを Microsoft Purview に接続し、取り込まれた資産/リレーションシップの傾向を表示することもできます。 この記事では、データ マップの作成を監視し、鳥瞰図を取得する方法について説明します。

スキャンの実行を監視する

  1. 次の方法で Microsoft Purview ガバナンス ポータルを開きます。

  2. Microsoft Purview アカウントを開き、[データ マップ -> 監視] を選択します。 このページにアクセスするには、任意のコレクションに データ ソース管理者 ロールが必要です。 また、データ ソース管理者特権を持つコレクションに属するスキャン実行が表示されます。

  3. 大まかな KPI には、一定期間内のスキャンの合計実行数が表示されます。 期間の既定値は過去 30 日間で、過去 7 日間を選択することもできます。 選択した時間フィルターに基づいて、成功、失敗、取り消し、進行中のスキャン実行の分布を週単位または日単位でグラフに表示できます。

    時間の経過に伴うスキャン実行の表示

  4. グラフの下部には、[ 詳細を表示] リンクが表示され、さらに詳しく調べることができます。 リンクによって [ スキャンの状態 ] ページが開きます。 ここでは、スキャン名と、その期間内に成功、失敗、または取り消された回数を確認できます。 ソースの種類で一覧をフィルター処理することもできます。

    スキャンの状態を詳細に表示する

  5. スキャン名を選択すると、特定の スキャンをさらに探索できます。 スキャン履歴ページに接続され、実行 ID の一覧と実行の詳細が表示されます。

    特定のスキャンのスキャン履歴を表示する

  6. 実行 ID をクリックすると、スキャン実行の詳細の詳細をチェックできます。

既知の制限事項:

現時点では、この監視エクスペリエンスには次の情報は含まれていません。 対応するスキャン実行の詳細をチェックできます。

  • 状態と期間には、スキャン フェーズ (ソースからの検出) のみが含まれますが、インジェスト フェーズは含まれません。 スキャン実行の詳細パネルと比較して不一致が表示される場合があります。
  • Azure SQL Database の系列抽出スキャンの実行については説明しません。
  • Azure Synapse Analytics ワークスペース、Azure サブスクリプション/リソース グループ、AWS アカウントのスキャンでは、親スキャン実行の状態/カウントのみがキャプチャされますが、リソースごとの子スキャン実行はキャプチャされません。

実行の詳細をスキャンする

別の場所から特定のスキャンのスキャン実行履歴に移動できます。

  • スキャン実行監視」セクションの説明に従って、データ マップ ->監視に移動します。
  • [データ マップ ->ソース>] に移動し、目的のデータ ソースを選択します>。「スキャン最近のスキャン、または最近失敗したスキャン」を参照してください。
  • [データ マップ ] ->[コレクション] に>移動し、目的のコレクションを選択します 。>スキャン -> 詳細を表示するスキャン名を選択します。

スキャン実行履歴の保持期間は 90 日です。

実行 ID をクリックすると、スキャン実行の詳細の詳細をチェックできます。

スキャン実行の実行の詳細の表示のスクリーンショット。

  • 実行 ID: 特定のスキャン実行を識別するために使用される GUID。

  • 実行の種類: 完全スキャンまたは増分スキャン。

  • [スキャン ] セクションでは、Purview がソースに接続し、メタデータ/系列を抽出し、データを分類する検出フェーズのメトリックを要約します。

    • スキャンの状態:

      状態 説明
      完了 スキャン フェーズは成功します。
      失敗 スキャン フェーズが失敗します。 エラーの詳細をチェックするには、その横にある [詳細情報] リンクをクリックします。
      キャンセルされました スキャンの実行はユーザーによって取り消されます。
      進行中 スキャンが実行中です。
      キューに登録済み スキャン実行は、使用可能な統合ランタイム リソースを待機しています。
      セルフホステッド統合ランタイムを使用する場合は、マシンの仕様 (CPU とメモリ) に応じて、各ノードで同時に多数のスキャンを同時に実行できることに注意してください。 さらに多くのスキャンがキューに入っている状態です。
      調整 スキャンの実行が調整されています。 これは、現時点では、この Microsoft Purview アカウントのスキャン実行が、許可されている最大同時実行数よりも多く実行されていることを意味します。 制限の詳細については、 こちらを参照してください。 この特定のスキャン実行は待機中であり、他の進行中のスキャンが完了すると実行されます。

      スキャンの実行は、"調整済み" または "キューに入った" 状態の間は課金されません。

    • スキャンの種類: 手動またはスケジュールされたスキャン。

    • 検出された資産: ソースから列挙された資産の数。 完全スキャンと増分スキャンの両方で、構成されたスコープ内のすべての資産が、前回のスキャン実行以降に既存の資産であるか、新しく作成/更新された資産であるかに関係なく含まれます。 増分スキャンでは、新しく作成または更新された資産に対してのみ詳細なメタデータが抽出されます。

    • 分類された資産: 資産に一致する分類があるかどうかに関係なく、データを分類するためにサンプリングされた資産の数。 これは、 サンプリング メカニズムに基づいて検出された資産のサブセットです。 増分スキャンの場合は、新しく作成または更新された資産のみが分類用に選択できます。

    • 期間: スキャン フェーズの期間と開始時刻/終了時刻。

  • データ インジェスト セクションでは、Purview によってデータ マップに識別されたメタデータとリレーションシップが設定されるインジェスト フェーズのメトリックが要約されます。

    • インジェストの状態:

      状態 説明
      完了 すべての資産とリレーションシップがデータ マップに正常に取り込まれます。
      例外を含む完了 (以前の "部分的に完了") 資産とリレーションシップの一部がデータ マップに正常に取り込まれますが、一部は失敗します。
      失敗 インジェスト フェーズは失敗します。
      キャンセルされました スキャン実行はユーザーによって取り消されるため、インジェストは一緒に取り消されます。
      進行中 インジェストが実行中です。
      キューに登録済み インジェストは、使用可能なサービス リソースを待機しているか、スキャンがメタデータを検出するのを待機しています。
    • 取り込まれた資産: データ マップに取り込まれた資産の数。 増分スキャンの場合、新しく作成または更新された資産のみが含まれます。その場合は、"検出された資産" 数よりも少ない可能性があります。 ファイル ベースのソースをスキャンする場合、リソース セットの集計前の未加工の資産数です。

    • 取り込まれたリレーションシップ: データ マップに取り込まれたリレーションシップの数。 系列やその他のリレーションシップ (外部キーリレーションシップなど) が含まれます。

    • 期間: インジェスト期間と開始時刻/終了時刻。

例外ログを表示する (プレビュー)

スキャン中に一部の資産またはリレーションシップがデータ マップに取り込めなかった場合 (たとえば、取り込み状態が例外で完了した場合など)、スキャン実行の詳細パネルに [ログのダウンロード] ボタンが表示されます。 エラーの詳細をキャプチャする例外ログ ファイルが提供されます。

次の表は、ログ ファイルのスキーマを示しています。

説明
TimeStamp インジェスト操作が発生した場合の UTC タイムスタンプ。
ErrorCode 例外のエラー コード。
OperationItem 失敗した資産/リレーションシップの識別子。通常は完全修飾名を使用します。
メッセージ どのような理由により、どの資産/リレーションシップが取り込みに失敗したかについて詳しく説明します。 リソース セットのインジェスト エラーが発生した場合は、同じ名前付けパターンに一致する複数の資産に適用される可能性があり、メッセージには影響を受ける数が含まれます。

現在、例外ログには、スキャン フェーズ中に発生したエラー (メタデータ検出) は含まれません。 後で追加されます。

他のサービスを Microsoft Purview に接続して "リンク" を確立すると、そのサービスの資産のメタデータと系列が Microsoft Purview で使用できるようになります。 現在、リンクは Azure Data Factory および Azure Synapse Analytics でサポートされています。

リンク経由で取り込まれた資産と関係を監視するには、

  1. Microsoft Purview アカウントに移動する ->Microsoft Purview ガバナンス ポータル -Data map ->Monitoring ->>Links を開きます。 [監視] タブにアクセスするには、任意のコレクションに データ ソース管理者 ロールが必要です。また、データ ソース管理者特権を持つコレクションに属する結果が表示されます。 Azure Data Factoryおよび Azure Synapse Analytics リンクを監視するには、ルート コレクションに対するアクセス許可が必要です。

  2. ソースの合計数、取り込まれた資産の数、リレーションシップ (系列)、その後に時間の経過に伴うトレンド チャートなど、高レベルの KPI を確認できます。 次に追加のフィルターを適用して、結果を絞り込むことができます。

    • ソースの種類
    • ソース名
    • 日付範囲: 既定値は 30 日です。 過去 7 日間またはカスタム日付範囲を選択することもできます。 リテンション期間は 45 日です。

    メトリックは、右上隅に表示される日付時刻まで報告されます。 また、集計は 1 時間ごとに行われます。

    リンクの結果の表示のスクリーンショット。

  3. グラフの下部には、[ 詳細を表示] リンクが表示され、さらに詳しく調べることができます。 [ リンクの状態] ページには、ソースの種類、取り込まれた資産、取り込まれたリレーションシップ、最後の実行日時と共にソース名の一覧が表示されます。 前のページのフィルターは引き継がれ、ソースの種類、ソース名、日付範囲でリストをさらにフィルター処理できます。

    ソース別のリンク結果の表示のスクリーンショット。

  4. ソース名をクリックすると、各ソースにドリルダウンして次のレベルの詳細を表示できます。 たとえば、Azure Data Factoryでは、各パイプライン アクティビティが資産と関係を Microsoft Purview に報告する方法と、名前が の形式<pipeline_name>/<activity_name>で表示されます。

    ソースのサブ成果物別のビュー リンクの結果のスクリーンショット。

既知の制限

  • Azure Data FactoryとAzure Synapse Analytics の場合、現在、このリンク監視では、コピー アクティビティから生成された資産とリレーションシップがキャプチャされますが、データ フローと SSIS アクティビティはキャプチャされません。
  • 集計と日付フィルターは UTC 時刻です。

スキャンが実行されなくなりました

Microsoft Purview スキャンが正常に実行されたのに失敗した場合は、次のことをチェックします。

  1. 最初にエラー メッセージを確認して、エラーの詳細を確認します。
  2. リソースの資格情報が変更されているか、ローテーションされていますか? その場合は、スキャンで正しい資格情報を使用するように更新する必要があります。
  3. ストレージ アカウントの更新を妨げるAzure Policyはありますか? その場合は、 Microsoft Purview 例外タグ ガイド に従って、Microsoft Purview アカウントの例外を作成します。
  4. セルフホステッド統合ランタイムを使用していますか? 最新のソフトウェアで最新の状態であり、ネットワークに接続されていることを確認します。

次の手順