在 Microsoft Purview 中监视数据映射填充

在 Microsoft Purview 中,可以扫描各种类型的数据源并查看一段时间内的扫描状态;还可以将其他服务与 Microsoft Purview 连接,并查看引入的资产/关系的趋势。 本文概述了如何监视和获取数据地图总体的鸟瞰图。

监视扫描运行

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 打开 Microsoft Purview 帐户,然后选择“ 数据映射 ->监视”。 需要对任何集合具有 数据源管理员 角色才能访问此页面。 你将看到属于具有数据源管理员权限的集合的扫描运行。

  3. 高级 KPI 显示一段时间内的扫描运行总数。 该时间段默认为过去 30 天,还可以选择过去 7 天。 根据所选的时间筛选器,可以在图形中查看按周或按日划分的成功、失败、取消和正在进行的扫描运行的分布情况。

    查看一段时间内的扫描运行

  4. 在图形底部,有一个 “查看更多” 链接供你进一步探索。 该链接将打开 “扫描状态 ”页。 在这里,可以看到扫描名称及其在时间段内成功、失败或取消的次数。 还可以按源类型筛选列表。

    查看扫描状态的详细信息

  5. 可以通过选择扫描名称进一步浏览特定 扫描。 它会将你连接到扫描历史记录页,你可以在其中找到运行 ID 列表,其中包含更多执行详细信息。

    查看给定扫描的扫描历史记录

  6. 可以单击运行 ID 以检查有关扫描运行详细信息的详细信息。

已知限制:

目前,此监视体验不包括以下信息。 可以检查相应的扫描运行详细信息

  • 状态和持续时间仅包括从源) 发现 (扫描阶段,不包括引入阶段。 与扫描运行详细信息面板相比,你可能会看到差异。
  • 不涵盖Azure SQL数据库的世系提取扫描运行。
  • 对于 Azure Synapse Analytics 工作区、Azure 订阅/资源组和 AWS 帐户的扫描,它仅捕获父扫描运行的状态/计数,而不捕获每个资源的子扫描运行。

扫描运行详细信息

可以导航到从不同位置扫描给定扫描的运行历史记录:

  • “监视扫描运行”部分中所述,转到“数据映射 -> 监视”。
  • 转到数据映射 -> -> 选择所需的数据源 -> 请参阅扫描最近扫描最近失败的扫描
  • 转到 数据映射 ->集合 -> 选择所需的集合 ->扫描 -> 选择要查看更多的扫描名称。

扫描运行历史记录的保留期为 90 天。

可以单击运行 ID 以检查有关扫描运行详细信息的详细信息:

视图扫描运行执行详细信息的屏幕截图。

  • 运行 ID:用于标识给定扫描运行的 GUID。

  • 运行类型:完全扫描或增量扫描。

  • “扫描 ”部分汇总了 Purview 连接到源的发现阶段的指标,提取元数据/世系并分类数据。

    • 扫描状态

      状态 说明
      已完成 扫描阶段成功。
      已失败 扫描阶段失败。 可以通过单击旁边的“更多信息”链接来检查错误详细信息。
      已取消 扫描运行由用户取消。
      正在进行中 扫描正在运行。
      已排队 扫描运行正在等待可用的集成运行时资源。
      如果使用自承载集成运行时,请注意,每个节点可以同时运行多个并发扫描,具体取决于计算机规范 (CPU 和内存) 。 更多扫描处于“已排队”状态。
      扼杀 正在限制扫描运行。 这意味着此 Microsoft Purview 帐户目前具有比允许的最大并发计数更多的持续扫描运行。 在此处详细了解限制。 此特定扫描运行正在等待,将在其他正在进行的扫描 () 完成后执行。

      在“已限制”或“已排队”状态期间,不会对扫描运行收费。

    • 扫描类型:手动或计划扫描。

    • 发现的资产:从源中枚举的资产数。 对于完整扫描和增量扫描,它包括配置范围中的所有资产,无论它们是现有资产还是自上次扫描运行以来新创建/更新的资产。 对于增量扫描,仅提取新创建或更新的资产的详细元数据。

    • 分类的资产:为对数据进行分类而采样的资产数,无论资产是否具有任何匹配的分类。 它是基于 采样机制的已发现资产的子集。 对于增量扫描,只能选择新创建或更新的资产进行分类。

    • 持续时间:扫描阶段持续时间和开始/结束时间。

  • 数据引入 部分汇总了 Purview 使用标识的元数据和关系填充数据映射的引入阶段的指标。

    • 引入状态

      状态 说明
      已完成 所有资产和关系都已成功引入数据映射。
      已完成,但 (以前的“部分已完成”) 部分资产和关系已成功引入数据映射,而某些资产和关系会失败。
      已失败 引入阶段失败。
      已取消 扫描运行由用户取消,因此会一起取消引入。
      正在进行中 引入正在进行中。
      已排队 引入正在等待可用的服务资源或等待扫描以发现元数据。
    • 引入的资产:引入到数据映射中的资产数。 对于增量扫描,它仅包括新创建或更新的资产,在这种情况下,可能小于“发现的资产”计数。 扫描基于文件的源时,它是资源集聚合前的原始资产计数。

    • 引入的关系:引入到数据映射中的关系数。 它包括世系和其他关系,如外键关系。

    • 持续时间:引入持续时间和开始/结束时间。

查看异常日志 (预览版)

当某些资产或关系在扫描期间无法引入到数据映射中时,例如,引入状态最终显示为已完成但异常,可以在扫描运行详细信息面板中看到“下载日志”按钮。 它提供捕获失败详细信息的异常日志文件。

下表显示了日志文件的架构。

说明
TimeStamp 引入操作发生时的 UTC 时间戳。
ErrorCode 异常的错误代码。
OperationItem 失败的资产/关系的标识符,通常使用完全限定的名称。
邮件 有关由于什么原因未能引入哪些资产/关系的详细信息。 如果资源集的引入失败,则它可能会应用于匹配同一命名模式的多个资产,并且消息包含受影响的计数。

目前,异常日志不包括在扫描阶段 (元数据发现) 发生的失败。 稍后将添加它。

可以将其他服务与 Microsoft Purview 连接,以建立“链接”,使该服务资产的元数据和世系可供 Microsoft Purview 使用。 目前,Azure 数据工厂Azure Synapse Analytics 支持链接。

监视通过链接引入的资产和关系:

  1. 转到 Microsoft Purview 帐户 -> 打开 Microsoft Purview 治理门户 ->数据映射 ->监视 ->链接。 需要对任何集合具有 数据源管理员 角色才能访问“监视”选项卡。你将看到属于具有数据源管理员权限的集合的结果。 需要对根集合具有权限才能监视Azure 数据工厂和Azure Synapse Analytics 链接。

  2. 可以看到高级 KPI,包括源总数、引入的资产数和关系 (世系) ,然后是随时间推移的趋势图表。 可对以下内容应用其他筛选器,以缩小结果范围:

    • 源类型
    • 源名称
    • 日期范围:默认值为 30 天。 还可以选择过去 7 天或自定义日期范围。 保留期为 45 天。

    指标将报告到右上角显示的日期时间。 聚合将每小时发生一次。

    查看链接结果的屏幕截图。

  3. 在图形底部,有一个 “查看更多” 链接供你进一步探索。 在 “链接状态 ”页中,可以看到源名称的列表,以及源类型、引入的资产、引入的关系和上次运行日期时间。 将传递上一页中的筛选器,你可以按源类型、源名称和日期范围进一步筛选列表。

    按源查看链接结果的屏幕截图。

  4. 可以通过单击源名称向下钻取到每个源以查看下一级别的详细信息。 例如,对于 Azure 数据工厂,它显示每个管道活动如何以 格式<pipeline_name>/<activity_name>报告资产和与 Microsoft Purview 的关系。

    按源的子项目查看链接结果的屏幕截图。

已知限制

  • 对于 Azure 数据工厂 和 Azure Synapse Analytics,此链接监视当前捕获从复制活动生成的资产和关系,但不会捕获数据流和 SSIS 活动。
  • 聚合和日期筛选器采用 UTC 时间。

扫描不再运行

如果 Microsoft Purview 扫描过去成功运行,但现在失败,检查以下事项:

  1. 首先检查错误消息以查看失败详细信息。
  2. 是否已更改或轮换了资源的凭据? 如果是这样,则需要进行更新,使扫描使用正确的凭据。
  3. 是否Azure Policy阻止对存储帐户进行更新? 如果是这样,请按照 Microsoft Purview 异常标记指南 为 Microsoft Purview 帐户创建例外。
  4. 是否使用自承载集成运行时? 检查它是否是最新的软件,以及它是否已连接到你的网络。

后续步骤