Microsoft Purview 数据世系最佳做法

数据世系被广泛理解为跨越数据起源的生命周期,以及数据在数据资产中随时间推移的位置。 Microsoft Purview 可以在组织数据资产的不同部分以及不同准备级别捕获数据世系,包括:

  • 从各种平台暂存的原始数据
  • 转换和准备的数据
  • 可视化平台使用的数据

为什么需要采用世系?

数据世系是描述存在哪些数据、数据存储位置以及数据如何在系统之间流动的过程。 数据世系很重要的原因有很多,但从较高层面上讲,这些都可以归结为三个类别,我们将在此处探讨:

  • 跟踪报表中的数据
  • 影响分析
  • 捕获更改以及数据在数据生命周期中的驻留位置

Azure 数据工厂世系最佳做法和注意事项

Azure 数据工厂 实例

  • 在数据工厂连接状态变为“已连接”之前,不会自动向目录报告数据世系。 状态的其余部分“已断开连接”和“无法访问”无法捕获世系。

    显示数据工厂连接列表的屏幕截图。

  • 每个数据工厂实例只能连接到一个 Microsoft Purview 帐户。 可以在另一个 Microsoft Purview 帐户中建立新连接,但这会将现有连接变为断开连接。

    显示断开连接Azure 数据工厂的警告的屏幕截图。

  • 数据工厂的托管标识用于对 Microsoft Purview 帐户中的世系推送操作进行身份验证。 数据工厂的托管标识需要 Microsoft Purview 根集合上的数据管理员角色。

  • 目前,一次只能连接 10 个数据工厂。 如果要添加 10 个以上的数据工厂,请使用向导一次添加 10 个新的数据工厂连接,或使用 API 在一次操作中连接 10 个以上的数据工厂。

Azure 数据工厂活动

  • Microsoft Purview 从以下Azure 数据工厂活动中捕获运行时世系:

  • 如果源或目标使用不受支持的数据存储系统,则 Microsoft Purview 会删除世系。

  • 如果Azure 数据工厂复制活动使用“连接到Azure 数据工厂复制活动世系的限制”中列出的复制活动功能,则 Microsoft Purview 无法捕获世系

  • 对于数据流活动的世系,Microsoft Purview 仅支持源和接收器。 尚不支持数据流转换的世系。

  • 数据流世系不与 Microsoft Purview 资源集集成。 资源集示例:
    限定名称: https://myblob.blob.core.windows.net/sample-data/data{N}.csv 显示名称:“data”

  • 对于执行 SSIS 包活动的世系,我们仅支持源和目标。 尚不支持用于转换的世系。

    在 Microsoft Purview 中执行 SSIS 世系的屏幕截图。

  • 请参阅以下分步指南,在 Microsoft Purview 中推送Azure 数据工厂世系

后续步骤