Microsoft Purview 集合体系结构和最佳做法

数据映射是 Microsoft Purview 统一数据治理解决方案的核心,是一种平台即服务, (PaaS) 组件,可在整个数据资产中保留资产及其元数据的最新映射。 若要冻结数据映射,需要注册并扫描数据源。 在组织中,可能有数千个数据源由集中式或分散式团队管理和治理。

Microsoft Purview 中的集合支持元数据的组织映射。 通过使用集合,可以管理和维护层次结构中的数据源、扫描和资产,而不是平面结构。 集合允许你根据组织计划如何使用 Microsoft Purview 来管理你的环境来构建数据布局的自定义分层模型。

集合还为数据映射中的元数据提供安全边界。 基于 Microsoft Purview 中的集合层次结构设置和维护对集合、数据源和元数据的访问,遵循最低特权模型:

  • 用户具有执行其作业所需的最小访问权限。
  • 用户无权访问他们不需要的敏感数据。

为什么需要为 Microsoft Purview 帐户定义集合和授权模型?

考虑在 Microsoft Purview 中部署集合以满足以下要求:

  • 根据业务需求、数据的地理分布以及数据管理团队、部门或业务职能来组织数据源、分配资产并运行扫描。

  • 通过将角色分配给相应的集合,将数据源和资产的所有权委托给相应的团队。

  • 按集合搜索和筛选资产。

定义集合层次结构

设计建议

  • 建议根据组织的安全要求以及数据管理和治理结构设计集合体系结构。 查看本文中建议 的集合原型

  • 为了将来的可伸缩性,我们建议在根集合下为组织创建顶级集合。 在顶级集合而不是根集合中分配相关角色。

  • 在 Microsoft Purview 中生成集合时,将安全性和访问管理视为设计决策过程的一部分。

  • 每个集合都有一个 name 属性和一个友好名称属性。 如果使用 Microsoft Purview 治理门户 部署集合,系统会自动为集合分配随机六字母名称,以避免重复。 若要降低复杂性,请避免跨集合使用重复的友好名称,尤其是在同一级别。

  • 目前,集合名称最多可以包含 36 个字符,集合友好名称最多可以包含 100 个字符。

  • 如果可以,请避免将组织结构复制到深层嵌套的集合层次结构中。 如果无法避免这样做,请确保对层次结构中的每个集合使用不同的名称,以使集合易于区分。

  • 如果计划批量部署集合和角色分配,请使用 API 自动部署集合。

  • 使用专用服务主体名称 (SPN) ,通过 API 对集合和角色分配运行操作。 使用 SPN 可以减少具有提升权限并遵循最低特权准则的用户数。

设计注意事项

  • 每个 Microsoft Purview 帐户都是使用默认 根集合创建的。 根集合名称与 Microsoft Purview 帐户名称相同。 无法删除根集合。 若要更改根集合的友好名称,可以从 Microsoft Purview 管理中心更改 Microsoft Purview 帐户的友好名称。

  • 集合可以保存数据源、扫描、资产和角色分配。

  • 集合可以根据需要具有任意数量的子集合。 但每个集合只能有一个父集合。 不能在根集合之上部署集合。

  • 数据源、扫描和资产只能属于一个集合。

  • Microsoft Purview 中的集合层次结构可以支持多达 256 个集合,最多支持 8 个深度级别。 这不包括根集合。

  • 根据设计,无法在单个 Microsoft Purview 帐户中多次注册数据源。 此体系结构有助于避免将不同级别的访问控制分配给单个数据源的风险。 如果多个团队使用单个数据源的元数据,则可以在父集合中注册和管理数据源。 然后,可以在每个子集合下创建相应的扫描,以便相关资产显示在每个子集合下。

  • 即使数据源在较低级别的集合中注册,沿袭连接和项目也会附加到根集合。

  • 运行新扫描时,默认情况下,扫描部署在数据源所在的集合中。 可以选择选择其他子集合来运行扫描。 因此,资产将属于子集合下。

  • 如果集合没有任何资产、关联的扫描、数据源或子集合,则可以删除该集合。

  • 数据源、扫描和资产必须属于集合(如果它们存在于 Microsoft Purview 数据映射中)。

  • 如果用户被授予源集合和目标集合的数据源管理员角色,则允许跨集合移动数据源。

  • 如果用户被授予源集合和目标集合的数据策展人角色,则允许跨集合移动资产。

  • 若要对集合执行移动和重命名操作,请查看以下建议和注意事项:

    1. 若要重命名集合,必须是集合管理员角色的成员。

    2. 若要移动集合,你必须是源集合和目标集合的集合管理员角色的成员。

定义授权模型

Microsoft Purview 数据平面角色在 Microsoft Purview 中进行管理。 部署 Microsoft Purview 帐户后,Microsoft Purview 帐户的创建者会自动在根集合中分配以下角色。 可以使用 Microsoft Purview 治理门户 或编程方法直接分配和管理 Microsoft Purview 中的角色。

  • 集合管理员可以 编辑 Microsoft Purview 集合及其详细信息并添加子集合。 他们还可以将用户添加到其管理员所在的集合上的其他 Microsoft Purview 角色。
  • 数据源管理员可以 管理数据源和数据扫描。
  • 数据策展人 可以创建、读取、修改和删除目录数据资产,并在资产之间建立关系。
  • 数据读取器 可以访问目录数据资产,但不能修改目录数据资产。

设计建议

  • 请考虑在 Microsoft Purview 根集合级别为集合管理员角色实施紧急访问或打破策略,以避免 Microsoft Purview 帐户级锁定。 记录使用紧急帐户的过程。

    注意

    在某些情况下,可能需要使用紧急帐户登录到 Microsoft Purview。 当其他人无法登录 Microsoft Purview 或其他管理员由于公司身份验证问题而无法完成某些操作时,可能需要使用此类型的帐户来解决组织级访问问题。 强烈建议你遵循 Microsoft 有关使用仅限云的用户实现 紧急访问帐户 的最佳做法。

    如果以前的集合管理员不可用,请按照本文中的说明恢复对 Microsoft Purview 根集合的访问权限。

  • 尽量减少根集合管理员的数量。 在根集合中分配最多三个集合管理员用户,包括 SPN 和打破帐户。 将集合管理员角色分配给顶级集合或子集合。

  • 将角色分配给组而不是单个用户,以减少管理开销和管理单个角色时出现的错误。

  • 在根集合中分配服务主体以实现自动化。

  • 若要提高安全性,请至少为集合管理员、数据源管理员和数据策展人启用多重身份验证的 Azure AD 条件访问。 确保从条件访问策略中排除紧急帐户。

设计注意事项

  • Microsoft Purview 访问管理已进入数据平面。 不再使用 Azure 资源管理器角色,因此应使用 Microsoft Purview 来分配角色。

  • 在 Microsoft Purview 中,可以将角色分配给用户、安全组和服务主体, (包括来自 Azure Active Directory) 的托管标识 (Azure AD) 部署 Microsoft Purview 帐户的同一 Azure AD 租户。

  • 必须先将来宾帐户作为 B2B 用户添加到 Azure AD 租户,然后才能将 Microsoft Purview 角色分配给外部用户。

  • 默认情况下,集合管理员无权读取或修改资产。 但他们可以提升其访问权限,并将自己添加到更多角色。

  • 默认情况下,所有角色分配都由所有子集合自动继承。 但是,可以对任何集合(根集合除外)启用 “限制继承权限 ”。 限制继承的权限会从所有父集合中删除继承的角色,集合管理员角色除外。

  • 对于Azure 数据工厂连接:若要连接到Azure 数据工厂,必须是根集合的集合管理员。

  • 如果需要连接到Azure 数据工厂进行世系,请在 Microsoft Purview 根集合级别向数据工厂的托管标识授予数据管理员角色。 将数据工厂连接到创作 UI 中的 Microsoft Purview 时,数据工厂会尝试自动添加这些角色分配。 如果在 Microsoft Purview 根集合上具有集合管理员角色,则此操作将起作用。

集合原型

可以根据集中式、分散式或混合数据管理和治理模型部署 Microsoft Purview 集合。 此决策基于业务和安全要求。

示例 1:单区域组织

此结构适用于以下组织:

  • 主要基于单个地理位置。
  • 拥有一个集中式数据管理和治理团队,其中下一级别的数据管理属于部门、团队或项目。

集合层次结构由以下垂直部分组成:

  • 根集合 (默认)
  • Contoso (顶级集合)
  • 部门为每个部门 (委托集合)
  • 团队或项目 (基于项目) 进一步隔离

每个数据源在其相应的集合中注册和扫描。 因此,资产也会出现在同一集合中。

组织级别的共享数据源在 Hub-Shared 集合中注册和扫描。

部门级共享数据源在部门集合中注册和扫描。

显示第一个 Microsoft Purview 集合示例的屏幕截图。

示例 2:多区域组织

此方案适用于组织:

  • 这在多个区域中存在。
  • 其中,数据治理团队在每个区域中集中或分散。
  • 其中,数据管理团队分布在每个地理位置。

集合层次结构由以下垂直部分组成:

  • 根集合 (默认)
  • FourthCoffee (顶级集合)
  • 根据数据源和数据所有者所在的地理位置,地理位置 (中级集合)
  • 部门为每个部门 (委托集合)
  • 团队或项目 (基于团队或项目) 进一步隔离

在此方案中,每个区域在 Microsoft Purview 帐户的顶级集合下都有一个自己的子集合。 数据源在其所在地理位置的相应子集合中注册和扫描。 因此,资产也会显示在区域的子集合层次结构中。

如果你有集中式数据管理和治理团队,则可以从顶级集合授予他们访问权限。 当你这样做时,他们会获得对数据映射中整个数据资产的监督。 (可选)集中式团队可以注册和扫描任何共享数据源。

基于区域的数据管理和治理团队可以从较低级别的相应集合获取访问权限。

部门级共享数据源在部门集合中注册和扫描。

显示第二个 Microsoft Purview 集合示例的屏幕截图。

示例 3:多区域、数据转换

如果要根据地理位置和数据转换状态分发元数据访问管理,则此方案非常有用。 可以转换数据以使其更有意义的数据科学家和数据工程师可以管理原始区域和精简区域。 然后,他们可以将数据移动到“生成”或“特选”区域。

集合层次结构由以下垂直部分组成:

  • 根集合 (默认)
  • Fabrikam (顶级集合)
  • 根据数据源和数据所有者所在的地理位置,地理位置 (中级集合)
  • 数据转换阶段 (原始、优化、生成/策展)

数据科学家和数据工程师可以在其相应的区域上拥有数据策展人角色,以便他们可以策展元数据。 可以向整个数据角色和业务用户授予对特选区域的数据读取者访问权限。

显示第三个 Microsoft Purview 集合示例的屏幕截图。

示例 4:多区域、业务函数

需要根据业务职能组织元数据和访问管理的组织可以使用此选项。

集合层次结构由以下垂直部分组成:

  • 根集合 (默认)
  • AdventureWorks (顶级集合)
  • 根据数据源和数据所有者所在的地理位置,地理位置 (中级集合)
  • 主要业务职能部门或客户端 (基于职能或客户端) 进一步隔离

每个区域在 Microsoft Purview 帐户的顶级集合下都有自己的子集合。 数据源在其所在地理位置的相应子集合中注册和扫描。 因此,资产将添加到区域的子集合层次结构中。

如果你有集中式数据管理和治理团队,则可以从顶级集合授予他们访问权限。 当你这样做时,他们会获得对数据映射中整个数据资产的监督。 (可选)集中式团队可以注册和扫描任何共享数据源。

基于区域的数据管理和治理团队可以从较低级别的相应集合获取访问权限。 每个业务部门都有自己的子集合。

显示第四个 Microsoft Purview 集合示例的屏幕截图。

访问管理选项

如果要在整个组织中实现数据大众化,请将顶级集合中的数据读取者角色分配给数据管理、治理和业务用户。 将子集合级别的数据源管理员和数据策展人角色分配给相应的数据管理和治理团队。

如果需要限制对组织中元数据搜索和发现的访问,请在特定的集合级别分配数据读取者和数据策展人角色。 例如,可以限制美国员工,以便他们只能在美国集合级别读取数据,而不能在 LATAM 集合中读取数据。

如果需要完全数据大众化,但某些集合有一些例外,则可以在 Microsoft Purview 数据映射中应用这两种方案的组合。 可以在顶级集合中分配 Microsoft Purview 角色,并将继承限制为特定的子集合。

将集合管理员角色分配给顶级集合的集中式数据安全和管理团队。 将较低级别集合的进一步集合管理委托给相应的团队。

后续步骤