你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是数据网格?

数据网格是一种体系结构模式,用于在大型和复杂的组织中实现企业数据平台。 数据网格有助于将分析采用扩展到单个平台和单个实现团队之外。

背景

对分析的需求并不是新生事物。 组织始终需要分析业务性能,并且自其引入以来,使用计算机执行此操作。 在 20 世纪 80 年代左右,组织开始使用专门用于决策支持的数据库来构建数据仓库解决方案。 这些数据仓库解决方案长时间为组织提供了良好的服务。

但是,随着业务的变化并生成更多样化的数据,使用关系数据库的数据仓库解决方案可能并不总是最佳解决方案。 在2000年代,大数据成为一个共同的术语。 企业采用了新的解决方案,允许分析大量可能以极速生成的各种数据。 这包括数据湖等技术,以及分析大量数据的横向扩展解决方案。

近年来,许多组织成功地使用了新式体系结构和分析模式,这些模式结合了数据仓库技术和近期开发出的大数据技术。

Diagram of architecture.

但是,某些组织在使用分析模式部署分析解决方案时遇到问题。 这些解决方案通常仍作为整体解决方案实现,其中单个团队是平台提供商,团队正在执行数据集成。 从团队设置的角度来看,具有高度集中化的小型组织和组织可以使用单个团队。 但是,仅使用单个团队的大型组织通常会造成瓶颈。 此瓶颈导致大量积压工作,导致组织部分等待数据集成服务和分析解决方案。

随着组织采用现代数据科学解决方案,这种模式变得更加常见。 许多现代数据科学解决方案需要比过去传统的商业智能解决方案更多的数据。

最近切换到使用微服务作为应用程序开发模式是围绕数据集成进行长时间积压的另一个驱动因素,因为它增加了数据源的数量。

处理大型组织中单个平台上所有数据引入的单个团队也可能有问题。 一个团队中很少配备了每个数据源的专家。 从业务角度看,大多数组织都是分散和分布式的。 不同的业务部门和部门处理业务运营的不同部分,因此数据专家通常分布在各个部门。

最近引入了一种称为数据网格的新体系结构模式来解决这些问题。 数据网格的目标是让分布式团队以分散和敏捷的方式处理和共享信息。

数据网格是一种技术模式,它也需要在组织中进行变革。 数据网格方法的优势是通过组建发布和使用数据产品的多学科团队来实现的。

以下概念是理解数据网格体系结构的基础:

  • 数据域
  • 数据产品
  • 自助服务平台
  • 联合治理

数据域

数据域是数据网格的基础。 数据域的概念来自域驱动开发(DDD),这是软件开发中通常用于对复杂软件解决方案进行建模的范例。 在数据网格中,数据域是围绕企业数据定义边界的方式。 域可能因组织而异,在某些情况下,你可以围绕组织定义域。 在其他情况下,可以选择基于业务流程或源系统对数据域进行建模。

数据域包括三个方面:

  • 你选择的边界使它们自己取得长期所有权。 它们存在很长一段时间,并且具有已确定的所有者。

  • 你的域应该与现实相匹配,而不仅仅是理论概念。

  • 域需有原子完整性。 如果区域之间不存在相互关系,请不要将它们组合在一个域中。

有关数据域及其定义方式的详细信息,请参阅 数据域

数据产品

数据产品是数据网格的另一个重要组成部分。 数据产品旨在将产品思维带入数据世界。 为了使数据产品取得成功,它需要为目标用户提供长期的商业价值。 在数据网格中,数据产品涉及数据、代码资产、元数据和相关策略。 数据产品可以作为 API、报告、表或数据湖中的数据集交付。

成功的数据产品必须具备以下特征:

  • 可用: 产品必须具有即时数据域之外的用户。
  • 有用:产品必须随着时间的推移保持价值。 如果它没有长期价值,则无法成功。
  • 可行:产品必须可行。 如果实际上无法生成它,则产品无法成功。 从数据可用性和技术角度看,产品必须是可行的。

数据产品的代码资产包括生成它的代码和交付它的代码。 代码资产还包括用于创建产品和产品最终报告的管道。

有关数据产品的详细信息,请参阅 Azure 中的云规模分析数据产品。

有关使用数据网格的具体指导,请参阅什么是数据产品?

自助服务平台

数据网格的核心是具有一个允许数据域自行构建其数据产品的平台。 数据域需要使用与用户相关的工具和流程来定义数据产品,而无需在中央平台或中心平台团队上具有很强的依赖关系。 在数据网格中,有自治团队开发和管理自治产品。

在对理解数据的业务用户使用和对齐的同时,请记住在平台上工作的通用主义者。 由于你有通用主义者,因此你不能拥有需要专业知识的专用工具,以作为基于网格的平台的核心基础运行。

通过采用自助式数据平台的设计注意事项中所述的做法,可以成功实现自助式平台。

联合治理

当采用自助分布式数据平台时,必须更加重视治理。 缺乏治理会导致数据域中出现孤岛和数据重复。 联合治理,因为了解治理需求的人员存在于域一致的团队和数据所有者之间。

若要创建联合治理,请围绕平台和数据需求实现自动化策略。 使用较高程度的自动化进行测试和监视。 采用代码优先的实现策略,将标准、策略、数据产品和平台部署作为代码进行处理。

有关实现联合治理方面的详细信息,请参阅 数据管理概述

总结

数据网格可以是实现企业数据平台的有效方式,但它不是适合所有组织的最佳解决方案。 数据网格要求组建可独立工作的自治团队。 数据网格最适合具有独立业务部门的大型复杂组织,并且需要将其分析采用扩展到单个平台和实施团队之外。

如果使用数据网格,请在实现治理时特别小心,以免造成孤岛。 始终将数据产品思维作为实现的核心,以确保成功。

后续步骤

数据域