你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Profisee 和 Azure 数据工厂进行主数据管理

Azure 数据工厂
Azure Databricks
Azure Data Lake

此体系结构模式演示了如何将 MDM 整合到 Azure 数据服务生态系统,以提高用于做出分析和运营决策的数据的质量。 MDM 解决了多种常见挑战,包括:

  • 识别和管理重复数据(匹配和合并)。
  • 标记和解决数据质量问题。
  • 标准化和扩充数据。
  • 让数据专员可以主动管理和改进数据。

此模式提供一种新式 MDM 方法。 所有技术都可以原生部署在 Azure 中,包括可以通过容器部署并使用 Azure Kubernetes 服务管理的 Profisee。

体系结构

Diagram showing the master data management Profisee data flow.

下载此体系结构中使用的关系图的 Visio 文件

数据流

以下数据流与上图相对应:

  1. 源数据加载:业务应用程序中的源数据将复制到 Azure Data Lake,再存储以供进一步转换并在下游分析中使用。 源数据通常分为以下三种:

    • 结构化主数据 – 描述客户、产品、位置等的信息。 主数据的数量较小、复杂性较高且会随着时间缓慢变化。 对于这些数据,组织通常会尽最大努力保持其数据质量。
    • 结构化事务数据 – 在特定时间点发生的业务事件,例如订单、发票或交互。 事务包括该事务的指标(例如销售价格)和对主数据的引用(例如,与购买事件相关的产品和客户)。 事务数据的数量通常较大,复杂性较低且不会随时间变化。
    • 非结构化数据 - 包括文档、图像、视频、社交媒体内容、音频。 新式分析平台可能会越来越多地使用非结构化数据来了解新见解。 非结构化数据通常与主数据相关联,例如客户与社交媒体帐户相关联,或产品与图像相关联。
  2. 源主数据加载:源业务应用程序中的主数据将“按原样”加载到 MDM 应用程序中,其中会加载完整的世系信息并进行少量的转换。

  3. 自动化 MDM 处理:MDM 解决方案使用自动化过程来标准化、验证和扩充数据(例如地址数据)。 此外,该解决方案还会识别数据质量问题、对重复记录(例如重复的客户)进行分组,并生成主记录(也称为“黄金记录”)。

  4. 数据管理:数据专员可以按需执行以下操作:

    • 查看和管理匹配的记录组
    • 创建和管理数据关系
    • 填写缺失的信息
    • 解决数据质量问题。

    数据专员可以根据需要管理多个备用分层集合(例如产品层次结构)。

  5. 托管主数据加载:高质量的主数据将流入下游分析解决方案。 此操作简化了这一过程,因为数据集成不再需要任何数据质量转换。

  6. 事务数据和非结构化数据加载:事务数据和非结构化数据将加载到下游分析解决方案,并在其中与高质量的主数据合并。

  7. 可视化和分析:数据将被建模并提供给业务用户进行分析。 高质量的主数据消除了常见的数据质量问题,这样可以获得改进的见解。

组件

  • Azure 数据工厂是一种混合数据集成服务,通过它可创建、计划和协调 ETL 和 ELT 工作流。

  • Azure Data Lake 为分析数据提供无限制存储。

  • Profisee 是可缩放的 MDM 平台,可以轻松与 Microsoft 生态系统集成。

  • Azure Synapse Analytics 是快速、灵活且受信任的云数据仓库,让你可以使用大规模并行处理体系结构以弹性且独立的方式缩放、计算和存储数据。

  • Power BI 是一套业务分析工具,用于在整个组织内提供见解。 连接数百个数据源、简化数据准备工作、加快临时分析。 生成美观的报表,然后发布它们,供组织在 Web 和移动设备上使用。

备选方法

如果没有专门构建的 MDM 应用程序,可以在 Azure 生态系统中找到构建 MDM 解决方案所需的一些技术功能。

  • 数据质量 - 加载到分析平台时,可以将数据质量构建到集成过程中。 例如,使用硬编码脚本在 Azure 数据工厂管道中应用数据质量转换。
  • 数据标准化和扩充 - Azure Maps 帮助实现地址数据的数据验证和标准化,这可用于 Azure Functions 和 Azure 数据工厂。 标准化其他数据可能需要开发硬编码脚本。
  • 重复数据管理 - 可以使用 Azure 数据工厂来删除重复行,其中有足够的标识符可用于完全匹配。 在这种情况下,与适当的存留规则匹配的合并逻辑可能需要自定义硬编码脚本。
  • 数据管理 - 使用 Power Apps 快速开发简单的数据管理解决方案来管理 Azure 中的数据,以及用于审查、工作流、警报和验证的相应用户界面。

方案详细信息

许多数字化转型计划都以 Azure 为核心。 但它依赖的是来自多个源(例如业务应用程序、数据库、数据馈送等)的数据的质量和一致性。 此外,它还通过商业智能、分析、机器学习等提供价值。 Profisee 的主数据管理 (MDM) 解决方案通过一种实用的方法来“对齐和组合”来自多个源的数据,以此完善了 Azure 数据资产。 为此,它对源数据强制实施一致的数据标准(例如匹配、合并、标准化、验证、更正)。 与 Azure 数据工厂和其他 Azure 数据服务的原生集成进一步简化了此过程,可以加速实现 Azure 业务优势。

MDM 解决方案工作原理的一个核心点在于,它们将来自多个源的数据相组合以创建一个“黄金主记录”,其中包含每条记录的确认且可信的数据。 这种结构是根据要求按每个域构建的,但几乎总是需要多个域。 常见域包括客户、产品和位置。 但域可以代表从参考数据到合同和药品名称的任何内容。 一般而言,可相对于广泛的 Azure 数据要求构建的域覆盖范围越大,效果就越好。

MDM 集成管道

Image that shows the master data management Profisee integration pipeline.

下载此体系结构的 Visio 文件

上图显示了与 Profisee MDM 解决方案集成的详细信息。 请注意,Azure 数据工厂和 Profisee 原生支持 REST 集成,可以提供轻型的新式集成。

  1. 将源数据加载到 MDM:Azure 数据工厂从数据湖中提取数据,对其进行转换以匹配主数据模型,然后通过 REST 接收器将其流式传输到 MDM 存储库。

  2. MDM 处理:MDM 平台通过一系列活动处理源主数据,以验证、标准化和扩充数据,并执行数据质量过程。 最后,MDM 执行匹配和存留检查,以识别和分组重复记录并创建主记录。 (可选)数据专员可以执行任务来生成一组主数据以供在下游分析中使用。

  3. 加载主数据进行分析:Azure 数据工厂使用其 REST 源将主数据从 Profisee 流式传输到 Azure Synapse Analytics。

Profisee 的 Azure 数据工厂模板

Profisee 与 Microsoft 合作开发了一组 Azure 数据工厂模板,用于更快、更轻松地将 Profisee 集成到 Azure 数据服务生态系统中。 这些模板使用 Azure 数据工厂 REST 数据源和数据接收器从 Profisee 的 REST 网关 API 读取和写入数据。 提供了用于在 Profisee 中读取和写入数据的模板。

Screenshot that shows MDM Profisee and the Azure Data Factory template.

示例数据工厂模板:通过 REST 将 JSON 数据复制到 Profisee

以下屏幕截图演示了一个 Azure 数据工厂模板,该模板通过 REST 将 Azure Data Lake 中 JSON 文件的数据复制到 Profisee。

此模板复制源 JSON 数据:

Screenshot that shows the source JSON data.

然后,数据通过 REST 同步到 Profisee:

Screenshot that shows REST sync to Profisee.

有关详细信息,请参阅 Profisee 的 Azure 数据工厂模板

MDM 处理

在 MDM 分析用例中,数据通常 MDM 解决方案自动进行处理以加载数据进行分析。 以下部分演示了此上下文中客户数据的典型处理过程。

1. 加载源数据

源数据(包括世系信息)从源系统加载到 MDM 解决方案中。 在本例中有两条源记录,一条来自 CRM,另一条来自 ERP 应用程序。 根据目视检查,它们似乎都代表同一个人。

源名称 源地址 源状态 源电话号码 源 ID 标准地址 标准状态 标准姓名 标准电话号码 相似度
Alana Bosh 123 Main Street GA 7708434125 CRM-100
Bosch, Alana 123 Main St. 格鲁吉亚 404-854-7736 CRM-121
Alana Bosch (404) 854-7736 ERP-988

2. 验证和标准化数据

验证和标准化规则与服务用于标准化和验证地址、姓名和电话号码信息。

源名称 源地址 源状态 源电话号码 源 ID 标准地址 标准状态 标准姓名 标准电话号码 相似度
Alana Bosh 123 Main Street GA 7708434125 CRM-100 123 Main St. GA Alana Bosh 770 843 4125
Bosch, Alana 123 Main St. 格鲁吉亚 404-854-7736 CRM-121 123 Main St. GA Alana Bosch 404 854 7736
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736

3. 匹配

数据标准化后,将进行匹配,进而识别组中记录的相似性。 在此场景中,有两条记录的“姓名”和“电话号码”完全匹配,而“姓名”和“地址”存在其他模糊匹配项。

源名称 源地址 源状态 源电话号码 源 ID 标准地址 标准状态 标准姓名 标准电话号码 相似度
Alana Bosh 123 Main Street GA 7708434125 CRM-100 123 Main St. GA Alana Bosh 770 843 4125 0.9
Bosch, Alana 123 Main St. 格鲁吉亚 404-854-7736 CRM-121 123 Main St. GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0

4. 存留

构建某个组后,存留机制将创建并填充一条主记录(也称为“黄金记录”)来代表该组。

源名称 源地址 源状态 源电话号码 源 ID 标准地址 标准状态 标准姓名 标准电话号码 相似度
Alana Bosh 123 Main Street GA 7708434125 CRM-100 123 Main St. GA Alana Bosh 770 843 4125 0.9
Bosch, Alana 123 Main St. 格鲁吉亚 404-854-7736 CRM-121 123 Main St. GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0
主记录: 123 Main St. GA Alana Bosch 404 854 7736

此主记录以及改进的源数据和世系信息加载到下游分析解决方案,并在其中链接到事务数据。

此示例演示了基本的自动化 MDM 处理。 还可以使用数据质量规则自动计算和更新值,并标记缺失或无效值以供数据专员解决。 数据专员帮助管理数据,包括管理数据的分层集合。

MDM 对集成复杂性的影响

如前所示,MDM 解决了在将数据集成到分析解决方案时面临的多种常见难题。 它可以更正数据质量问题、标准化和扩充数据以及合理化重复数据。 将 MDM 整合到分析体系结构可以通过消除集成过程中的硬编码逻辑并将其卸载到 MDM 解决方案来从根本上改变数据流,从而大幅简化集成。 下表概述了使用和不使用 MDM 的集成过程的一些常见差异。

功能 不使用 MDM 使用 MDM
数据质量 集成过程包括质量规则和转换,用于在数据移动时修复和更正数据。 这些规则的初始实现和持续维护都需要技术资源,使数据集成过程变得复杂,且开发和维护成本变得高昂。 MDM 解决方案配置并强制实施数据质量逻辑和规则。 集成过程不会执行数据质量转换,而是将数据“按原样”移入 MDM 解决方案。 数据集成过程的开发和维护比较简单且成本不高。
数据标准化和扩充 集成过程包括标准化和对齐参考数据与主数据的逻辑。 开发与第三方服务的集成,以实现地址、姓名、电子邮件和电话号码数据的标准化。 通过使用内置规则和与第三方数据服务的现成集成,可以在 MDM 解决方案中标准化数据,从而简化集成过程。
重复数据管理 在集成过程中,会根据现有的唯一标识符来标识和分组应用程序内部和不同应用程序之间的重复记录。 此过程跨系统(例如 SSN 或电子邮件)共享标识符,并且只能在这些标识符相同时才匹配并分组这些记录。 更复杂的方法需要对集成工程进行大量投资。 内置的机器学习匹配功能可以识别系统内部和不同系统之间的重复记录,并生成黄金记录来代表组。 通过此过程,记录可以“模糊匹配”,对相似的记录进行分组,并得到可解释的结果。 可以在 ML 引擎无法以较高置信度构建组的情况下对组进行管理。
数据管理 数据管理活动仅更新源应用程序(如 ERP 或 CRM)中的数据。 通常这些活动在执行分析时会发现问题,例如数据缺失、不完整或不正确。 这些问题将在源应用程序中得到纠正,然后在下次更新期间在分析解决方案中更新。 将任何要管理的新信息添加到源应用程序,这可能需要付出一些时间和高昂的成本。 MDM 解决方案内置了数据管理功能,使用户能够访问和管理数据。 理想情况下,系统会标记问题并提示数据专员予以纠正。 在解决方案中快速配置新信息或层次结构,以便数据专员对其进行管理。

MDM 用例

尽管 MDM 有很多用例,但只有少数用例涵盖了大多数实际的 MDM 实现。 不过,这些用例侧重于单个域,它们不太可能仅从该域构建。 换句话说,即使这些聚焦用例也很可能包括多个主数据域。

全面了解客户

整合客户数据进行分析是最常见的 MDM 用例。 组织在越来越多的应用程序中捕获客户数据,这会在应用程序内部和应用程序之间创建重复的客户数据,并且存在不一致和差异。 这些质量较差的客户数据会导致新式分析解决方案的价值难以实现。 具体表现包括:

  • 很难回答一些基本的业务问题,例如“谁是我们的主要客户”以及“我们有多少新客户”,回答这些问题需要大量的手动工作。
  • 客户信息缺失和不准确,使得难以汇总或向下钻取数据。
  • 由于无法跨组织和系统边界唯一地标识客户,因而无法跨系统或业务部门分析客户数据。
  • 由于输入数据质量不佳,AI 和机器学习的见解质量很差。

产品 360

产品数据通常分布在多个企业应用程序中,例如 ERP、PLM 或电子商务。 其结果是很难理解具有不一致属性(如产品的名称、说明和特征)定义的整个产品目录。 而参考数据的定义不同进一步使这种情况复杂化。 具体表现包括:

  • 无法为产品分析支持不同的分层汇总和向下钻取路径。
  • 无论是成品还是材料库存,你都很难准确地了解你手头有什么产品,你的产品是购买的哪个供应商的,你是否有重复的产品,这会导致库存过剩。
  • 由于定义冲突,难以合理化产品,从而导致分析中信息缺失或不准确。

参考数据 360

在分析的上下文中,参考数据以大量数据列表的形式存在,用于进一步描述其他主数据集。 参考数据可以包括国家和地区、货币、颜色、大小和度量单位的列表。 参考数据不一致会导致下游分析中出现明显的错误。 具体表现包括:

  • 同一对象多个表示形式。 例如,佐治亚州用“GA”和“Georgia”表示,这使得难以一致地聚合和向下钻取数据。
  • 由于无法在系统之间交叉使用参考数据值,难以聚合来自不同应用程序的数据。 例如,红色在 ERP 系统中用“R”表示,在 PLM 系统中显示为“Red”。
  • 由于用于对数据进行分类的商定参考数据值存在差异,组织之间的数字难以匹配。

财务 360

金融机构高度依赖于数据来进行关键活动,如月度、季度和年度报告。 拥有多个财务和会计系统的组织通常拥有跨多个总账的财务数据,合并这些数据才能生成财务报表。 MDM 可以提供一个集中的位置来将帐户、成本中心、业务实体和其他财务数据集映射到一个合并视图,在视图中进行管理。 具体表现包括:

  • 难以将跨多个系统的财务数据聚合到一个合并视图中。
  • 缺乏在财务系统中添加和映射新数据元素的流程。
  • 延迟编制期末财务报表。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负载质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

可靠性

可靠性可确保应用程序符合你对客户的承诺。 有关详细信息,请参阅可靠性支柱概述

Profisee 在 Azure Kubernetes 服务和 Azure SQL 数据库上本机运行。 这两项服务都提供现成的功能,以支持高可用性。

性能效率

性能效率是指工作负载能够以高效的方式扩展以满足用户对它的需求。 有关详细信息,请参阅性能效率要素概述

Profisee 在 Azure Kubernetes 服务和 Azure SQL 数据库上本机运行。 可以配置 Azure Kubernetes 服务来纵向扩展和横向扩展 Profisee,具体取决于你的需求。 可以在多种不同的配置中部署 Azure SQL 数据库,以平衡性能、可伸缩性和成本。

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

Profisee 使用实现 OAuth 2.0 身份验证流的 OpenID Connect 对用户进行身份验证。 大多数组织将 Profisee 配置为针对 Microsoft Entra ID 对用户进行身份验证。 此过程可确保应用并强制实施企业身份验证策略。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

运行成本包括软件许可证和 Azure 消耗。 有关详细信息,请联系 Profisee

部署此方案

若要部署此方案,请执行以下操作:

  1. 使用 ARM 模板将 Profisee 部署到 Azure。
  2. 创建 Azure 数据工厂
  3. 将 Azure 数据工厂配置为连接到 Git 存储库
  4. 向 Azure 数据工厂 Git 存储库添加 Profisee 的 Azure 数据工厂模板
  5. 使用模板创建新的 Azure 数据工厂管道。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤

体系结构指南

参考体系结构