你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Microsoft Purview 跨 Azure Data Lake 进行数据管理

Azure 数据工厂
Microsoft Purview
Azure Data Lake Storage
Azure Synapse Analytics
Power BI

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

本文介绍一种解决方案,该解决方案使用 Azure Purview 为数据治理和管理构建基础,以便生成和交付高质量的受信任数据。

体系结构

Architecture diagram that shows how Azure Purview scans and classifies data.

图中显示了 Azure Purview 如何扫描数据以及如何对数据进行分类。 Data Lake Storage 通过新式数据平台连接到 Azure Purview。 Azure Purview 还连接到 Power BI。 该图还显示了这些服务与 Microsoft Entra ID、Azure Monitor 和 Azure Key Vault 之间的集成。

下载此体系结构的 Visio 文件

数据流

Azure Purview 为来自所有来源、数据湖中和最终报表工具的数据提供单一、统一的数据管理服务。

将 Azure Purview 连接到 Data Lake 服务的方案:

  1. Azure Purview 为数据湖引入、存储和分析管道提供改进的安全连接,以自动对数据资产进行编目。 它还提供跨这些服务的数据世系。 特定的 Azure 服务包括数据工厂、Data Lake Storage 和 Azure Synapse Analytics。

  2. Azure Purview 与 Power BI 和其他报表和可视化工具的本地连接。 它显示了最终报表中使用的数据世系。 它还共享来自 Power BI 资产的敏感性信息,以防止不正确的数据使用。

重要

从源传输到 Azure Purview 的信息是描述扫描源中数据的元数据。 没有实际数据从源传输到 Azure Purview。

功能

  • 目录。 Azure Purview 数据目录可以自动捕获并描述源数据的核心特征,包括架构、技术属性和位置。 Azure Purview 术语表允许置顶简单易记的业务数据定义,以加强搜索和发现。

  • 分类。 Azure Purview 使用 100 个预定义的敏感数据分类自动对数据集和数据元素进行分类。 它还允许定义自己的自定义分类架构,可手动和自动应用这些架构。

  • 数据世系。 Azure Purview 跨数据工厂、Azure Synapse Analytics 和 Power BI 管道以图表方式可视化数据世系。 这些可视化显示了细粒度级别上的端到端数据流。

  • 访问控制。 Azure Purview 访问控制策略允许直接在基础源上定义和授予对目录中数据资产的访问权限。

  • 所有权。 Azure Purview 允许将数据所有权和管理权应用于目录中的数据资产和术语表项。

  • 见解。 Azure Purview 中的见解提供了多个预定义的报表,以帮助 CDO、数据专业人员和数据治理专业人员详细了解数据布局。

组件

  • Azure Purview 是统一的数据目录,用于管理本地、多云和软件即服务 (SaaS) 数据。 此数据治理服务可以维护数据布局映射。 功能包括自动数据发现、敏感数据分类和数据世系。

  • 数据工厂是一项完全托管的无服务器数据集成服务,可帮助生成 ETL 和 ELT 流程。

  • Data Lake Storage 为高性能分析工作负载提供可大规模可缩放的、高度安全的、高性价比云存储。

  • Azure Synapse Analytics 是一种无限制的分析服务,它将数据集成、企业数据仓库和大数据分析结合在一起。

  • Power BI 是一系列软件服务和应用。 这些服务可以创建和共享用于连接多个数据源并将其可视化的报表。 将 Power BI 与 Azure Purview 结合使用时,它可对数据进行编目和分类,并提供端到端演示的细粒度数据世系。

  • Azure 专用链接提供从虚拟网络到 Azure 平台即服务 (PaaS) 服务、客户拥有的服务或 Microsoft 合作伙伴服务的专用连接。

  • Azure Key Vault 存储和控制对机密(如令牌、密码和 API 密钥)的访问。 Key Vault 还会创建和控制加密密钥并管理安全证书。

  • Microsoft Entra ID 提供基于云的标识和访问管理服务。 这些功能为用户提供登录和访问资源的方式。

  • Azure Monitor 收集和分析有关环境与 Azure 资源的数据。 这些数据包括应用遥测数据,例如性能指标和活动日志。

方案详细信息

随着将更多数据加载到 Azure 中,跨所有数据源和数据使用者正确治理和管理该数据的需求也在增长。

如果 Azure 数据资产中没有高质量的数据,Azure 的业务价值就会削弱。 解决方案是为数据治理和管理构建基础,以生成和交付高质量、受信任的数据。

数据需要跨本地、云和多云存储进行大规模管理,以确保满足安全性、隐私和使用情况的合规性要求。 管理良好的数据还可以改善自我发现、数据共享和数据质量,从而改善数据在应用程序和分析中的使用。

Azure Purview 提供用于跨数据查找、分类、定义和执行策略和标准的治理。 可以使用它来跨数据统一应用定义、分类和治理流程。 它对所有数据源进行编目,识别任何敏感信息,并定义数据世系。 它提供一个中心平台,可以在其中将定义和所有权应用于数据。 借助单一报表和见解的视图,它可以帮助生成应该应用于数据的数据标准。

与其他 Azure 服务一起使用时,Azure Purview 可以跨 Azure Data Lake 产品和合作伙伴服务自动发现、编目、分类和管理数据。

可能的用例

数据管理的要求因行业而异。 对于所有行业,随着数据和数据体系结构的规模和复杂性的增长,大规模管理数据的需求也在增加。 这适用于如果数据治理良好出现以下结果将因此受益的组织:

  • 自动发现数据以加速云采用。
  • 提高数据的安全性,以符合数据法律和法规。
  • 改进了托管数据的访问、发现和质量,以增强分析。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

后续步骤