你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 中用于云缩放分析的多个数据区域

此参考体系结构适用于已实现云规模分析的基本版本的组织,现在已准备好托管新的业务部门来帮助实现其分析操作的现代化。 此更复杂的方案使用多个登陆区域、数据应用程序和数据产品。

Apache Hive 和 Hive 徽标是 美国 和/或其他国家/地区的 Apache Software Foundation 的注册商标或商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。

问题陈述

此示例中的虚构公司 Relecloud 是一家私有云提供商,它向全球组织提供共享计算和存储资源。 尽管 Relecloud 提供计算资源,但他们不想将平台限制为自己的内部操作。 因此,他们依赖于 Microsoft Azure 来满足其内部计算需求。

运营组中的数据分析师使用云服务中的遥测数据来了解其客户如何使用平台。 计费组中一个单独的分析师团队研究开票数据,以深入了解哪些服务带来最多收入。

上一季度,运营团队将其迁移到 Azure,实现了其分析平台的现代化。 实现云缩放分析的一个目标是最大限度地发挥缩放平台和添加新组织工作负载的潜力。

如今,计费组目前的分析解决方案已经无法满足该组的需求。 要分析的发票量对于本地服务器来说太大。 团队决定遵循运营组的领导,并在 Azure 中现代化其数据分析平台。

计费组中的分析师具有不同于运营组中分析师的技能。 计费分析师不希望限制使用与操作相同的工具。 计费组位于组织的不同部分,并希望灵活地实施满足其需求的策略和过程。

体系结构解决方案

Relecloud 通过为计费组添加新登陆区域来缩放其分析平台。 此登陆区域为计费组提供虚拟工作区,以实现满足其业务需求的分析解决方案。 通过将登陆区域与组织的其他资源分开,计费组可以实施自己的访问策略并考虑其服务的成本。

下图并不表示所有 Azure 服务。 该图经过简化,可突出显示在体系结构中组织资源的核心概念。

Diagram of a multiple landing zone architecture for cloud-scale analytics.

数据管理登陆区域

云规模分析实现的关键要求是数据管理登陆区域。 此订阅包含跨所有登陆区域共享的资源,包括防火墙或专用 DNS 区域等共享网络组件。 数据管理登陆区域还包括用于数据和云治理的资源,例如 Azure Policy 和 Azure Purview。

在为操作组部署数据分析解决方案时,Relecloud 创建了数据管理登陆区域。 当计费组加入平台时,他们使用相同的数据管理登陆区域与操作组共享公共资源。

运营数据登陆区域

操作组在其数据登陆区域中具有以下解决方案。

运营数据应用程序

该团队构建了一个源一致的数据应用程序,该应用程序使用 Azure Databricks 中的 Apache Spark 作业引入服务遥测数据并将其存储在 Azure Data Lake 存储 帐户中。

此过程从源系统按原样复制数据,但不对其进行转换。 分析人员可以在分析平台中处理复制的数据,而无需重载源系统。 运营团队使用共享 引入和处理 资源组中的 Databricks 工作区,而不是为此数据应用程序创建专用部署。

Relecloud 客户可以创建云帐户来管理其私有云中的资源及计费。 每个客户可以有多个帐户。 分析团队构建了一个数据应用程序来导入云帐户数据。 由于数据的量和频率远低于遥测数据,因此团队不需要使用 Spark 作业。 而是创建了Azure 数据工厂管道来复制数据。

Azure Database for MySQL 充当 Hive 元存储,Azure SQL 数据库是Azure 数据工厂元存储。

运营数据产品

Relecloud 分析师通过创建新的使用者对齐数据应用程序从源对齐的数据应用程序中获取价值。 这些使用者对齐的数据应用程序之一是“云服务推荐器”模型。 Relecloud 数据科学家使用Azure 机器学习来构建一个模型,该模型可查看云帐户使用的服务,并建议可能有用的相关服务。 该团队将此模型部署到在登陆区域中运行的 Azure Kubernetes 服务 (AKS) 群集,并由 Azure 机器学习 管理。 在云规模分析外部运行的应用程序可以调用 AKS 终结点来获取建议。

计费团队创建登陆区域后,运营团队会创建其管理团队请求的新数据产品。 管理团队希望了解云服务推荐器数据应用程序产生的收入。 新的推荐器收入数据产品使用 Azure Synapse Analytics 将数据从云服务推荐器和服务收入合并到新的数据产品中。 业务分析师可以使用 Microsoft Power BI 连接到 Azure Synapse,以查找和报告来自新数据产品的见解。

计费数据登陆区域

计费组正在使用本地系统来为分析提供支持,但随着数据量的增长,公司更依赖他们的工作,系统无法跟上步伐。 该组通过迁移到云来现代化其平台。

计费组不与运营组共享登陆区域,但获取自己的登陆区域,在那里他们可以自由地构建最适合其需求的平台。 新的登陆区域连接到数据管理登陆区域和具有虚拟网络对等互连的所有其他数据登陆区域。 通过此机制,可以通过 Azure 内部网络安全地共享数据。

计费数据应用程序

若要将数据从现有系统载入分析平台,计费组将生成两个数据应用程序。 第一个应用程序引入客户数据,包括客户的完整列表和所有相关数据,例如客户地址、位置和销售人员分配。 第二个应用程序导入公司的发票历史记录,其中包括向客户收取的所有计费费用和相关付款数据。

这两个应用程序都由共享 Azure Synapse 工作区中的管道提供支持。 每个应用程序都有一个专用的计算池,用于促进成本核算和安全边界。 由于这些数据应用程序可以通过共享资源完全实现,因此计费组不必为其创建部署。

计费数据产品

计费分析师会创建一个名为“按服务收入”的新数据产品,用于分析每个云服务为 Relecloud 生成的收入。 此产品依赖于发票引入中的数据。 该产品还连接到操作登陆区域并读取服务使用情况数据。 与数据应用程序一样,数据产品还依赖于共享的 Azure Synapse 工作区。

部署模板

若要部署体系结构,请使用以下数据管理登陆区域和数据登陆区域参考实现模板:

使用以下模板在 Relecloud 计费和操作数据登陆区域中部署其他数据应用程序和数据产品:

名称 数据登陆区域 类型 模板
云帐户 Operations 数据应用程序 数据产品批处理模板
推荐器收入 Operations 数据产品 数据产品批处理模板
云服务推荐器 Operations 数据应用程序 数据产品分析模板
按服务划分的收入 计费 数据产品 数据产品批处理模板

重要

Relecloud 无需在前面的参考实现模板中部署所有内容来满足其需求。 模板需要某种级别的自定义。 在部署之前,请从模板中删除不需要的服务。

后续步骤

继续学习 Lamna Healthcare 方案,在 Azure 中安全进行云规模分析。

有关详细信息,请参阅以下文章: