你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

企业数据仓库

Azure Blob 存储
Azure Data Lake
Azure Synapse Analytics

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

本文介绍 Azure 中企业数据仓库的解决方案,该解决方案:

  • 汇集所有数据,无论规模或格式如何。
  • 为所有用户提供一种通过分析仪表板、操作报表和高级分析从数据中获取见解的方法。

Apache® 和 Apache Spark 是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。

体系结构

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

下载此体系结构的 Visio 文件

数据流

  1. Azure Synapse Analytics 管道汇集了结构化、非结构化和半结构化数据,例如日志、文件和媒体。 管道将数据存储在 Azure Data Lake Storage 中。
  2. Azure Synapse Analytics 中的 Apache Spark 池清理和转换 Data Lake Storage 数据。
  3. Azure Synapse Analytics 将处理后的数据与现有的结构化数据相结合,创建一个统一的数据中心。
  4. 专用 SQL 池使数据可用于操作报表和分析仪表板,从而获取见解。 Azure Analysis Services 为数以千计的最终用户提供报表和仪表板。

组件

  • Azure Synapse Analytics 是用于数据仓库和大数据系统的分析服务。 该工具采用大规模并行处理架构,并与 Azure 服务深度集成。
  • Azure Synapse Analytics 管道提供了一种创建、计划和协调工作流的方法,例如提取、加载、转换 (ELT) 和提取、转换、加载 (ETL) 工作流。
  • Azure Blob 存储为任何类型的非结构化数据(图像、视频、音频、文档等)提供大规模可缩放且经济高效的对象存储。
  • Data Lake Storage 是可按原始格式存储大量数据的存储库。 Data Lake Storage 建立在 Blob 存储的基础之上。 因此,Data Lake Storage 可提供 Blob 存储的可伸缩性、分层存储、高可用性和灾难恢复功能。
  • Azure Synapse Analytics Spark 池提供了一个并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。
  • Analysis Services 是一种企业级分析引擎,为用户提供一种简单的方法来执行即席数据分析。 可以使用 Analysis Services 大规模管理、测试和交付业务解决方案。
  • Power BI 是一套业务分析工具,用于在整个组织内提供见解。 可以使用 Power BI 连接到数百个数据源、简化数据准备并推动即席分析。 还可以生成精美的报表,然后发布它们,供组织在 Web 和移动设备上使用。

方案详细信息

企业数据仓库将所有数据汇集在一起,无论其来源、格式或规模如何。 数据仓库还提供了一种对数据运行高性能分析的方法,因此可以通过分析仪表板、操作报表和高级分析获取见解。

此解决方案建立一个数据仓库,该数据仓库:

  • 是数据的单一真实来源。
  • 将关系数据源与其他非结构化数据集相集成。
  • 使用语义建模和强大的可视化工具来简化数据分析。

为了将数据集成到统一平台中,此解决方案使用 Azure Synapse Analytics 管道。 这些管道提供 ELT 和 ETL 功能。 具体来说,你可以使用管道在数据驱动的工作流中移动数据。 管道使用各种数据格式和结构。

管道将数据存储在基于 Blob 存储的 Data Lake Storage 中。 此存储服务可以处理大量非结构化数据。

Azure Synapse Analytics Spark 池构成了解决方案的关键部分。 这些池可清理和转换存储在 Azure 中的数据。 它们的并行处理框架支持内存中处理,以提高速度和效率。 这些池还支持自动缩放,因此它们可以根据需要添加或删除节点。

专用 SQL 池使处理后的数据可用于高性能分析。 该池将数据存储在具有列存储的关系表中,这种格式可显着降低数据存储成本。 它还提高了查询性能,因此你可以大规模运行分析。

可能的用例

可以在以下涉及大量数据的方案中使用此解决方案:

  • IoT 设备集成
  • 客户数据平台
  • 自然语言处理
  • 机器学习算法

定价

若要查看此解决方案的成本估算,请参阅定价计算器中的定价示例

后续步骤