解决方案构想
本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。
此解决方案构想说明了如何使用 Hadoop MapReduce 和 Apache Spark 按需提取、转换和加载大数据群集。
体系结构
下载此体系结构的 Visio 文件。
数据流
数据在体系结构中的流动情况如下:
使用 Azure 数据工厂,建立指向源系统和数据存储的链接服务。 Azure 数据工厂管道支持 90 多个连接器,这些连接器还包含其中的原生连接器不可用的数据源的通用协议。
使用复制数据工具将数据从源系统加载到 Azure Data Lake。
Azure 数据工厂能够创建按需 HDInsight 群集。 从创建按需 HDInsight 链接服务开始。 接下来,创建管道并使用适当的 HDInsight 活动,具体取决于所使用的 Hadoop 框架(即 Hive、MapReduce、Spark 等)。
在 Azure 数据工厂中触发管道。 此体系结构假定将 Azure Data Lake Store 用作已在步骤 3 中创建的 HDInsight 活动所执行的 Hadoop 脚本中的文件系统。 此脚本将由按需 HDInsight 群集执行,该群集会将数据写入数据湖的管护区域。
组件
- Azure 数据工厂 - 用于协调数据流的云规模数据集成服务。
- Azure Data Lake Storage - 可缩放且经济高效的云存储,用于大数据处理。
- Apache Hadoop - 大数据分布式处理框架
- Apache Spark - 大数据分布式处理框架,支持使用内存中处理来提升大数据应用程序的性能。
- Azure HDInsight - Hadoop 组件的云发行版。
方案详细信息
此解决方案构想介绍 ETL 用例的数据流。
可能的用例
可以将 Azure HDInsight 用于各种方案的大数据处理。 大数据可以是历史数据(已收集和存储的数据),也可以是实时数据(直接从源流式传输的数据)。 有关处理此类数据的详细信息,请参阅使用 HDInsight 的方案。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
首席作者:
- Jon Dobrzeniecki | 云解决方案架构师
若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。
后续步骤
了解有关组件技术的详细信息:
- 教程:使用 Azure 数据工厂在 HDInsight 中创建按需 Apache Hadoop 群集
- Azure 数据工厂简介
- Azure Data Lake Storage Gen2 简介
- 使用 Azure 数据工厂将数据加载到 Azure Data Lake Storage Gen2 中
- 什么是 Azure HDInsight 中的 Apache Hadoop?
- 从数据工厂调用 MapReduce 程序
- 在 Apache Hadoop on HDInsight 中使用 MapReduce
- Azure HDInsight 中的 Apache Spark 是什么
相关资源
探索相关体系结构: