你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 HDInsight 进行提取、转换和加载 (ETL)

Azure 数据工厂
Azure Data Lake Storage
Azure HDInsight

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

此解决方案构想说明了如何使用 Hadoop MapReduce 和 Apache Spark 按需提取、转换和加载大数据群集。

体系结构

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

下载此体系结构的 Visio 文件

数据流

数据在体系结构中的流动情况如下:

  1. 使用 Azure 数据工厂,建立指向源系统和数据存储的链接服务。 Azure 数据工厂管道支持 90 多个连接器,这些连接器还包含其中的原生连接器不可用的数据源的通用协议。

  2. 使用复制数据工具将数据从源系统加载到 Azure Data Lake。

  3. Azure 数据工厂能够创建按需 HDInsight 群集。 从创建按需 HDInsight 链接服务开始。 接下来,创建管道并使用适当的 HDInsight 活动,具体取决于所使用的 Hadoop 框架(即 Hive、MapReduce、Spark 等)。

  4. 在 Azure 数据工厂中触发管道。 此体系结构假定将 Azure Data Lake Store 用作已在步骤 3 中创建的 HDInsight 活动所执行的 Hadoop 脚本中的文件系统。 此脚本将由按需 HDInsight 群集执行,该群集会将数据写入数据湖的管护区域。

组件

方案详细信息

此解决方案构想介绍 ETL 用例的数据流。

可能的用例

可以将 Azure HDInsight 用于各种方案的大数据处理。 大数据可以是历史数据(已收集和存储的数据),也可以是实时数据(直接从源流式传输的数据)。 有关处理此类数据的详细信息,请参阅使用 HDInsight 的方案

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤

了解有关组件技术的详细信息:

探索相关体系结构: