你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

使用 HDInsight 进行提取、转换和加载 (ETL)

Azure 数据工厂

Azure Data Lake Storage

Azure HDInsight

解决方案构想

本文是一种解决方案构想。如果你希望我们在内容中扩充更多信息，例如潜在用例、备用服务、实现注意事项或定价指南，请通过提供 GitHub 反馈来告知我们。

此解决方案构想说明了如何使用 Hadoop MapReduce 和 Apache Spark 按需提取、转换和加载大数据群集。

体系结构

Diagram showing the dataflow for extract, transform, and load big data clusters by using Azure HDInsight, Hadoop MapReduce, and Apache Spark.

下载此体系结构的 Visio 文件。

数据在体系结构中的流动情况如下：

使用 Azure 数据工厂，建立指向源系统和数据存储的链接服务。 Azure 数据工厂管道支持 90 多个连接器，这些连接器还包含其中的原生连接器不可用的数据源的通用协议。
使用复制数据工具将数据从源系统加载到 Azure Data Lake。
Azure 数据工厂能够创建按需 HDInsight 群集。从创建按需 HDInsight 链接服务开始。接下来，创建管道并使用适当的 HDInsight 活动，具体取决于所使用的 Hadoop 框架（即 Hive、MapReduce、Spark 等）。
在 Azure 数据工厂中触发管道。此体系结构假定将 Azure Data Lake Store 用作已在步骤 3 中创建的 HDInsight 活动所执行的 Hadoop 脚本中的文件系统。此脚本将由按需 HDInsight 群集执行，该群集会将数据写入数据湖的管护区域。

此解决方案构想介绍 ETL 用例的数据流。

可以将 Azure HDInsight 用于各种方案的大数据处理。大数据可以是历史数据（已收集和存储的数据），也可以是实时数据（直接从源流式传输的数据）。有关处理此类数据的详细信息，请参阅使用 HDInsight 的方案。

本文由 Microsoft 维护，它最初是由以下贡献者撰写的。

首席作者：

若要查看非公开的 LinkedIn 个人资料，请登录到 LinkedIn。

了解有关组件技术的详细信息：

探索相关体系结构：