你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

比较用于与 Azure HDInsight 群集配合使用的存储选项

创建 HDInsight 群集时,可以在几种不同的 Azure 存储服务之间进行选择:

本文概述了这些存储类型和其独特功能。

存储类型和功能

下表总结了可以与不同版本的 HDInsight 配合使用的 Azure 存储服务:

存储服务 帐户类型 命名空间类型 支持的服务 支持的性能层 支持的访问层 HDInsight 版本 群集类型
Azure Data Lake Storage Gen2 常规用途 V2 分层(文件系统) Blob 标准 热、冷、存档 3.6+ 全部(Spark 2.1 和 2.2 除外)
Azure 存储 常规用途 V2 对象 Blob 标准 热、冷、存档 3.6+ 全部
Azure 存储 常规用途 V1 对象 Blob Standard 空值 All 全部
Azure 存储 Blob 存储** 对象 块 blob 标准 热、冷、存档 全部 全部
Azure Data Lake Storage Gen1 不适用 分层(文件系统) 不适用 不可用 不适用 仅 3.6 全部(HBase 除外)
Azure 存储 块 blob 对象 块 blob 高级 空值 3.6+ 仅带有加速写入功能的 HBase
Azure Data Lake Storage Gen2 块 blob 分层(文件系统) 块 blob 高级 空值 3.6+ 仅带有加速写入功能的 HBase

**对于 HDInsight 群集,只有辅助存储帐户才能是 BlobStorage 类型,页 blob 不是受支持的存储选项。

若要详细了解 Azure 存储帐户类型,请参阅 Azure 存储帐户概述

若要详细了解 Azure 存储访问层,请参阅 Azure Blob 存储:高级存储层(预览)、热存储层、冷存储层和存档存储层

可以使用主要存储和(可选)辅助存储的服务组合来创建群集。 下表总结了 HDInsight 目前支持的群集存储配置:

HDInsight 版本 主要存储 辅助存储 支持
3.6 和 4.0 常规用途 V1、常规用途 V2 常规用途 V1、常规用途 V2、BlobStorage(块 blob)
3.6 和 4.0 常规用途 V1、常规用途 V2 Data Lake Storage Gen2
3.6 和 4.0 Data Lake Storage Gen2* Data Lake Storage Gen2
3.6 和 4.0 Data Lake Storage Gen2* 常规用途 V1、常规用途 V2、BlobStorage(块 blob)
3.6 和 4.0 Data Lake Storage Gen2 Data Lake Storage Gen1
3.6 Data Lake Storage Gen1 Data Lake Storage Gen1
3.6 Data Lake Storage Gen1 常规用途 V1、常规用途 V2、BlobStorage(块 blob)
3.6 Data Lake Storage Gen1 Data Lake Storage Gen2
4.0 Data Lake Storage Gen1 任意
4.0 常规用途 V1、常规用途 V2 Data Lake Storage Gen1

*=这可以是一个或多个 Data Lake Storage Gen2,只要它们都设置为使用相同的托管标识进行群集访问。

注意

Spark 2.1 或 2.2 群集不支持 Data Lake Storage Gen2 主要存储。

数据复制

Azure HDInsight 不存储客户数据。 群集的主要存储方法是其关联的存储帐户。 可以将群集附加到现有的存储帐户,也可以在群集创建过程中新建存储帐户。 如果新建帐户,则帐户会被创建为本地冗余存储 (LRS) 帐户,并满足区域内的数据驻留要求,包括信任中心内指定的要求。

通过确保与 HDInsight 关联的存储帐户是 LRS 或信任中心内提及的另一个存储选项,可以验证 HDInsight 是否正确地配置为在单个区域存储数据。

注意

不支持使用 Azure Data Lake Storage Gen2 功能升级正在运行的群集的主存储帐户或辅助存储帐户。 若要将现有 HDInsight 群集的存储类型更改为 Data Lake Storage Gen2,需要重新创建群集并选择启用了分层命名空间的存储帐户。

后续步骤