比较 Azure Data Lake Storage Gen1 与 Azure Blob 存储
本文中的表总结了 Azure Data Lake Storage Gen1 和 Azure Blob 存储在一些大数据处理的关键方面之间的差异。 Azure Blob 存储是一个常规用途和可扩展的对象存储,适用于多种存储方案。 Azure Data Lake Storage Gen1 是一个针对大数据分析工作负荷进行了优化的超大规模存储库。
类别 | Azure Data Lake Storage Gen1 | Azure Blob 存储 |
---|---|---|
目的 | 大数据分析工作负荷的优化存储 | 用于多种存储方案(包括大数据分析)的常规用途对象存储 |
用例 | Batch、交互式流分析和机器学习数据,例如日志文件、IoT 数据、点击流、大型数据集 | 任何类型的文本或二进制数据,例如应用程序后端、备份数据、流式处理媒体存储和常规用途数据。 另外,还完全支持分析工作负荷;Batch、交互式流分析和机器学习数据,例如日志文件、IoT 数据、点击流、大型数据集 |
关键概念 | Data Lake Storage Gen1 帐户包含文件夹,而这些文件夹也会相应地将数据存储为文件 | 存储帐户包含容器,而这些容器也会相应地包含 blob 形式的数据 |
结构 | 分层文件系统 | 具有平面命名空间的对象存储 |
API | 基于 HTTPS 的 REST API | 基于 HTTP/HTTPS 的 REST API |
服务器端 API | WebHDFS-compatible REST API(兼容 WebHDFS 的 REST API) | Azure Blob Storage REST API(Azure blob 存储 REST API) |
Hadoop 文件系统客户端 | 是 | 是 |
数据操作 - 身份验证 | 基于Microsoft Entra标识 | 基于共享机密 - 帐户访问密钥和共享访问签名密钥。 |
数据操作 - 身份验证协议 | OpenID Connect。 调用必须包含由 Microsoft Entra ID 颁发的有效 JWT (JSON Web 令牌) 。 | 基于哈希的消息验证码 (HMAC)。 调用必须包含 Base64 编码的 SHA-256 哈希作为 HTTP 请求的一部分。 |
数据操作 - 授权 | POSIX 访问控制列表 (ACL)。 可以在文件和文件夹级别设置基于Microsoft Entra标识的 ACL。 | 对于帐户级别授权 – 使用帐户访问密钥 对于帐户、容器 或 blob 授权 - 使用“共享访问签名密钥” |
数据操作 - 审核 | 可用。 详细信息参见此处。 | 可用 |
静态数据加密 |
|
|
管理操作(例如 Account Create) | 用于帐户管理的 Azure 基于角色的访问控制 (Azure RBAC) | 用于帐户管理的 Azure 基于角色的访问控制 (Azure RBAC) |
Developer SDK | .NET、Java、Python、Node.js | .NET、Java、Python、Node.js、C++、Ruby、PHP、Go、Android、iOS |
分析工作负荷性能 | 并行分析工作负荷的优化性能。 高吞吐量和 IOPS。 | 并行分析工作负荷的优化性能。 |
大小限制 | 无帐户大小、文件大小或文件数量限制 | 有关具体的限制,请参阅标准存储帐户的可伸缩性目标和 Blob 存储的可伸缩性和性能目标。 可以联系 Azure 支持来增大帐户限制阈值 |
异地冗余 | 本地冗余(一个 Azure 区域中数据的多个副本) | 本地冗余 (LRS)、区域冗余 (ZRS)、全局冗余 (GRS)、读取访问全局冗余 (RA-GRS)。 详细信息参见此处 |
服务状态 | 正式发布 | 正式发布 |
区域可用性 | 参见此处 | 在所有 Azure 区域中可用 |
价格 | 参阅定价 | 参阅定价 |