你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

用于云规模分析的 Azure Data Lake Storage 概述

Azure Data Lake 是一种可大规模缩放且安全的数据存储,适用于高性能分析工作负载。 可以在单个资源组中创建存储帐户,以进行云规模分析。 建议在单个资源组中预配三个 Azure Data Lake Storage Gen2 帐户(类似于云规模分析体系结构数据登陆区域概述一文中描述的 storage-rg 资源组)。

数据登陆区域中的每个存储帐户所存储的数据分为三个阶段:

  • 原始数据
  • 扩充和特选数据
  • 开发数据湖

数据应用程序可以使用存储帐户中的扩充和特选数据,该存储帐户已引入与自数据无关的自动化引入服务。 如果不实现与数据无关的引擎或建立用于从操作源引入数据的复杂连接,可以创建源对齐数据应用程序。 从外部数据源引入数据时,此数据应用程序遵循与和数据无关的引擎相同的流程。

Data Lake Storage Gen2 支持精细访问控制列表 (ACL),可用于保护文件和文件夹级别的数据。 访问控制列表可帮助组织实施严格的安全措施,以便对数据产品进行身份验证和授权,从而:

  • 通过静态加密安全地存储数据。
  • 通过 Microsoft Entra 集成对 Microsoft Entra 用户和安全组的访问控制。

数据湖计划

规划数据湖时,请适当关注结构、治理和安全性等方面的注意事项。 多个因素会影响每个数据湖的结构和组织:

  • 存储的数据的类型
  • 转换数据的方式
  • 访问数据的人员
  • 其典型访问模式

根据使用者和生成者的数据访问需求对其进行分组。 最好跨数据湖规划实现和访问控制治理。

如果数据湖包含一些数据资产和自动化过程,例如提取、转换、加载 (ETL) 卸载,则规划可能相对容易。 如果数据湖包含数百个数据资产,并且涉及自动和手动交互,则预计需要更长的时间进行规划,因为需要与数据所有者进行更多的协作。

“数据沼泽”类比

数据沼泽指未托管的数据湖,用户几乎无法访问。 如果不实施数据质量和数据治理措施,则会出现数据沼泽。 有时会在现有混合模型的数据仓库中看到数据沼泽。

适当的治理和组织可防止产生数据沼泽。 为数据湖构建坚实的基础时,数据湖持续成功的几率以及业务价值都会增加。

随着数据湖的大小、复杂性、数据资产数量以及用户或部门数量的增长,拥有可靠的数据目录系统变得越来越重要。 数据目录系统可确保用户在处理、使用和管理数据湖时能够查找、标记和分类数据。

有关详细信息,请参阅数据治理概述

逻辑数据湖中的存储帐户

考虑组织需要一个还是多个存储帐户,并考虑构建逻辑数据湖所需的文件系统。 单一存储技术提供多种数据访问方法,帮助你在整个组织中实现标准化。

Data Lake Storage Gen2 是一种完全托管的平台即服务 (PaaS)。 在访问或存储数据之前,多个存储帐户或文件系统不会产生货币成本。 请注意,每个 Azure 资源在进行预配、安全保护和治理(包括备份和灾难恢复)期间都会产生相关的管理和操作开销。

注意

每个数据登陆区域中展示了三个数据湖。 不过,可以根据你的要求将原始层、扩充层和特选层合并到一个存储帐户中。 可以创建另一个名为“开发”的存储帐户,供数据使用者引入其他有用的数据产品。

在决定采用合并存储帐户还是三个存储帐户时,请考虑以下因素:

  • 隔离数据环境和可预测性
    • 可以隔离在原始区域和开发区域中运行的活动,以避免对特选区域产生潜在影响,该区域保存着具有重大业务价值的数据,这些数据是进行关键决策所必需的
  • 存储帐户级别的特性和功能
    • 可以选择是否必须在数据登陆区域或数据湖级别应用生命周期管理选项或防火墙规则。
    • 创建多个存储帐户,但要避免产生不必要的孤岛。
    • 避免因为在整个组织中缺乏可见性或知识共享而产生重复的数据项目。
    • 确保已设置良好的数据治理、项目跟踪工具和数据目录。
  • 基于配置的权限,数据处理工具和技术可在多个湖之间与数据进行交互
  • 区域湖与全球湖泊
    • 湖上分布在全球范围内的使用者或进程对因地理距离而产生的延迟很敏感。
    • 在本地存储数据是一种很好的做法。
    • 法规约束和数据主权可能要求将数据保留在特定区域内。
    • 有关详细信息,请参阅多区域部署

多区域部署

根据数据驻留规则或要求将数据保存在用户群附近时,可能需要在多个 Azure 区域中创建 Azure Data Lake 帐户。 若要执行此操作,请在一个区域中创建一个数据登陆区域,然后使用 AzCopy、Azure 数据工厂或第三方产品复制全局数据。 将本地数据保留在区域内,同时跨多个区域复制全局数据。

后续步骤

数据湖区域和容器