你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

受管制数据的安全研究环境

Azure Data Science Virtual Machine
Azure 机器学习
Azure 数据工厂

此体系结构可提供安全的研究环境,旨在允许研究人员在更高级别的控制和数据保护下访问敏感数据。 本文适用于受监管合规性或其他严格安全要求约束的组织。

体系结构

安全研究环境的关系图。

下载此体系结构的 Visio 文件

数据流

  1. 数据所有者将数据集上传到公共 Blob 存储帐户。 使用 Microsoft 管理的密钥对数据进行加密。

  2. Azure 数据工厂使用触发器,将上传的数据集复制到具有安全控制的另一个存储帐户上的特定位置(导入路径)。 存储帐户只能通过专用终结点访问, 由权限有限的服务主体访问。 数据工厂删除原始副本,从而使数据集不可变。

  3. 研究人员通过一个使用 Azure 虚拟桌面作为特权跳转盒的流式处理应用程序访问安全环境。

  4. 安全存储帐户中的数据集会呈现给数据科学 VM,这些 VM 专为在安全网络环境中进行研究工作而预配。 大部分数据准备工作均在这些 VM 上完成。

  5. 安全环境配有 Azure 机器学习计算,可通过专用终结点访问数据集,供用户使用 Azure 机器学习功能,例如训练、部署、自动化和管理机器学习模型。 此时,系统会创建符合监管指南的模型。 所有模型数据中的个人信息都会被删除,从而实现去标识化。

  6. 模型或去标识化数据会保存到安全存储上的单独位置(导出路径)。 将新数据添加到导出路径时,会触发逻辑应用。 在此体系结构中,由于未向逻辑应用发送数据,因此,其所处环境并不安全。 其唯一功能是发送通知并启动手动审批流程。

    应用会发起审批流程,请求对排队等待导出的数据进行评审。 人工审阅者需确保无敏感数据导出。 经评审之后,数据或获批,或遭拒。

    注意

    如果外泄无需审批步骤,则可以省略逻辑应用步骤。

  7. 去标识化数据获批后,即会发送到数据工厂实例。

  8. 数据工厂将数据移到单独容器的公共存储帐户,以便外部研究人员能够访问其导出的数据和模型。 或者,可以在安全性较低的环境中预配另一个存储帐户。

组件

此体系结构由多个 Azure 服务组成,可根据需求缩放资源。 相关服务及其作用介绍如下: 如欲获得相关服务入门的产品文档链接,请参阅后续步骤

核心工作负载组件

移动并处理研究数据的核心组件如下所示:

  • Azure Data Science Virtual Machine (DSVM):通过用于数据分析和机器学习的工具配置的 VM。

  • Azure 机器学习:用于训练、部署、自动化和管理机器学习模型,以及管理机器学习计算资源的分配和使用。

  • Azure 机器学习计算:用于训练和测试机器学习和 AI 模型的节点群集。 根据自动缩放选项按需分配计算。

  • Azure Blob 存储:有两个实例。 公共实例用于临时存储数据所有者上传的数据, 还可将建模后去标识化数据存储在单独容器中。 第二个为私有实例, 可从机器学习接收训练脚本所使用的训练和测试数据集。 存储可作为虚拟驱动程序装载到机器学习计算群集的每个节点。

  • Azure 数据工厂:自动在安全级别不同的存储帐户之间移动数据,以确保职责分离。

  • Azure 虚拟桌面用作跳转盒,根据需要使用流式处理应用程序和完整桌面访问安全环境中的资源。 也可以使用 Azure Bastion。 但是,务必要清楚地了解这两个选项之间的安全控制差异。 虚拟桌面优点如下:

    • 能够流式传输 Microsoft Visual Studio Code 等应用,以针对机器学习计算资源运行笔记本。
    • 能够限制复制、粘贴和屏幕截图。
    • 支持对 DSVM 进行 Microsoft Entra 身份验证。
  • Azure 逻辑应用提供自动化的低代码工作流,用于开发手动审批过程的触发器和发布部分。

状况管理组件

这些组件可持续监视工作负载及其环境状况, 旨在发现风险后尽快缓解风险。

  • Microsoft Defender for Cloud 用于评估实现的总体安全态势,并提供监管合规性证明机制。 可以尽早发现在之前审核或评估过程中发现的问题。 使用相关功能(如安全分数和合规性分数)跟踪进度。

  • Microsoft Sentinel 是安全信息和事件管理 (SIEM) 和安全业务流程自动响应 (SOAR) 解决方案。 你可集中查看来自各种源的日志和警报,并利用高级 AI 和安全分析来检测、搜寻、防止并响应威胁。

  • Azure Monitor 提供整个环境的可观测性。 无需额外配置即可查看大多数 Azure 资源的指标、活动日志和诊断日志。 管理工具(如 Microsoft Defender for Cloud 中的管理工具)也会将日志数据推送到 Azure Monitor。

治理组件

  • Azure Policy 可帮助实施组织标准并大规模评估合规性。

备选方法

  • 此解决方案使用数据工厂将数据移到单独容器的公共存储帐户,以便外部研究人员能够访问其导出的数据和模型。 或者,可以在安全性较低的环境中预配另一个存储帐户。
  • 此解决方案使用 Azure 虚拟桌面作为跳转盒,通过流式处理应用程序和完整桌面访问安全环境中的资源。 或者,可以使用 Azure Bastion。 但是,虚拟桌面亦具有一些优点,比如能够流式传输应用、限制复制/粘贴和屏幕截图,以及支持 AAC 身份验证。 还可以考虑在本地配置点到站点 VPN 进行脱机训练。 这也有助于节省为工作站创建多个 VM 的成本。
  • 此解决方案使用强加密技术通过 Microsoft 管理的密钥对所有 Azure 存储进行加密,以保护静态数据的安全。 或者,可以使用客户管理的密钥。 密钥必须存储在托管密钥库中。

方案详细信息

可能的用例

该体系结构最初是为符合美国《健康保险可携性和责任法案 (HIPAA)》要求的高等教育研究机构创建的。 但是,此设计可用于任何需要分离数据以进行研究的行业。 示例包括:

  • 根据美国国家标准与技术研究院 (NIST) 要求处理受监管数据的行业
  • 与内部或外部研究人员协作的医疗中心
  • 银行和财务行业

遵循相关指导,即可确保对研究数据的完全控制,实现职责分离,并满足严格的监管合规性标准,同时促进参与研究型工作的典型角色(数据所有者、研究人员和审批者)之间的协作。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负载质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

此体系结构的主要目标是提供安全可信的研究环境,以严格限制从安全区域外泄数据。

网络安全

Azure 资源用于存储、测试和训练研究数据集,可在安全环境中进行预配。 该环境为 Azure 虚拟网络,利用网络安全组 (NSG) 规则,主要限制以下访问:

  • 对公共 Internet 和虚拟网络内的入站和出站访问。

  • 访问特定服务和端口或从特定服务和端口进行访问。 例如,此体系结构会阻止除 Azure 服务(如 Azure Monitor)所需端口范围之外的所有端口范围。 有关服务标记和相应服务的完整列表,请参阅虚拟网络服务标记

    此外,接受通过 Azure 虚拟桌面 (AVD) 从虚拟网络对仅限于经批准的访问方法的端口进行访问,所有其他流量都会被拒绝。 与此环境相比,另一种(具有 AVD 的)虚拟网络则相对开放。

安全环境中的主 Blob 存储并不位于公共 Internet, 它只能通过专用终结点连接和 Azure 存储防火墙在虚拟网络中访问。 该存储用于限制客户端可以连接到 Azure 文件共享的网络。

此体系结构对安全环境中的主要数据存储使用基于凭据的身份验证。 在这种情况下,连接信息(如订阅 ID 和令牌授权)存储在密钥保管库中。 另一种方法是创建基于标识的数据访问,其中的 Azure 帐户用于确认你是否有权访问存储服务。 在基于标识的数据访问方案中,不会保存任何身份验证凭据。 若要详细了解如何使用基于标识的数据访问,请参阅使用基于标识的数据访问连接到存储

计算群集只能通过使用 Azure 专用链接生态系统和服务/专用终结点在虚拟网络中进行通信,而不能使用公共 IP 进行通信。 请确保启用“不使用公共 IP”。 有关目前为预览版(截止到 2022 年 3 月 7 日)的此功能的详细信息,请参阅不对计算实例使用公共 IP

安全环境使用 Azure 机器学习计算,通过专用终结点访问数据集。 此外,可以使用 Azure 防火墙来控制 Azure 机器学习计算的出站访问。 若要了解如何配置 Azure 防火墙以控制对驻留在机器学习工作区中的 Azure 机器学习计算的访问,请参阅配置入站和出站网络流量

若要了解保护 Azure 机器学习环境的方法之一,请参阅博客文章:保护 Azure 机器学习服务 (AMLS) 环境

对于无法使用专用终结点进行有效配置或无法提供有状态数据包检查的 Azure 服务,不妨考虑使用 Azure 防火墙或第三方网络虚拟设备 (NVA)。

身份管理

Blob 存储访问通过 Azure 基于角色的访问控制 (RBAC) 实现。

Azure 虚拟桌面支持对 DSVM 进行 Microsoft Entra 身份验证。

数据工厂使用托管标识访问 Blob 存储中的数据。 DSVM 还将托管标识用于修正任务。

数据安全

所有 Azure 存储均使用强加密技术通过 Microsoft 管理的密钥进行加密,以保护静态数据的安全。

或者,可以使用客户管理的密钥。 密钥必须存储在托管密钥库中。 在此体系结构中,Azure Key Vault 部署在安全环境中,用于存储加密密钥和证书等机密。 安全虚拟网络中的资源可通过专用终结点访问 Key Vault。

治理注意事项

启用 Azure Policy 以强制实施标准并提供自动修正,以使资源符合特定策略。 这些策略可应用于项目订阅,也可以作为单一策略或监管计划的组成部分应用于管理组级别。

例如,在此体系结构中,Azure Policy 来宾配置已应用于作用域中的所有 VM。 该策略可以审核 Data Science VM 的操作系统和计算机配置。

VM 映像

Data Science VM 运行自定义基础映像。 若要构建基础映像,强烈建议采用 Azure 映像生成器之类的技术。 如此一来,便可以创建按需部署的可重复映像。

基础映像可能需要更新,如其他二进制文件。 这些二进制文件应上传到公共 Blob 存储,并在安全环境中流动,就像数据所有者上传数据集时一样。

其他注意事项

大多数研究解决方案都是临时工作负载,无需长时间可用。 此体系结构设计为具有可用性区域的单区域部署。 如果业务需求需要更高的可用性,请在多个区域复制此体系结构。 你需要其他组件(如全局负载均衡器和分发服务器)将流量路由到所有这些区域。 在恢复策略中,强烈建议使用 Azure 映像生成器捕获并创建自定义基础映像的副本。

Data Science VM 的大小和类型应符合正在执行的工作样式。 此体系结构旨在为单个研究项目提供支持,可通过调整 VM 的大小和类型以及对 Azure 机器学习可用计算资源的选择实现可伸缩性。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

DSVM 的成本取决于所选的底层 VM 系列。 由于工作负载属临时性质,因此建议对逻辑应用资源使用消耗计划。 使用 Azure 定价计算器,根据所需资源的预计大小估算成本。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

后续步骤