你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure Stack HCI 拉伸群集实现灾难恢复

Azure Blob 存储
Azure 备份
Azure Monitor
Azure Stack HCI

以下参考体系结构演示了如何使用拉伸群集设计和实现 Azure Stack HCI 的灾难恢复。

体系结构

该示意图显示主动-主动和主动-被动 Azure Stack HCI 拉伸群集,其中存储卷和群集性能历史记录通过存储副本进行复制。在主动-主动模式下,每个方向都有复制流量,这两个站点都托管 Azure Stack HCI VM。在主动-被动模式下,复制是单向的,包含托管 Azure Stack HCI VM 的活动站点。

下载此体系结构的 Visio 文件

组件

该体系结构包含以下组件和功能:

  • Azure Stack HCI (20H2)Azure Stack HCI 是一种超融合基础设施 (HCI) 群集解决方案,它在混合本地环境中托管虚拟化的 Windows 和 Linux 工作负载及其存储。 拉伸群集可包含 4 到 16 个物理节点。
  • 存储副本。 存储副本 (Storage Replica) 是一种 Windows Server 技术,它支持在服务器或群集之间进行卷复制来实现灾难恢复。
  • 实时迁移。 实时迁移是 Windows Server 中的一项 Hyper-V 功能,支持在无停机的情况下将正在运行的虚拟机 (VM) 从一台 Hyper-V 主机无缝地移动到另一台主机。
  • 云见证。 云见证是一种故障转移群集仲裁见证,它使用 Microsoft Azure Blob 存储提供对群集仲裁的投票。

方案详细信息

通常使用此体系结构进行灾难恢复,实现两个物理位置之间 Azure Stack HCI VM 和文件共享的自动故障转移,其往返网络延迟范围为 5 毫秒。

建议

以下建议适用于大多数场景。 除非有优先于此建议的特定要求,否则请遵循此建议。

使用拉伸群集为 Azure Stack HCI 上托管的虚拟化工作负载和文件共享实现自动化灾难恢复

要增强 Azure Stack HCI 的内置复原能力,需要实现一个 Azure Stack HCI 拉伸群集,其中包含两组节点,每个站点一组。 每个组必须至少包含两个节点。 群集中的节点总数不能超过 Azure Stack HCI 群集支持的最大节点数。 节点必须满足标准 HCI 硬件要求

Azure Stack HCI 拉伸群集依赖于存储副本,在其各自物理站点中的两个节点组所托管的存储卷之间执行同步存储复制。 如果故障影响主站点的可用性,则群集会自动将其工作负载转移到幸存站点中的节点,以尽量减少可能的故障时间。 对于主站点上的计划或预期停机,可使用 Hyper-V 实时迁移将工作负载无缝转换到另一个站点,从而完全避免出现停机时间。 对于此方案,应注意存储位置。 应首先反转存储副本的复制方向,然后执行 VM 的实时迁移。 在实时迁移完成之前,性能将会受到影响。

注意

在故障转移期间,同步复制可确保在文件系统级别出现零数据丢失的崩溃一致性。

注意

拉伸群集适用的同步复制要求在复制站点中的两组群集节点之间施加了 5 毫秒的往返网络延迟限制。 根据物理网络连接的特征,此限制通常可转换为 20 到 30 英里的物理距离。

注意

存储副本的签名和加密功能可自动保护复制流量。

注意事项

Microsoft Azure 架构良好的框架是此参考体系结构中遵循的一组指导原则。 以下注意事项是在这些原则的背景下提出的。

可靠性

可靠性可确保应用程序符合你对客户的承诺。 有关详细信息,请参阅可靠性支柱概述

  • 站点级别容错域。 Azure Stack HCI 拉伸群集的每个物理站点都代表可提供额外复原能力的不同容错域。 容错域是一组共享单一故障点的硬件组件。 若要实现特定级别容错,需要具有多个该级别容错域。

注意

如果每个位置对应于单独的 AD DS 站点,那么群集预配过程会自动配置站点分配。 如果没有表示这两个位置的单独 AD DS 站点,但节点位于两个不同的子网上,那么群集预配过程将基于子网分配标识站点。 如果节点位于同一子网上,则必须显式定义站点分配。

  • 站点感知。 站点感知支持通过指定虚拟化工作负载的首选站点来控制其位置。 为拉伸群集指定首选站点有许多好处,包括提供在站点级别对工作负载进行分组以及对仲裁投票选项进行自定义的功能。 默认情况下,在冷启动期间,所有虚拟机都使用首选站点,但也可以在群集角色或组级别配置首选站点。 这样,就可在主动-主动模式下将特定虚拟机分配到其各自的站点。 从仲裁的角度来看,偏好的网站选择会以有利于该站点的方式影响投票分配。 例如,如果托管拉伸群集节点的两个站点之间的连接失败,并且无法访问群集见证,则首选站点将保持联机状态,而其他站点中的节点将被逐出。

  • 提高了存储空间直通卷的修复速度。 通过存储空间直通,可在发生影响其存储池中磁盘的可用性的事件后进行自动重新同步,例如在关闭其中一个群集节点或发生本地化的硬件故障后。 Azure Stack HCI 实现了一个增强的重新同步过程,其运行细粒度比 Windows Server 2019 更精细。 此过程显著缩短了重新同步操作的持续时间,并最大限度地降低了多个重叠的硬件故障的潜在影响。

  • 复原能力限制。 Azure Stack HCI 提供多个级别的复原能力,但由于它的超融合体系结构,复原能力不仅会受到群集仲裁限制,还会受到池仲裁限制。

  • 与一系列提供额外复原能力优势的 Azure 服务集成。 可将 Azure Stack HCI 群集上运行的虚拟化工作负载与 Azure 备份Azure Site Recovery 等 Azure 服务集成。

  • 加速故障转移。 可优化网络基础结构及其配置,来加快完成站点级故障转移。 例如,可使用表示群集资源的 DNS 记录中的拉伸虚拟 LAN (VLAN)、网络抽象设备和较短的生存时间 (TTL) 值。 此外,请考虑缩短默认复原期,这决定了允许群集 VM 在隔离状态下运行的时间。

注意

将拉伸群集与 SDN 结合使用被视为一种高级配置;要获取进一步帮助,应联系系统集成商或 Microsoft 支持部门。

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

  • 在传输中保护。 存储副本为其复制流量提供内置安全性,其中包括数据包签名、AES-128-GCM 完整数据加密、对 Intel AES-NI 加密加速的支持,以及预身份验证完整性中间人攻击防范。 存储副本还利用 Kerberos AES256 在复制节点之间进行身份验证。

  • 静态加密。 Azure Stack HCI 支持对其数据卷进行 BitLocker 驱动器加密,因而有助于遵守 FIPS 140-2 和 HIPAA 等标准。

  • 与一系列提供额外安全优势的 Azure 服务集成。 可将在 Azure Stack HCI 群集上运行的虚拟化工作负载与 Azure 服务(例如 Microsoft Defender for Cloud)集成

  • 不受防火墙影响的配置。 存储副本流量要求在复制节点之间配置有限数量的开放端口

注意

存储副本和 Azure Stack HCI 拉伸群集必须在 AD DS 环境中运行。 规划 Azure Stack HCI 拉伸群集部署时,请确保连接到托管群集节点的每个站点中的 AD DS 域控制器。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

  • 主动-主动与主动-被动配置。 Azure Stack HCI 拉伸群集支持主动-被动和主动-主动模式。 在主动-被动模式下,有一个指定的主站点,它单向复制到提供灾难恢复功能的另一个站点。 在主动-主动模式下,两个站点将其各自的卷单向复制到彼此,从而在任一站点发生故障时提供故障转移功能。 主动-主动模式通过消除对专用灾难恢复站点的需求,最大程度地降低业务连续性成本。

  • 云见证与文件共享见证。 见证资源是 Azure Stack HCI 群集中的必需组件。 若要实现它,请选择 Azure 云见证或文件共享见证。 为了防止“脑裂”情况,Azure 云见证依赖于你指定为仲裁点的 Azure 存储帐户中的 Blob。 文件共享见证依赖于服务器消息块 (SMB) 文件共享来实现这一目标。

注意

建议选择对 Azure Stack HCI 拉伸群集使用 Azure 云见证,前提是群集中的所有服务器节点具有可靠的 Internet 连接。 相应的 Azure 费用可忽略不计;这些费用基于与群集状态变化相对应的不频繁更新的小型 Blob 的价格。 在涉及到拉伸群集的情况下,文件共享见证应驻留在第三个站点中,这可显著提高实现成本,除非第三个站点已经可用且具有与托管拉伸群集节点的站点的现有可靠连接。

  • 重复数据删除。 Azure Stack HCI 和存储副本支持重复数据删除。 从 Windows Server 2019 开始,重复数据删除适用于使用弹性文件系统 (ReFS) 格式化的卷 - 这是推荐用于 Azure Stack HCI 的文件系统。 重复数据删除通过识别文件的重复部分并仅存储它们一次来帮助增加可用存储容量。

注意

尽管应在源服务器和目标服务器上安装“重复数据删除”服务器角色服务,但不要在 Azure Stack HCI 拉伸群集中的目标节点上启用重复数据删除。 由于重复数据删除会管理写入,因此只应在源群集节点上运行它。 目标节点始终接收每个卷的已删除重复数据的副本。

卓越运营

卓越运营涵盖了部署应用程序并使其在生产环境中保持运行的运营流程。 有关详细信息,请参阅卓越运营支柱概述

  • 自动故障转移和恢复。 主站点故障会触发自动故障转移。 故障转移后,从新的主站点/前辅助站点重新复制到新的辅助站点/前主站点的过程也是自动的。 为了防止潜在的数据丢失,群集会阻止故障回复,直到复制的卷完全同步。

  • 使用 Windows Admin Center 简化了预配和管理体验。 Windows Admin Center 中的“创建群集”向导提供向导驱动的接口,指导你完成创建 Azure Stack HCI 拉伸群集的过程。 该向导会检测群集节点是否驻留在两个不同的 Active Directory Domain Services (AD DS) 站点中,或者其 IP 地址是否属于两个不同的子网。 如果它们驻留在两个不同的子网中,向导会自动创建并配置相应的群集站点,每个站点都表示单独的容错域。 它还支持你指定首选站点。 同样地,Windows Admin Center 简化了预配复制卷的过程

注意

为拉伸群集创建卷和虚拟磁盘的过程比为单站点群集操作更复杂一些。 拉伸群集需要最少四个卷,两个数据卷和两个日志卷,每个站点中都有一个数据/日志卷对。 使用 Windows Admin Center 创建复制的数据卷时,该过程会自动在主站点中预配日志卷,同时在辅助站点中预配数据和日志复制卷,从而确保它们每一个都有所需的大小和配置设置。

  • 支持使用 Windows PowerShell 进行自动拉伸群集预配存储管理 可以从其中一个 Azure Stack HCI 服务器在本地运行 PowerShell,也可从管理计算机远程运行。

  • 与一系列提供额外操作优势的 Azure 服务集成。 可将 Azure Stack HCI 群集上运行的虚拟化工作负载与 Azure Monitor 和 Azure 自动化解决方案等 Azure 服务集成,包括更改跟踪和清单更新管理。 采用初始强制注册过程后,Azure Stack HCI 群集可利用 Azure Arc 进行监视和计费。 Azure Arc 集成提供与其他混合服务的增强集成,例如 Azure PolicyLog Analytics。 注册操作会触发创建一个 Azure 资源管理器资源来表示 Azure Stack HCI 群集,从而有效地将 Azure 管理平面扩展到 Azure Stack HCI。

性能效率

性能效率是指工作负载能够以高效的方式扩展以满足用户对它的需求。 有关详细信息,请参阅性能效率要素概述

  • 优化了复制流量。 设计 Azure Stack HCI 拉伸群集的基础结构时,请考虑在站点之间传输的其他存储副本、实时迁移和存储副本群集性能历史记录流量。 同步复制需要至少 1 GB 的远程直接内存访问 (RDMA) 或拉伸群集站点之间的 Ethernet/TCP 连接。 但是,根据复制流量大小,可能需要更快的 RDMA 连接。 还应在站点之间预配多个连接,这可提供复原优势,并支持将存储副本流量与 Hyper-V 实时迁移流量分开

注意

对于同一子网上同一站点中群集节点之间的所有流量,会默认启用 RDMA。 在站点之间或在不同的子网之间,会启用 RDMA,但不支持该功能。 应该对跨站点流量禁用 SMB Direct,或者实现将该流量与同一站点中的跨节点流量分开的其他预配

  • 支持种子设定的初始同步。在需要最大程度地缩短初始同步时间,或者托管拉伸群集的两个站点之间的带宽有限的情况下,可实现种子设定的初始同步

  • 优化了存储 I/O 的处理。 确保复制数据和日志卷的最佳配置,包括其性能层、卷和扇区大小调整、磁盘类型和文件系统。

注意

如果用它来预配拉伸群集卷,Windows Admin Center 会自动分配最佳配置。

后续步骤