你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

云管理中的保护和恢复

项目
07/11/2023

在为潜在的工作负载中断做准备之前，云管理团队应首先确保他们满足以下要求：

按照他们的计划，团队必须首先假设灾难发生时某些事情会失败。为中断做好准备使团队能够更快地检测故障并更快地恢复。此规则的重点是在系统发生故障后立即执行的步骤。如何保护工作负载，以便在发生中断时快速恢复它们？

任何技术解决方案都无法始终如一地提供保证 100% 运行时间的 SLA。具有最冗余体系结构的解决方案声称可提供 99.9999%（即“六个 9”）的运行时间。但即使是能提供“六个 9”的解决方案，在任何给定年份也会下降 31.6 秒。解决方案很少能保证需要大量持续运营投资才能达到“6 个 9”的运行时间。

转换保护和恢复对话

为业务运营提供支持的工作负载包括：

applications
数据
虚拟机 (VM)
其他资产

每个资产可能需要自己的保护和恢复方法。此规则的重要目标是在管理基线中建立一致的承诺，这可以为业务讨论提供起点。

云管理团队至少应为每个资产创建基线方法，明确致力于快速恢复和尽量减少数据丢失。

恢复时间目标 (RTO)

恢复时间目标是在发生灾难之前将任何系统恢复到其状态所花费的时间。这包括以下操作所需的时间：

将最小功能还原到 VM 和应用程序
还原应用程序所需的数据。

在业务术语中，RTO 表示业务流程服务不足的时间。对于任务关键型工作负载，此变量应相对较低，以便快速恢复业务流程。对于低优先级的工作负载，标准级别的 RTO 可能不会对公司性能产生显著影响。

企业应创建管理基线，为非任务关键型工作负载建立标准 RTO。然后，企业可使用该基线来证明在恢复时间内进行额外投资的合理性。

恢复点目标 (RPO)

在大多数云管理系统中，某种形式的数据保护会定期捕获和存储数据。恢复点是指上次捕获数据的时间。当系统发生故障时，只能将其还原到最近的恢复点。

恢复点目标从最近的恢复点到中断进行度量。如果 RPO 以小时为单位，则系统故障会导致在上次恢复点与中断之间的小时数内丢失数据。如果 RPO 以天为单位，则系统故障会导致在最后一个恢复点与中断之间的天数内丢失数据。理论上，一天的 RPO 会导致当天所有事务丢失，从而导致失败。

对于任务关键型系统，以分钟或秒为单位测量 RPO 可能有助于避免收入或利润损失。但是，RPO 越短通常会导致管理成本增加。为了帮助最大程度地降低这些成本，企业应创建一个侧重于可接受 RPO 最长的管理基线。然后，业务可以降低需要更多投资的特定平台或工作负载的 RPO。

保护和恢复工作负载

IT 环境中的大部分工作负载都支持特定的业务或技术流程。对业务运营没有系统影响的系统通常不能保证快速恢复系统或最大程度地减少数据丢失所需的增加投资。通过建立基线，企业可以确定所需的恢复支持级别，价格点可以一致管理。了解这一点有助于业务利益干系人评估增加的恢复投资的价值。

对于大多数云管理团队来说，增强型基线以及针对各种资产的特定 RPO/RTO 承诺，为相互业务承诺提供了最有利的途径。以下部分概述了一些常见的增强基线，使企业能够通过可重复的过程轻松添加保护和恢复功能。

保护和恢复数据

数据可以说是数字经济中最有价值的资产。为生产工作负荷提供支持的数据丢失会导致收入或利润损失。最常见的增强基线是有效保护和恢复数据的能力。我们鼓励云管理团队提供支持常见数据平台的增强管理基线级别。

在云管理团队实施平台操作之前，他们通常会支持平台即服务 (PaaS) 数据平台的改进操作。例如，云管理团队可以轻松地为Azure SQL数据库或 Azure Cosmos DB 解决方案强制实施更高频率的备份或多区域复制。这样，开发团队就可通过将其数据平台现代化来轻松改进 RPO。

若要详细了解这一思维过程，请参阅平台操作规则。

保护和恢复 VM

大多数工作负载在某种程度上依赖于托管解决方案各个方面的虚拟机。企业必须快速恢复某些虚拟机，以便工作负载在系统故障后支持其进程。

这些虚拟机上的每分钟停机都可能导致收入损失或利润减少。当 VM 停机对业务的财务性能产生直接影响时，RTO 非常重要。云管理团队可以通过将虚拟机复制到辅助站点并使用自动恢复（一种称为热恢复模式的模型）来快速恢复虚拟机。团队还可以采用称为热模型或高可用性模型的方法将虚拟机复制到功能辅助站点。热热方法成本更高，但它提供最高恢复状态。

这些模型中的每一个都会减少 RTO，这有助于企业更快地恢复其业务功能。不过，每个模型还会导致云管理成本大幅增加。

另请注意，除了复制高可用性外，还应为以下方案启用备份：

意外删除
数据损坏 (data corruption)
勒索软件攻击

若要详细了解这一思维过程，请参阅工作负载操作规则。

后续步骤

满足此管理基线组件后，团队可提前了解信息，避免其平台操作和工作负载操作出现中断的情况。

平台操作工作负载操作