你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

可靠性的设计评审清单

此清单提供了一组建议,供你在体系结构设计中用于评估可靠性、复原能力和故障恢复策略。 若要确保可靠性,请确定工作负载的最佳基础结构和应用程序设计。 根据映射到可用性和可恢复性目标指标的业务要求做出这些决策。

若要实现可靠的设计,请在设计中充分考虑决策点,并了解这些决策如何影响工作负荷。 此清单和随附的指南提供了资源来帮助你做出这些决策。 在整个工作负载设计、开发和操作生命周期中,将工作负载可靠性作为一个核心考虑因素。

清单

以可靠性为重点进行设计,以帮助确保设计出可复原、可管理和可重复的工作负载。 如果不考虑可靠性做法并考虑利弊,则设计可能会面临风险。 仔细考虑清单中涵盖的所有要点,以增强系统成功的信心。

  代码 建议
RE:01 将工作负载设计为与业务目标保持一致,并避免不必要的复杂性或开销。 使用实用且平衡的方法制定提供所需结果的设计决策。 将你的设计包含在必要条件中,以减少效率低下和潜在问题。
RE:02 识别用户和系统流并评分。 根据业务需求使用关键性缩放来设置流的优先级。
RE:03 使用故障模式分析 (FMA) 来识别解决方案组件中的潜在故障并确定其优先级。 执行 FMA 以帮助你评估每种故障模式的风险和影响。 确定工作负荷如何响应和恢复。
RE:04 为组件、流和整个解决方案定义可靠性和恢复目标。 可视化目标,以 协商、达成共识、设定期望并推动行动 来实现理想状态。 使用定义的目标生成运行状况模型。 运行状况模型定义正常、降级和不正常状态的外观。
RE:05
RE:05
RE:05
在不同级别添加冗余,尤其是对于关键流。 根据确定的可靠性目标,将冗余应用于计算、数据、网络和其他基础结构层。
RE:06
RE:06
在应用程序、数据和基础结构级别实施及时可靠的缩放策略
RE:07
RE:07
RE:07
通过实施自我保护和自我修复措施,增强工作负载的复原能力和可恢复性。 使用基于基础结构的可靠性模式和基于软件的设计模式处理组件故障和暂时性错误,在解决方案中构建功能。 在系统中构建功能以检测解决方案组件故障,并自动启动纠正措施,同时工作负载继续以完全或减少的功能运行。
RE:08 通过在测试和生产环境中应用混沌工程原则来测试复原能力和可用性方案。 使用测试通过执行主动故障和模拟负载测试来确保正常降级实现和缩放策略是有效的。
RE:09 (与恢复目标一致的 BCDR) 计划实施结构化、测试和记录的业务连续性和灾难恢复。 计划必须涵盖所有组件和整个系统。
RE:10 测量解决方案的运行状况信号并建模。 从整个工作负载以及单个组件和关键流持续捕获运行时间和其他可靠性数据。

后续步骤

建议查看可靠性权衡以探索其他概念。