你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

卓越运营的设计评审清单

此清单提供了一组建议,可帮助你建立卓越运营文化。 从 DevOps 方法开始,以集成来自多个学科的专业化。 此方法创建严格的设计和开发实践。 此方法可对基础结构和代码进行可重复、可靠且安全的部署。

优先考虑从中受益的领域进行人工干预,并将自动化纳入其他领域。 可观测性通过监视运行状况事件以及验证当前工作负载设计和实现来为未来的产品开发提供信息,从而实现卓越运营。

如果不考虑卓越运营的权衡和建议,工作负载可能会面临风险。 仔细考虑以下清单中介绍的要点,以增强设计成功的信心。

清单

  代码 建议
OE:01 确定工作负载团队成员的专业化,并将其集成到一组可靠的实践中 ,以按照规范设计、开发、部署和操作工作负载。 团队成员必须明确决策和职责,重视持续改进和优化,并采用融入持续学习的无责备文化。
OE:02 根据需要使用文档、清单或自动化来规范运行例程和紧急操作任务的方式。 通过采用行业领先的做法和方法(例如 左移 方法),努力实现团队流程和可交付结果的一致性和可预测性。
OE:03 正式化软件构思和规划过程。 借鉴既定的行业和组织标准。 使用通用的、按优先级排列的积压工作和足够详细的规范。 根据结果,推动规划过程中的持续改进。
OE:04
OE:04
OE:04
遵循行业经过验证的开发和测试做法,优化软件开发和质量保证流程。 为了明确指定角色,请跨组件(如工具、源代码管理、应用程序设计模式、文档和样式指南)标准化做法。
OE:05 使用标准化基础结构即代码 (IaC) 方法准备资源及其配置。 与其他代码一样,使用一致的样式、适当的模块化和质量保证设计 IaC。 如果可能,首选声明性方法。
OE:06 构建工作负载供应链, 通过可预测的自动化管道推动建议的更改。 管道跨环境测试和提升这些更改。 优化供应链,使工作负载可靠、安全、经济高效且性能高。
OE:07
OE:07
设计和实现监视系统 ,以验证设计选择,并为未来的设计和业务决策提供信息。 此系统捕获并公开从工作负载的基础结构和代码发出的操作遥测、指标和日志。
OE:08 制定有效的应急操作实践。 确保工作负载跨基础结构和代码发出有意义的运行状况信号。 收集生成的数据,并使用它来生成可操作的警报,这些警报通过仪表板和查询发出紧急响应。 明确定义人工责任,例如待命轮换、事件管理、紧急资源访问和运行事后分析。
OE:09 自动执行所有无法从人工干预的见解和适应性中受益的任务,具有高度程序性,并且具有可带来自动化投资回报的保质期。 如果可能,请选择用于自动化的现成软件,而不是自定义实现。 将所有自动化视为工作负载组件,并将其 Well-Architected 框架支柱应用于其设计和实现。
OE:10 针对生命周期问题、引导以及应用治理和合规性防护措施等操作提前设计和实现自动化。 以后不要尝试改造自动化。 选择平台提供的自动化功能。
OE:11 明确定义工作负载的安全部署做法。 强调小型、增量、质量封闭的释放方法的理想。 使用新式部署模式和渐进式曝光技术来控制风险。 考虑常规部署和紧急(或修补程序)部署。
OE:12 实施部署失败缓解策略 ,解决快速恢复的意外中推出问题。 结合使用多种方法,例如回滚、功能禁用或使用部署模式的本机功能。

后续步骤

建议查看卓越运营权衡,以探索其他概念。