你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云管理中的工作负载操作

某些工作负载对于业务的成功至关重要。 对于这些工作负载,管理基线不足以满足对云管理所需的业务承诺。 平台操作甚至可能不足以满足业务承诺。 这一非常重要的工作负载子集需要专门关注工作负载的运行方式及其支持方式。

作为回报,对工作负载操作的投资可以提高性能,降低业务中断风险,并在系统发生故障时更快地恢复。 本文讨论了投资于这些高优先级工作负载的持续运营以推动改进业务承诺的方法。

何时投资于工作负载运营

帕累托原则(也称为 80/20 规则)指出,80% 的结果来自 20% 的原因。 当允许 IT 项目组合随时间逐渐增长时,此规则通常在对 IT 项目组合的回顾中得到展示。 根据需要投资的效果,原因可能会有所不同,但如下的一般原则是正确的:

  • 80% 的系统故障往往是 20% 的常见错误或错误的结果。
  • 80% 的业务价值往往来自投资组合中 20% 的工作负载。
  • 80% 的迁移到云的工作来自 20% 的迁移工作负载。
  • 80% 的云管理工作将支持 20% 的服务事件或故障票证。
  • 中断造成的 80% 的业务影响将来自 20% 的受中断影响的系统。

只有当云采用战略、业务成果和运营指标都得到充分理解时,才应应用工作负载操作。 这是从 IT 经典观点的范式转变。 传统上,IT 假设所有工作负载都获得相同程度的支持,并且需要相似的优先级。

在投资于深度工作负载运营之前,IT 和业务都应该了解业务理由和增加对云管理投资的期望。

从数据开始

工作负载操作始于对工作负载性能和支持要求的深入了解。 在团队投资于工作负载操作之前,它必须拥有关于工作负载依赖性、应用程序性能、数据库诊断、虚拟机遥测和事件历史的丰富数据。

这些数据为驱动工作负载操作决策的见解奠定了基础。

持续观察

初始数据和正在进行的遥测可以帮助制定和测试有关工作负载性能的理论。 但是,持续的工作负载操作植根于对工作负载性能的持续和扩展观察,且重点关注应用程序和数据性能。

测试自动化

在应用程序级别,工作负载操作的首要要求是对深度测试的投资。 对于通过工作负载操作支持的任何应用程序,应建立并定期执行测试计划,以跨应用程序提供功能和规模测试。

定期测试遥测可以立即验证有关工作负载操作的各种假设。 可以执行和测试改进操作和体系结构模式。 由此产生的增量提供了清晰的影响分析来指导持续投资。

了解发布情况

明确了解发布周期和发布管道是工作负载操作的重要元素。

了解周期可以为潜在的中断做好准备,并允许团队主动解决可能对运营产生不利影响的任何发布。 这种理解还允许云管理团队与采用团队合作,不断提高产品质量并解决可能影响稳定性的任何错误。

更重要的是,了解发布管道可以显著提高工作负载的恢复点目标 (RPO)。 在许多情况下,恢复应用程序的最快和最准确的路径是发布管道。 对于仅在新版本发生时才更改的应用程序层,明智的做法是在管道优化上投入更多资金,而不是从传统备份流程中恢复应用程序。

尽管部署管道可以是最快的恢复路径,但也可以是最快的修复路径。 当应用程序具有快速、高效且可靠的发布管道时,云管理团队可以选择自动部署到新主机,作为一种自动修复形式。

可能还有许多其他更快、更有效的补救和恢复机制。 但是,当使用现有管道可以满足业务承诺并利用现有的 DevOps 投资时,现有管道可能是一个可行的替代方案。

清楚地传达对工作负载的更改

对任何工作负载的更改是工作负载操作的最大风险之一。 对于云管理工作负载操作级别的任何工作负载,云管理团队应与云采用团队密切配合,以了解每个版本带来的变化。 这种对主动了解的投资将对运营稳定性产生直接、积极的影响。

改善成果

在工作负载的数据和沟通方面的投资将为改进以下三个领域之一的持续运营提供建议:

  • 技术债务解决
  • 自动修正
  • 改进系统设计

技术债务解决

最好的工作负载运营计划仍然需要补救。 你的云管理团队寻求保持联系以了解采用工作和发布时,该团队同样应定期分享补救要求,以确保技术债务和错误是你的开发团队的持续优先事项。

自动修正

通过应用帕累托原则,我们可以说 80% 的负面业务影响可能来自 20% 的服务事件。 当这些事件无法在正常的开发周期中得到解决时,对修复自动化的投资可以显著减少业务中断。

改进系统设计

在技术债务解决和自动修复的情况下,造成大多数系统中断的常见原因是系统缺陷。 通过遵循一些设计原则,你可以对整体工作负载操作产生最大影响:

  • 可伸缩性:系统处理增加的负载的能力。
  • 可用性:系统正常运行的时间百分比。
  • 复原能力:系统能够在发生故障后进行恢复,然后继续正常运行。
  • 管理:让系统在生产环境中持续运行的操作过程。
  • 安全:保护应用程序和数据免受威胁。

为了帮助改进整体运营,Microsoft Azure 架构良好的框架提供了一种评估特定工作负载以遵守这些支柱的方法。 将支柱应用于平台操作和工作负载操作。

后续步骤

充分了解云采用框架中的管理方法后,你现在可以实施云管理原则。 了解如何使此方法在你的运营环境中具有可操作性。