你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云管理中的清单和可见性

运营管理显然依赖于数据。 一致性管理需要了解要管理的内容(清单)以及这些托管工作负荷和资产如何随时间变化(可见性)。 清楚地了解清单和可见性,有助于使团队有效地管理环境。 所有其他运营管理活动和过程都基于这两个方面。

一些关于度量重要性的经典话语为本文定下了基调:

  • 管理重要事项。
  • 只能管理可以度量的项。
  • 如果无法度量,那它可能并不重要。

清单和可见性规则基于这些永不过时的话语。 在有效地建立运营管理过程之前,必须收集数据并为正确的团队创建适当的可见性级别。

常见的客户挑战

除非始终如一地应用清单和可见性过程,否则运营管理团队可能会遭受更多的业务中断、更长的恢复时间,以及更大的排查和会审问题工作量。 由于更改会对更高优先级的应用程序和更大的资产产生不利影响,因此这些指标的增长速度更快。

这些挑战源于一些问题,这些问题只能通过一致的数据和遥测读取来回答:

  • 当前状态性能如何偏离标准运营性能遥测?
  • 哪些资产导致工作负荷级别的业务中断?
  • 必须修正哪些资产,以恢复此工作负荷或业务过程的可接受性能?
  • 偏差何时开始? 触发事件是什么?
  • 对基础资产进行了哪些更改? 由谁做出?
  • 更改是有意的吗? 是恶意的吗?
  • 更改如何影响性能遥测?

如果没有丰富的集中式日志和遥测数据源,则很难(可能性很低)回答这些问题。 若要通过确保集中数据所需的一致配置来启用云管理,基线服务必须先定义过程。 定义完善的进程捕获了一致配置如何强制数据收集以支持下一节中列出的清单和可见性组件。

清单和可见性组件

在任何云平台上创建可见性都需要几个关键组件:

  • 责任和可见性
  • 库存
  • 中心日志记录
  • 更改跟踪
  • 性能遥测

责任和可见性

建立每个工作负荷的承诺时,管理责任是一个关键因素。 委托责任需要委托可见性。 实现清单和可见性的第一步是确保责任方有权访问正确的数据。 在实现任何云原生工具以实现可见性之前,请确保每个监视工具为每个运营团队提供适当的访问权限和范围。

库存

如果没有人知道资产存在,则很难管理资产。 在管理资产或工作负荷之前,必须对其进行清点和分类。 实现稳定操作的第一个技术步骤是验证库存和库存分类。

中心日志记录

集中式日志记录对于运营管理团队日常所需的可见性至关重要。 我们建议部署到云的所有资产将日志记录到一个中心位置。 在 Azure 中,中心位置为 Log Analytics。 集中日志记录可驱动有关更改管理、服务运行状况、配置和 IT 运营的大多数其他方面的报告。

强制一致地使用中心日志记录是建立可重复运营的第一步。 可以通过公司策略实现强制。 但是,如果可能,应自动执行以确保一致性。

更改跟踪

更改是技术环境中的常态。 了解和理解多个工作负荷中的更改对于可靠运营至关重要。 云管理解决方案应包括了解技术变更的“时间、方式和原因”的方法。 如果没有这些数据点,修正工作将受到阻碍。

性能遥测

数据推动有关云管理的业务承诺。 若要正确维护承诺,云运营团队必须了解有关工作负载的稳定性、性能和操作的遥测数据。 云运营团队还必须了解支持工作负荷的资产。

网络、DNS、操作系统以及环境的其他基础领域的当前运行状况和运营都是关键数据点,这些数据点构成了任何工作负荷的整体运行状况。

进程

与云管理平台的功能相比,云管理过程在注意事项中可能更重要,因为它们实现了对企业的运营承诺。 云管理方法至少应包含以下流程:

  • 反应式监视: 谁解决了对业务运营产生不利影响的偏差? 他们采取哪些措施来修正偏差?
  • 主动监视: 检测到偏差但业务运营不受影响时,如何解决这些偏差,由谁解决?
  • 承诺报告:如何将业务承诺传达给业务利益干系人?
  • 预算评审:根据预算成本评审这些承诺的过程是什么? 调整已部署的解决方案或承诺以建立一致性的过程是什么?
  • 升级路径:如果上述任何过程不能满足业务需求,可以使用哪些升级路径?

还有几个与清单和可见性相关的过程。 前面的列表旨在激起运营团队内部的思考。 回答问题列表有助于开发一些必要的过程,并可能触发新的、更深入的问题。

职责

开发运营监视过程时,确定日常运营的责任以及每个过程的定期支持也很重要。

  • 在集中式 IT 组织中,IT 部门提供运营专业知识。 当问题需要修正时,业务本质上是咨询性的。

  • 在云卓越中心组织中,业务运营提供专业知识,并负责管理这些流程。 IT 在运营环境时侧重于团队的自动化和支持。

上述列表项是常见责任的示例。 组织通常需要混合责任,以满足业务承诺。

根据清单和可见性采取行动

无论使用何种云平台,都可以使用清单和可见性的五个组件来驱动大多数运营过程。 所有后续规则都基于要捕获的数据。 本系列的后续文章概述了处理该数据并集成其他数据源的方法。

共享可见性

没有操作的数据几乎没有回报。 云管理可能会扩展到云原生工具和过程之外。 为了适应更广泛的过程,可能需要增强云管理基线,以包括报告、IT 服务管理集成或数据集中。 在运营成熟度的各个阶段,云管理可能需要包含以下一项或多项原则。

报表

脱机过程以及向业务利益干系人传达承诺通常需要报告。 自助服务报告或定期报告可能是增强管理基线的必需组件。

IT 服务管理 (ITSM) 集成

ITSM 集成通常是有关清单和可见性的第一个示例。 当出现与预期性能模式的偏差时,ITSM 集成使用来自云平台的警报在单独的 ITSM 工具中触发票证,以触发修正活动。 某些操作模型可能需要 ITSM 集成作为增强管理基线的一个方面。

数据集中

企业可能需要单个云提供商中的多个租户有多种原因。 在这些方案中,数据集中是管理基线的增强必需组件,因为它可以提供跨租户或环境的可见性。

后续步骤

运营符合性基于清单功能,通过应用管理自动化和控制来构建。 了解运营符合性如何映射到过程。