SRE 入门

已完成

作为本模块的最终单元,本单元将介绍若要探索 SRE,接下来该怎么办。

阅读图书和观看视频

要了解有关 SRE 的更多详细信息,最好是阅读已出版的本主题图书三件套

  1. 网站可靠性工程:Google 如何运行生产系统(称为“SRE 书籍”)
  2. 网站可靠性工作簿:切实可行的 SRE 实现方法(称为“SRE 工作簿”)
  3. 探求 SRE:有关批量运行生产系统的对话

(快速披露一下,本模块的主要作者是第三本图书的负责人/编辑)

每本图书都提供一系列重要信息:

  • SRE 书籍 - 详细说明了多年来 Google 是如何实现 SRE 的。

  • SRE 工作簿 - 作为 SRE 书籍的配套指南,不仅更详细地说明了 Google 和其他一些地方实现的 SRE,还更详细地说明了实现方式和原因。

  • 探求 SRE - 更全面地概览了 SRE 领域,除了介绍起源外,还介绍了其他环境是如何实现 SRE 的。

请务必批判性阅读所有这三本图书。 这些图书中的内容不一定都适用于你和贵组织。 请花些时间甄别你确信可带来一些积极价值的信息。 仔细想想组织文化和价值观中的哪些部分可能会支持 SRE 按规定运行,以及哪些部分可能会带来更多挑战。

如果你觉得自己是更视觉化的人,请尝试观看 Ben Treynor 在 SREcon14 大会上名为 SRE 之钥匙的发言。 Treynor 强有力地阐明了什么是 SRE(至少是在 Google 上下文中)。 本系列会议中其他有关 SRE 的录制发言以及其他录制内容也都有参考价值。

与其他感兴趣的人交流

虽然阅读 SRE 相关图书很重要,但与志同道合的人谈论 SRE 通常可能更为重要。 围绕 SRE 讨论挑战、成功与失败,对深入细致了解这个主题有着举足轻重的作用。

以 SRE 内容为主题的聚会和会议有很多。 也许最直接相关的是,USENIX 在世界各地召开的 SREcon 会议(免责声明:本模块的主要作者是 SREcon 的共同创始人之一)。

VelocityLISA 等会议以及 DevOps Days 等本地 DevOps 会议开始更多地涉及 SRE 内容。 请寻找此内容以及对这个主题感兴趣的其他人,无论在哪里找到都行。

工作中的首要步骤

请务必记住,SRE 不是一个“全有或全无”的命题。 如果想要开始探索如何将 SRE 引入你的环境,可以逐步开始采用 SRE 原则和做法。

Mikey Dickerson 参与的著名 SRE 就是美国数字服务部的前身。 他们负责拯救 healthcare.gov。 为了致敬马斯洛需求层次理论,他提出了可靠性层次理论。 第一本 SRE 书籍的“做法”部分中就引用了此理论。

此层次理论提出,必须先确保能够在环境中执行可信赖的监视工作。 监视工作也必须是将 SRE 引入环境的第一步。 如果无法衡量,也就无法判断服务是否可靠(或运行状况是越来越好,还是越来越坏)。

有了可信任的监视平台后,下一可行步骤便是在工作时选择服务。 然后,开始生成有关服务的 SLI 和 SLO 对话。 从简单操作入手。 为服务创建 SLI 和 SLO,在监视系统中实现它们,并检查开始使用 SRE 滤镜关注可靠性的效果如何。 这些步骤是一个很好的开始。