你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

站点可靠性工程 (SRE) 书籍

要了解和强化 SRE 方面的知识,最佳方法之一是通过阅读相关书籍。 下面是我们认为关于 SRE 主体的最佳书面信息来源。

核心 SRE 书籍

有关站点可靠性工程 (SRE) 的更多详细信息,最佳来源是已发布的有关这一主题的一套三册书籍

每本图书都提供一系列重要信息:

  • SRE 书籍 - 详细说明了多年来 Google 是如何实现 SRE 的。

  • SRE 工作簿 - 作为 SRE 书籍的配套指南,不仅更详细地说明了 Google 和其他一些地方实现的 SRE,还更详细地说明了实现方式和原因。

  • 探求 SRE - 更全面地概览了 SRE 领域,除了介绍起源外,还介绍了其他环境是如何实现 SRE 的。

由于这些书籍介绍了的体验、环境和文化与您所在的组织可能类似,也可能不同,因此请务必仔细阅读这些书籍。 阅读过程中,请尝试推测你的组织中的做法是否会成功。 请花些时间甄别你确信可带来一些积极价值的信息。 仔细想想组织文化和价值观中的哪些部分可能会支持 SRE 按规定运行,以及哪些部分可能会带来更多挑战。 以迭代方式慎重采用 SRE 始终会产生更好的结果,而不是照搬您在阅读这些书籍时看到的内容。

有关 SRE 的其他书籍

阅读上述书籍后,如果你想深入了解服务级别指标 (SLI)/服务级别目标 (SLO) 的实践,请参阅以下指南:

实施服务级别目标

这本书提供了有关这一主题的各种良好意见,如果你要探索安全性与可靠性工程的交集,则可以阅读这本书:

构建安全可靠的系统