Начало работы с SRE

Завершено

В последнем уроке этого модуля давайте поговорим о том, в каком направлении двигаться, если вы заинтересовались SRE и хотите изучить его подробнее.

Материалы для чтения и просмотра

Для поиска сведений о SRE лучше всего подходят три книги, опубликованные на эту тему

  1. Site Reliability Engineering: How Google Runs Production Systems (Обеспечение надежности информационных систем: организация рабочих систем в Google) (ее также называют "книгой о SRE")
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (Рабочая книга по обеспечению надежности информационных систем: практический подход к реализации SRE) (ее также называют "рабочей книгой по SRE")
  3. Seeking SRE: Conversations About Running Production Systems at Scale (В поисках SRE: обсуждение организации рабочих систем на должном уровне)

(Стоит отметить, что основной автор этого модуля является куратором/редактором третьей книги.)

Каждая из этих книг содержит важный набор сведений:

  • Книга о SRE — подробно описывает, как именно компания Google внедряла SRE в течение многих лет.

  • Рабочая книга по SRE — это дополнение к SRE, которое более подробно описывает не только, что именно представляет собой SRE в Google и нескольких других местах, но и "как" и "для чего" используется этот подход.

  • "В поисках SRE" — содержит более открытый взгляд на подход SRE без привязки к источнику, включая сведения о том, как он был реализован в других средах.

Рекомендуем вам внимательно прочитать и проанализировать все три книги. Не все, что там описано, будет касаться вас и вашей организации. Уделите время тому, чтобы отобрать именно те сведения, которые обязательно принесут пользу. Подумайте, какие ценности и культурные особенности вашей организации способны упростить или затруднить описанную реализацию SRE.

Если вы больше любите смотреть, а не читать, обратите внимание на выступление Бена Трейнора (Ben Treynor ) по ключевым аспектам SRE на конференции SREcon14. Трейнор довольно убедительно излагает концепцию SRE (по крайней мере в контексте Google). Другие обсуждения SRE велись на этой конференции, кроме того, там могут быть и другие полезные материалы.

Общение с другими заинтересованными людьми

Общение с коллегами о SRE может оказаться не менее важным, чем чтение о нем. Обсуждение трудностей, успехов и поражений, связанных с SRE, может очень сильно помочь в понимании этой темы.

Существует ряд мероприятий и конференций, где рассматривается SRE. Вероятно, прежде всего следует обратить внимание на проходящие в разных странах конференции SREcon, которые проводит USENIX (оговорка: основной автор этого модуля является одним из соучредителей SREcon).

Все чаще о SRE говорят на таких конференциях, как Velocity, LISA, а также локальных конференциях DevOps, например DevOps Days. Ищите подходящие материалы и людей, заинтересованных данной темой, где вам будет удобно.

Первые шаги на работе

Если вы хотите узнать, что даст привнесение SRE в вашу среду, важно помнить, что к SRE не относится принцип "все или ничего". Вы можете начать внедрение принципов и методик SRE небольшими этапами.

Майки Дикерсон (Mikey Dickerson), известный специалист по SRE, который работал в организации, превратившейся в правительственное агентство United States Digital Service (они отвечали за спасение сайта healthcare.gov), предложил иерархию надежности по аналогии с иерархией потребностей по Маслоу. Соответствующая цитата приведена в разделе практических методик первой книги по SRE.

Эта иерархия предлагает, что сначала нужно обеспечить мониторинг среды, чтобы убедиться в ее функциональности и надежности. Это должно также стать первым шагом к внедрению SRE в вашей среде. Вы не можете определить, надежно ли что-то (и в какую сторону изменяется его состояние), если это невозможно измерить.

Обеспечив себе надежную платформу мониторинга, можно выбрать работающую службу и начать вести для нее обсуждения по поводу SLI и SLO. Начните с простого приложения. Сформулируйте показатели SLI и SLO для этой службы, реализуйте их в системе мониторинга и наблюдайте, что произойдет, когда вы будете смотреть на надежность через призму SRE. Это просто отличный вариант для начала.