Начало работы с SRE

Завершено

В последнем уроке этого модуля давайте поговорим о том, в каком направлении двигаться, если вы заинтересовались SRE и хотите изучить его подробнее.

Материалы для чтения и просмотра

Для поиска сведений о SRE лучше всего подходят три книги, опубликованные на эту тему

  1. Site Reliability Engineering: How Google Runs Production Systems (Обеспечение надежности информационных систем: организация рабочих систем в Google) (ее также называют "книгой о SRE")
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (Рабочая книга по обеспечению надежности информационных систем: практический подход к реализации SRE) (ее также называют "рабочей книгой по SRE")
  3. Seeking SRE: Conversations About Running Production Systems at Scale (В поисках SRE: обсуждение организации рабочих систем на должном уровне)

(Стоит отметить, что основной автор этого модуля является куратором/редактором третьей книги.)

Каждая из этих книг содержит важный набор сведений:

  • Книга о SRE — подробно описывает, как именно компания Google внедряла SRE в течение многих лет.

  • Рабочая книга по SRE — это дополнение к SRE, которое более подробно описывает не только, что именно представляет собой SRE в Google и нескольких других местах, но и "как" и "для чего" используется этот подход.

  • "В поисках SRE" — содержит более открытый взгляд на подход SRE без привязки к источнику, включая сведения о том, как он был реализован в других средах.

Рекомендуем вам внимательно прочитать и проанализировать все три книги. Не все, написанное в этих книгах, может применяться к вам и вашей организации. Получите некоторое время, чтобы определить информацию, которую вы уверены, может дать некоторое положительное значение. Подумайте, какие ценности и культурные особенности вашей организации способны упростить или затруднить описанную реализацию SRE.

Если вы найдете вас больше визуального человека, попробуйте посмотреть разговор Ключи к SRE Бен Трейнор на конференции SREcon14. Трейнор предоставляет когентное объяснение того, что SRE (по крайней мере в контексте Google) является. Другие записанные переговоры по SRE из этой серии конференций и другие могут быть полезными.

Общение с другими заинтересованными людьми

Общение с коллегами о SRE может оказаться не менее важным, чем чтение о нем. Обсуждение ваших проблем, успехов и неудач вокруг SRE может быть важным для получения нюансов понимания темы.

Существует множество встреч и конференций, которые предоставляют содержимое SRE. Вероятно, прежде всего следует обратить внимание на проходящие в разных странах конференции SREcon, которые проводит USENIX (оговорка: основной автор этого модуля является одним из соучредителей SREcon).

Еще больше содержимого SRE делает свой путь к конференциям, таким как Скорость, LISA и локальные конференции DevOps, такие как DevOps Days. Ищите подходящие материалы и людей, заинтересованных данной темой, где вам будет удобно.

Первые шаги на работе

Важно помнить, что SRE не является предложением "все или ничего". Если вы хотите начать изучение того, как перенести SRE в среду, вы можете приступить к внедрению принципов и методик SRE в небольших шагах.

Майки Дикерсон, является хорошо известным SRE на основе своей работы на том, что станет США цифровой службы. Они несут ответственность за сохранение healthcare.gov. Он предложил иерархию надежности в соответствии с иерархией потребностей Маслоу. Он цитируется в разделе "Практики" первой книги SRE.

Эта иерархия предлагает сначала получить функциональный и надежный мониторинг в вашей среде. Мониторинг должен быть первым шагом к SRE для вашей среды. Вы не можете определить, надежно ли что-то (и в какую сторону изменяется его состояние), если это невозможно измерить.

После того как у вас есть платформа мониторинга, вы можете доверять, следующий доступный шаг — выбрать службу на работе. Затем начните говорить об этом SLI и SLO. Начните с малого. Сформулируйте показатели SLI и SLO для этой службы, реализуйте их в системе мониторинга и наблюдайте, что произойдет, когда вы будете смотреть на надежность через призму SRE. Эти шаги являются отличным местом для начала.