Introdução à SRE

Concluído

Como uma unidade final deste módulo, vamos falar sobre as próximas etapas, caso você esteja interessado em explorar a SRE.

Lendo e assistindo

Para obter informações mais detalhadas sobre a SRE, a melhor fonte são três livros que foram publicados sobre o assunto

  1. Site Reliability Engineering: How Google Runs Production Systems (Engenharia de Confiabilidade do Site: como a Google executa sistemas de produção) (conhecido como "O livro sobre SRE")
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (O manual de Confiabilidade do Site: maneiras práticas de implementar a SRE) (conhecido como "O manual de SRE")
  3. Seeking SRE: Conversations About Running Production Systems at Scale (Buscando a SRE: conversas sobre a execução de sistemas de produção em escala)

(Como uma divulgação rápida, o autor principal deste módulo é o curador/editor do terceiro livro)

Cada um desses livros fornece um conjunto importante de informações:

  • O livro sobre SRE – fornece uma explicação detalhada de como a Google implementou a SRE ao longo dos anos.

  • O manual de SRE – um complemento para O livro sobre SRE que fornece uma explicação mais detalhada não apenas do “que” é a SRE na Google e alguns outros locais, mas “como” e “por que”.

  • Buscando a SRE – fornece uma visão mais ampla do cenário da SRE além de sua origem, incluindo informações sobre como ela foi implementada em outros ambientes.

Leia os três livros com um olhar crítico. Talvez nem tudo que está escrito nesses livros se aplique a você e à sua organização. Reserve algum tempo para identificar as informações que você tem certeza de que podem fornecer algum valor positivo. Pense sobre quais partes da cultura e dos valores de sua organização podem dar suporte ao trabalho da SRE descrito e que podem torná-lo mais desafiador.

Se você é uma pessoa mais visual, assista à palestra Segredos da SRE de Ben Treynor na conferência SREcon14. Treynor fornece uma explicação convincente do que é a SRE (pelo menos no contexto da Google). Outras palestras gravadas sobre a SRE desta série de conferências e de outras também podem ser úteis.

Conversar com outras pessoas interessadas

Tão importante quanto ler sobre a SRE é, muitas vezes, conversar sobre ela com seus colegas. Conversar sobre desafios, os êxitos e as falhas com relação à SRE pode ser fundamental para obter uma compreensão sutil sobre o assunto.

Há várias reuniões e conferências que apresentam conteúdo sobre a SRE. Talvez as mais diretamente relevantes sejam as conferências SREcon globalmente distribuídas promovidas pela USENIX (aviso de isenção de responsabilidade: o autor principal deste módulo é um dos cofundadores da SREcon).

Há ainda mais conteúdo sobre a SRE que está sendo inserido em conferências como Velocity, LISA e conferências locais de DevOps, como DevOps Days. Procure esse conteúdo e outras pessoas interessadas no assunto sempre que puder encontrá-los.

Primeiras etapas no trabalho

É importante lembrar que a SRE não é uma proposta do tipo "tudo ou nada". Se quiser começar a explorar como trazer a SRE para seu ambiente, você pode começar adotando princípios e práticas de SRE em pequenas passos.

Mikey Dickerson, é um SRE conhecido baseado em seu trabalho naquilo que se tornaria o United States Digital Service. Eles foram responsáveis por salvar o healthcare.gov. Ele propôs uma hierarquia de confiabilidade inspirada na hierarquia de necessidades de Maslow. Ele é citado na seção Práticas do primeiro livro sobre SRE.

Essa hierarquia propõe que você primeiro deve obter monitoramento funcional e confiável em seu ambiente. O monitoramento deve ser uma primeira etapa em direção à SRE para seu ambiente também. Você não pode determinar se algo é confiável (ou está melhorando ou piorando) se não pode medi-lo.

Depois de ter uma plataforma de monitoramento em que você possa confiar, a próxima etapa acessível é escolher um serviço em funcionamento. Em seguida, comece a ter conversas de SLI e SLO sobre isso. Comece com algo simples. Crie SLIs e SLOs para o serviço, implemente-os em seu sistema de monitoramento e veja o que acontece quando você começa a prestar atenção na confiabilidade usando a lente da SRE. Essas são ótimas etapas para começar.