Introduzione a SRE

Completato

Nell'ultima unità di questo modulo si parlerà su come esplorare SRE (Site Reliability Engineering) partendo da qui.

Lettura e visione di video

Per informazioni più dettagliate su SRE, è consigliabile leggere i tre manuali pubblicati sull'argomento

  1. Site Reliability Engineering: How Google Runs Production Systems (Site Reliability Engineering: come Google esegue i sistemi di produzione, " noto anche con il titolo "The SRE Book")
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (Esercizi sull'affidabilità del sito: modi pratici per implementare SRE, noto anche con il titolo "The SRE Workbook")
  3. Seeking SRE: Conversations About Running Production Systems at Scale (Alla ricerca di SRE: conversazioni sull'esecuzione di sistemi di produzione su larga scala)

Una veloce rivelazione: il principale autore di questo modulo è il curatore e redattore del terzo manuale

Ognuno di questi manuale offre informazioni importanti:

  • The SRE Book: spiega nel dettaglio in che modo Google ha implementato SRE nel corso degli anni.

  • The SRE Workbook: questo manuale complementare a The SRE Book non contiene solo informazioni dettagliate su SRE in Google e in pochi altri ambienti, ma offre informazioni anche su come e perché implementare SRE.

  • Seeking SRE: offre un'immagine più completa del mondo SRE oltre le sue origini, includendo informazioni su come è stato implementato in altri ambienti.

È consigliabile leggere tutti i tre manuali con occhio critico. Non tutto quanto viene descritto in questi manuali può essere applicato all'organizzazione. È importante cercare attentamente le informazioni che sicuramente andranno ad aggiungere valore alla propria organizzazione. Considerare quali parti della cultura e dei valori aziendali possono supportare le attività SRE descritte e quali invece potrebbero rappresentare un problema.

Se anziché leggere si preferiscono esempi concreti, è possibile guardare l'intervento Keys to SRE (Chiavi su SRE) di Ben Treynor, registrato in occasione della conferenza SREcon14. Treynor offre una spiegazione convincente sulla sua idea di SRE, perlomeno nel contesto Google. Può essere utile anche guardare altri interventi su SRE di questa serie di conferenze.

Confrontarsi con altre persone interessate

Leggere informazioni su SRE è importante, ma può essere più interessante confrontarsi con altri colleghi. Parlare delle difficoltà, dei successi e dei fallimenti che si incontrano con SRE può essere fondamentale per approfondire più aspetti su tale argomento.

Per parlare di SRE, si organizzano numerosi meetup e conferenze. Le conferenze SREcon, distribuite a livello globale e disponibili in USENIX, sono probabilmente l'evento più rilevante (rivelazione: il principale autore di questo modulo è uno dei cofondatore di SREcon).

SRE è un contenuto sempre più trattato durante le conferenze, ad esempio Velocity, LISA e le conferenze locali di DevOps, DevOps Days. Ove possibile, cercare questo e altri contenuti d'interesse nell'oggetto.

Primi passi

È importante ricordare che SRE non è una proposta "tutto o niente". Se si vuole iniziare a esplorare come introdurre SRE nell'ambiente, è possibile iniziare ad adottare i principi e le procedure SRE tramite piccoli passaggi.

Mikey Dickerson è un noto SRE che ha basato il suo lavoro su ciò che sarebbe diventato United States Digital Service. L'United States Digital Service è stato responsabile del salvataggio di healthcare.gov. Ha proposto una gerarchia di affidabilità rendendo omaggio alla gerarchia delle esigenze di Maslow. Tale gerarchia è citata nella sezione Practices (Pratiche) del primo manuale SRE.

Questa gerarchia propone di ottenere innanzitutto un monitoraggio funzionale e affidabile del proprio ambiente. Si tratta del primo passo per poter adottare SRE anche nel proprio ambiente. Non è possibile stabilire se qualcosa è affidabile, o se migliora o peggiora la situazione, se non si può misurare.

Dopo aver creato una piattaforma di monitoraggio affidabile, il passaggio successivo è scegliere un servizio attivo. Quindi, iniziare ad avere conversazioni SLI e SLO su questo argomento. Iniziare in modo semplice. Creare indicatori e obiettivi sul livello del servizio scelto, implementarli nel sistema di monitoraggio e osservare cosa accade quando si inizia ad analizzare l'affidabilità usando SRE. Questi passaggi sono un ottimo punto di partenza.