Het belang van incidentrespons

3 minuten

Op basis van de principes en practices van bewaking die we in een andere module van dit leerpad hebben besproken, leert u nu want u moet doen als uw bewaking een probleem ontdekt. Als u een waarschuwing krijgt waaruit blijkt dat uw systemen niet werken zoals verwacht, is dat de trigger voor een reactie om het probleem op te lossen.

Wat is een incident?

Incidentrespons gaat over de acties die u uitvoert wanneer een incident plaatsvindt, maar wat is precies een incident? Het antwoord kan subjectief zijn. Zelfs ingenieurs zijn het niet met elkaar eens over wat een incident is. Als u die vraag stelt in verschillende branches en organisaties, krijgt u veel verschillende antwoorden.

Sommige bestempelen alle onderbrekingen als incidenten, of dat nu wel of niet van invloed is op klanten. In de context van deze module kunnen we ermee akkoord gaan dat een incident wordt gedefinieerd als een serviceonderbreking: een gebeurtenis of voorwaarde die van invloed is op de mogelijkheid van de gebruiker om de services te gebruiken waarop ze afhankelijk zijn. Bijvoorbeeld als systemen offline of defect zijn op een manier die van invloed is op klanten.

Wat betekent incidentrespons?

Het voorkomen van alle problemen is een prijzenswaardig, maar onmogelijk doel. Dingen gaan nu eenmaal fout, dus we hebben een plan nodig om de impact op onze eindgebruikers te beperken en de normale gang van zaken zo snel mogelijk te hervatten.

De sleutel is om met urgentie te reageren in plaats van te reageren. Een reactie is vaak impulsief en gebaseerd op het huidige moment, zonder rekening te houden met effecten op de lange termijn. Een antwoord is goed doordacht, georganiseerd en gebaseerd op informatie.

De aanpak van uw incidentrespons bepaalt de effectiviteit van zaken als de volgende:

Begrijpen wat er aan de hand is (diagnose van het probleem).
Triatiseren (de urgentie bepalen) en prioriteit geven aan het probleem.
De juiste resources inschakelen om het probleem(en) te verhelpen.
Communiceren met belanghebbenden over het probleem.

Nadat u het probleem hebt opgelost, kunt u vervolgens leren van het incident via een incidentbeoordelingsproces. Dat is een belangrijk onderwerp waar een hele module aan gewijd kan worden.

De prestaties van een incidentrespons meten

Misschien bent u bekend met de acroniem TTR, die op verschillende manieren is gedefinieerd als 'tijd om te herstellen', 'tijd om te herstellen' of 'tijd om te herstellen'. Al deze varianten verwijzen naar hetzelfde: de totale hoeveelheid tijd die nodig is om services terug te brengen naar een plek waar ze kunnen terugkeren naar de verwachtingen van klanten.

Deze metriek is een van de manieren om te meten hoe goed teams presteren bij het vinden van een antwoord op incidenten. Hoe sneller u de service herstelt/verhelpt/terugzet, hoe minder invloed de uitval of verminderde service heeft.

Het is belangrijk om te weten hoe goed uw organisatie incidentrespons afhandelt. De DevOps Research and Assessment organization (DORA) brengt elk jaar het rapport State of DevOps uit. Enkele belangrijke bevindingen in het rapport van 2019 betreffen de prestaties op het gebied van incidentrespons.

Het rapport geclassificeerde technische teams die serviceonderbrekingen in minder dan een uur kunnen detecteren, beantwoorden en herstellen als 'elite of high performers'.
Degenen die in minder dan 24 uur incidenten konden herstellen, werden geclassificeerd als 'medium performers'.
"Lage performers" zijn degenen die tussen één week en een maand duren om te herstellen van serviceonderbrekingen.

Het verschil tussen deze niveaus is aanzienlijk. Uit het onderzoek bleek dat elite/high performance teams 2.604 keer sneller herstellen van incidenten dan hun 'laag presterende' peers. Bovendien bleken 'elite/high performers' 208 keer hun oplossing in een productieomgeving te krijgen.

Waarom en hoe kunnen 'elite performers' zoveel sneller reageren en oplossingen aandragen dan de rest? Dat komt op z'n minst omdat ze weten wat het belang is van een bestaand en goed doorwrocht responsplan wanneer er onvermijdelijk iets misgaat.

In deze module maakt u kennis met de kenmerken en levenscyclus van een incident en hoe u die kennis kunt gebruiken om uw eigen plan op te stellen.

Kennis testen

Welke van de volgende is een doel voor effectieve incidentrespons?

De mogelijkheid om voorzichtig te kunnen reageren

De mogelijkheid om met spoed te kunnen reageren

De mogelijkheid om in overleg te reageren

Hoe snel kunnen engineeringteams die zijn geclassificeerd als 'elite/high performers' in het algemeen service-onderbrekingen detecteren, beantwoorden en herstellen?

in minder dan een uur

in minder dan vier uur

in minder dan 24 hours

in minder dan een week of maand

U moet alle vragen beantwoorden voordat uw werk kan worden gecontroleerd.

Doorgaan

Wat is een incident?

Wat betekent incidentrespons?

De prestaties van een incidentrespons meten

Kennis testen

Feedback