Vikten av incidenthantering

Slutförd

Genom att bygga på principer och metoder för övervakning som diskuterats i en annan modul i den här utbildningsvägen kan du nu lära dig vad du kan göra när övervakningen avslöjar ett problem. Om du får en avisering om att dina system inte fungerar som förväntat så utlöser den ett svar för att hantera problemet.

Vad är en incident?

Incidenthantering handlar om de åtgärder du vidtar när en incident inträffar, men vad exakt utgör en incident? Svaret kan skilja sig åt – inte ens alla tekniker är överens om vad en incident är. Om du ställer frågan i olika branscher och organisationer får du många olika svar.

Vissa kallar alla avbrott för incidenter, oavsett om kunder påverkas eller inte. I den här modulen kan vi komma överens om att en incident definieras som en tjänststörning: en förekomst eller ett villkor som påverkar användarens möjlighet att använda de tjänster som de förlitar sig på. Exempel på det är när system ligger nere eller fungerar dåligt på ett sätt som påverkar kunder.

Vad är incidenthantering?

Att förhindra alla problem är ett berömvärt, men omöjligt mål. Saker går fel, och därför behöver vi en plan för att begränsa effekten på våra slutanvändare och återgå till normal drift så snabbt som möjligt.

Nyckeln är att reagera snabbt snarare än att reagera. En reaktion brukar vara mer impulsiv och baseras på nuläget, utan att ta hänsyn till effekter på lång sikt. Ett svar är väl genomtänkt, organiserat och informationsbaserat.

Din lösning för incidenthantering avgör hur effektivt du:

  • Förstå vad som händer (diagnostisera problemet).
  • Prioritera (fastställa hur brådskande det är) och prioritera problemet.
  • Använda rätt resurser för att åtgärda problemet.
  • Kommunicera med intressenter om problemet.

När du har åtgärdat problemet kan du sedan lära dig av incidenten genom en granskningsprocess efter incidenten. Det är ett viktigt ämne som diskuteras i en helt separat modul.

Mäta prestanda för incidenthantering

Du kanske känner till förkortningen TTR, som definieras som "time to recover", "time to remediate" eller "time to restore". Alla dessa varianter refererar till samma sak: den totala tid det tar för dig att få tillbaka tjänster till en plats där de kan återgå till att uppfylla kundernas förväntningar.

Det här måttet är ett sätt för att mäta hur bra team presterar när de hanterar incidenter. Ju snabbare du återställer/reparerar/återskapar tjänsten, desto mindre påverkan får avbrottet eller den försämrade tjänsten.

Det är viktigt att veta hur väl din organisation hanterar incidenthantering. Varje år släpper organisationen DevOps Research and Assessment (DORA) rapporten State of DevOps. Vissa viktiga resultat i 2019 års rapport fokuserade på prestanda för incidenthantering.

  • Rapporten klassificerade teknikteam som kan identifiera, svara och åtgärda tjänststörningar på mindre än en timme som "elit eller högpresterande".
  • De som kunde återhämta sig från incidenter på under 24 timmar klassificerades som "medelstora artister".
  • "Låg presterande" är de som tar mellan en vecka och en månad att återhämta sig från tjänststörningar.

Skillnaden mellan dessa nivåer är betydande. Studien fann att elit-/högpresterande team återhämtar sig från incidenter 2 604 gånger snabbare än sina "lågpresterande" kamrater. Elitteam/högpresterande team distribuerar även till produktion 208 gånger oftare.

Varför och hur kan elitteam hantera och åtgärda så mycket snabbare än andra? Det baseras åtminstone delvis på att de förstår hur viktigt det är att ha en bra grundläggande hanteringsplan på plats när saker går fel.

När du går igenom den här modulen får du lära dig om en incidents egenskaper och livscykel och hur du använder den kunskapen för att skapa en egen grundplan.

Kontrollera dina kunskaper

1.

Vilket av följande är ett mål för effektiv incidenthantering?

2.

Hur snabbt kan teknikteam som klassificeras som "elitteam eller högpresterande team" i allmänhet identifiera, hantera och åtgärda tjänststörningar?