Charakterystyka i cykl życia zdarzenia

Ukończone

Jak pokazano w ostatniej lekcji, zdarzenie to zakłócenia usług, które wpływają na klientów i użytkowników końcowych. Zdarzenia występują w wielu formach, począwszy od spowolnień wydajności, które frustrują użytkowników ("wolne jest nowe") po awarie systemu, które sprawiają, że usługa lub witryna są całkowicie niedostępne przez pewien czas.

Charakterystyka zdarzenia

Zdarzenia są zwykle nieoczekiwane i wydają się występować w najgorszym możliwym czasie (np. o godzinie 2:00 lub gdy jesteś głęboko zanurzony w ważnym projekcie). Dlatego incydenty są często obawiane i unikane, nawet do tego stopnia, że ludzie czasami bagatelizują znaczenie incydentu. Czasami presja wewnątrz organizacji jest tak duża, że pojawia się pokusa, aby nie raportować zakłócenia lub inaczej je oznaczyć w obawie przed naganą.

Przynajmniej incydenty tworzą nieplanowaną pracę i dlatego, że większość czasu poświęcasz na zaplanowaną pracę z dobrym pomysłem na to, co powinieneś robić, prawdopodobnie myślisz o zdarzeniach jako złych rzeczach. Jednak istnieje inny sposób, aby go przyjrzeć: incydenty są naprawdę inwestycjami* w dostarczaniu wartości, którą próbujesz dostarczyć użytkownikom końcowym. Niezależnie od rodzaju zdarzenia i zakresu jego wpływu, wszystkie zdarzenia mają jedną rzecz wspólną: stanowią one cenną naukę na przyszłość.

Zdarzenia powinny być wyświetlane jako impuls systemów. Mówią one więcej o systemie, niż wcześniej było wiadomo, i ta wiedza jest czymś dobrym. Jeśli masz silną podstawę monitorowania i dowiedz się więcej o tym, co dzieje się w systemie, nieuchronnie wygeneruje więcej alertów i zdarzeń oraz możliwości reagowania. Przynajmniej zdarzenia informują o tym, co się dzieje, a tym samym zwiększają świadomość operacyjną. W poprzednim module dotyczącym monitorowania sugerowaliśmy, że jest to ważny wstęp do pracy nad niezawodnością.

Cykl życia zdarzenia

Jeśli chcesz podnieść status zespołu reagowania na zdarzenia na "elitarny/wysoki wskaźnik wydajności", musisz przyjrzeć się poza ideą zakłóceń usługi lub zdarzenia jako prostej liniowej osi czasu i podejścia do niego z perspektywy cyklicznej.

Cykl życia zdarzenia można oddzielić od różnych faz, które logicznie następują po jednym po drugim w cyklu, który wraca do początku. Za każdym razem, gdy przejdziesz przez ten cykl (i zrobisz to wiele razy), jeśli obsłużysz go poprawnie, możesz wrócić na początek z większym wglądem w systemy. Ponadto, wykonując pewne zamierzone zadania, możesz lepiej przygotować się do szybkiej i skutecznej reakcji przy następnym wystąpieniu zdarzenia.

Fazy zdarzenia

Poszczególne fazy procesu reagowania na zdarzenia wyglądają nieco inaczej w zależności od używanego modelu. Na potrzeby tego modułu omówimy pięć faz, które należy przejść, reagując na zdarzenie:

  • Wykrywanie: Ta faza polega na tym, że wiedza na temat monitorowania z poprzedniego modułu w tej ścieżce szkoleniowej jest w grze. Narzędzia do monitorowania zbierają informacje z dzienników, analizują te informacje zgodnie ze skonfigurowanymi celami skoncentrowanymi na kliencie i wysyłają alerty z możliwością działania, aby poinformować Cię, że potrzebna jest interwencja człowieka.
  • Odpowiedź: Ta faza jest taka, co dzieje się po otrzymaniu tego alertu przez Ciebie i twój zespół. Szczegółowo omówimy tę fazę w tym module, więc za chwilę będzie jeszcze wiele do powiedzenia na temat tego pomysłu.
  • Korygowanie: w tej fazie przywracasz systemy do normalnego działania. Sposób, w jaki się to robi, zależy od przyczyny przerwy w działaniu usługi. Ponowne uruchomienie usługi i udostępnienie jej dla klientów jest Twoim najwyższym priorytetem. Jednak zadanie nie zostanie zatrzymane po wykonaniu tej czynności.
  • Analiza: Aby uzyskać trwałą wartość z incydentów, należy się z nich uczyć. Ta faza to proces zbierania informacji na temat tego, co się stało i kiedy podczas zdarzenia oraz dowiedzieć się, czego można się z niego nauczyć, zadając odpowiednie pytania. Istnieje cały moduł dotyczący Edukacja z błędu, który rozwiązuje tę fazę.
  • Gotowość: należy uwzględnić wnioski zdobyte w fazie analizy w praktyce operacyjnej. Jeśli istnieją czynności do wykonania, które mogłyby pomóc w uniknięciu podobnej awarii w przyszłości, są one również częścią tej fazy.

Cycle diagram of circles labeled with phases from above. Circles are connected to next circle with arrows from phase to phase.

Zanim utworzysz plan reagowania na zdarzenia, musisz zrozumieć charakterystykę i wartość zdarzeń oraz poznać fazy cyklu życia zdarzenia. Następnym krokiem jest upewnienie się, że Twoja strategia reagowania jest oparta na solidnych fundamentach.

Sprawdź swoją wiedzę

1.

Który z poniższych elementów można uznać za „puls” systemu?

2.

Który z poniższych elementów nie jest fazą zdarzenia?