Metryki niezawodności

Ukończone

Czasami podczas czytania materiałów odwołujących się do dostępności i niezawodności zobaczysz termin dziewiątki. Pięć dziewiątek lub dziewięć dziewiątek odnosi się do liczby dziewiątek w wartości procentowej dostępności. Dwie dziewiątki to 99%, trzy dziewiątki to 99,9%, cztery to 99,99% itd.

Średni czas między awariami

W specyfikacjach dotyczących wielu pojedynczych składników (na przykład dysków twardych, płyt głównych, zasilaczy) zobaczysz również frazy średni czas między błędami (MTBF) i średni czas do awarii (MTTF). Wartości te są definiowane jako średnia liczba godzin, przez jaką składnik powinien działać i są zwykle określane przez producenta przy użyciu próbki części w bardziej ekstremalnych warunkach. Niemniej jednak często wskaźniki awarii zgłaszane w terenie są wyższe. Na przykład dyski twarde są klasyfikowane jako co najmniej 1 mln godzin, ale częstotliwości ich awarii są od 2 do 10 razy większe.1 Z badań firmy Google wynika, że współczynniki awarii dysków są średnio o 50% wyższe.2 Współczynnik awarii wynosi 1/MTBF. Na przykład jeśli czas MTBF urządzenia to 100 godz., prawdopodobieństwo wystąpienia awarii tego urządzenia w ciągu 1 godziny wynosi 1/100, 0,01 lub 1%.

Należy pamiętać, że w przypadku określania ogólnego czasu MTBF systemu, który ma składniki nadmiarowe, czas MTBF każdego pojedynczego składnika jest dodawany jako odwrotność. Formalnie:

$$ \frac{1}{MTBF_{system}} = \left(\frac{1}{MTBF_{c1}} + \frac{1}{MTBF_{c2}} + \cdots + \frac{1}{MTBF_{cn}} \right) $$

Z drugiej strony, gdy system ma składniki nadmiarowe, do wystąpienia ogólnej awarii systemu jest wymagana jednoczesna awaria w obu składnikach. Ogólny czas MTBF systemu jest dlatego iloczynem czasów MTBF wszystkich indywidualnych składników nadmiarowych systemu. Formalnie:

$$ MTBF_{system} = MTBF_{rc1} \times MTBF_{rc2} \times \cdots \times MTBF_{rcn} $$

Jednym z czynników, które jest często pomijany w przypadku rozważania czasu pracy, jest błąd ludzki. Niezależnie od tego, ile nadmiarowości zaprojektowano w systemie, nawet jeśli została jest ona prawidłowo implementowana i utrzymywana, istnieje pewne prawdopodobieństwo popełnienia błędu przez użytkownika. Taki błąd może w konsekwencji prowadzić do niedostępności usługi (przestoju). Niektórych błędów można uniknąć dzięki zastosowaniu zasad, określając konfiguracje standardowe, odpowiednio przygotowaną dokumentację i zarządzanie zmianami.

W przypadku dużych wdrożeń w chmurze kładzie się niewielki nacisk na odporności sprzętową poszczególnych serwerów. Gdy 10 000 lub więcej serwerów współpracuje ze sobą w ramach jednej aplikacji, sama aplikacja ma wbudowaną odporność na uszkodzenia. W takiej sytuacji błąd pojedynczego serwera, a nawet kilku z nich, nie zakłóca działania aplikacji/usługi. Małe i średnie firmy, a nawet duże przedsiębiorstwa, które korzystają ze starszych aplikacji, nie mogą pozwolić sobie na tworzenie w pełni dostosowywanych aplikacji w stylu chmury, tak aby korzystały one z programów innych firm, z których większość nie reaguje na awarie sprzętu. Zamiast tego dostawcy chmury koncentrują się na sprzęcie serwerowym, który dzięki usunięciu niepotrzebnych części jest niedrogi i oferuje jak największą możliwą efektywność energetyczną.


Odwołania

  1. Schroeder, Bianca i Gibson, Garth A. (2007). Błędy dysków w świecie rzeczywistym: Co oznacza mtTF 1000 000 godzin? (Awarie dysków w świecie rzeczywistym: co oznacza dla Ciebie czas MTTF wynoszący 1 000 000 godzin?) Materiały z 5. konferencji USENIX dotyczącej technologii obsługi plików i magazynowania
  2. Eduardo Pinheiro, Weber, Wolf-Dietrich i Barroso, Luiz André. (2007). Trendy błędów w dużej populacji dysków w postępowaniu z 5 konferencji USENIX na temat technologii plików i magazynowania

Sprawdź swoją wiedzę

1.

Załóżmy, że masz 20 000 niezależnych dysków twardych określonego modelu w centrum danych, a każdy z nich ma określony przez producenta czas MTBF wynoszący 1 mln godz. Załóżmy, że nie masz pewności co do czasu MTBF podanego przez producenta, dlatego dzielisz tę wartość przez dwa i uzyskujesz 500 000 godzin. W drugim roku eksploatacji tych dysków w przypadku ilu z 20 000 oczekujesz awarii?

2.

Przyjrzyjmy się scenariuszowi zastosowanemu już w poprzednim pytaniu. Jeśli każdy dysk jest częścią woluminu dublowanego RAID 1 składającego się z dwóch dysków, czy w ciągu tego roku będziesz oczekiwać utraty danych w trakcie awarii podwójnego dysku w jednej z 10 000 macierzy RAID 1?
(Załóżmy również, że uszkodzony dysk jest natychmiast wymieniany, a podczas odbudowywania nie występują dodatkowe błędy dysków).