Tillförlitlighetsmått

Slutförd

När du läser material som refererar till tillgänglighet och tillförlitlighet ser du ibland termen nior. Fem nior eller nio nior avser antalet nior i procent av tillgängligheten. Två nior är 99 %, tre nior är 99,9 %, fyra är 99,99 % och så vidare.

Genomsnittlig tid mellan fel

Du kommer också att se fraserna mean time between failures (MTBF) och mean time to failure (MTTF) i specifikationerna för många enskilda komponenter (t. ex. hårddiskar, moderkort, strömförsörjning). Dessa definieras som det genomsnittliga antalet timmar som komponenten förväntas fungera och bestäms vanligtvis av tillverkaren med hjälp av ett urval av delar i mer extrema villkor. Rapporterade andel fel i fältet är dock ofta högre. Hårddiskar klassificeras till exempel till en miljön timmar eller mer, men deras felandelar har visat sig vara två till tio gånger högre.1 Google upptäckte i sin studie att andelen fel är 50 % högre i genomsnitt.2 Andelen fel är 1/MTBF. Om MTBF på en enhet till exempel är 100 timmar är risken för att enheten misslyckas om en timme 1/100, 0,01 eller 1 %.

Det är viktigt att observera att när du fastställer övergripande MTBF för ett system som har icke-redundanta komponenter läggs MTBF för varje enskild komponent till som en motsvarighet. Formellt:

$$ \frac{1}{MTBF_{system}} = \left(\frac{1}{MTBF_{c1}} + \frac{1}{MTBF_{c2}} + \cdots + \frac{1}{MTBF_{cn}} \right) $$

Å andra sidan, när ett system består av redundanta komponenter, krävs ett fel i båda komponenterna samtidigt för att ett övergripande systemfel ska kunna uppstå. Övergripande MTBF i systemet är därför produkten av MTBF för varje enskild, redundant komponent i systemet. Formellt:

$$ MTBF_{system} = MTBF_{rc1} \times MTBF_{rc2} \times \cdots \times MTBF_{rcn} $$

En faktor som ofta förbises i samband med drifttiden mänskliga fel. Oavsett hur mycket redundans som är utformat i systemet, även om det är korrekt implementerat och underhållet, finns det några sannolikheter för att ett misstag görs av en person. Resultatet av detta är att en tjänst inte är tillgänglig (stilleståndstid). Vissa misstag kan förhindras via principer, att ange standardkonfigurationer, lämplig dokumentation och ändringshantering.

När det kommer till stora molndistributioner är det lite fokus på maskinvarans återhämtning på en enskild server. När 10 000 eller flera servrar arbetar tillsammans som en del av ett enda program bygger själva programmet på fe toleransen. I den här situationen stör inte ett enskilt serverhaveri eller till och med flera programmet/tjänsten. Små och medelstora företag, eller till och med ett stort företag som har äldre program, har inte råd att skapa dessa molnbaserade, helt anpassade program, så de är beroende av programvara från tredje part, varav de flesta inte svarar bra på maskinvarufel. Molnleverantörer fokuserar i stället på servermaskinvara som är så billig och energieffektiv som möjligt, så att onödiga delar tas bort.


Referenser

  1. Schroeder, Bianca och Gibson, Garth A. (2007). Diskfel i verkligheten: Vad betyder en MTTF på 1 000 000 timmar för dig? In Proceedings of the 5th USENIX Conference on File and Storage Technologies
  2. Eduardo Pinheiro, Weber, Wolf-Dietrich, and Barroso, Luiz André. (2007). Feltrender i en stor diskenhetspopulation i förfaranden för den femte USENIX-konferensen om fil- och lagringstekniker

Testa dina kunskaper

1.

Anta att du har 20 000 oberoende hårddiskar av en viss modell i ditt datacenter, och var och en har tillverkarspecifik MTBF på en miljon timmar. Om du inte litar på den tillverkarspecifika MTBF-tiden kan du dela med två för att få 500 000 timmar. Hur många av dessa 20 000 skulle du förväntar dig misslyckas under det andra året av enheternas livslängd?

2.

Överväg samma scenario som i föregående fråga. Förväntar du dig att förlora data från ett dubbelt enhetsfel på någon av dessa 10 000 RAID 1-matriser under det året, om varje enhet ingår i en spegling med två RAID 1-enheter?
(Anta också att en felaktig enhet ersätts omedelbart och inga ytterligare enheter misslyckas under återuppbyggnaden.)