Odolnost proti chybám a efektivita úložiště v clusterech Azure Stack HCI a Windows Server

Platí pro: Azure Stack HCI, verze 21H2 a 20H2; Windows Server 2022, Windows Server 2019

Tento článek vysvětluje dostupné možnosti odolnosti a popisuje požadavky na škálování, efektivitu úložiště a obecné výhody a kompromisy jednotlivých.

Přehled

Prostory úložiště s přímým přístupem poskytuje odolnost proti chybám, často označovanou jako odolnost vašich dat. Jeho implementace je podobná raidu s výjimkou distribuovaných mezi servery a implementovaných v softwaru.

Stejně jako u RAID existuje několik různých způsobů, Prostory úložiště to může udělat, což umožňuje různé kompromisy mezi odolností proti chybám, efektivitou úložiště a složitostí výpočetních prostředků. Tyto široce spadají do dvou kategorií: "zrcadlení" a "parita", druhá se někdy nazývá "kódování mazání".

Zrcadlení

Zrcadlení zajišťuje odolnost proti chybám tím, že uchovává více kopií všech dat. To se nejvíce podobá RAID-1. Jak jsou tato data pruhovaná a umístěná, není triviální (viz tento blog , který se dozví víc), ale je naprosto pravda, že všechna data uložená pomocí zrcadlení se zapisují v celém rozsahu. Každá kopie se zapisuje na jiný fyzický hardware (různé jednotky na různých serverech), u nichž se předpokládá, že selžou nezávisle.

Můžete si vybrat mezi dvěma příchutěmi zrcadlení – "obousměrně" a "trojcestně".

Dvoucestný zrcadlový svazek

Obousměrné zrcadlení zapisuje dvě kopie všeho. Efektivita úložiště je 50 procent – k zápisu 1 TB dat potřebujete alespoň 2 TB fyzické kapacity úložiště. Stejně tak potřebujete alespoň dva hardwarové "domény selhání" – s Prostory úložiště s přímým přístupem, to znamená dva servery.

two-way-mirror

Upozornění

Pokud máte více než dva servery, doporučujeme místo toho použít trojcestné zrcadlení.

Třícestný zrcadlový svazek

Trojcestné zrcadlení zapisuje tři kopie všeho. Efektivita úložiště je 33,3 procenta – k zápisu 1 TB dat potřebujete alespoň 3 TB fyzické kapacity úložiště. Stejně tak potřebujete aspoň tři hardwarové domény selhání – s Prostory úložiště s přímým přístupem, to znamená tři servery.

Trojcestné zrcadlení může bezpečně tolerovat alespoň dva hardwarové problémy (disk nebo server) najednou. Pokud například restartujete jeden server, když najednou selže jiná jednotka nebo server, všechna data zůstanou bezpečná a nepřetržitě přístupná.

three-way-mirror

Parity

Paritní kódování, často označované jako "kódování mazání", poskytuje odolnost proti chybám pomocí bitové aritmetické bitové aritmetické metody, která může být výrazně komplikovaná. Způsob, jakým to funguje, je méně zřejmé než zrcadlení a existuje mnoho skvělých online zdrojů (například tento průvodce vymazáním třetích stran), které vám můžou pomoct získat nápad. Stačí říct, že poskytuje lepší efektivitu úložiště bez ohrožení odolnosti proti chybám.

Prostory úložiště nabízí dvě varianty parity – "single" parity a "duální" parity, druhá využívá pokročilou techniku nazvanou "místní kódy rekonstrukce" ve větším měřítku.

Důležité

Doporučujeme používat zrcadlení pro většinu úloh citlivých na výkon. Další informace o vyvážení výkonu a kapacity v závislosti na vašem zatížení najdete v tématu Plánování svazků.

Jednoduchá parita

Jedna parita uchovává pouze jeden bitový paritní symbol, který poskytuje odolnost proti chybám pouze u jednoho selhání najednou. Nejvíce se podobá RAID-5. Pokud chcete použít jednu paritu, potřebujete aspoň tři hardwarové domény selhání – s Prostory úložiště s přímým přístupem, což znamená tři servery. Vzhledem k tomu, že trojcestné zrcadlení poskytuje větší odolnost proti chybám ve stejném měřítku, nedoporučujeme používat jednu paritu. Pokud ale trváte na jeho používání, a je plně podporovaná.

Upozornění

Nedoporučujeme používat jednu paritu, protože může bezpečně tolerovat pouze jedno selhání hardwaru najednou: pokud restartovat jeden server, když náhle dojde k selhání jiné jednotky nebo serveru, dojde k výpadku. Pokud máte jenom tři servery, doporučujeme použít trojcestné zrcadlení. Pokud máte čtyři nebo více, přečtěte si další část.

Duální parita

Duální parita implementuje kódy pro opravu chyb Reed-Solomon, aby byly zachovány dva symboly bitové parity, což zajišťuje stejnou odolnost proti chybám jako trojcestné zrcadlení (tj. až dvě selhání najednou), ale s lepší efektivitou úložiště. Nejvíce se podobá RAID-6. Pokud chcete použít duální paritu, potřebujete alespoň čtyři hardwarové domény selhání – s Prostory úložiště s přímým přístupem, to znamená čtyři servery. V takovém měřítku je efektivita úložiště 50 % – pro ukládání 2 TB dat potřebujete 4 TB fyzické kapacity úložiště.

dual-parity

Efektivita úložiště duální parity zvyšuje více domén selhání hardwaru, které máte, z 50 % až 80 %. Například u sedmi (s Prostory úložiště s přímým přístupem to znamená sedm serverů) se efektivita přeskočí na 66,7 procenta – abyste mohli ukládat 4 TB dat, potřebujete jenom 6 TB fyzické kapacity úložiště.

dual-parity-wide

Informace o efektivitě dvou stran a kódů místního obnovení v každém měřítku najdete v části Souhrn .

Kódy místního obnovení

Prostory úložiště zavádí pokročilou techniku vyvinutou společností Microsoft Research s názvem "místní kódy rekonstrukce" nebo LRC. Duální parita ve velkém měřítku používá LRC k rozdělení kódování a dekódování do několika menších skupin, aby se snížila režie potřebná k tomu, aby se zápisy nebo zotavení po selháních snížily.

U pevných disků (HDD) je velikost skupiny čtyři symboly; se jednotkami SSD (Solid-State Drive), velikost skupiny je šest symbolů. Tady je například způsob, jak rozložení vypadá s pevnými disky a 12 doménami selhání hardwaru (což znamená 12 serverů) – existují dvě skupiny čtyř datových symbolů. Dosahuje 72,7% efektivity úložiště.

local-reconstruction-codes

Doporučujeme tento podrobný, ale velmi čitelný návod, jak místní kódy rekonstrukce zpracovávají různé scénáře selhání a proč jsou atraktivní, Claus Joergensen.

Zrcadlově akcelerovaná parita

Prostory úložiště s přímým přístupem svazek může být zrcadlení částí a parita částí. Nejprve zapíše zemi do zrcadlené části a postupně se přesunou do parity později. Efektivně se používá zrcadlení k urychlení kódování mazání.

Pokud chcete kombinovat trojcestné zrcadlení a duální paritu, potřebujete alespoň čtyři domény selhání, což znamená čtyři servery.

Efektivita úložiště zrcadlově akcelerované parity je mezi tím, co byste získali od použití všech zrcadlení nebo všech parit a závisí na poměrech, které zvolíte. Například ukázka na 37minutové znaméně této prezentace ukazuje různé kombinace, které dosahují 46 procent, 54 procent a 65% efektivity s 12 servery.

Důležité

Doporučujeme používat zrcadlení pro většinu úloh citlivých na výkon. Další informace o vyvážení výkonu a kapacity v závislosti na vašem zatížení najdete v tématu Plánování svazků.

Souhrn

Tato část shrnuje typy odolnosti dostupné v Prostory úložiště s přímým přístupem, minimální požadavky na škálování pro použití jednotlivých typů, kolik selhání může každý typ tolerovat, a odpovídající efektivitu úložiště.

Typy odolnosti

Odolnost Odolnost proti chybám efektivita Storage
Dvoucestný zrcadlový svazek 1 50.0%
Třícestný zrcadlový svazek 2 33.3%
Duální parita 2 50.0% - 80.0%
Smíšené 2 33.3% - 80.0%

Minimální požadavky na škálování

Odolnost Minimální požadované domény selhání
Dvoucestný zrcadlový svazek 2
Třícestný zrcadlový svazek 3
Duální parita 4
Smíšené 4

Tip

Pokud nepoužíváte odolnost proti chybám skříně nebo racku, počet domén selhání odkazuje na počet serverů. Počet jednotek na každém serveru nemá vliv na typy odolnosti, které můžete použít, pokud splňujete minimální požadavky na Prostory úložiště s přímým přístupem.

Efektivita duální parity pro hybridní nasazení

Tato tabulka ukazuje efektivitu úložiště duální parity a kódů místního obnovení v každém měřítku pro hybridní nasazení, která obsahují pevné disky (HDD) i jednotky SSD (Solid-State Drive).

Domény selhání Layout Efektivita
2
3
4 RS 2+2 50.0%
5 RS 2+2 50.0%
6 RS 2+2 50.0%
7 RS 4+2 66.7%
8 RS 4+2 66.7%
9 RS 4+2 66.7%
10 RS 4+2 66.7%
11 RS 4+2 66.7%
12 LRC (8, 2, 1) 72.7%
13 LRC (8, 2, 1) 72.7%
14 LRC (8, 2, 1) 72.7%
15 LRC (8, 2, 1) 72.7%
16 LRC (8, 2, 1) 72.7%

Efektivita duální parity pro nasazení all-flash

Tato tabulka ukazuje efektivitu úložiště duální parity a kódů místního obnovení v každém měřítku pro nasazení typu all-flash, která obsahují pouze jednotky SSD (Solid-State Drive). Rozložení parity může používat větší velikosti skupin a dosáhnout lepší efektivity úložiště v konfiguraci all-flash.

Domény selhání Layout Efektivita
2
3
4 RS 2+2 50.0%
5 RS 2+2 50.0%
6 RS 2+2 50.0%
7 RS 4+2 66.7%
8 RS 4+2 66.7%
9 RS 6+2 75.0%
10 RS 6+2 75.0%
11 RS 6+2 75.0%
12 RS 6+2 75.0%
13 RS 6+2 75.0%
14 RS 6+2 75.0%
15 RS 6+2 75.0%
16 LRC (12, 2, 1) 80.0%

Příklady

Pokud nemáte jenom dva servery, doporučujeme použít trojcestné zrcadlení nebo duální paritu, protože nabízejí lepší odolnost proti chybám. Konkrétně zajišťují, aby všechna data zůstala bezpečná a nepřetržitě přístupná i v případě, že dvě domény selhání – s Prostory úložiště s přímým přístupem, což znamená, že na dva servery – mají vliv souběžná selhání.

Příklady, kde všechno zůstává online

Těchto šest příkladů ukazuje, co třícestné zrcadlení a/nebo duální parita může tolerovat.

  • 1. Ztráta jedné jednotky (včetně jednotek mezipaměti)
  • 2. Jeden server se ztratil

fault-tolerance-examples-1-and-2

  • 3. Jeden server a jedna jednotka se ztratily
  • 4. Na různých serverech došlo ke ztrátě dvou jednotek

fault-tolerance-examples-3-and-4

  • 5. Došlo ke ztrátě více než dvou jednotek, pokud jsou ovlivněny maximálně dva servery.
  • 6. Došlo ke ztrátě dvou serverů

fault-tolerance-examples-5-and-6

... v každém případě zůstanou všechny svazky online. (Ujistěte se, že cluster udržuje kvorum.)

Příklady, kde všechno přejde do offline režimu

V průběhu jeho životnosti může Prostory úložiště tolerovat libovolný počet selhání, protože se po každém z nich obnoví na plnou odolnost za určitou dobu. Na maximálně dvě domény selhání ale mohou být v každém okamžiku bezpečně ovlivněny selháními. Tady jsou příklady třícestného zrcadlení nebo duální parity , které nemohou tolerovat.

  • 7. Ztráty jednotek na třech nebo více serverech najednou
  • 8. Při ztrátě tří nebo více serverů najednou

fault-tolerance-examples-7-and-8

Využití

Podívejte se na Vytvoření svazků.

Další kroky

Další informace o tématech uvedených v tomto článku najdete v následujících tématech: