Použití roztažených clusterů Azure Stack HCI k zotavení po havárii

Azure Blob Storage
Azure Backup
Azure Monitor
Azure Stack HCI

Následující referenční architektura ukazuje, jak navrhnout a implementovat zotavení po havárii Azure Stack HCI pomocí roztaženého clusteringu.

Architektura

Diagram znázorňující roztažený cluster Azure Stack HCI typu aktivní-aktivní a aktivní-pasivní se svazky úložiště a historií výkonu clusteru, které se replikují prostřednictvím repliky úložiště V režimu aktivní-aktivní probíhá provoz replikace v každém směru, přičemž obě lokality hostují virtuální počítače Azure Stack HCI. V režimu aktivní-pasivní je replikace jednosměrná a aktivní lokalita hostuje virtuální počítače Azure Stack HCI.

Stáhněte si soubor aplikace Visio s touto architekturou.

Komponenty

Architektura zahrnuje následující komponenty a možnosti:

  • Azure Stack HCI (20H2) Azure Stack HCI je řešení clusteru hyperkonvergované infrastruktury (HCI), které hostuje virtualizované úlohy Windows a Linux a jejich úložiště v hybridním místním prostředí. Roztažený cluster se může skládat ze čtyř až 16 fyzických uzlů.
  • Replika úložiště. Replika úložiště je technologie Windows Serveru, která umožňuje replikaci svazků mezi servery nebo clustery za účelem zotavení po havárii.
  • Migrace za provozu. Migrace za provozu je funkce Technologie Hyper-V ve Windows Serveru, která umožňuje bezproblémový přesun spuštěných virtuálních počítačů z jednoho hostitele Hyper-V na jiného bez vnímaných výpadků.
  • Disk s kopií cloudu. Cloudová kopie clusteru je kopie clusteru s podporou převzetí služeb při selhání, která používá Microsoft Azure Blob Storage k poskytnutí hlasu o kvoru clusteru.

Podrobnosti scénáře

Tuto architekturu obvykle používáte k zotavení po havárii s automatickým převzetím služeb při selhání virtuálních počítačů Azure Stack HCI a sdílených složek mezi dvěma fyzickými umístěními v rozsahu 5 ms latence sítě doby odezvy.

Doporučení

Následující doporučení platí pro většinu scénářů. Postupujte podle doporučení, pokud nemáte konkrétní požadavek, který ho přepíše.

Použití roztažených clusterů k implementaci automatizovaného zotavení po havárii pro virtualizované úlohy a sdílené složky hostované v Azure Stack HCI

Pokud chcete zvýšit integrovanou odolnost Azure Stack HCI, implementujte roztažený cluster Azure Stack HCI, který se skládá ze dvou skupin uzlů s jednou skupinou na lokalitu. Každá skupina musí obsahovat minimálně dva uzly. Celkový počet uzlů v clusteru nesmí překročit maximální počet uzlů podporovaných clusterem Azure Stack HCI. Uzly musí splňovat standardní hardwarové požadavky HCI.

Roztažený cluster Azure Stack HCI využívá repliku úložiště k provádění synchronní replikace úložiště mezi svazky úložiště hostovanými dvěma skupinami uzlů v příslušných fyzických lokalitách. Pokud selhání ovlivňuje dostupnost primární lokality, cluster automaticky přemístní úlohy do uzlů v přeživší lokalitě, aby se minimalizoval potenciální výpadek. V případě plánovaných nebo očekávaných výpadků v primární lokalitě můžete pomocí migrace Hyper-V za provozu bezproblémově převést úlohy na jinou lokalitu a vyhnout se tak výpadkům úplně. V tomto scénáři byste měli mít na paměti umístění úložiště. Nejprve byste měli obrátit směr replikace repliky úložiště a pak provést migraci virtuálních počítačů za provozu. Než se migrace za provozu dokončí, bude to mít dopad na výkon.

Poznámka

Synchronní replikace zajišťuje konzistenci při selhání s nulovou ztrátou dat na úrovni systému souborů během převzetí služeb při selhání.

Upozornění

Požadavek na synchronní replikaci vztahující se na roztažené clustery stanoví limit 5 ms latence sítě odezvy mezi dvěma skupinami uzlů clusteru v replikovaných lokalitách. V závislosti na charakteristikách fyzického připojení k síti se toto omezení obvykle překládá na přibližně 20 až 30 fyzických mil.

Poznámka

Funkce podepisování a šifrování repliky úložiště automaticky chrání provoz replikace.

Požadavky

Microsoft Azure Well-Architected Framework je sada hlavních zásad, které se v této referenční architektuře řídí. V kontextu těchto principů jsou zohledněny následující aspekty.

Spolehlivost

Spolehlivost zajišťuje, že vaše aplikace dokáže splnit závazky, které učiníte vůči zákazníkům. Další informace najdete v tématu Přehled pilíře spolehlivosti.

  • Domény selhání na úrovni webu. Každá fyzická lokalita roztaženého clusteru Azure Stack HCI představuje odlišné domény selhání, které poskytují dodatečnou odolnost. Doména selhání je sada hardwarových komponent, které mají společný bod selhání. Pokud chcete být na určité úrovni odolní proti chybám, potřebujete na této úrovni několik domén selhání.

Poznámka

Pokud každé umístění odpovídá samostatné lokalitě služby AD DS, proces zřizování clusteru automaticky nakonfiguruje přiřazení lokality. Pokud neexistují žádné samostatné lokality služby AD DS představující obě umístění, ale uzly jsou ve dvou různých podsítích, proces zřizování clusteru identifikuje lokality na základě přiřazení podsítě. Pokud jsou uzly ve stejné podsíti, musíte explicitně definovat přiřazení lokality.

  • Sledování webu. Sledování webů umožňuje řídit umístění virtualizovaných úloh určením jejich upřednostňovaných webů. Určení upřednostňované lokality pro roztažený cluster nabízí řadu výhod, včetně možnosti seskupit úlohy na úrovni lokality a přizpůsobit možnosti hlasování kvora. Ve výchozím nastavení při studeném spuštění používají upřednostňovanou lokalitu všechny virtuální počítače, ale upřednostňovanou lokalitu je také možné nakonfigurovat na úrovni role clusteru nebo skupiny. To vám umožní přidělit konkrétní virtuální počítače příslušným lokalitám v režimu aktivní-aktivní. Z hlediska kvora ovlivňuje výběr upřednostňovaného webu přidělování hlasů způsobem, který dává přednost danému webu. Pokud například selže připojení mezi dvěma lokalitami, které hostují roztažené uzly clusteru, a cluster s kopií clusteru není dostupný, upřednostňovaná lokalita zůstane online, zatímco uzly v druhé lokalitě se vyřadí.

  • Vyšší Prostory úložiště s přímým přístupem rychlost opravy svazků. Prostory úložiště s přímým přístupem poskytuje automatickou opětovnou synchronizaci následujících událostí, které mají vliv na dostupnost disků v rámci fondu úložiště, jako je například vypnutí jednoho z uzlů clusteru nebo selhání lokalizovaného hardwaru. Azure Stack HCI implementuje vylepšený proces opětovné synchronizace , který funguje s mnohem jemnější členitostí než Windows Server 2019. Tento proces významně zkracuje dobu trvání operace opětovné synchronizace a minimalizuje potenciální dopad několika překrývajících se selhání hardwaru.

  • Limity odolnosti. Azure Stack HCI poskytuje několik úrovní odolnosti, ale vzhledem ke své hyperkonvergované architektuře se na tuto odolnost vztahují limity stanovené nejen kvorem clusteru, ale také kvorem fondu.

  • Integrace s celou řadou služeb Azure, které poskytují další výhody odolnosti. Virtualizované úlohy spuštěné v clusterech Azure Stack HCI můžete integrovat se službami Azure, jako jsou Azure Backup a Azure Site Recovery.

  • Akcelerované převzetí služeb při selhání. Optimalizací síťové infrastruktury a její konfigurace můžete urychlit dokončení převzetí služeb při selhání na úrovni lokality. Můžete například využít roztažené virtuální sítě LAN (VLAN), zařízení pro abstrakci sítě a kratší hodnoty TTL (Time to Live) v záznamech DNS představujících clusterované prostředky. Kromě toho zvažte snížení výchozího období odolnosti, které určuje časové období, během kterého může clusterovaný virtuální počítač běžet v izolovaném stavu.

Upozornění

Použití roztažených clusterů se SDN se považuje za pokročilou konfiguraci a s žádostí o další pomoc byste měli kontaktovat systémového integrátora nebo podpora Microsoftu.

Zabezpečení

Zabezpečení poskytuje záruku proti záměrným útokům a zneužití vašich cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

  • Ochrana při přenosu. Replika úložiště nabízí integrované zabezpečení pro provoz replikace, které zahrnuje podepisování paketů, úplné šifrování dat AES-128-GCM, podporu akcelerace šifrování Intel AES-NI a ochranu před útoky na integritu předběžného ověřování man-in-the-middle. Replika úložiště také využívá protokol Kerberos AES256 k ověřování mezi replikujícími uzly.

  • Šifrování neaktivních uložených dat. Azure Stack HCI podporuje u svých datových svazků nástroj BitLocker Drive Encryption, což usnadňuje dodržování standardů, jako je FIPS 140-2 a HIPAA.

  • Integrace s řadou služeb Azure, které poskytují další výhody zabezpečení. Virtualizované úlohy běžící v clusterech Azure Stack HCI můžete integrovat se službami Azure, jako je Microsoft Defender pro cloud.

  • Konfigurace vhodná pro bránu firewall. Provoz repliky úložiště vyžaduje omezený počet otevřených portů mezi replikujícími uzly.

Upozornění

Replika úložiště a roztažené clustery Azure Stack HCI musí fungovat v prostředí AD DS. Při plánování nasazení roztažených clusterů Azure Stack HCI zajistěte připojení k řadičům domény AD DS v každé lokalitě, která je hostitelem uzlů clusteru.

Optimalizace nákladů

Optimalizace nákladů spočívá v hledání způsobů, jak snížit zbytečné výdaje a zlepšit provozní efektivitu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

  • Konfigurace aktivní-aktivní versus aktivní-pasivní. Roztažené clustery Azure Stack HCI podporují režimy aktivní-pasivní a aktivní-aktivní. V režimu aktivní-pasivní se určená primární lokalita jednosměrně replikuje do jiné lokality, která poskytuje možnost zotavení po havárii. V režimu aktivní-aktivní replikují dvě lokality své příslušné svazky jednosměrně k sobě, což poskytuje možnost převzetí služeb při selhání v případě selhání v některé z lokalit. Režim aktivní-aktivní pomáhá minimalizovat náklady na provozní kontinuitu tím, že eliminuje potřebu vyhrazené lokality pro zotavení po havárii.

  • Cloudová kopie clusteru versus určující sdílená složka. Prostředek s kopií clusteru je povinná komponenta v rámci clusterů Azure Stack HCI. Pokud ho chcete implementovat, zvolte cloudovou kopii Azure nebo určující sdílenou složku. Cloudová kopie clusteru Azure spoléhá na objekt blob v účtu úložiště Azure, který určíte jako rozhodčí bod, aby se zabránilo scénářům rozděleného mozku. Určující sdílená složka využívá k dosažení stejného cíle sdílenou složku smb (Server Message Block).

Poznámka

Cloudová kopie clusteru Azure je doporučenou volbou pro roztažené clustery Azure Stack HCI za předpokladu, že všechny uzly serveru v clusteru mají spolehlivé připojení k internetu. Odpovídající poplatky za Azure jsou zanedbatelné. Vycházejí z ceny malého objektu blob s občasnými aktualizacemi, které odpovídají změnám stavu clusteru. Ve scénářích, které zahrnují roztažené clustery, by se určující sdílená složka měla nacházet ve třetí lokalitě, což může výrazně zvýšit náklady na implementaci, pokud už třetí lokalita není dostupná a nemá existující spolehlivá připojení k lokalitám, které hostují roztažené uzly clusteru.

  • Odstranění duplicitních dat. Azure Stack HCI a replika úložiště podporují odstranění duplicitních dat. Od Windows Serveru 2019 je odstranění duplicitních dat dostupné na svazcích naformátovaných odolným systémem souborů (ReFS), což je doporučený systém souborů pro Azure Stack HCI. Odstranění duplicitních dat pomáhá zvýšit využitelnou kapacitu úložiště tím, že identifikuje duplicitní části souborů a ukládá je pouze jednou.

Upozornění

Přestože byste službu role serveru Odstranění duplicitních dat měli nainstalovat na zdrojovém i cílovém serveru, nepovolujte odstranění duplicitních dat na cílových uzlech v roztaženém clusteru Azure Stack HCI. Odstranění duplicitních dat spravuje zápisy, a proto by se mělo spouštět jenom na uzlech zdrojového clusteru. Cílové uzly vždy přijímají kopie každého svazku s odstraněnou duplicitou.

Efektivita provozu

Efektivita provozu zahrnuje provozní procesy, které nasazují aplikaci a udržují ji v provozu v produkčním prostředí. Další informace najdete v tématu Přehled pilíře efektivity provozu.

  • Automatické převzetí služeb při selhání a obnovení. Selhání primární lokality aktivuje automatické převzetí služeb při selhání. Po převzetí služeb při selhání je proces navázání replikace z nové primární nebo bývalé sekundární lokality zpět do nové sekundární nebo bývalé primární lokality automatický. Aby se zabránilo možné ztrátě dat, cluster brání navrácení služeb po obnovení, dokud se replikované svazky plně nesynchronizují.

  • Zjednodušené prostředí pro zřizování a správu pomocí Windows Admin Center. Průvodce vytvořením clusteru v Windows Admin Center poskytuje rozhraní řízené průvodcem, které vás provede procesem vytvoření roztaženého clusteru Azure Stack HCI. Průvodce zjistí, jestli se uzly clusteru nacházejí ve dvou různých lokalitách Active Directory Domain Services (AD DS), nebo jestli jejich IP adresy patří do dvou různých podsítí. Pokud se nacházejí ve dvou různých podsítích, průvodce automaticky vytvoří a nakonfiguruje odpovídající lokality clusteru, z nichž každá představuje samostatnou doménu selhání. Umožňuje také určit upřednostňovaný web. Podobně Windows Admin Center zjednodušuje proces zřizování replikovaných svazků.

Poznámka

Vytváření svazků a virtuálních disků pro roztažené clustery je důležitější než u clusterů s jednou lokalitou. Roztažené clustery vyžadují minimálně čtyři svazky, které se skládají ze dvou datových svazků a dvou svazků protokolů, přičemž v každé lokalitě je pár svazků dat a protokolů. Když vytvoříte replikovaný datový svazek pomocí Windows Admin Center, proces automaticky zřídí svazek protokolu v primární lokalitě a datové svazky i svazky replikované protokolem v sekundární lokalitě a zajistí, že každý z nich bude mít požadovanou velikost a nastavení konfigurace.

  • Podpora automatizovaného zřizování roztaženého clusteru a správy úložiště pomocí Windows PowerShell PowerShell můžete spustit místně z některého ze serverů Azure Stack HCI nebo vzdáleně z počítače pro správu.

  • Integrace s celou řadou služeb Azure, které poskytují další provozní výhody. Virtualizované úlohy spuštěné v clusterech Azure Stack HCI můžete integrovat se službami Azure, jako je Azure Monitor, a řešeními Azure Automation, včetně řešení Sledování změn a inventář a Update Management. Po počáteční povinné registraci můžou clustery Azure Stack HCI využívat Azure Arc k monitorování a fakturaci. Integrace Azure Arc nabízí vylepšenou integraci s dalšími hybridními službami, jako jsou Azure Policy a Log Analytics. Registrace aktivuje vytvoření prostředku Azure Resource Manager představujícího cluster Azure Stack HCI, čímž se rovina správy Azure efektivně rozšíří na Azure Stack HCI.

Efektivita výkonu

Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilíře efektivity výkonu.

  • Optimalizovaný provoz replikace. Při návrhu infrastruktury pro roztažené clustery Azure Stack HCI zvažte další provoz repliky úložiště, migrace za provozu a historie výkonu clusteru repliky úložiště mezi lokalitami. Synchronní replikace vyžaduje alespoň 1 Gb přímého vzdáleného přístupu do paměti (RDMA) nebo připojení Ethernet/TCP mezi roztaženými lokalitami clusteru. V závislosti na objemu přenosů replikace ale můžete potřebovat rychlejší připojení RDMA. Měli byste také zřídit více připojení mezi lokalitami, což poskytuje výhody odolnosti a umožňuje oddělit provoz repliky úložiště od provozu migrace Hyper-V za provozu.

Upozornění

Přímý přístup do paměti (RDMA) je ve výchozím nastavení povolený pro veškerý provoz mezi uzly clusteru ve stejné lokalitě ve stejné podsíti. RDMA je zakázané a nepodporuje se mezi lokalitami nebo mezi různými podsítěmi. Měli byste buď zakázat SMB Direct pro provoz mezi lokalitami, nebo implementovat další ustanovení , která ho oddělí od provozu mezi uzly v rámci stejné lokality.

Poznámka

Windows Admin Center automaticky přiřadí optimální konfiguraci, pokud ji použijete ke zřizování roztažených svazků clusteru.

Další kroky