Plánování zotavení po havárii úložiště Azure a převzetí služeb při selhání

Microsoft se snaží zajistit, aby byly služby Azure vždy dostupné. K neplánovaným výpadkům služeb však může dojít. Mezi klíčové komponenty vhodného plánu zotavení po havárii patří strategie pro:

Tento článek se zaměřuje na převzetí služeb při selhání pro globálně redundantní účty úložiště (GRS, GZRS a RA-GZRS) a o tom, jak navrhnout aplikace tak, aby byly vysoce dostupné, pokud dojde k výpadku a následnému převzetí služeb při selhání.

Volba správné možnosti redundance

Azure Storage udržuje několik kopií vašeho účtu úložiště, aby se zajistila stálost a vysoká dostupnost. Kterou možnost redundance pro svůj účet zvolíte, závisí na míře odolnosti, kterou potřebujete pro své aplikace.

S místně redundantním úložištěm (LRS) se automaticky ukládají a replikují tři kopie vašeho účtu úložiště v rámci jednoho datacentra. Při zónově redundantním úložišti (ZRS) se kopie ukládá a replikuje v každé ze tří samostatných zón dostupnosti ve stejné oblasti. Další informace o zónách dostupnosti najdete v tématu Zóny dostupnosti Azure.

Obnovení jedné kopie účtu úložiště probíhá automaticky s LRS a ZRS.

Globálně redundantní úložiště a převzetí služeb při selhání

Díky globálně redundantnímu úložišti (GRS, GZRS a RA-GZRS) Azure kopíruje data asynchronně do sekundární geografické oblasti aspoň stovky kilometrů daleko. To vám umožní obnovit data, pokud dojde k výpadku v primární oblasti. Funkce, která rozlišuje globálně redundantní úložiště od LRS a ZRS, je schopnost převzít služby při selhání sekundární oblasti, pokud dojde k výpadku v primární oblasti. Proces převzetí služeb při selhání aktualizuje položky DNS pro koncové body služby účtu úložiště tak, aby se koncové body sekundární oblasti staly novými primárními koncovými body vašeho účtu úložiště. Po dokončení převzetí služeb při selhání můžou klienti začít psát do nových primárních koncových bodů.

Konfigurace redundance RA-GRS a RA-GZRS poskytují geograficky redundantní úložiště s přidanou výhodou přístupu pro čtení k sekundárnímu koncovému bodu v případě výpadku v primární oblasti. Pokud dojde k výpadku v primárním koncovém bodu, aplikace nakonfigurované pro přístup pro čtení do sekundární oblasti a navržené pro vysokou dostupnost můžou dál číst ze sekundárního koncového bodu. Microsoft doporučuje RA-GZRS pro maximální dostupnost a odolnost vašich účtů úložiště.

Další informace o redundanci ve službě Azure Storage najdete v tématu Redundance služby Azure Storage.

Plánování převzetí služeb při selhání účtu úložiště

Účty Azure Storage podporují dva typy převzetí služeb při selhání:

1Převzetí služeb při selhání spravované Microsoftem nejde zahájit pro jednotlivé účty úložiště, předplatná ani tenanty. Další podrobnosti najdete v tématu převzetí služeb při selhání spravovaném Microsoftem.
2 Váš plán zotavení po havárii by měl vycházet z převzetí služeb při selhání spravovaného zákazníkem. Nespoléhejte na převzetí služeb při selhání spravovaném Microsoftem, které by se používalo pouze za extrémních okolností.

Každý typ převzetí služeb při selhání má jedinečnou sadu případů použití, odpovídající očekávání pro ztrátu dat a podporu účtů s povoleným hierarchickým oborem názvů (Azure Data Lake Storage Gen2). Tato tabulka shrnuje tyto aspekty každého typu převzetí služeb při selhání:

Typ Rozsah převzetí služeb při selhání Případ použití Očekávaná ztráta dat Podpora HNS
Spravovaná zákazníkem Účet úložiště Koncové body služby úložiště pro primární oblast jsou nedostupné, ale sekundární oblast je dostupná.

Obdrželi jste poradce Azure, ve kterém vám Microsoft doporučuje provést operaci převzetí služeb při selhání účtů úložiště, které by mohlo být ovlivněno výpadkem.
Ano Ano (ve verzi Preview)
Spravovaná Microsoftem Celá oblast nebo jednotka škálování Primární oblast bude zcela nedostupná kvůli významné havárii, ale sekundární oblast je k dispozici. Ano Ano

Převzetí služeb při selhání spravované zákazníkem

Pokud se datové koncové body pro služby úložiště ve vašem účtu úložiště v primární oblasti stanou nedostupnými, můžete převzít služby při selhání sekundární oblasti. Po dokončení převzetí služeb při selhání se sekundární oblast stane novou primární oblastí a uživatelé můžou pokračovat v přístupu k datům v nové primární oblasti.

Abyste plně porozuměli dopadu převzetí služeb při selhání účtu spravovaného zákazníkem na uživatele a aplikace, je užitečné vědět, co se stane během každého kroku procesu převzetí služeb při selhání a navrácení služeb po obnovení. Podrobnosti o tom, jak proces funguje, najdete v tématu Jak funguje převzetí služeb při selhání účtu úložiště spravovaného zákazníkem.

Převzetí služeb při selhání spravované microsoftem

V extrémních případech, kdy je původní primární oblast považována za neobnovitelnou v přiměřené lhůtě kvůli závažné havárii, může Microsoft zahájit regionální převzetí služeb při selhání. V takovém případě se nevyžaduje žádná akce na vaší straně. Dokud se nedokončí převzetí služeb při selhání spravované Microsoftem, nebudete mít k účtu úložiště přístup pro zápis. Pokud je váš účet úložiště nakonfigurovaný pro RA-GRS nebo RA-GZRS, můžou vaše aplikace číst ze sekundární oblasti.

Důležité

Váš plán zotavení po havárii by měl vycházet z převzetí služeb při selhání spravovaného zákazníkem. Nespoléhejte na převzetí služeb při selhání spravovaném Microsoftem, které se může používat jenom za extrémních okolností. Převzetí služeb při selhání spravované Microsoftem by se zahájilo pro celou fyzickou jednotku, například pro oblast nebo jednotku škálování. Nejde ho zahájit pro jednotlivé účty úložiště, předplatná ani tenanty. Pro možnost selektivního převzetí služeb při selhání jednotlivých účtů úložiště použijte převzetí služeb při selhání účtu spravovaného zákazníkem.

Předvídání ztráty a nekonzistence dat

Upozornění

Převzetí služeb při selhání účtu úložiště obvykle zahrnuje určitou ztrátu dat a potenciálně nekonzistence souborů a dat. V plánu zotavení po havárii je důležité zvážit dopad, jaký by mělo převzetí služeb při selhání účtu na vaše data, než ho zahájíte.

Vzhledem k tomu, že data se zapisují asynchronně z primární oblasti do sekundární oblasti, je vždy zpoždění před zkopírováním zápisu do primární oblasti do sekundární. Pokud se primární oblast stane nedostupnou, nejnovější zápisy se ještě nemusely zkopírovat do sekundární oblasti.

Když dojde k převzetí služeb při selhání, všechna data v primární oblasti se ztratí, protože sekundární oblast se stane novou primární oblastí. Všechna data, která jsou už zkopírovaná do sekundárního serveru, se zachovají, když dojde k převzetí služeb při selhání. Všechna data zapsaná do primární oblasti, která se také nezkopírovala do sekundární oblasti, se však trvale ztratí.

Nová primární oblast je nakonfigurovaná tak, aby byla po převzetí služeb při selhání místně redundantní (LRS).

Můžete také zaznamenat nekonzistence souborů nebo dat, pokud mají vaše účty úložiště povolenou jednu nebo více následujících možností:

Čas poslední synchronizace

Vlastnost Čas poslední synchronizace označuje poslední čas, kdy jsou data z primární oblasti zaručena, že byla zapsána do sekundární oblasti. U účtů, které mají hierarchický obor názvů, platí stejná vlastnost Čas poslední synchronizace také na metadata spravovaná hierarchickým oborem názvů, včetně seznamů ACL. Všechna data a metadata zapsaná před posledním časem synchronizace jsou k dispozici na sekundárním serveru, zatímco data a metadata zapsaná po posledním čase synchronizace nemusí být zapsána do sekundárního objektu a mohou být ztracena. Tuto vlastnost použijte, pokud dojde k výpadku, abyste odhadli množství ztráty dat, ke které může dojít zahájením převzetí služeb při selhání účtu.

Osvědčeným postupem je navrhnout aplikaci, abyste mohli použít čas poslední synchronizace k vyhodnocení očekávané ztráty dat. Pokud například protokolujete všechny operace zápisu, můžete porovnat čas poslední operace zápisu s časem poslední synchronizace a určit, které zápisy nebyly synchronizovány do sekundární.

Další informace o kontrole vlastnosti Čas poslední synchronizace najdete v tématu Kontrola vlastnosti Čas poslední synchronizace pro účet úložiště.

Konzistence souborů pro Azure Data Lake Storage Gen2

Replikace pro účty úložiště s povoleným hierarchickým oborem názvů (Azure Data Lake Storage Gen2) probíhá na úrovni souboru. To znamená, že pokud dojde k výpadku v primární oblasti, je možné, že se do sekundární oblasti úspěšně replikovaly jenom některé soubory v kontejneru nebo adresáři. Konzistence pro všechny soubory v kontejneru nebo adresáři po převzetí služeb při selhání účtu úložiště není zaručeno.

Nekonzistence dat kanálu změn a dat objektů blob

Převzetí služeb účtu úložiště při selhání geograficky redundantních účtů úložiště s povoleným kanálem změn může vést k nekonzistence mezi protokoly kanálu změn a daty objektů blob nebo metadaty. Tyto nekonzistence můžou mít za následek asynchronní povahu aktualizací protokolů změn a replikaci dat objektů blob z primární do sekundární oblasti. Jediná situace, kdy by nekonzistence nebyla očekávána, je situace, kdy byly všechny aktuální záznamy protokolu úspěšně vyprázdněny do souborů protokolu a všechna data úložiště byla úspěšně replikována z primární do sekundární oblasti.

Informace o tom, jak kanál změn funguje, najdete v tématu Jak kanál změn funguje.

Mějte na paměti, že jiné funkce účtu úložiště vyžadují povolení kanálu změn, jako je provozní záloha služby Azure Blob Storage, replikace objektů a obnovení k určitému bodu v čase pro objekty blob bloku.

Nekonzistence obnovení k určitému bodu v čase

Převzetí služeb při selhání spravované zákazníkem se podporuje pro účty úložiště úrovně Standard pro obecné účely verze 2, které zahrnují objekty blob bloku. Provedení převzetí služeb při selhání spravované zákazníkem u účtu úložiště ale resetuje nejbližší možný bod obnovení pro účet. Data pro obnovení k určitému bodu v čase pro objekty blob bloku jsou konzistentní pouze s časem dokončení převzetí služeb při selhání. V důsledku toho můžete obnovit pouze objekty blob bloku k určitému bodu v čase před časem dokončení převzetí služeb při selhání. Čas dokončení převzetí služeb při selhání můžete zkontrolovat na kartě redundance vašeho účtu úložiště na webu Azure Portal.

Předpokládejme například, že jste nastavili dobu uchovávání na 30 dnů. Pokud od převzetí služeb při selhání uplynulo více než 30 dní, můžete do tohoto 30 dnů provést obnovení do libovolného bodu. Pokud však uplynulo od převzetí služeb při selhání méně než 30 dnů, nemůžete provést obnovení do bodu před převzetím služeb při selhání bez ohledu na dobu uchování. Pokud je například 10 dnů od převzetí služeb při selhání, bude nejbližší možný bod obnovení 10 dní v minulosti, nikoli 30 dní v minulosti.

Čas a náklady na převzetí služeb při selhání

Doba, kterou trvá dokončení převzetí služeb při selhání po zahájení zahájení, se může lišit, i když obvykle trvá méně než jednu hodinu.

Převzetí služeb při selhání spravované zákazníkem ztratí geografickou redundanci po převzetí služeb při selhání (a navrácení služeb po obnovení). Váš účet úložiště se během převzetí služeb při selhání automaticky převede na místně redundantní úložiště (LRS) v nové primární oblasti a účet úložiště v původní primární oblasti se odstraní.

Pro účet můžete znovu povolit geograficky redundantní úložiště (GRS) nebo geograficky redundantní úložiště jen pro čtení (RA-GRS), ale mějte na paměti, že převod z LRS na GRS nebo RA-GRS má další náklady. Náklady jsou způsobené poplatky za výchozí přenos dat v síti, aby se znovu replikují do nové sekundární oblasti. Před konfigurací účtu pro geografickou redundanci je také potřeba všechny archivované objekty blob rehydrovat na online úroveň, což bude vyžadovat náklady. Další informace o cenách najdete tady:

Po opětovném povolení GRS pro účet úložiště začne Microsoft replikovat data ve vašem účtu do nové sekundární oblasti. Doba replikace závisí na mnoha faktorech, mezi které patří:

  • Počet a velikost objektů v účtu úložiště. Replikace mnoha malých objektů může trvat déle, než replikuje méně a větších objektů.
  • Dostupné prostředky pro replikaci na pozadí, jako je procesor, paměť, disk a kapacita sítě WAN. Živý provoz má přednost před geografickou replikací.
  • Pokud váš účet úložiště obsahuje objekty blob, počet snímků na objekt blob.
  • Pokud váš účet úložiště obsahuje tabulky, strategie dělení dat. Proces replikace se nemůže škálovat nad rámec počtu klíčů oddílů, které používáte.

Podporované typy účtů úložiště

Všechny geograficky redundantní nabídky podporují převzetí služeb při selhání spravované Microsoftem. Některé typy účtů navíc podporují převzetí služeb při selhání účtu spravovaného zákazníkem, jak je znázorněno v následující tabulce:

Typ převzetí služeb při selhání GRS/RA-GRS GZRS/RA-GZRS
Převzetí služeb při selhání spravované zákazníkem Účty
pro obecné účely verze 2 pro obecné účely verze 1 – starší účty
Blob Storage
Účty úložiště pro obecné účely verze 2
Převzetí služeb při selhání spravované microsoftem Všechny typy účtů Účty úložiště pro obecné účely verze 2

Klasické účty úložiště

Důležité

Převzetí služeb při selhání účtu spravovaného zákazníkem se podporuje jenom pro účty úložiště nasazené pomocí modelu nasazení Azure Resource Manager (ARM). Model nasazení Azure Service Manageru (ASM), označovaný také jako klasický, se nepodporuje. Pokud chcete, aby klasické účty úložiště měly nárok na převzetí služeb při selhání účtu spravovaného zákazníkem, je potřeba je nejprve migrovat do modelu ARM. Abyste mohli provést upgrade, musí být váš účet úložiště přístupný, takže primární oblast momentálně nemůže být ve stavu selhání.

Pokud dojde k havárii, která ovlivňuje primární oblast, Microsoft bude spravovat převzetí služeb při selhání pro klasické účty úložiště. Další informace najdete v tématu Převzetí služeb při selhání spravované Microsoftem.

Azure Data Lake Storage Gen2

Důležité

Převzetí služeb při selhání účtu spravovaného zákazníkem pro účty s hierarchickým oborem názvů (Azure Data Lake Storage Gen2) je aktuálně ve verzi PREVIEW a podporuje se pouze v následujících oblastech:

  • (Asie a Tichomoří) Indie – střed
  • (Asie a Tichomoří) Jihovýchodní Asie
  • (Evropa) Evropa – sever
  • (Evropa) Švýcarsko – sever
  • (Evropa) Švýcarsko – západ
  • (Evropa) Evropa – západ
  • (Severní Amerika) Kanada – střed
  • (Severní Amerika) USA – východ 2
  • (Severní Amerika) USA – středojihoji

Pokud se chcete přihlásit k verzi Preview, přečtěte si téma Nastavení funkcí ve verzi Preview v předplatném Azure a jako název funkce zadejte AllowHNSAccountFailover .

Právní podmínky, které platí pro funkce Azure, které jsou ve verzi beta, verzi Preview nebo které zatím nejsou veřejně dostupné, najdete v Dodatečných podmínkách použití pro Microsoft Azure verze Preview.

Pokud dojde k významné havárii, která má vliv na primární oblast, Microsoft bude spravovat převzetí služeb při selhání účtů s hierarchickým oborem názvů. Další informace najdete v tématu Převzetí služeb při selhání spravované Microsoftem.

Nepodporované funkce a služby

Pro převzetí služeb při selhání účtu se nepodporují následující funkce a služby:

  • Synchronizace souborů Azure nepodporuje převzetí služeb při selhání účtu úložiště iniciované zákazníkem. Účty úložiště obsahující sdílené složky Azure používané jako koncové body cloudu v Synchronizace souborů Azure by se neměly převzít služby při selhání. Pokud to uděláte, synchronizace přestane fungovat a v případě nově vrstvených souborů může dojít i k neočekávané ztrátě dat. Další informace najdete v tématu Osvědčené postupy pro zotavení po havárii s Synchronizace souborů Azure podrobnosti.
  • Účet úložiště, který obsahuje objekty blob bloku Úrovně Premium, nemůže převzít služby při selhání. Účty úložiště, které podporují objekty blob bloku úrovně Premium, v současné době nepodporují geografickou redundanci.
  • Převzetí služeb při selhání spravované zákazníkem není podporováno u zdrojového nebo cílového účtu v zásadách replikace objektů.
  • Pokud chcete účet s povoleným protokolem SFTP (File Transfer Protocol) provést převzetí služeb při selhání, musíte pro tento účet nejprve zakázat protokol SFTP. Pokud chcete po dokončení převzetí služeb při selhání pokračovat v používání SFTP, jednoduše ho znovu povolte.
  • Převzetí služeb při selhání účtu úložiště nepodporuje systém souborů NFS (Network File System) 3.0 (NFSv3). Nemůžete vytvořit účet úložiště nakonfigurovaný pro globální redundanci s povoleným NFSv3.

Převzetí služeb při selhání není pro migraci účtu

Převzetí služeb při selhání účtu úložiště by se nemělo používat jako součást strategie migrace dat. Převzetí služeb při selhání je dočasné řešení výpadku služby. Informace o migraci účtů úložiště najdete v přehledu migrace služby Azure Storage.

Účty úložiště obsahující archivované objekty blob

Účty úložiště obsahující archivované objekty blob podporují převzetí služeb při selhání účtu. Po dokončení převzetí služeb při selhání spravovaného zákazníkem je ale potřeba všechny archivované objekty blob rehydrovat do online vrstvy, aby se účet mohl nakonfigurovat pro geografickou redundanci.

Poskytovatel prostředků úložiště

Microsoft poskytuje dvě rozhraní REST API pro práci s prostředky Azure Storage. Tato rozhraní API tvoří základ všech akcí, které můžete provádět ve službě Azure Storage. Rozhraní REST API služby Azure Storage umožňuje pracovat s daty ve vašem účtu úložiště, včetně dat objektů blob, front, souborů a tabulek. Rozhraní REST API poskytovatele prostředků Azure Storage umožňuje spravovat účet úložiště a související prostředky.

Po dokončení převzetí služeb při selhání můžou klienti znovu číst a zapisovat data azure Storage do nové primární oblasti. Poskytovatel prostředků Azure Storage ale nepřevezme služby při selhání, takže operace správy prostředků musí proběhnout v primární oblasti. Pokud primární oblast není dostupná, nebudete moct provádět operace správy v účtu úložiště.

Vzhledem k tomu, že poskytovatel prostředků Azure Storage nepředá služby při selhání, vrátí vlastnost Location původní primární umístění po dokončení převzetí služeb při selhání.

Virtuální počítače Azure

Virtuální počítače Azure se v rámci převzetí služeb při selhání účtu nepředávají při selhání. Pokud se primární oblast stane nedostupnou a převezmete služby při selhání sekundární oblasti, budete muset po převzetí služeb při selhání znovu vytvořit všechny virtuální počítače. K převzetí služeb při selhání účtu také může dojít ke ztrátě dat. Microsoft doporučuje postupovat podle pokynů pro vysokou dostupnost a zotavení po havárii specifických pro virtuální počítače v Azure.

Mějte na paměti, že při vypnutí virtuálního počítače dojde ke ztrátě všech dat uložených na dočasném disku.

Nespravované disky Azure

Osvědčeným postupem je, že Microsoft doporučuje převádět nespravované disky na spravované disky. Pokud ale potřebujete převzít služby při selhání účtu, který obsahuje nespravované disky připojené k virtuálním počítačům Azure, musíte virtuální počítač před zahájením převzetí služeb při selhání vypnout.

Nespravované disky se ukládají jako objekty blob stránky ve službě Azure Storage. Když je virtuální počítač spuštěný v Azure, všechny nespravované disky připojené k virtuálnímu počítači se zapůjčí. Převzetí služeb při selhání účtu nemůže pokračovat v zapůjčení objektu blob. Pokud chcete provést převzetí služeb při selhání, postupujte takto:

  1. Než začnete, poznamenejte si názvy všech nespravovaných disků, jejich logických jednotek (LUN) a virtuálního počítače, ke kterému jsou připojené. Tím usnadníte opětovné připojení disků po převzetí služeb při selhání.
  2. Vypněte virtuální počítač.
  3. Odstraňte virtuální počítač, ale zachovejte soubory VHD pro nespravované disky. Poznamenejte si čas, kdy jste virtuální počítač odstranili.
  4. Počkejte, až se čas poslední synchronizace aktualizuje, a je pozdější než čas, kdy jste virtuální počítač odstranili. Tento krok je důležitý, protože pokud sekundární koncový bod nebyl při převzetí služeb při selhání plně aktualizován se soubory virtuálního pevného disku, virtuální počítač nemusí správně fungovat v nové primární oblasti.
  5. Zahajte převzetí služeb při selhání účtu.
  6. Počkejte na dokončení převzetí služeb při selhání účtu a sekundární oblast se stane novou primární oblastí.
  7. Vytvořte virtuální počítač v nové primární oblasti a znovu připojte virtuální pevné disky.
  8. Spusťte nový virtuální počítač.

Mějte na paměti, že při vypnutí virtuálního počítače dojde ke ztrátě všech dat uložených na dočasném disku.

Kopírování dat jako alternativa k převzetí služeb při selhání

Pokud je váš účet úložiště nakonfigurovaný pro přístup pro čtení do sekundární oblasti, můžete navrhnout aplikaci tak, aby četla ze sekundárního koncového bodu. Pokud nechcete převzít služby při selhání, pokud dojde k výpadku v primární oblasti, můžete pomocí nástrojů, jako je AzCopy nebo Azure PowerShell , zkopírovat data z účtu úložiště v sekundární oblasti do jiného účtu úložiště v nedotknuté oblasti. Aplikace pak můžete nasměrovat na tento účet úložiště pro dostupnost čtení i zápisu.

Návrh pro zajištění vysoké dostupnosti

Je důležité navrhnout aplikaci pro zajištění vysoké dostupnosti od začátku. Pokyny k návrhu aplikace a plánování zotavení po havárii najdete v těchto materiálech k Azure:

Mějte na paměti tyto osvědčené postupy pro zachování vysoké dostupnosti dat Azure Storage:

  • Disky: Pomocí služby Azure Backup zálohujte disky virtuálních počítačů používané virtuálními počítači Azure. Pokud dojde k regionální havárii, zvažte také použití Azure Site Recovery k ochraně virtuálních počítačů.
  • Objekty blob bloku: Zapnutím obnovitelného odstranění můžete chránit před odstraněním a přepsáním na úrovni objektů nebo kopírováním objektů blob bloku do jiného účtu úložiště v jiné oblasti pomocí AzCopy, Azure PowerShellu nebo knihovny přesunu dat Azure.
  • Soubory: K zálohování sdílených složek použijte Azure Backup . Také povolte obnovitelné odstranění , které chrání před náhodnými odstraněními sdílených složek. Pokud není geografická redundance dostupná, zkopírujte soubory do jiného účtu úložiště v jiné oblasti pomocí AzCopy nebo Azure PowerShellu .
  • Tabulky: Pomocí Nástroje AzCopy můžete exportovat data tabulky do jiného účtu úložiště v jiné oblasti.

Sledování výpadků

Zákazníci se můžou přihlásit k odběru řídicího panelu služby Azure Service Health, aby mohli sledovat stav a stav služby Azure Storage a dalších služeb Azure.

Microsoft také doporučuje navrhnout aplikaci tak, aby byla připravena na možnost selhání zápisu. Vaše aplikace by měla upozornit na chyby zápisu takovým způsobem, abyste byli včas informováni o možném výpadku v primární oblasti.

Viz také