Odzyskiwanie w regionie przy użyciu stref dostępności i odzyskiwania po awarii geograficznej w różnych regionach (Azure Event Grid)

W tym artykule opisano, jak Azure Event Grid obsługuje automatyczne odzyskiwanie w regionie definicji zasobów usługi Event Grid i danych w przypadku wystąpienia awarii w regionie, w którym są strefy dostępności. W tym artykule opisano również sposób, w jaki usługa Event Grid obsługuje automatyczne odzyskiwanie definicji zasobów usługi Event Grid (bez danych) do innego regionu, gdy wystąpi błąd w regionie, w którym istnieje sparowany region.

Odzyskiwanie w regionie przy użyciu stref dostępności

Strefy dostępności platformy Azure są fizycznie oddzielnymi lokalizacjami w każdym regionie świadczenia usługi Azure, które są odporne na awarie lokalne. Są one połączone przez sieć o wysokiej wydajności z opóźnieniem okrężnym mniejszym niż 2 milisekundy. Każda strefa dostępności składa się z co najmniej jednego centrum danych wyposażonego w niezależne zasilanie, chłodzenie i infrastrukturę sieciową. Jeśli dotyczy to jednej strefy, usługi regionalne, pojemność i wysoka dostępność są obsługiwane przez pozostałe dwie strefy. Aby uzyskać więcej informacji na temat stref dostępności, zobacz Regiony i strefy dostępności. W tym artykule można również wyświetlić listę regionów, które mają strefy dostępności.

Definicje zasobów usługi Event Grid dla tematów, tematów systemowych, domen i subskrypcji zdarzeń oraz danych zdarzeń są automatycznie replikowane w trzech strefach dostępności (jeśli są dostępne) w regionie. Jeśli wystąpi błąd w jednej ze stref dostępności, zasoby usługi Event Grid automatycznie przejdą w tryb failover do innej strefy dostępności bez żadnej interwencji człowieka. Obecnie nie można kontrolować tej funkcji (włączyć lub wyłączyć). Gdy istniejący region zacznie obsługiwać strefy dostępności, istniejące zasoby usługi Event Grid zostaną automatycznie przełączone w tryb failover w celu skorzystania z tej funkcji. Nie jest wymagana żadna akcja klienta.

Diagram przedstawiający strefy dostępności, które chronią przed zlokalizowanymi awariami i awariami regionalnymi lub dużymi lokalizacjami geograficznymi przy użyciu innego regionu.

Odzyskiwanie po awarii geograficznej w różnych regionach

Jeśli region świadczenia usługi Azure doświadcza długotrwałej awarii, możesz zainteresować się opcjami trybu failover w regionie alternatywnym na potrzeby ciągłości działania. Wiele regionów platformy Azure ma pary geograficzne, a niektóre nie. Aby uzyskać listę regionów, w których sparowano regiony, zobacz Parowanie replikacji między regionami platformy Azure dla wszystkich lokalizacji geograficznych.

W przypadku regionów z parą geograficzną usługa Event Grid oferuje możliwość przełączania ruchu publikowania w tryb failover do sparowanego regionu dla tematów niestandardowych, tematów systemowych i domen. W tle usługa Event Grid automatycznie synchronizuje definicje zasobów tematów, tematów systemowych, domen i subskrypcji zdarzeń do sparowanego regionu. Jednak dane zdarzeń nie są replikowane do sparowanego regionu. W normalnym stanie zdarzenia są przechowywane w regionie wybranym dla tego zasobu. Gdy wystąpi awaria regionu i firma Microsoft zainicjuje przejście w tryb failover, nowe zdarzenia zaczną przepływać do sparowanego geograficznie regionu i są wysyłane z tego obszaru bez interwencji użytkownika. Zdarzenia opublikowane i zaakceptowane w oryginalnym regionie są wysyłane stamtąd po ograniczeniu awarii.

Zainicjowane przez firmę Microsoft przejście w tryb failover jest wykonywane przez firmę Microsoft w rzadkich sytuacjach, aby przejąć zasoby usługi Event Grid w tryb failover z regionu, którego dotyczy problem, do odpowiedniego regionu sparowanego geograficznie. Firma Microsoft zastrzega sobie prawo do określenia, kiedy ta opcja zostanie wykonana. Ten mechanizm nie obejmuje zgody użytkownika, zanim ruch użytkownika zostanie przełączony w tryb failover.

Tę funkcję można włączyć lub wyłączyć, aktualizując konfigurację tematu lub domeny. Wybierz opcję Cross-Geo (ustawienie domyślne), aby włączyć tryb failover inicjowany przez firmę Microsoft i region , aby go wyłączyć. Aby uzyskać szczegółowe instrukcje konfigurowania tego ustawienia, zobacz Konfigurowanie rezydencji danych. Jeśli zdecydujesz się na "regionalną", żadne dane dowolnego rodzaju nie są replikowane do innego regionu przez firmę Microsoft i możesz zdefiniować własny plan odzyskiwania po awarii. Aby uzyskać więcej informacji, zobacz Tworzenie własnego planu odzyskiwania po awarii dla tematów i domen Azure Event Grid.

Zrzut ekranu przedstawiający stronę Konfiguracja tematu niestandardowego usługi Event Grid.

Oto kilka powodów, dla których warto wyłączyć funkcję trybu failover zainicjowanego przez firmę Microsoft:

  • Tryb failover zainicjowany przez firmę Microsoft jest wykonywany w oparciu o najlepsze rozwiązania.
  • Niektóre pary geograficzne mogą nie spełniać wymagań dotyczących przechowywania danych w organizacji.

W takich przypadkach zalecaną opcją jest utworzenie własnego planu odzyskiwania po awarii dla tematów i domen Azure Event Grid. Chociaż ta opcja wymaga nieco większego nakładu pracy, umożliwia szybsze przechodzenie w tryb failover i kontrolujesz wybieranie regionów pomocniczych. Jeśli chcesz zaimplementować odzyskiwanie po awarii po stronie klienta dla Azure Event Grid tematów, zobacz Tworzenie własnego odzyskiwania po awarii po stronie klienta w celu uzyskania Azure Event Grid tematów.

Cel czasu odzyskiwania i cel punktu odzyskiwania

Odzyskiwanie po awarii jest mierzone przy użyciu dwóch metryk:

  • Cel punktu odzyskiwania (RPO): minuty lub godziny utraty danych.
  • Cel czasu odzyskiwania (RTO): minuty lub godziny, w których usługa może być wyłączona.

Automatyczne przechodzenie w tryb failover usługi Event Grid ma różne obiekty zasad grupy i obiekty RU dla metadanych (tematy, domeny, subskrypcje zdarzeń) i dane (zdarzenia). Jeśli potrzebujesz innej specyfikacji niż poniższe, nadal możesz zaimplementować własny tryb failover po stronie klienta przy użyciu interfejsów API kondycji tematu.

Cel punktu odzyskiwania (recovery point objective, RPO)

  • Cel punktu odzyskiwania metadanych: zero minut. W przypadku odpowiednich zasobów po utworzeniu/zaktualizowaniu/usunięciu zasobu definicja zasobu jest synchronicznie replikowana do pary geograficznej. W przypadku przejścia w tryb failover żadne metadane nie zostaną utracone.

  • Cel punktu odzyskiwania danych: po przejściu w tryb failover nowe dane są przetwarzane z sparowanego regionu. Gdy tylko wystąpi awaria w danym regionie, zdarzenia nieprzetworzone zostaną wysłane stamtąd. Jeśli odzyskiwanie regionu wymaga dłuższego czasu niż wartość czasowa ustawiona na zdarzenia, dane mogą zostać porzucone. Aby wyeliminować tę utratę danych, zalecamy skonfigurowanie miejsca docelowego utraconych wiadomości dla subskrypcji zdarzeń. Jeśli region, którego dotyczy problem, zostanie całkowicie utracony i nie można go odzyskać, nastąpi utrata danych. W najlepszym przypadku subskrybent nadąża za szybkością publikowania i utraci tylko kilka sekund danych. Najgorszym scenariuszem byłoby, gdy subskrybent nie aktywnie przetwarza zdarzeń i z maksymalnym czasem wygaśnięcia 24 godzin, utrata danych może potrwać do 24 godzin.

Cel czasu odzyskiwania (recovery time objective, RTO)

  • Cel punktu odzyskiwania metadanych: podejmowanie decyzji w trybie failover opiera się na czynnikach, takich jak dostępna pojemność w sparowanym regionie i może trwać od 60 minut lub więcej. Po zainicjowaniu trybu failover w ciągu 5 minut usługa Event Grid zacznie akceptować wywołania tworzenia/aktualizowania/usuwania tematów i subskrypcji.

  • Cel punktu odzyskiwania danych: taki sam jak powyżej.

Ważne

  • W przypadku odzyskiwania po awarii po stronie serwera, jeśli sparowany region nie ma dodatkowej pojemności do podjęcia dodatkowego ruchu, usługa Event Grid nie może zainicjować trybu failover. Odzyskiwanie odbywa się w oparciu o najlepsze wysiłki.
  • Koszt korzystania z tej funkcji to$ 0.
  • Odzyskiwanie po awarii geograficznej nie jest obsługiwane w przypadku przestrzeni nazw partnerów i tematów partnerskich.

Następne kroki

Zobacz Tworzenie własnego odzyskiwania po awarii po stronie klienta, aby uzyskać informacje na temat Azure Event Grid.