Odzyskiwanie w regionie przy użyciu stref dostępności i odzyskiwania po awarii geograficznej w różnych regionach (Azure Event Grid)

W tym artykule opisano, jak usługa Azure Event Grid obsługuje automatyczne odzyskiwanie w regionie definicji zasobów usługi Event Grid i danych w przypadku wystąpienia awarii w regionie, w którym występują strefy dostępności. Opisano również, jak usługa Event Grid obsługuje automatyczne odzyskiwanie definicji zasobów usługi Event Grid (bez danych) w innym regionie, gdy wystąpi awaria w regionie, w którym istnieje sparowany region.

Odzyskiwanie w regionie przy użyciu stref dostępności

Strefy dostępności platformy Azure są fizycznie oddzielnymi lokalizacjami w każdym regionie świadczenia usługi Azure, które są odporne na awarie lokalne. Są one połączone przez sieć o wysokiej wydajności z opóźnieniem okrężnym mniejszym niż 2 milisekundy. Każda strefa dostępności składa się z co najmniej jednego centrum danych wyposażonego w niezależną infrastrukturę zasilania, chłodzenia i sieci. Jeśli dotyczy to jednej strefy, usługi regionalne, pojemność i wysoka dostępność są obsługiwane przez pozostałe dwie strefy. Aby uzyskać więcej informacji na temat stref dostępności, zobacz Regiony i strefy dostępności. W tym artykule można również wyświetlić listę regionów, w których znajdują się strefy dostępności.

Definicje zasobów usługi Event Grid dla tematów, tematów systemowych, domen i subskrypcji zdarzeń oraz danych zdarzeń są automatycznie replikowane w trzech strefach dostępności (jeśli są dostępne) w regionie. W przypadku awarii w jednej ze stref dostępności zasoby usługi Event Grid automatycznie przejdą w tryb failover do innej strefy dostępności bez żadnej interwencji człowieka. Obecnie nie można kontrolować (włączyć lub wyłączyć) tej funkcji. Gdy istniejący region zacznie obsługiwać strefy dostępności, istniejące zasoby usługi Event Grid zostaną automatycznie przełączone w tryb failover, aby skorzystać z tej funkcji. Nie jest wymaga żadna akcja klienta.

Diagram przedstawiający strefy dostępności, które chronią przed zlokalizowanymi awariami i regionalnymi lub dużymi awariami geograficznymi przy użyciu innego regionu.

Odzyskiwanie po awarii geograficznej między regionami

Jeśli region świadczenia usługi Azure doświadcza długotrwałej awarii, możesz zainteresować się opcjami trybu failover w alternatywnym regionie na potrzeby ciągłości działania. Wiele regionów platformy Azure ma pary geograficzne, a niektóre nie. Aby uzyskać listę regionów, w których sparowano regiony, zobacz Parowanie replikacji między regionami platformy Azure dla wszystkich lokalizacji geograficznych.

W przypadku regionów z parą geograficzną usługa Event Grid oferuje możliwość przełączania ruchu publikowania w tryb failover do sparowanego regionu dla tematów niestandardowych, tematów systemowych i domen. W tle usługa Event Grid automatycznie synchronizuje definicje zasobów tematów, tematów systemowych, domen i subskrypcji zdarzeń z sparowanym regionem. Jednak dane zdarzeń nie są replikowane do sparowanego regionu. W normalnym stanie zdarzenia są przechowywane w regionie wybranym dla tego zasobu. Gdy wystąpi awaria regionu i firma Microsoft zainicjuje przejście w tryb failover, nowe zdarzenia zaczynają przepływać do sparowanego geograficznie regionu i są wysyłane z niej bez interwencji użytkownika. Zdarzenia opublikowane i zaakceptowane w oryginalnym regionie są wysyłane stamtąd po ograniczeniu awarii.

Zainicjowane przez firmę Microsoft tryb failover jest wykonywane przez firmę Microsoft w rzadkich sytuacjach, aby przejąć zasoby usługi Event Grid w tryb failover z regionu, którego dotyczy problem, do odpowiedniego regionu sparowanego geograficznie. Firma Microsoft zastrzega sobie prawo do określenia, kiedy ta opcja zostanie wykonana. Ten mechanizm nie obejmuje zgody użytkownika, zanim ruch użytkownika zostanie przełączony w tryb failover.

Tę funkcję można włączyć lub wyłączyć, aktualizując konfigurację tematu lub domeny. Wybierz opcję Cross-Geo (ustawienie domyślne), aby włączyć tryb failover zainicjowany przez firmę Microsoft i region , aby go wyłączyć. Aby uzyskać szczegółowe instrukcje konfigurowania tego ustawienia, zobacz Konfigurowanie rezydencji danych. Jeśli zdecydujesz się na region, żadne dane dowolnego rodzaju nie są replikowane do innego regionu przez firmę Microsoft i możesz zdefiniować własny plan odzyskiwania po awarii. Aby uzyskać więcej informacji, zobacz Tworzenie własnego planu odzyskiwania po awarii dla tematów i domen usługi Azure Event Grid.

Zrzut ekranu przedstawiający stronę Konfiguracja tematu niestandardowego usługi Event Grid.

Oto kilka powodów, dla których chcesz wyłączyć funkcję trybu failover zainicjowaną przez firmę Microsoft:

  • Przejście w tryb failover zainicjowane przez firmę Microsoft jest wykonywane na zasadzie najlepszego nakładu pracy.
  • Niektóre pary geograficzne nie spełniają wymagań dotyczących rezydencji danych organizacji.

W takich przypadkach zalecaną opcją jest utworzenie własnego planu odzyskiwania po awarii dla tematów i domen usługi Azure Event Grid. Chociaż ta opcja wymaga nieco większego nakładu pracy, umożliwia szybsze przechodzenie w tryb failover i kontrolujesz wybór regionów pomocniczych. Jeśli chcesz zaimplementować odzyskiwanie po awarii po stronie klienta dla tematów usługi Azure Event Grid, zobacz Tworzenie własnego odzyskiwania po awarii po stronie klienta dla usługi Azure Event Grid.

Cel czasu odzyskiwania i cel punktu odzyskiwania

Odzyskiwanie po awarii jest mierzone przy użyciu dwóch metryk:

  • Cel punktu odzyskiwania (RPO): minuty lub godziny danych, które mogą zostać utracone.
  • Cel czasu odzyskiwania (RTO): minuty lub godziny, w których usługa może być wyłączona.

Automatyczne przełączanie usługi Event Grid w tryb failover ma różne jednostki ŻĄDANIA i obiekty ODZYSKIWANIA dla metadanych (tematów, domen, subskrypcji zdarzeń) i danych (zdarzeń). Jeśli potrzebujesz innej specyfikacji niż poniższe, nadal możesz zaimplementować własny tryb failover po stronie klienta przy użyciu interfejsów API kondycji tematu.

Cel punktu odzyskiwania (recovery point objective, RPO)

  • Cel punktu odzyskiwania metadanych: zero minut. W przypadku odpowiednich zasobów po utworzeniu/zaktualizowaniu/usunięciu zasobu definicja zasobu jest synchronicznie replikowana do pary geograficznej. W przypadku przejścia w tryb failover żadne metadane nie zostaną utracone.

  • Cel punktu odzyskiwania danych: po przejściu w tryb failover nowe dane są przetwarzane z sparowanego regionu. Po ograniczeniu awarii dla objętego regionu zdarzenia nieprzetworzone są wysyłane z tego miejsca. Jeśli odzyskiwanie regionu wymaga dłuższego czasu niż wartość czasu wygaśnięcia ustawiona na zdarzenia, dane mogą zostać porzucone. Aby wyeliminować tę utratę danych, zalecamy skonfigurowanie miejsca docelowego utraconych komunikatów dla subskrypcji zdarzeń. Jeśli region, którego dotyczy problem, zostanie utracony i nieodwracalny, nastąpi utrata danych. W najlepszym przypadku subskrybent utrzymuje szybkość publikowania i traci tylko kilka sekund danych. Najgorszym scenariuszem byłoby, gdy subskrybent nie aktywnie przetwarza zdarzeń i z maksymalnym czasem wygaśnięcia 24 godzin, utrata danych może potrwać do 24 godzin.

Cel czasu odzyskiwania (recovery time objective, RTO)

  • Cel czasu odzyskiwania metadanych: podejmowanie decyzji w trybie failover opiera się na czynnikach, takich jak dostępna pojemność w sparowanym regionie i może trwać od 60 minut lub więcej. Po zainicjowaniu trybu failover w ciągu 5 minut usługa Event Grid zacznie akceptować wywołania tworzenia/aktualizowania/usuwania tematów i subskrypcji.

  • Cel czasu odzyskiwania danych: takie same jak powyższe informacje.

Ważne

  • W przypadku odzyskiwania po awarii po stronie serwera, jeśli sparowany region nie ma dodatkowej pojemności do podjęcia dodatkowego ruchu, usługa Event Grid nie może zainicjować trybu failover. Odzyskiwanie odbywa się na podstawie najlepszego nakładu pracy.
  • Za korzystanie z tej funkcji nie są naliczane opłaty.
  • Odzyskiwanie po awarii geograficznej nie jest obsługiwane w przypadku przestrzeni nazw partnerów i tematów partnerów.

Następne kroki

Zobacz Tworzenie własnego odzyskiwania po awarii po stronie klienta, aby zapoznać się z tematami usługi Azure Event Grid.