Konfigurowanie odzyskiwania po awarii na dużą skalę dla maszyn wirtualnych VMware/serwerów fizycznych

Artykuł
08/31/2023

W tym artykule opisano sposób konfigurowania odzyskiwania po awarii na platformie Azure dla dużych liczb (>1000) lokalnych maszyn wirtualnych VMware lub serwerów fizycznych w środowisku produkcyjnym przy użyciu usługi Azure Site Recovery.

Definiowanie strategii BCDR

W ramach strategii ciągłości działania i odzyskiwania po awarii (BCDR) definiujesz cele punktu odzyskiwania (RPO) i cele czasu odzyskiwania (RTO) dla aplikacji i obciążeń biznesowych. Cel czasu odzyskiwania mierzy czas trwania i poziom usług, w ramach którego aplikacja biznesowa lub proces muszą zostać przywrócone i dostępne, aby uniknąć problemów z ciągłością.

Site Recovery zapewnia ciągłą replikację maszyn wirtualnych VMware i serwerów fizycznych oraz umowę SLA dla celu czasu odzyskiwania.
Podczas planowania odzyskiwania po awarii na dużą skalę dla maszyn wirtualnych VMware i określania potrzebnych zasobów platformy Azure możesz określić wartość celu czasu odzyskiwania, która będzie używana na potrzeby obliczeń pojemności.

Najlepsze rozwiązania

Niektóre ogólne najlepsze rozwiązania dotyczące odzyskiwania po awarii na dużą skalę. Te najlepsze rozwiązania zostały szczegółowo omówione w kolejnych sekcjach dokumentu.

Zidentyfikuj wymagania docelowe: przed skonfigurowaniem odzyskiwania po awarii należy oszacować wymagania dotyczące pojemności i zasobów na platformie Azure.
Planowanie składników Site Recovery: dowiedz się, jakie składniki Site Recovery (serwer konfiguracji, serwery przetwarzania), które należy spełnić szacowaną pojemność.
Skonfiguruj co najmniej jeden serwer przetwarzania skalowalnego w poziomie: nie używaj serwera przetwarzania, który jest domyślnie uruchomiony na serwerze konfiguracji.
Uruchom najnowsze aktualizacje: zespół Site Recovery regularnie publikuje nowe wersje składników Site Recovery i upewnij się, że korzystasz z najnowszych wersji. Aby to ułatwić, śledź nowości dotyczące aktualizacji oraz włączaj i instaluj aktualizacje w miarę ich wydawania.
Proaktywne monitorowanie: w miarę uruchamiania odzyskiwania po awarii należy aktywnie monitorować stan i kondycję replikowanych maszyn oraz zasobów infrastruktury.
Próbne odzyskiwanie po awarii: należy regularnie uruchamiać próbne odzyskiwanie po awarii. Nie mają one wpływu na środowisko produkcyjne, ale pomagają zapewnić, że przejście w tryb failover na platformę Azure będzie działać zgodnie z oczekiwaniami w razie potrzeby.

Zbieranie informacji o planowaniu pojemności

Zbierz informacje o środowisku lokalnym, aby pomóc ocenić i oszacować potrzeby dotyczące pojemności docelowej (platformy Azure).

W przypadku oprogramowania VMware uruchom planistę wdrażania dla maszyn wirtualnych VMware, aby to zrobić.
W przypadku serwerów fizycznych zbierz informacje ręcznie.

Uruchamianie planisty wdrażania dla maszyn wirtualnych VMware

Planista wdrażania ułatwia zbieranie informacji o środowisku lokalnym VMware.

Uruchom planistę wdrażania w okresie, który reprezentuje typowy współczynnik zmian dla maszyn wirtualnych. Spowoduje to wygenerowanie bardziej dokładnych oszacowań i zaleceń.
Zalecamy uruchomienie planisty wdrażania na maszynie serwera konfiguracji, ponieważ planista oblicza przepływność z serwera, na którym jest uruchomiona. Dowiedz się więcej o mierzeniu przepływności.
Jeśli nie masz jeszcze skonfigurowanego serwera konfiguracji:
- Zapoznaj się z omówieniem składników Site Recovery.
- Skonfiguruj serwer konfiguracji, aby uruchomić na nim planistę wdrażania.

Następnie uruchom narzędzie Planner w następujący sposób:

Dowiedz się więcej o planicie wdrażania. Najnowszą wersję można pobrać z portalu lub pobrać bezpośrednio.
Zapoznaj się z wymaganiami wstępnymi i najnowszymi aktualizacjami planisty wdrażania oraz pobierz i wyodrębnij narzędzie.
Uruchom planistę wdrażania na serwerze konfiguracji.
Generowanie raportu w celu podsumowania oszacowań i zaleceń.
Przeanalizuj zalecenia dotyczące raportu i szacowania kosztów.

Uwaga

Domyślnie narzędzie jest skonfigurowane do profilowania i generuje raport dla maksymalnie 1000 maszyn wirtualnych. Możesz zmienić ten limit, zwiększając wartość klucza MaxVMsSupported w pliku ASRDeploymentPlanner.exe.config.

Planowanie wymagań i pojemności docelowej (Azure)

Korzystając ze zebranych oszacowań i zaleceń, możesz zaplanować zasoby docelowe i pojemność. Jeśli uruchomisz planistę wdrażania dla maszyn wirtualnych VMware, możesz użyć kilku zaleceń raportu , aby ci pomóc.

Zgodne maszyny wirtualne: ta liczba służy do identyfikowania liczby maszyn wirtualnych, które są gotowe do odzyskiwania po awarii na platformie Azure. Zalecenia dotyczące przepustowości sieci i rdzeni platformy Azure są oparte na tej liczbie.
Wymagana przepustowość sieci: zwróć uwagę na przepustowość wymaganą do replikacji różnicowej zgodnych maszyn wirtualnych.
- Po uruchomieniu narzędzia Planner określ żądany cel punktu odzyskiwania w ciągu kilku minut. Zalecenia pokazują przepustowość wymaganą do spełnienia tego celu punktu odzyskiwania przez 100% i 90% czasu.
- Zalecenia dotyczące przepustowości sieci uwzględniają przepustowość wymaganą dla całkowitej liczby serwerów konfiguracji i serwerów przetwarzania zalecanych w narzędziu Planner.
Wymagane rdzenie platformy Azure: zwróć uwagę na liczbę rdzeni potrzebnych w docelowym regionie świadczenia usługi Azure na podstawie liczby zgodnych maszyn wirtualnych. Jeśli nie masz wystarczającej liczby rdzeni, w trybie failover Site Recovery nie będzie można utworzyć wymaganych maszyn wirtualnych platformy Azure.
Zalecany rozmiar partii maszyny wirtualnej: zalecany rozmiar partii jest oparty na możliwości zakończenia replikacji początkowej dla partii domyślnie w ciągu 72 godzin podczas spotkania z celem punktu odzyskiwania o wartości 100%. Wartość godziny można zmodyfikować.

Możesz użyć tych zaleceń, aby zaplanować przetwarzanie wsadowe zasobów platformy Azure, przepustowości sieci i maszyn wirtualnych.

Planowanie subskrypcji i limitów przydziału platformy Azure

Chcemy upewnić się, że dostępne limity przydziału w subskrypcji docelowej są wystarczające do obsługi trybu failover.

Zadanie	Szczegóły	Akcja
Sprawdzanie rdzeni	Jeśli rdzenie dostępnego limitu przydziału nie są równe lub przekraczają łączną liczbę docelową w momencie przejścia w tryb failover, przełączenia w tryb failover nie powiedzą się.	W przypadku maszyn wirtualnych VMware sprawdź, czy masz wystarczającą liczbę rdzeni w subskrypcji docelowej, aby spełnić podstawowe zalecenie planisty wdrażania. W przypadku serwerów fizycznych sprawdź, czy rdzenie platformy Azure spełniają twoje ręczne szacowania. Aby sprawdzić limity przydziału, w subskrypcji Azure Portal > kliknij pozycję Użycie i przydziały. Dowiedz się więcej o zwiększaniu limitów przydziału.
Sprawdzanie limitów trybu failover	Liczba trybów failover nie może przekraczać Site Recovery limitów trybu failover.	Jeśli tryb failover przekroczy limity, możesz dodać subskrypcje i przejść w tryb failover do wielu subskrypcji lub zwiększyć limit przydziału dla subskrypcji.

Limity trybu failover

Limity wskazują liczbę trybów failover obsługiwanych przez Site Recovery w ciągu jednej godziny, przy założeniu, że trzy dyski na maszynę.

Co oznacza zgodność? Aby uruchomić maszynę wirtualną platformy Azure, platforma Azure wymaga, aby niektóre sterowniki zostały uruchomione w stanie uruchamiania rozruchu, a usługi, takie jak DHCP, mają być uruchamiane automatycznie.

Maszyny, które są zgodne, będą już miały te ustawienia.
W przypadku maszyn z systemem Windows można aktywnie sprawdzać zgodność i w razie potrzeby zapewnić zgodność. Dowiedz się więcej.
Maszyny z systemem Linux są wprowadzane tylko do zgodności w momencie przejścia w tryb failover.

Maszyna jest zgodna z platformą Azure?	Limity maszyn wirtualnych platformy Azure (tryb failover dysku zarządzanego)
Tak	2000
Nie	1000

Limity zakładają, że w regionie docelowym subskrypcji są w toku minimalne inne zadania.
Niektóre regiony platformy Azure są mniejsze i mogą mieć nieco niższe limity.

Planowanie infrastruktury i łączności maszyn wirtualnych

Po przejściu w tryb failover na platformę Azure potrzebne są obciążenia do działania w środowisku lokalnym i umożliwienia użytkownikom dostępu do obciążeń uruchomionych na maszynach wirtualnych platformy Azure.

Dowiedz się więcej na temat przełączania w tryb failover infrastruktury lokalnej usługi Active Directory lub systemu DNS na platformę Azure.
Dowiedz się więcej o przygotowaniu do nawiązania połączenia z maszynami wirtualnymi platformy Azure po przejściu w tryb failover.

Planowanie pojemności źródłowej i wymagań

Ważne jest, aby mieć wystarczające serwery konfiguracji i serwery przetwarzania skalowalnego w poziomie, aby spełnić wymagania dotyczące pojemności. Podczas rozpoczynania wdrażania na dużą skalę rozpocznij od pojedynczego serwera konfiguracji i pojedynczego serwera przetwarzania skalowalnego w poziomie. W miarę osiągnięcia określonych limitów dodaj dodatkowe serwery.

Uwaga

W przypadku maszyn wirtualnych VMware planista wdrażania udostępnia pewne zalecenia dotyczące potrzebnych serwerów konfiguracji i przetwarzania. Zalecamy używanie tabel zawartych w poniższych procedurach zamiast stosowania się do zalecenia Planisty wdrażania.

Konfigurowanie serwera konfiguracji

Na pojemność serwera konfiguracji ma wpływ liczba replikujących maszyn, a nie współczynnik zmian danych. Aby ustalić, czy potrzebujesz dodatkowych serwerów konfiguracji, użyj tych zdefiniowanych limitów maszyn wirtualnych.

Procesor CPU	Pamięć	Dysk pamięci podręcznej	Limit replikowanej maszyny
8 procesorów wirtualnych 2 gniazda * 4 rdzenie @ 2,5 Ghz	16 GB	600 GB	Maksymalnie 550 maszyn Przyjęto założenie, że każda maszyna ma trzy dyski o pojemności 100 GB.

Te limity są oparte na serwerze konfiguracji skonfigurowanym przy użyciu szablonu OVF.
Limity zakładają, że nie używasz serwera przetwarzania, który jest domyślnie uruchomiony na serwerze konfiguracji.

Jeśli musisz dodać nowy serwer konfiguracji, wykonaj następujące instrukcje:

Skonfiguruj serwer konfiguracji na potrzeby odzyskiwania po awarii maszyny wirtualnej VMware przy użyciu szablonu OVF.
Skonfiguruj serwer konfiguracji ręcznie dla serwerów fizycznych lub wdrożeń VMware, które nie mogą używać szablonu OVF.

Podczas konfigurowania serwera konfiguracji należy pamiętać, że:

Podczas konfigurowania serwera konfiguracji należy wziąć pod uwagę subskrypcję i magazyn, w którym się znajduje, ponieważ nie powinny one być zmieniane po skonfigurowaniu. Jeśli musisz zmienić magazyn, musisz usunąć skojarzenie serwera konfiguracji z magazynu i ponownie go wyrejestrować. Spowoduje to zatrzymanie replikacji maszyn wirtualnych w magazynie.
Jeśli chcesz skonfigurować serwer konfiguracji z wieloma kartami sieciowymi, należy to zrobić podczas konfigurowania. Nie można tego zrobić po zarejestrowaniu serwera konfiguracji w magazynie.

Konfigurowanie serwera przetwarzania

Wydajność serwera przetwarzania ma wpływ na współczynnik zmian danych, a nie przez liczbę maszyn włączonych do replikacji.

W przypadku dużych wdrożeń zawsze należy mieć co najmniej jeden serwer przetwarzania skalowalnego w poziomie.
Aby dowiedzieć się, czy potrzebujesz dodatkowych serwerów, użyj poniższej tabeli.
Zalecamy dodanie serwera o najwyższej specyfikacji.

Procesor CPU	Pamięć	Dysk pamięci podręcznej	Współczynnik zmian
12 procesorów wirtualnych 2 gniazda*6 rdzeni @ 2,5 Ghz	24 GB	1 TB	Do 2 TB dziennie

Skonfiguruj serwer przetwarzania w następujący sposób:

Przejrzyj wymagania wstępne.
Zainstaluj serwer w portalu lub z poziomu wiersza polecenia.
Skonfiguruj replikowane maszyny do korzystania z nowego serwera. Jeśli masz już maszyny replikujące:
- Możesz przenieść całe obciążenie serwera przetwarzania do nowego serwera przetwarzania.
- Alternatywnie można przenieść określone maszyny wirtualne na nowy serwer przetwarzania.

Włączanie replikacji na dużą skalę

Po planowaniu pojemności i wdrożeniu wymaganych składników i infrastruktury włącz replikację dla dużej liczby maszyn wirtualnych.

Sortuj maszyny w partiach. Można włączyć replikację dla maszyn wirtualnych w ramach partii, a następnie przejść do następnej partii.
- W przypadku maszyn wirtualnych VMware można użyć zalecanego rozmiaru partii maszyn wirtualnych w raporcie Planista wdrażania.
- W przypadku maszyn fizycznych zalecamy zidentyfikowanie partii na podstawie maszyn, które mają podobny rozmiar i ilość danych oraz dostępną przepływność sieci. Celem jest wsadowe maszyny, które prawdopodobnie zakończą replikację początkową w tym samym czasie.
Jeśli współczynnik zmian dysku dla maszyny jest wysoki lub przekracza limity we wdrożeniu programu Deployment thePlanner, możesz przenieść niekrytyczne pliki, których nie trzeba replikować (na przykład zrzutów dzienników lub plików tymczasowych) z maszyny. W przypadku maszyn wirtualnych VMware można przenieść te pliki na oddzielny dysk, a następnie wykluczyć ten dysk z replikacji.
Przed włączeniem replikacji sprawdź, czy maszyny spełniają wymagania dotyczące replikacji.
Skonfiguruj zasady replikacji dla maszyn wirtualnych VMware lub serwerów fizycznych.
Włącz replikację dla maszyn wirtualnych VMware lub serwerów fizycznych. Spowoduje to rozpoczęcie replikacji początkowej dla wybranych maszyn.

Monitorowanie wdrożenia

Po rozpoczęciu replikacji dla pierwszej partii maszyn wirtualnych rozpocznij monitorowanie wdrożenia w następujący sposób:

Przypisz administratora odzyskiwania po awarii, aby monitorować stan kondycji replikowanych maszyn.
Monitorowanie zdarzeń dla replikowanych elementów i infrastruktury.
Monitorowanie kondycji serwerów przetwarzania skalowalnego w poziomie.
Zarejestruj się, aby otrzymywać powiadomienia e-mail dotyczące zdarzeń, aby ułatwić monitorowanie.
Przeprowadź regularne ćwiczenia odzyskiwania po awarii, aby upewnić się, że wszystko działa zgodnie z oczekiwaniami.

Planowanie przechodzenia w tryb failover na dużą skalę

W przypadku awarii może być konieczne przełączenie w tryb failover dużej liczby maszyn/obciążeń na platformę Azure. Przygotuj się do tego typu zdarzenia w następujący sposób.

Możesz przygotować się z wyprzedzeniem do przejścia w tryb failover w następujący sposób:

Przygotuj infrastrukturę i maszyny wirtualne , aby obciążenia będą dostępne po przejściu w tryb failover i aby użytkownicy mogli uzyskiwać dostęp do maszyn wirtualnych platformy Azure.
Zwróć uwagę na limity trybu failover wcześniej w tym dokumencie. Upewnij się, że tryby failover zostaną objęte tymi limitami.
Uruchamianie regularnych prób odzyskiwania po awarii. Przechodzenie do szczegółów pomaga:
- Znajdź luki we wdrożeniu przed przejściem w tryb failover.
- Szacowanie kompleksowego celu odzyskiwania dla aplikacji.
- Szacowanie kompleksowego celu punktu odzyskiwania dla obciążeń.
- Identyfikowanie konfliktów zakresu adresów IP.
- Podczas uruchamiania próbek zalecamy, aby nie używać sieci produkcyjnych do przechodzenia do szczegółów i czyszczenia testów pracy w trybie failover po każdym przejściu do szczegółów.

Aby uruchomić tryb failover na dużą skalę, zalecamy wykonanie następujących czynności:

Tworzenie planów odzyskiwania dla trybu failover obciążenia.
- Każdy plan odzyskiwania może wyzwalać tryb failover maksymalnie 100 maszyn.
- Dowiedz się więcej o planach odzyskiwania.
Dodaj skrypty elementu runbook Azure Automation do planów odzyskiwania, aby zautomatyzować zadania ręczne na platformie Azure. Typowe zadania obejmują konfigurowanie modułów równoważenia obciążenia, aktualizowanie systemu DNS itp. Dowiedz się więcej
Przed przejściem w tryb failover przygotuj maszyny z systemem Windows, aby były zgodne ze środowiskiem platformy Azure. Limity trybu failover są wyższe dla maszyn, które są zgodne. Dowiedz się więcej o elementach Runbook.
Wyzwalanie trybu failover za pomocą polecenia cmdlet Start-AzRecoveryServicesAsrPlannedFailoverJob Programu PowerShell wraz z planem odzyskiwania.

Następne kroki

Monitorowanie usługi Site Recovery