Naprawianie serwera w usłudze Azure Stack HCI w wersji 23H2

Dotyczy: Azure Stack HCI, wersja 23H2

W tym artykule opisano sposób naprawiania serwera w klastrze rozwiązania Azure Stack HCI.

Informacje o naprawie serwerów

Azure Stack HCI to system hiperkonwergentny, który umożliwia naprawę serwerów z istniejących klastrów. W przypadku awarii sprzętowej może być konieczne naprawienie serwera w klastrze.

Przed naprawą serwera upewnij się, że należy sprawdzić dostawcę rozwiązania, które składniki na serwerze są jednostkami wymiany pól (FRU), które można zastąpić samodzielnie i które składniki wymagają od technika wymiany.

Części, które obsługują wymianę gorącą, zwykle nie wymagają odtworzenia obrazu serwera w przeciwieństwie do składników, które nie można zamienić na gorąco, takich jak płyta główna. Skontaktuj się z producentem sprzętu, aby określić, które zamiany składników wymagają odtworzenia obrazu serwera. Aby uzyskać więcej informacji, zobacz Wymiana składników.

Naprawianie przepływu pracy serwera

Poniższy diagram przepływu przedstawia ogólny proces naprawy serwera.

Diagram przedstawiający proces naprawy serwera.

*Serwer może nie znajdować się w stanie, w którym jest możliwe zamknięcie lub konieczne

Aby naprawić istniejący serwer, wykonaj następujące ogólne kroki:

  1. Jeśli to możliwe, zamknij serwer, który chcesz naprawić. W zależności od stanu serwera zamknięcie może być niemożliwe lub konieczne.

  2. Z obrazu serwera, który należy naprawić.

  3. Uruchom operację naprawy serwera. System operacyjny, sterowniki i oprogramowanie układowe usługi Azure Stack HCI są aktualizowane w ramach operacji naprawy.

    Magazyn jest automatycznie ponownie zrównoważony na serwerze z obrazem z obrazu. Ponowne równoważenie magazynu to zadanie o niskim priorytcie, które może być uruchamiane przez wiele dni w zależności od liczby serwerów i używanego magazynu.

Obsługiwane scenariusze

Naprawianie serwera z obrazu serwera i przywrócenie go z powrotem do klastra z poprzednią nazwą i konfiguracją.

Naprawienie pojedynczego serwera powoduje ponowne wdrożenie z opcją utrwalania woluminów danych. Tylko wolumin systemowy jest usuwany i nowo aprowizacji podczas wdrażania.

Ważne

Upewnij się, że zawsze masz kopie zapasowe dla obciążeń i nie polegaj tylko na odporności systemu. Jest to szczególnie krytyczne w scenariuszach z jednym serwerem.

Ustawienia odporności

W tej wersji na potrzeby naprawy operacji serwera określone zadania nie są wykonywane na woluminach obciążenia utworzonych po wdrożeniu. W przypadku operacji naprawy serwera tylko wymagane woluminy infrastruktury i woluminy obciążenia są przywracane i udostępniane jako udostępnione woluminy klastra (CSV).

Pozostałe woluminy obciążenia utworzone po wdrożeniu są nadal zachowywane i można je odnaleźć, uruchamiając Get-VirtuaDisk polecenie cmdlet . Należy ręcznie odblokować wolumin (jeśli wolumin ma włączoną funkcję BitLocker) i utworzyć wolumin CSV (w razie potrzeby).

Wymagania sprzętowe

Podczas naprawiania serwera system weryfikuje sprzęt nowego, przychodzącego serwera i zapewnia, że serwer spełnia wymagania sprzętowe przed dodaniu go do klastra.

Składnik Sprawdzanie zgodności
Procesor CPU Sprawdź, czy nowy serwer ma taką samą liczbę rdzeni procesora CPU lub więcej. Jeśli rdzenie procesora CPU w węźle przychodzącym nie spełniają tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona.
Memory (Pamięć) Sprawdź, czy na nowym serwerze jest zainstalowana taka sama ilość lub więcej pamięci. Jeśli pamięć w węźle przychodzącym nie spełnia tego wymagania, zostanie wyświetlone ostrzeżenie. Operacja jest jednak dozwolona.
Napędy Sprawdź, czy nowy serwer ma taką samą liczbę dysków danych dostępnych dla Bezpośrednie miejsca do magazynowania. Jeśli liczba dysków w węźle przychodzącym nie spełnia tego wymagania, zostanie zgłoszony błąd i operacja zostanie zablokowana.

Wymiana serwera

Możesz zastąpić cały serwer:

  • W przypadku nowego serwera, który ma inny numer seryjny w porównaniu ze starym serwerem.
  • Po odtworzeniu obrazu bieżącego serwera.

Podczas zamiany serwera obsługiwane są następujące scenariusze:

Server (Serwer) Dysk Obsługiwane
Nowy serwer Nowe dyski Tak
Nowy serwer Bieżące dyski Tak
Bieżący serwer (z obrazu) Bieżące dyski sformatowane * Nie
Bieżący serwer (z obrazu) Nowe dyski Tak
Bieżący serwer (z obrazu) Bieżące dyski Tak

**Dyski używane przez Bezpośrednie miejsca do magazynowania wymagają odpowiedniego czyszczenia. Ponowne formatowanie nie jest wystarczające. Zobacz, jak czyścić dyski.

Ważne

Jeśli zastąpisz składnik podczas naprawy serwera, nie musisz zastępować ani resetować dysków danych. Jeśli zamienisz dysk lub zresetujesz go, dysk nie zostanie rozpoznany po dołączeniu serwera do klastra.

Wymiana składników

W klastrze Azure Stack HCI składniki niezmienialne obejmują następujące elementy:

  • Płyta główna/kontroler zarządzania płytą główną (BMC)/karta wideo
  • Kontroler dysku/karta magistrali hosta (HBA)/backplace
  • Karta sieciowa
  • Jednostka przetwarzania grafiki
  • Dyski danych (dyski, które nie obsługują wymiany gorącej, na przykład karty dodatku PCI-e)

Rzeczywiste kroki wymiany składników niezmienialnych na gorąco różnią się w zależności od dostawcy sprzętu producenta oryginalnego sprzętu (OEM). Zapoznaj się z dokumentacją dostawcy OEM, jeśli naprawa serwera jest wymagana w przypadku składników niezmienialnych do wymiany na gorąco.

Wymagania wstępne

Przed naprawą serwera należy upewnić się, że:

  • AzureStackLCMUser jest aktywny w usłudze Active Directory. Aby uzyskać więcej informacji, zobacz Przygotowanie usługi Active Directory.
  • Zalogował się jako AzureStackLCMUser lub inny użytkownik z równoważnymi uprawnieniami.
  • Poświadczenia dla właściwości AzureStackLCMUser nie zostały zmienione.

Naprawianie serwera

W tej sekcji opisano, jak naprawić serwer przy użyciu programu PowerShell, monitorować stan Repair-Server operacji i rozwiązywać problemy, jeśli występują jakiekolwiek problemy.

Upewnij się, że zostały zweryfikowane wymagania wstępne.

Wykonaj następujące kroki na serwerze, który próbujesz naprawić.

  1. Zainstaluj system operacyjny i wymagane sterowniki. Wykonaj kroki opisane w temacie Instalowanie rozwiązania Azure Stack HCI w wersji 23H2 Operating System.

  2. Zarejestruj serwer w usłudze Arc. Wykonaj kroki opisane w temacie Rejestrowanie w usłudze Arc i konfigurowanie uprawnień.

    Uwaga

    Aby zarejestrować się w usłudze Arc, należy użyć tych samych parametrów co istniejące węzły. Na przykład: Nazwa grupy zasobów, Region, Subskrypcja i Tentant.

Wykonaj następujące kroki na innym serwerze, który jest członkiem tego samego klastra usługi Azure Stack HCI.

  1. Przed dodaniem serwera upewnij się, że otrzymasz zaktualizowany token uwierzytelniania. Uruchom następujące polecenie:

     Update-AuthenticationToken
    
  2. Zaloguj się do serwera, który jest już członkiem klastra, przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania klastra. Uruchom następujące polecenie, aby naprawić serwer przychodzący:

    $Cred = Get-Credential 
    Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
    
  3. Zanotuj identyfikator operacji jako dane wyjściowe polecenia Repair-Server . Użyjesz tego później, aby monitorować postęp Repair-Server operacji.

Monitorowanie postępu operacji

Aby monitorować postęp operacji dodawania serwera, wykonaj następujące kroki:

  1. Uruchom następujące polecenie cmdlet i podaj identyfikator operacji z poprzedniego kroku.

    $ID = "<Operation ID>" 
    Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID 
    
  2. Po zakończeniu operacji zadanie ponownego równoważenia magazynu w tle będzie kontynuowane. Poczekaj na zakończenie zadania ponownego równoważenia magazynu. Aby sprawdzić postęp tego zadania ponownego równoważenia magazynu, użyj następującego polecenia cmdlet:

    Get-VirtualDisk|Get-StorageJob
    

    Jeśli zadanie ponownego równoważenia magazynu zostanie ukończone, polecenie cmdlet nie zwróci danych wyjściowych.

Scenariusze odzyskiwania

Poniższe scenariusze odzyskiwania i zalecane kroki ograniczania ryzyka są tabelaryzowane w celu naprawy serwera:

Opis scenariusza Ograniczanie ryzyka Obsługiwane?
Operacja naprawy serwera nie powiodła się. Aby ukończyć operację, zbadaj błąd.
Uruchom ponownie operację, która zakończyła się niepowodzeniem przy użyciu polecenia Add-Server -Rerun.
Tak
Naprawa operacji serwera zakończyła się częściowo, ale musiała rozpocząć od nowej instalacji systemu operacyjnego. W tym scenariuszu orkiestrator (znany również jako Menedżer cyklu życia) zaktualizował już swój magazyn wiedzy przy użyciu nowego serwera. Użyj scenariusza naprawy serwera. Tak

Rozwiązywanie problemów

Jeśli wystąpią błędy lub błędy podczas naprawiania serwera, możesz przechwycić dane wyjściowe błędów w pliku dziennika.

  • Zaloguj się przy użyciu poświadczeń użytkownika domeny podanych podczas wdrażania klastra. Przechwyć problem w plikach dziennika.

    Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
    
  • Aby ponownie uruchomić operację, która zakończyła się niepowodzeniem, użyj następującego polecenia cmdlet:

    Repair-Server -Rerun
    

Następne kroki

Dowiedz się więcej na temat dodawania serwera.