Ověření clusteru Azure Stack HCI

Platí pro: Azure Stack HCI, verze 21H2 a 20H2; Windows Server 2022, Windows Server 2019

Přestože průvodce vytvořením clusteru v centru Windows Admin Center provádí určitá ověření, aby vytvořil funkční cluster s vybraným hardwarem, provede ověření clusteru další kontroly, aby se ujistil, že cluster bude fungovat v produkčním prostředí. Tento článek s postupy se zaměřuje na to, proč je ověření clusteru důležité a kdy ho spustit na Azure Stack HCI clusteru.

Doporučujeme provést ověření clusteru v následujících primárních scénářích:

  • Po nasazení serverového clusteru otestujte síť spuštěním nástroje Validate-DCB.
  • Po aktualizaci serverového clusteru spusťte v závislosti na vašem scénáři obě možnosti ověřování pro řešení potíží s clusterem.
  • Po nastavení replikace pomocí Storage repliky ověřte, že replikace normálně probíhá, a to kontrolou některých konkrétních událostí a spuštěním několika příkazů.
  • Po vytvoření serverového clusteru spusťte nástroj Validate-DCB před jeho uvedením do produkčního prostředí.

Co je ověření clusteru?

Ověření clusteru je určené k zachycení problémů s hardwarem nebo konfigurací před tím, než cluster přejde do produkčního prostředí. Ověření clusteru pomáhá zajistit, aby Azure Stack HCI řešení, které se má nasadit, skutečně spolehlivé. Jako diagnostický nástroj můžete použít také ověřování clusteru na nakonfigurovaných clusterech s podporou převzetí služeb při selhání.

Konkrétní scénáře ověřování

Tato část popisuje scénáře, ve kterých je také potřeba nebo užitečné ověřování.

  • Ověření před nakonfigurování clusteru:

    • Sada serverů připravených stát se clusterem s podporou převzetí služeb při selhání: Toto je nejjednodušší scénář ověřování. Hardwarové komponenty (systémy, sítě a úložiště) jsou připojené, ale systémy ještě nefungují jako cluster. Spouštění testů v této situaci nemá žádný vliv na dostupnost.

    • Serverové virtuální počítače: U virtualizovaných serverů v clusteru spusťte ověření clusteru stejně jako na jakémkoli jiném novém clusteru. Požadavek na spuštění funkce je stejný bez ohledu na to, jestli máte:

      • "Hostitelský cluster", ve kterém dojde k převzetí služeb při selhání mezi dvěma fyzickými počítači.
      • "Cluster hostů", ve kterém dojde k převzetí služeb při selhání mezi hostovanými operačními systémy ve stejném fyzickém počítači.
  • Ověření po nakonfigurování a použití clusteru:

    • Před přidáním serveru do clusteru: Když do clusteru přidáte server, důrazně doporučujeme cluster validovat. Při spuštění ověření clusteru zadejte stávající členy clusteru i nový server.

    • Při přidávání jednotek: Když do clusteru přidáte další jednotky, které se liší od nahrazení disků, které selhaly, nebo vytvoření virtuálních disků nebo svazků závislých na existujících jednotkách, spusťte ověření clusteru, abyste potvrdili, že nové úložiště bude správně fungovat.

    • Při provádění změn, které ovlivňují firmware nebo ovladače: Pokud upgradujete nebo měníte cluster, který má vliv na firmware nebo ovladače, musíte spustit ověření clusteru, abyste potvrdili, že nová kombinace hardwaru, firmwaru, ovladačů a softwaru podporuje funkce clusteru s podporou převzetí služeb při selhání.

    • Po obnovení systému ze zálohy: Po obnovení systému ze zálohy spusťte ověření clusteru, abyste potvrdili, že systém funguje správně jako součást clusteru.

Ověření sítě

Nástroj Microsoft Validate-DCB je navržený tak, aby ověř Data Center Bridging (DCB) v clusteru. K tomu nástroj jako vstup vezme očekávanou konfiguraci a pak otestuje každý server v clusteru. Tato část popisuje, jak nainstalovat a spustit nástroj Validate-DCB, zkontrolovat výsledky a vyřešit chyby sítě, které nástroj identifikuje.

Poznámka

Microsoft doporučuje nasadit a spravovat vaši konfiguraci pomocí řešení Network ATC, což eliminuje většinu problémů s konfigurací, které nástroj Validate-DCB kontroluje. Další informace o řešení Network ATC, které poskytuje přístup založený na záměrech k hostování síťového nasazení, najdete v tématu Zjednodušení sítě hostitelů pomocí síťového ATC.

Vzdálený přímý přístup do paměti (RDMA) přes konvergovaný Ethernet (RoCE) v síti vyžaduje technologie DCB, aby síťové infrastruktury bylo bez ztráty. S iWARP je DCB nepovinné. Konfigurace DCB ale může být složitá a přesná konfigurace se vyžaduje v rámci:

  • Každý server v clusteru
  • Každý síťový port, přes který prochází provoz RDMA v fabric

Požadavky

  • Informace o nastavení sítě serverového clusteru, který chcete ověřit, včetně:
    • Název hostitelského nebo serverového clusteru
    • Název virtuálního přepínače
    • Názvy síťových adaptérů
    • Nastavení Flow řízení přístupu (PFC) a rozšířeného výběru přenosu (ETS)
  • Připojení k internetu ke stažení modulu nástroje v Windows PowerShell od Microsoftu.

Instalace a spuštění nástroje Validate-DCB

Instalace a spuštění nástroje Validate-DCB:

  1. Na počítači pro správu otevřete Windows PowerShell jako správce a pak pomocí následujícího příkazu nástroj nainstalujte.

    Install-Module Validate-DCB
    
  2. Přijměte žádosti o použití poskytovatele NuGet a přistupte k úložišti pro instalaci nástroje.

  3. Jakmile se PowerShell připojí k síti Microsoft a nástroj stáhne, zadejte a stisknutím klávesy Validate-DCBValidate-DCB spusťte průvodce nástrojem.

    Poznámka

    Pokud nemůžete spustit skript nástroje Validate-DCB, možná budete muset upravit zásady spouštění PowerShellu. Pomocí rutiny Get-ExecutionPolicy zobrazte aktuální nastavení zásad spouštění skriptů. Informace o nastavení zásad spouštění v PowerShellu najdete v tématu Informace o zásadách spouštění.

  4. Na stránce Vítejte v průvodci konfigurací Validate-DCB vyberte Další.

  5. Na stránce Clustery a uzly zadejte název serverového clusteru, který chcete ověřit, vyberte Přeložit, abyste ho na stránce vypište, a pak vyberte Další.

    Stránka Clustery a uzly v průvodci konfigurací Validate-DCB

  6. Na stránce Adaptéry:

    1. Zaškrtněte políčko připojené k virtuálnímu přepínači a zadejte název virtuálního přepínače.
    2. V části Názevadaptéru zadejte název každého fyzického síťového rozhraní, v části Název virtuálního síťového adaptéru hostitele zadejte název každé virtuální síťové karty (vNIC) a v části Síť VLAN zadejte ID sítě VLAN,které se používá pro každý adaptér.
    3. Rozbalte rozevírací seznam Typ RDMA a vyberte odpovídající protokol: RoCE nebo iWARP. Nastavte také rámce Judword na odpovídající hodnotu pro vaši síť a pak vyberte Další.

    Stránka Adaptéry v průvodci konfigurací Validate-DCB

    Poznámka

  7. Na stránce Data Center Bridging upravte hodnoty tak, aby odpovídaly nastavení vaší organizace pro prioritu,název zásady a rezervaci šířky pásma,a pak vyberte Další.

    Stránka Data Center Bridging průvodce konfigurací Validate-DCB

    Poznámka

    Výběr RDMA přes RoCE na předchozí stránce průvodce vyžaduje DCB pro spolehlivost sítě na všech síťových rozhraních a přepínačích.

  8. Na stránce Uložit a nasadit uložte konfigurační soubor do pole Cesta ke konfiguračnímu souboru pomocí přípony .ps1 do umístění, kde ho můžete v případě potřeby znovu použít, a pak výběrem možnosti Exportovat spusťte nástroj Validate-DCB.

    • Volitelně můžete konfigurační soubor nasadit tak, že na stránce dokončíte část Deploy Configuration to Nodes (Nasadit konfiguraci do uzlů), která obsahuje možnost použít účet Azure Automation k nasazení konfigurace a její ověření. Pokud chcete začít s Azure Automation, podívejte se na vytvoření účtu Azure Automation.

    Stránka Uložit a nasadit průvodce konfigurací Validate-DCB

Kontrola výsledků a oprava chyb

Nástroj Validate-DCB produkuje výsledky ve dvou jednotkách:

  1. [Globální jednotka] obsahuje seznam požadavků a požadavků na spuštění modálních testů.
  2. Výsledky [Modální jednotka] poskytují zpětnou vazbu ke konfiguraci a osvědčeným postupům jednotlivých hostitelů clusteru.

Tento příklad ukazuje úspěšné výsledky kontroly jednoho serveru pro všechny požadavky a modální testy jednotek udávající počet neúspěšných jednotek 0.

Výsledky testů jednotek Validate-DCB Global a Modal Unit

Následující kroky ukazují, jak identifikovat chybu paketu Ju smb02 vNIC a opravit ji:

  1. Ve výsledcích kontrol nástroje Validate-DCB se zobrazí chyba Failed Count (Počet selhání) s chybou 1.

    Výsledky kontroly nástroje Validate-DCB zobrazující chybu Neúspěšný počet 1

  2. Při posouvání zpět ve výsledcích se červeně zobrazí chyba, která značí, že je paket Ju smb02 vNIC na hostiteli S046036 nastavený na výchozí velikost 1514, ale měl by být nastavený na 9014.

    Výsledek kontroly nástroje Validate-DCB zobrazující chybu nastavení velikosti paketu ju zamykací sítě

  3. Kontrola rozšířených vlastností protokolu SMB02 virtuálního počítače s protokolem SMB02 na hostiteli S046036 ukazuje, že je u paketu Ju zablokováno výchozí nastavení .

    Nastavení paketu Juong hostitele serveru s pokročilými vlastnostmi Hyper-V

  4. Oprava chyby vyžaduje povolení funkce paketu Juong a změnu její velikosti na 9014 bajtů. Když znovu na hostiteli S046036 prohledáte kontrolu, potvrdí se tato změna vrácením neúspěšných 0.

    Výsledky kontroly Validate-DCB potvrzující, že je opravené nastavení paketu Juong hostitele serveru

Další informace o řešení chyb, které nástroj Validate-DCB identifikuje, najdete v následujícím videu.

Nástroj můžete také nainstalovat offline. V případě odpojených systémů použijte a přesuňte moduly ve složce Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB c:\temp\Validate-DCB do odpojenného systému. Další informace najdete v následujícím videu.

Ověření clusteru

pomocí následujících kroků ověříte servery v existujícím clusteru v centru pro správu Windows.

  1. v centru pro správu Windows v části všechna připojenívyberte cluster s Azure Stack HCI, který chcete ověřit, a pak vyberte Připojení.

    Řídicí panel Správce clusteru zobrazuje přehled informací o clusteru.

  2. Na řídicím panelu Správce clusterův části nástrojevyberte servery.

  3. Na stránce inventarizace vyberte servery v clusteru, potom rozbalte podnabídku Další a vyberte ověřit cluster.

  4. V automaticky otevíraném okně ověřit cluster vyberte Ano.

    Místní okno ověření clusteru

  5. V místním okně zprostředkovatel CredSSP (Credential Security Service Provider) vyberte Ano.

  6. Zadejte přihlašovací údaje pro povolení zprostředkovatele CredSSP a pak vyberte pokračovat.
    Ověření clusteru běží na pozadí a po jeho dokončení vám zobrazí oznámení, jak je popsáno v následující části.

Poznámka

Po ověření clusterových serverů bude nutné z bezpečnostních důvodů zakázat zprostředkovatele CredSSP.

Zakázat CredSSP

Po úspěšném ověření vašeho serverového clusteru budete muset pro účely zabezpečení zakázat protokol CredSSP (Security Support Provider) na každém serveru. Další informace najdete v článku CVE-2018-0886.

  1. v centru pro správu Windows v části všechna připojenívyberte první server v clusteru a pak vyberte Připojení.

  2. Na stránce Přehled vyberte Zakázat CredSSPa potom v místním okně vypnout zprostředkovatele CredSSP vyberte Ano.

    Výsledkem kroku 2 je, že se v horní části stránky s přehledem na serveru zobrazí obrázek s červenou příponou CredSSP a na ostatních serverech se zakáže CredSSP.

Zobrazení sestav ověření

Teď jste připraveni zobrazit sestavu ověření clusteru.

Existuje několik způsobů, jak získat přístup k sestavám ověřování:

  • Na stránce inventarizace rozbalte podnabídku Další a potom vyberte možnost Zobrazit sestavy ověření.

  • v pravém horním rohu centra pro správu Windowsvyberte ikonu zvonku oznámení , aby se zobrazilo podokno oznámení . Vyberte úspěšně ověřené upozornění clusteru a pak vyberte Přejít na sestavu ověření clusteru s podporou převzetí služeb při selhání.

Poznámka

Dokončení procesu ověření clusteru serveru může nějakou dobu trvat. po spuštění procesu se v centru pro správu Windows nepřepne na jiný nástroj. V podokně oznámení indikuje stavový řádek pod ověřením oznámení clusteru , kdy je postup dokončen.

Ověření clusteru pomocí prostředí PowerShell

Windows PowerShell můžete použít také ke spuštění ověřovacích testů na serverovém clusteru a zobrazení výsledků. Testy můžete spustit před i po nastavení clusteru.

Pokud chcete spustit ověřovací test na serverovém clusteru, vydejte rutiny PowerShellu Get-cluster a Test-Cluster Server z počítače pro správu, nebo spusťte pouze rutinu Test-Cluster přímo v clusteru:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Další příklady a informace o použití naleznete v referenční dokumentaci k testovacímu clusteru .

ověřit replikaci pro repliku Storage

pokud používáte repliku Storage k replikaci svazků v roztaženém clusteru nebo clusteru mezi clustery, existuje několik událostí a rutin, které můžete použít k získání stavu replikace.

v následujícím scénáři jsme nakonfigurovali Storage repliky vytvořením replikačních skupin (RGs) pro dvě lokality a pak určili datové svazky a svazky protokolů pro uzly zdrojového serveru v Site1 (Server1, Server2) a cílové (replikované) uzly serveru v Site2 (Server3, v Server4).

Pokud chcete určit průběh replikace pro Server1 v Site1, spusťte příkaz Get-WinEvent a prověřte události 5015, 5002, 5004, 1237, 5001 a 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

pro Server3 v Site2 spusťte následující příkaz, který Get-WinEvent zobrazí události Storage repliky, které ukazují vytvoření partnerství. Tato událost zobrazuje počet zkopírovaných bajtů a čas, který to zabralo. Například:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Pro Server3 v site2 spusťte Get-WinEvent příkaz a prověřte události 5009, 1237, 5001, 5015, 5005 a 2200, abyste pochopili průběh zpracování. V této sekvenci by neměla být žádná upozornění ani chyby. Bude to znamenat spoustu 1237 událostí – tyto události znamenají průběh.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Alternativně je cílová skupina serverů pro replika ve všech časech počet bajtů, které zbývá zkopírovat, a může být dotazován prostřednictvím PowerShellu pomocí Get-SRGroup . Například:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Pro Server3 Node v site2 spusťte následující příkaz a prověřte události 5009, 1237, 5001, 5015, 5005 a 2200, abyste pochopili průběh replikace. Nemusíte mít žádná upozornění na chyby. Ale bude to mnoho "1237" událostí – tyto události jednoduše naznačují průběh.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Jako skript průběhu, který se neukončí:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

K získání stavu replikace v roztaženém clusteru použijte Get-SRGroup a Get-SRPartnership :

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Po potvrzení úspěšné replikace dat mezi lokalitami můžete vytvořit virtuální počítače a další úlohy.

Viz také