驗證 Azure Stack HCI 叢集 (部分機器翻譯)

適用于: Azure Stack HCI、版本 v20H2;Windows伺服器2019

雖然 Windows Admin Center 中的 [建立叢集] 嚮導會執行特定的驗證,以使用選取的硬體來建立運作中的叢集,叢集驗證仍會執行額外的檢查,以確保叢集可在生產環境中運作。 本操作說明文章著重于為什麼叢集驗證很重要,以及何時在 Azure Stack HCI 叢集上執行。

建議您在下列主要案例中執行叢集驗證:

  • 部署伺服器叢集之後,請執行驗證 DCB 工具來測試網路。
  • 補救伺服器群集之後,視您的案例而定,請執行這兩個驗證選項來針對叢集問題進行疑難排解。
  • 使用儲存體複本設定複寫之後,請檢查某些特定事件並執行幾個命令,以驗證複寫是否正常進行。
  • 建立伺服器叢集之後,請先執行驗證 DCB 工具,再將它放入生產環境。

什麼是叢集驗證?

叢集驗證的目的是要在叢集進入生產環境之前,先攔截硬體或設定問題。 叢集驗證有助於確保您即將部署的 Azure Stack HCI 解決方案確實可靠。 您也可以在設定的容錯移轉叢集中使用叢集驗證作為診斷工具。

特定驗證案例

本節說明也需要或有用的驗證案例。

  • 設定叢集之前的驗證:

    • 準備成為容錯移轉叢集的一組伺服器: 這是最直接的驗證案例。 硬體元件 (系統、網路和存放裝置) 已連線,但系統尚未以叢集的形式運作。 在此情況下執行測試不會影響可用性。

    • 伺服器 vm: 針對叢集中的虛擬化伺服器,請執行叢集驗證,就像在其他任何新叢集上一樣。 無論您是否有下列情況,執行功能的需求都相同:

      • 在兩部實體電腦之間進行容錯移轉的「主機叢集」。
      • 「來賓叢集」,在相同的實體電腦上的客體作業系統之間進行容錯移轉。
  • 在叢集設定和使用之後驗證:

    • 將伺服器新增至叢集之前: 當您將伺服器新增至叢集時,強烈建議您驗證叢集。 當您執行叢集驗證時,請指定現有的叢集成員和新的伺服器。

    • 新增磁片磁碟機時: 當您將其他磁片磁碟機新增至叢集時,與更換故障的磁片磁碟機或建立依賴現有磁片磁碟機的虛擬磁片或磁片區不同,請執行叢集驗證,以確認新的存放裝置能夠正常運作。

    • 進行影響固件或驅動程式的變更時: 如果您升級或變更影響固件或驅動程式的叢集,您必須執行叢集驗證,以確認硬體、固件、驅動程式和軟體的新組合支援容錯移轉叢集功能。

    • 從備份還原系統之後: 從備份還原系統之後,請執行叢集驗證,以確認系統正常運作,以作為叢集的一部分。

驗證網路功能

Microsoft 驗證 DCB 工具的設計目的是要驗證叢集上的資料中心橋接 (DCB) 設定。 若要這樣做,此工具會採用預期的設定做為輸入,然後測試叢集中的每部伺服器。 本節說明如何安裝和執行驗證 DCB 工具、檢查結果,以及解決工具識別的網路錯誤。

注意

我們建議您使用網路 ATC 來部署和管理您的設定,以消除驗證 DCB 工具所檢查的大部分設定挑戰。 若要深入瞭解網路 ATC 的預覽,以提供意圖型方法來裝載網路部署,請參閱 使用網路 ATC 簡化主機網路功能。

網路上的遠端直接記憶體存取 (RDMA) 透過交集乙太網路 (RoCE) 需要 DCB 技術才能讓網路網狀架構不失真。 使用 iWARP 時,DCB 是選擇性的。 不過,設定 DCB 可能很複雜,需要的設定完全相同:

  • 叢集中的每部伺服器
  • RDMA 流量在網狀架構上傳遞的每個網路埠

先決條件

  • 您要驗證之伺服器叢集的網路設定資訊,包括:
    • 主機或伺服器叢集名稱
    • 虛擬交換器名稱
    • 網路介面卡名稱
    • 優先權 Flow 控制 (PFC) 和增強的傳輸選取 (ETS) 設定
  • 網際網路連線,可從 Microsoft Windows PowerShell 下載工具模組。

安裝和執行驗證-DCB 工具

若要安裝並執行驗證 DCB 工具:

  1. 在您的管理電腦上,以系統管理員身分開啟 Windows PowerShell 會話,然後使用下列命令來安裝此工具。

    Install-Module Validate-DCB
    
  2. 接受使用 NuGet 提供者的要求,並存取存放庫以安裝工具。

  3. 在 PowerShell 連線至 Microsoft 網路以下載工具之後,請輸入 Validate-DCB 並按 enter 鍵,以啟動工具 wizard。

    注意

    如果您無法執行驗證 DCB 工具腳本,您可能需要調整 PowerShell 執行原則。 使用 Get-ExecutionPolicy Cmdlet 來查看目前的腳本執行原則設定。 如需在 PowerShell 中設定執行原則的詳細資訊,請參閱 關於執行原則

  4. 在 [歡迎使用驗證-DCB 設定] 頁面上,選取 [下一步]

  5. 在 [叢集和節點] 頁面上,輸入您想要驗證之伺服器叢集的名稱,選取 [ 解析 ] 以在頁面上列出,然後選取 [下一步]

    [驗證-DCB 設定] wizard 的 [叢集和節點] 頁面

  6. 在 [介面卡] 頁面上:

    1. 選取 [ vswitch 附加 ] 核取方塊,然後輸入 vswitch 的名稱。
    2. 在 [ 介面卡名稱] 下,輸入每個實體 NIC 的名稱,在 [ 主機 vNIC 名稱] 下,每個虛擬 NIC 的名稱 (vNIC) ,然後在 [ vlan] 下,使用每個介面卡的 vlan ID。
    3. 展開 [ RDMA 類型 ] 下拉式清單方塊,然後選取適當的通訊協定: [ RoCE ] 或 [ iWARP]。 也請將大的 框架 設定為適當的網路值,然後選取 [下一步]

    [驗證-DCB 設定] wizard 的 [介面卡] 頁面

    注意

  7. 在 [資料中心橋接] 頁面上,修改值以符合您組織的 優先順序原則名稱頻寬保留 的設定,然後選取 [下一步]

    [驗證-DCB 設定] wizard 的 [資料中心橋接] 頁面

    注意

    在先前的 wizard 頁面上選取 [RDMA over RoCE] 需要 DCB 所有 Nic 和 switchports 的網路可靠性。

  8. 在 [儲存並部署] 頁面的 [ 設定檔路徑 ] 方塊中,使用 .ps1 擴充功能將設定檔儲存到您可以稍後視需要使用的位置,然後選取 [ 匯出 ] 以開始執行驗證 DCB 工具。

    • 您可以選擇性地部署設定檔,方法是完成頁面的 [將設定 部署到節點 ] 區段,其中包括使用 Azure 自動化帳戶來部署設定,然後加以驗證的能力。 請參閱 建立 Azure 自動化帳戶 以開始使用 Azure 自動化。

    [驗證 DCB] 設定 wizard 的 [儲存並部署] 頁面

檢查結果並修正錯誤

驗證 DCB 工具會以兩個單位產生結果:

  1. [全域單位] 結果會列出執行強制回應測試的必要條件和需求。
  2. [強制回應單位] 結果會提供每個叢集主機設定和最佳作法的意見反應。

此範例會指出失敗的計數為0,以針對所有必要條件和強制回應單元測試,顯示單一伺服器的成功掃描結果。

驗證-DCB 全域單位和強制回應單元測試結果

下列步驟說明如何從 vNIC SMB02 識別大型封包錯誤並加以修正:

  1. 驗證 DCB 工具掃描的結果會顯示失敗的計數錯誤1。

    驗證-DCB 工具掃描結果顯示失敗計數錯誤1

  2. 滾動結果會顯示紅色的錯誤,指出主機 S046036 上的 vNIC SMB02 的大型封包已設定為預設大小1514,但應設定為9014。

    驗證-DCB 工具掃描結果顯示巨型封包大小設定錯誤

  3. 在主機 S046036 上檢查 vNIC SMB02 的 Advanced properties,會顯示 [巨型封包] 設定為 [ 停用] 的預設值。

    伺服器主機的 Hyper-v Advanced properties 的大型封包設定

  4. 修正錯誤需要啟用大型封包功能,並將其大小變更為9014個位元組。 在主機 S046036 上再次執行掃描,會傳回失敗的計數0來確認這項變更。

    驗證-DCB 掃描結果確認伺服器主機的大型封包設定已修正

若要深入瞭解如何解決驗證 DCB 工具所識別的錯誤,請參閱下列影片。

您也可以離線安裝此工具。 針對已中斷連線的系統,請使用 Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB ,然後將 c:\temp\Validate-DCB 中的模組移到中斷連線的系統。 如需詳細資訊,請參閱下列影片。

驗證叢集

使用下列步驟,在 Windows Admin Center 中驗證現有叢集中的伺服器。

  1. 在 Windows Admin Center 的 [所有 連線] 下,選取您要驗證的 Azure Stack HCI 叢集,然後選取 [連線]。

    叢集 管理員儀表板 會顯示有關叢集的總覽資訊。

  2. 在 [叢集 管理員] 儀表板 的 [ 工具] 底下,選取 [ 伺服器]。

  3. 在 [ 清查 ] 頁面上,選取叢集中的伺服器,再展開 [ 更多 ] 子功能表,然後選取 [ 驗證 叢集]。

  4. 在 [ 驗證 叢集] 快顯視窗上,選取 [是]。

    驗證叢集快顯視窗

  5. 在 [ 認證安全性服務提供者] (CredSSP) 快顯視窗中,選取 [是]。

  6. 提供您的認證以啟用 CredSSP ,然後選取 [ 繼續]。
    叢集驗證會在背景中執行,並在完成時提供通知,此時您可以看到驗證報告,如下一節所述。

注意

當您的叢集伺服器經過驗證之後,基於安全性考慮,您將需要停用 CredSSP。

停用 CredSSP

成功驗證您的伺服器叢集之後,您必須在每個伺服器上停用 (CredSSP) 通訊協定的認證安全性支援提供者,以達到安全性目的。 如需詳細資訊,請參閱 CVE-2018-0886

  1. 在 Windows Admin Center 的 [所有 連線] 下,選取叢集中的第一部伺服器,然後選取 [連線]。

  2. 在 [ 總覽 ] 頁面上,選取 [ 停用 credssp],然後在 [ 停用 credssp ] 快顯視窗上,選取 [是]。

    步驟2的結果會將伺服器 總覽 頁面頂端的 RED CredSSP ENABLED 橫幅移除,並停用其他伺服器上的 credssp。

查看驗證報告

現在您已經準備好查看叢集驗證報告。

有幾種方式可以存取驗證報告:

  • 在 [ 清查 ] 頁面上,展開 [ 更多 ] 子功能表,然後選取 [ View 驗證 reports]。

  • Windows Admin Center 的右上方,選取 [通知] 圖示以顯示 [通知] 窗格。 選取 已成功驗證 的叢集通知,然後選取 [ 移至容錯移轉叢集驗證報告]。

注意

伺服器叢集驗證程式可能需要一些時間才能完成。 當程式正在執行時,請勿切換至 Windows Admin Center 中的另一個工具。 在 [ 通知 ] 窗格中,[ 驗證 叢集] 通知底下的狀態列會指出程式何時完成。

使用 PowerShell 驗證叢集

您也可以使用 Windows PowerShell 在伺服器叢集上執行驗證測試,並查看結果。 您可以在設定叢集之前和之後執行測試。

若要在伺服器叢集上執行驗證測試,請從您的管理電腦發出「 取得 叢集」和「 測試 叢集」 PowerShell Cmdlet,或直接在叢集上執行 測試 叢集 Cmdlet:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

如需更多範例和使用方式資訊,請參閱 Test-Cluster 參考文件。

驗證儲存體複本的複寫

如果您使用儲存體複本來複寫延伸叢集或叢集到叢集的磁片區,則有數個事件和 Cmdlet 可用來取得複寫的狀態。

在下列案例中,我們藉由建立兩個網站 (RGs) 的複寫群組,然後為 Site1 中的來源伺服器節點指定資料磁片區和記錄磁片區, (Server1、Server2) 和目的地 (在 Site2) Server3,Server4 (中複寫) 伺服器節點,來設定儲存體複本。

若要判斷 Site1 中 Server1 的複寫進度,請執行 Get-WinEvent 命令,並檢查事件5015、5002、5004、1237、5001和2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

針對 Site2 中的 Server3,執行下列 Get-WinEvent 命令以查看顯示合作關係的儲存體複本事件。 此事件會說明已複製的位元組數目和所花費的時間。 例如:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

針對 Site2 中的 Server3,執行 Get-WinEvent 命令並檢查事件5009、1237、5001、5015、5005和2200以瞭解處理進度。 此序列中應該不會有任何錯誤警告。 將會有許多1237事件,這些都代表進度。

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

或者,複本的目的地伺服器群組會指出每次複製的剩餘位元組數,並可透過 PowerShell 使用進行查詢 Get-SRGroup 。 例如:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

針對 Site2 中的節點 Server3,執行下列命令並檢查事件5009、1237、5001、5015、5005和2200以瞭解複寫進度。 應該不會有錯誤的警告。 不過,會有許多「1237」事件,這些都只是指出進度。

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

做為不會終止的進度腳本:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

若要取得延伸叢集中的複寫狀態,請使用 Get-SRGroupGet-SRPartnership

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

在網站之間確認成功的資料複寫之後,您就可以建立 Vm 和其他工作負載。

另請參閱