修復 Azure Stack HCI 版本 23H2 上的伺服器

適用於:Azure Stack HCI 版本 23H2

本文說明如何修復 Azure Stack HCI 叢集上的伺服器。

關於修復伺服器

Azure Stack HCI 是超融合系統,可讓您從現有的叢集修復伺服器。 如果發生硬體故障,您可能需要修復叢集中的伺服器。

修復伺服器之前,請務必向解決方案提供者進行檢查,伺服器上的哪些元件是現場更換單位, (FRU) 您可以自行取代,以及哪些元件需要技術人員取代。

支援熱交換的元件通常不需要您重新映射伺服器,不像主機板這類非熱交換元件。 請洽詢硬體製造商,以判斷哪些元件更換需要您重新映像伺服器。 如需詳細資訊,請參閱 元件取代

修復伺服器工作流程

下列流程圖顯示修復伺服器的整體程式。

說明修復伺服器程式的圖表。

*伺服器可能無法處於可能或必要關機的狀態

若要修復現有的伺服器,請遵循下列高階步驟:

  1. 可能的話,請關閉您想要修復的伺服器。 視伺服器的狀態而定,可能或不需要關機。

  2. 重新映像需要修復的伺服器。

  3. 執行修復伺服器作業。 Azure Stack HCI 操作系統、驅動程式和韌體會更新為修復作業的一部分。

    重新映射伺服器上的記憶體會自動重新平衡。 記憶體重新平衡是低優先順序工作,可根據伺服器數目和使用的記憶體數目,執行數天。

支援的案例

修復伺服器會重新映射伺服器,並將它帶回具有先前名稱和設定的叢集。

修復單一伺服器會導致重新部署,並選擇保存數據磁碟區。 部署期間只會刪除和新布建系統磁碟區。

重要

請確定您一律擁有工作負載的備份,且不依賴系統復原功能。 這在單一伺服器案例中特別重要。

復原設定

在此版本中,針對修復伺服器作業,不會在部署之後建立的工作負載磁碟區上執行特定工作。 針對修復伺服器作業,只有必要的基礎結構磁碟區和工作負載磁碟區會還原併呈現為叢集共用磁碟區, (CSV) 。

部署後所建立的其他工作負載磁碟區仍會保留,而且您可以執行 Get-VirtuaDisk Cmdlet 來探索這些磁碟區。 如果磁碟區已啟用 BitLocker () ,則必須手動解除鎖定磁碟區,並視需要建立 CSV () 。

硬體需求

修復伺服器時,系統會驗證新傳入伺服器的硬體,並確保伺服器符合硬體需求,再將其新增至叢集。

元件 相容性檢查
CPU 驗證新的伺服器具有相同數目或更多 CPU 核心。 如果傳入節點上的 CPU 核心不符合此需求,就會顯示警告。 不過,允許此作業。
Memory 驗證新伺服器已安裝的記憶體數量相同或更多。 如果傳入節點上的記憶體不符合此需求,就會顯示警告。 不過,允許此作業。
磁碟機 驗證新的伺服器具有可供 儲存空間直接存取 使用的數據磁碟驅動器數目相同。 如果傳入節點上的磁碟驅動器數目不符合此需求,就會報告錯誤並封鎖作業。

伺服器取代

您可以取代整個伺服器:

  • 與舊伺服器相比,具有不同序號的新伺服器。
  • 在重新映射后,使用目前的伺服器。

伺服器更換期間支援下列案例:

伺服器 磁碟 支援
New server 新磁碟 Yes
New server 目前的磁碟 Yes
目前伺服器 (重新映像) 目前磁碟已重新格式化 * No
目前伺服器 (重新映像) 新磁碟 Yes
目前伺服器 (重新映像) 目前的磁碟 Yes

**已 儲存空間直接存取 使用的磁碟需要適當的清除。 重新格式化不夠。 瞭解如何 清除磁碟驅動器

重要

如果您在伺服器修復期間取代元件,則不需要取代或重設數據磁碟驅動器。 如果您取代磁碟驅動器或重設磁碟驅動器,則在伺服器加入叢集之後,將無法辨識磁碟驅動器。

元件更換

在您的 Azure Stack HCI 叢集上,非熱交換元件包含下列專案:

  • 主機板/基礎板管理控制器 (BMC)/視訊卡
  • 磁碟控制器/主機總線配接器 (HBA) /backplace
  • 網路介面卡
  • 圖形處理單位
  • 資料磁碟機 (不支援熱插拔的磁碟機,例如 PCI-e 附加介面卡)

非熱交換元件的實際取代步驟會根據您的原始設備製造商 (OEM) 硬體廠商而有所不同。 如果非熱交換元件需要伺服器修復,請參閱 OEM 廠商的檔。

必要條件

修復伺服器之前,您必須確定:

  • AzureStackLCMUser 在 Active Directory 中為作用中。 如需詳細資訊,請參閱 準備 Active Directory
  • AzureStackLCMUser 或另一個具有對等許可權的使用者身分登入。
  • AzureStackLCMUser 認證尚未變更。

修復伺服器

本節說明如何使用 PowerShell 修復伺服器、監視作業的狀態 Repair-Server ,以及如有任何問題,請進行疑難解答。

請確定您已檢閱 必要條件

在您嘗試修復的伺服器上遵循下列步驟。

  1. 安裝作業系統和必要的驅動程式。 請遵循 安裝 Azure Stack HCI 版本 23H2 操作系統中的步驟。

    注意

    您也必須 安裝必要的 Windows 角色

  2. 向 Arc 註冊伺服器。請遵循 使用Arc註冊並設定許可權中的步驟。

    注意

    您必須使用與現有節點相同的參數,向Arc註冊。例如:資源組名、區域、訂用帳戶和暫訂帳戶。

在屬於相同 Azure Stack HCI 叢集成員的另一部伺服器上,遵循下列步驟。

  1. 新增伺服器之前,請務必取得更新的驗證令牌。 執行以下命令:

     Update-AuthenticationToken
    
  2. 使用您在部署叢集期間提供的網域用戶認證,登入已經是叢集成員的伺服器。 執行下列命令以修復傳入的伺服器:

    $Cred = Get-Credential 
    Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
    
  3. 記下命令所輸出的作業識別碼 Repair-Server 。 您稍後會使用此項目來監視作業的 Repair-Server 進度。

監視作業進度

若要監視新增伺服器作業的進度,請遵循下列步驟:

  1. 執行下列 Cmdlet,並提供上一個步驟中的作業標識碼。

    $ID = "<Operation ID>" 
    Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID 
    
  2. 作業完成之後,背景記憶體重新平衡作業將會繼續執行。 等候記憶體重新平衡作業完成。 若要確認此記憶體重新平衡作業的進度,請使用下列 Cmdlet:

    Get-VirtualDisk|Get-StorageJob
    

    如果記憶體重新平衡作業已完成,Cmdlet 將不會傳回輸出。

復原案例

下列復原案例和建議的緩和步驟會針對修復伺服器進行表格式設定:

案例描述 風險降低 是否支援?
修復伺服器作業失敗。 若要完成作業,請調查失敗。
使用 Add-Server -Rerun重新執行失敗的作業。
Yes
修復伺服器作業已部分成功,但必須從全新的操作系統安裝開始。 在此案例中,協調器 (也稱為生命週期管理員) 已使用新伺服器更新其知識存放區。 使用修復伺服器案例。 Yes

疑難排解

如果您在修復伺服器時遇到失敗或錯誤,您可以在記錄檔中擷取失敗的輸出。

  • 使用您在部署叢集期間提供的網域用戶認證登入。 擷取記錄檔中的問題。

    Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
    
  • 若要重新執行失敗的作業,請使用下列 Cmdlet:

    Repair-Server -Rerun
    

下一步

深入瞭解如何 新增伺服器