修復 Azure Stack HCI 版本 23H2 上的伺服器
適用於:Azure Stack HCI 版本 23H2
本文說明如何修復 Azure Stack HCI 叢集上的伺服器。
關於修復伺服器
Azure Stack HCI 是超融合系統,可讓您從現有的叢集修復伺服器。 如果發生硬體故障,您可能需要修復叢集中的伺服器。
修復伺服器之前,請務必向解決方案提供者進行檢查,伺服器上的哪些元件是現場更換單位, (FRU) 您可以自行取代,以及哪些元件需要技術人員取代。
支援熱交換的元件通常不需要您重新映射伺服器,不像主機板這類非熱交換元件。 請洽詢硬體製造商,以判斷哪些元件更換需要您重新映像伺服器。 如需詳細資訊,請參閱 元件取代。
修復伺服器工作流程
下列流程圖顯示修復伺服器的整體程式。
*伺服器可能無法處於可能或必要關機的狀態
若要修復現有的伺服器,請遵循下列高階步驟:
可能的話,請關閉您想要修復的伺服器。 視伺服器的狀態而定,可能或不需要關機。
重新映像需要修復的伺服器。
執行修復伺服器作業。 Azure Stack HCI 操作系統、驅動程式和韌體會更新為修復作業的一部分。
重新映射伺服器上的記憶體會自動重新平衡。 記憶體重新平衡是低優先順序工作,可根據伺服器數目和使用的記憶體數目,執行數天。
支援的案例
修復伺服器會重新映射伺服器,並將它帶回具有先前名稱和設定的叢集。
修復單一伺服器會導致重新部署,並選擇保存數據磁碟區。 部署期間只會刪除和新布建系統磁碟區。
重要
請確定您一律擁有工作負載的備份,且不依賴系統復原功能。 這在單一伺服器案例中特別重要。
復原設定
在此版本中,針對修復伺服器作業,不會在部署之後建立的工作負載磁碟區上執行特定工作。 針對修復伺服器作業,只有必要的基礎結構磁碟區和工作負載磁碟區會還原併呈現為叢集共用磁碟區, (CSV) 。
部署後所建立的其他工作負載磁碟區仍會保留,而且您可以執行 Get-VirtuaDisk
Cmdlet 來探索這些磁碟區。 如果磁碟區已啟用 BitLocker () ,則必須手動解除鎖定磁碟區,並視需要建立 CSV () 。
硬體需求
修復伺服器時,系統會驗證新傳入伺服器的硬體,並確保伺服器符合硬體需求,再將其新增至叢集。
元件 | 相容性檢查 |
---|---|
CPU | 驗證新的伺服器具有相同數目或更多 CPU 核心。 如果傳入節點上的 CPU 核心不符合此需求,就會顯示警告。 不過,允許此作業。 |
Memory | 驗證新伺服器已安裝的記憶體數量相同或更多。 如果傳入節點上的記憶體不符合此需求,就會顯示警告。 不過,允許此作業。 |
磁碟機 | 驗證新的伺服器具有可供 儲存空間直接存取 使用的數據磁碟驅動器數目相同。 如果傳入節點上的磁碟驅動器數目不符合此需求,就會報告錯誤並封鎖作業。 |
伺服器取代
您可以取代整個伺服器:
- 與舊伺服器相比,具有不同序號的新伺服器。
- 在重新映射后,使用目前的伺服器。
伺服器更換期間支援下列案例:
伺服器 | 磁碟 | 支援 |
---|---|---|
New server | 新磁碟 | Yes |
New server | 目前的磁碟 | Yes |
目前伺服器 (重新映像) | 目前磁碟已重新格式化 * | No |
目前伺服器 (重新映像) | 新磁碟 | Yes |
目前伺服器 (重新映像) | 目前的磁碟 | Yes |
**已 儲存空間直接存取 使用的磁碟需要適當的清除。 重新格式化不夠。 瞭解如何 清除磁碟驅動器。
重要
如果您在伺服器修復期間取代元件,則不需要取代或重設數據磁碟驅動器。 如果您取代磁碟驅動器或重設磁碟驅動器,則在伺服器加入叢集之後,將無法辨識磁碟驅動器。
元件更換
在您的 Azure Stack HCI 叢集上,非熱交換元件包含下列專案:
- 主機板/基礎板管理控制器 (BMC)/視訊卡
- 磁碟控制器/主機總線配接器 (HBA) /backplace
- 網路介面卡
- 圖形處理單位
- 資料磁碟機 (不支援熱插拔的磁碟機,例如 PCI-e 附加介面卡)
非熱交換元件的實際取代步驟會根據您的原始設備製造商 (OEM) 硬體廠商而有所不同。 如果非熱交換元件需要伺服器修復,請參閱 OEM 廠商的檔。
必要條件
修復伺服器之前,您必須確定:
AzureStackLCMUser
在 Active Directory 中為作用中。 如需詳細資訊,請參閱 準備 Active Directory。- 以
AzureStackLCMUser
或另一個具有對等許可權的使用者身分登入。 - 的
AzureStackLCMUser
認證尚未變更。
如有需要,請讓已識別為離線修復的伺服器。 請遵循下列步驟:
修復伺服器
本節說明如何使用 PowerShell 修復伺服器、監視作業的狀態 Repair-Server
,以及如有任何問題,請進行疑難解答。
請確定您已檢閱 必要條件。
在您嘗試修復的伺服器上遵循下列步驟。
安裝作業系統和必要的驅動程式。 請遵循 安裝 Azure Stack HCI 版本 23H2 操作系統中的步驟。
注意
您也必須 安裝必要的 Windows 角色。
向 Arc 註冊伺服器。請遵循 使用Arc註冊並設定許可權中的步驟。
注意
您必須使用與現有節點相同的參數,向Arc註冊。例如:資源組名、區域、訂用帳戶和暫訂帳戶。
在屬於相同 Azure Stack HCI 叢集成員的另一部伺服器上,遵循下列步驟。
新增伺服器之前,請務必取得更新的驗證令牌。 執行以下命令:
Update-AuthenticationToken
使用您在部署叢集期間提供的網域用戶認證,登入已經是叢集成員的伺服器。 執行下列命令以修復傳入的伺服器:
$Cred = Get-Credential Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
記下命令所輸出的作業識別碼
Repair-Server
。 您稍後會使用此項目來監視作業的Repair-Server
進度。
監視作業進度
若要監視新增伺服器作業的進度,請遵循下列步驟:
執行下列 Cmdlet,並提供上一個步驟中的作業標識碼。
$ID = "<Operation ID>" Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
作業完成之後,背景記憶體重新平衡作業將會繼續執行。 等候記憶體重新平衡作業完成。 若要確認此記憶體重新平衡作業的進度,請使用下列 Cmdlet:
Get-VirtualDisk|Get-StorageJob
如果記憶體重新平衡作業已完成,Cmdlet 將不會傳回輸出。
復原案例
下列復原案例和建議的緩和步驟會針對修復伺服器進行表格式設定:
案例描述 | 風險降低 | 是否支援? |
---|---|---|
修復伺服器作業失敗。 | 若要完成作業,請調查失敗。 使用 Add-Server -Rerun 重新執行失敗的作業。 |
Yes |
修復伺服器作業已部分成功,但必須從全新的操作系統安裝開始。 | 在此案例中,協調器 (也稱為生命週期管理員) 已使用新伺服器更新其知識存放區。 使用修復伺服器案例。 | Yes |
疑難排解
如果您在修復伺服器時遇到失敗或錯誤,您可以在記錄檔中擷取失敗的輸出。
使用您在部署叢集期間提供的網域用戶認證登入。 擷取記錄檔中的問題。
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
若要重新執行失敗的作業,請使用下列 Cmdlet:
Repair-Server -Rerun
下一步
深入瞭解如何 新增伺服器。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應