管理裸機機器的生命週期
本文說明如何在裸機機器 (BMM) 上執行生命週期管理作業。 這些步驟應該用於疑難解答,以從失敗中復原,或在採取維護動作時復原。 管理 BMM 生命週期的命令包括:
警告
若未先諮詢 Microsoft 支持人員,請勿對管理伺服器執行任何動作。 這樣做可能會影響運算元 Nexus 叢集的完整性。
- 關閉 BMM 電源
- 啟動 BMM
- 重新啟動 BMM
- 使 BMM 不安排 (沒有疏散的警戒線)
- 使 BMM 不安排 (帶撤離的警戒線)
- 使 BMM 可分手 (不可記錄)
- 重新設定 BMM 的映像
- 取代 BMM
重要
如果針對 Kubernetes 控制平面 (KCP) 節點執行的另一個干擾性動作命令已針對另一個 KCP 節點執行,或無法使用完整 KCP,則會拒絕干擾性命令要求。 這項檢查是為了維護 Nexus 實例的完整性,並確保多個 KCP 節點不會因為同時干擾性動作而立即關閉。 如果多個節點關閉,它會中斷 Kubernetes 控制平面的健康仲裁閾值。
上述清單中的粗體動作會被視為干擾性 (關閉電源、重新啟動、重新安裝映射、取代)。 沒有撤離的警戒線並不被視為破壞性。 疏散的警戒線被認為是破壞性的。
如警告聲明所述,只應與 Microsoft 支援人員協商,對管理伺服器,特別是 KCP 節點執行動作。
必要條件
- 安裝最新版本的適當 CLI 擴充功能。
- 取得 BMM 的資源群組名稱。
- 取得需要生命週期管理作業的裸機計算機名稱。
- 確定目標裸機電腦
poweredState
設定為On
,並將readyState
設定為True
。- 這個必要條件不適用於
start
命令。
- 這個必要條件不適用於
關閉 BMM 電源
這個指令會 power-off
指定的 bareMetalMachineName
。
az networkcloud baremetalmachine power-off \
--name "bareMetalMachineName" \
--resource-group "resourceGroupName"
啟動 BMM
這個指令會 start
指定的 bareMetalMachineName
。
az networkcloud baremetalmachine start \
--name "bareMetalMachineName" \
--resource-group "resourceGroupName"
重新啟動 BMM
這個指令會 restart
指定的 bareMetalMachineName
。
az networkcloud baremetalmachine restart \
--name "bareMetalMachineName" \
--resource-group "resourceGroupName"
製作 BMM 不可排程 (警戒線)
您可以藉由執行 cordon
命令,讓 BMM 無法設定。
在執行 cordon
命令時,當設定警戒線時,不會在 BMM 上排程運算元 Nexus 工作負載;任何在 BMM 上 cordoned
建立工作負載的嘗試都會導致工作負載設定為 pending
狀態。 現有的工作負載會繼續執行。
cordon 命令支援 evacuate
具有預設值 False
的參數。
在執行命令時cordon
,使用 參數的值True
evacuate
,在 BMM 上執行的工作負載會是 stopped
,而 BMM 會設定為pending
狀態。
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name "bareMetalMachineName" \
--resource-group "resourceGroupName"
會 evacuate "True"
從該節點移除工作負載,而 evacuate "False"
只會防止排程新的工作負載。
製作 BMM「可分手」 (不可記錄)
您可以執行 uncordon
命令,讓 BMM 成為「可分機」(可使用的)。 BMM 上處於狀態的所有工作負載 pending
都是 restarted
當 BMM 為 uncordoned
時。
az networkcloud baremetalmachine uncordon \
--name "bareMetalMachineName" \
--resource-group "resourceGroupName"
重新映像 BMM
您可以藉由執行 reimage
命令,在 BMM 上還原運行時間版本。 此程式 會在 目標 BMM 上重新部署運行時間映像,並執行步驟,以使用相同的標識元重新加入叢集。 此動作不會影響此 BMM 上的租使用者工作負載檔案。
最佳做法是,在執行 命令之前reimage
,請確定 BMM 的工作負載已使用 cordon
命令清空, 搭配 evacuate "True"
使用 。
警告
同時執行多個 baremetalmachine replace
或 reimage
命令,或同時執行 replace
,將會 reimage
讓伺服器處於非工作狀態。 請先確定已 replace
/reimage
完整完成,再啟動另一個。
az networkcloud baremetalmachine reimage \
–-name "bareMetalMachineName" \
--resource-group "resourceGroupName"
取代 BMM
replace
當伺服器遇到需要完整或部分硬體更換的硬體問題時,請使用 命令。 更換主機板或網路適配器 (NIC) 等元件之後,BMM 的 MAC 位址將會變更,不過 iDRAC IP 位址和主機名會維持不變。
警告
同時執行多個 baremetalmachine replace
或 reimage
命令,或同時執行 replace
,將會 reimage
讓伺服器處於非工作狀態。 請先確定已 replace
/reimage
完整完成,再啟動另一個。
az networkcloud baremetalmachine replace \
--name "bareMetalMachineName" \
--resource-group "resourceGroupName" \
--bmc-credentials password="{password}" username="{user}" \
--bmc-mac-address "00:00:4f:00:57:ad" \
--boot-mac-address "00:00:4e:00:58:af" \
--machine-name "name" \
--serial-number "BM1219XXX"