執行節點維護

已完成

Contoso 目前的標準作業程序是針對舊版工作負載所設計,主要是在 Windows Server 2012 R2 和舊版 Linux 發行版本上執行。 這些版本不會將適用於 Azure Stack HCI 虛擬化和叢集技術的考量納入考慮。 在評估 Azure Stack HCI 的過程中,您決定要測試和記錄涉及重新將個別 Azure Stack HCI 叢集節點開機,或暫時讓它們離線進行維護的一般維護工作。

Azure Stack HCI 叢集維護工作概觀

Azure Stack HCI 提供內建的復原功能,可保護工作負載,使其不受其個別元件硬體失敗的影響,包括最多兩個叢集節點。 但是,若刻意將叢集節點重新開機,或使其離線進行預定的維護時,有一些特定的指導方針需要遵循。

特定指導方針的需求是因為 Azure Stack HCI 叢集的每個節點不僅提供計算資源,還會裝載存放磁碟區,這些磁碟區會分散到多個叢集節點並進行同步處理。 關閉叢集節點會中斷此同步處理。 因此,當節點離線時,在節點離線時所發生之叢集磁碟區的本機複本變更,必須在節點的作業系統再次開始執行後重新同步處理。

另一個重要考量是可以同時離線而不會造成資料遺失的叢集節點數目上限。 如此課程模組先前所述,針對四個或更多節點,儲存空間直接存取最多容許兩個並行節點失敗,不論叢集大小為何。

若要以具條理的方式執行叢集節點維護,而對整體復原和效能的影響降到最低,您應該使用下列一連串的步驟:

  1. 確認所有叢集儲存體磁碟皆已上線,而且所有叢集存放磁碟區都回報了狀態良好。

  2. 暫停節點,以將該節點上執行的所有 VM 即時移轉至其他叢集節點。

    注意

    此程序稱為「清空」。 清空流程啟動之後,就無法將角色新增至節點,直到該節點恢復為止。

  3. 關閉叢集節點上的作業系統。

  4. 當作業系統離線時,執行規劃的維護工作。

  5. 啟動作業系統並等候開機流程完成。

  6. 繼續叢集節點。

注意

繼續叢集節點會將儲存體同步處理重新開機 (經常稱為「重新同步」。 若要判斷重新同步處理是否已完成,請確認叢集儲存磁碟區再次回報狀況良好的狀態。

注意

您應該先等候重新同步完成,再讓任何其他叢集節點離線。

使用 Windows Admin Center 來執行 Azure Stack HCI 叢集維護工作

Windows Admin Center 藉由提供圖形化介面來執行所需的步驟,以簡化初始化和完成叢集節點維護工作的作業:

  1. 連線到目標叢集之後,若要確認已列出所有磁碟且狀態顯示為線上 (標示為「確定」),請使用工具功能表瀏覽至儲存體窗格,以檢視磁碟的詳細目錄。

    The screenshot depicts the Windows Admin Center interface displaying the list of disks with the online status labeled OK.

  2. 在 [存放裝置] 窗格中,您可以存取磁碟區清單,以確認每個磁碟區的狀態都是「狀況良好」(標示為「確定」)。

    The screenshot depicts the Windows Admin Center interface displaying the listing of volumes with the healthy status, which is labeled OK.

  3. 從 Windows Admin Center 中的叢集管理員介面,您可以瀏覽至計算窗格、顯示伺服器詳細目錄,以及暫停任何叢集節點以起始清空流程。

    The screenshot depicts the Cluster Manager interface in Windows Admin Center displaying the pause option for one of the cluster nodes in the server inventory.

    注意

    在暫停叢集節點的過程中,節點狀態將會從「維護中,清空」轉換成「維護中,已完成」

    注意

    如果任何叢集儲存體磁碟區的狀態變更為狀況不良,Azure Stack HCI 將會產生警示,並停止清空流程。

  4. 您可以從用來暫停叢集節點的相同介面繼續該節點。

知識檢查

1.

在評估 Contoso 的 Azure Stack HCI 過程中,您會測試暫時讓叢集節點離線進行維護的流程。 您需要將此流程的影響降至最低,以不影響叢集的復原能力和效能為原則。 您應該先做什麼?