了解和監視存放裝置重新同步

適用於:Windows Server 2022、Windows Server 2019、Azure Stack HCI 21H2 和 20H2 版

儲存體重新同步警示是在 Azure Stack HCI 和 Windows Server 中儲存空間直接存取的功能。 此功能可讓健全狀況服務擲回錯誤,通知您進行重新同步。 這有助於避免您意外關閉更多伺服器,關閉更多伺服器可能會影響叢集中斷的多個容錯網域。

本文提供儲存體重新同步處理的概觀,以及如何在具有儲存空間直接存取的容錯移轉叢集中進行監視。

關於儲存體重新同步

我們從簡單的範例開始,了解儲存體為何會不同步。請記住任何無共用 (僅供本機磁碟機) 的分散式儲存體解決方案會出現此行為。 下列章節將示範為何伺服器節點停止運作時,儲存體不同步。 此磁碟機在重新上線之前均不會更新,此行為適用於任何超融合式架構。

假設您想要儲存字串 "HELLO"。

Image of a s c i i of a hello string.

假設您有三向的鏡像復原能力,您會有此字串的三個副本。 如果您暫時關閉伺服器 #1 (以進行維護),則無法存取副本 #1。

Image showing you cannot access copy number 1 if you take down server number 1.

假設您目前將字串從 "HELLO" 更新為 "HELP!"。

Image of a s c i i of a help! string.

更新字串之後,會成功更新副本 #2 和 #3。 不過由於伺服器 #1 暫時停止運作 (以供維護),因此無法存取副本 #1。

GIF of writing to copy number 2 and 3.

您現在副本 #1 會有不同步的資料。 作業系統會使用細微變更區域追蹤,以追蹤不同步的位元。如此一來,當伺服器 #1 恢復連線時,您可以藉由從副本 #2 或 #3 讀取資料,並覆寫副本 #1 中的資料來同步處理變更。 使用這個方法時,您只需要複製過時的資料,而不用從伺服器 #2 或伺服器 #3 重新同步所有資料。

GIF of overwriting to copy number 1.

上一節描述資料為何不同步,但從高階層來看此狀況又如何呢? 假設您有三部伺服器的超融合式叢集。 當伺服器 #1 在進行維護時,您會看到此伺服器處於關機狀態。 當您將伺服器 #1 進行備份時,此伺服器即可使用細微變更區域追蹤,來開始重新同步其所有的儲存體 (如上一節所述)。 一旦資料恢復同步之後,則所有伺服器就會顯示為上線。

下列 GIF 會顯示儲存體重新同步在超融合式叢集中的運作方式:

GIF of admin view of resync.

如何監視儲存體重新同步

從 Windows Server 2019 開始,我們已將新的錯誤新增至正在重新同步儲存體時所顯示的健全狀況服務

若要在 PowerShell 中檢視此錯誤,請執行下列 Cmdlet:

Get-HealthFault

此新的錯誤會顯示在 PowerShell、叢集驗證報告,以及任何其他根據健康情況錯誤建立的報告中。

若要取得更深入的檢視,您可以在 PowerShell 中查詢時間序列資料庫,如下所示:

Get-ClusterNode | Get-ClusterPerf -ClusterNodeSeriesName ClusterNode.Storage.Degraded

以下是輸出的範例:

Object Description: ClusterNode Server1

Series                       Time                Value Unit
------                       ----                ----- ----
ClusterNode.Storage.Degraded 01/11/2019 16:26:48     214 GB

Windows Admin Center 會使用健康情況錯誤來設定叢集節點的狀態和色彩。 在 HCI 儀表板上,此新的錯誤會讓叢集節點從紅色 (停止運作) 轉換為黃色 (正在重新同步),再轉為綠色 (正常運作),而不是直接從紅色轉為綠色。

下圖將比較儲存體重新同步處理在 Windows Server 2016 與 Windows Server 2019 中的進行方式。

Image of Windows Server 2016 vs Window Server 2019 view of resync.

透過顯示整體儲存體重新同步的進行方式,您可精準知道有多少資料未同步,以及您的系統是否取得進展。 在 Windows Admin Center 中,移至 [儀表板] 以查看新的警示,如下列螢幕擷取畫面所示:

Screen capture of alert in Windows Admin Center.

警示十分實用,可在重新同步進行時通知您,因此您不會意外關閉更多伺服器 (如意外關閉多的伺服器可能會造成數個容錯網域受到影響,導致您的叢集停止運作)。

若要深入了解如何在 Windows Admin Center 的個別伺服器上顯示儲存體重新同步狀態,請瀏覽至 [伺服器] 頁面按一下 [詳細目錄],然後選取特定的伺服器。 瀏覽至您的伺服器,然後查看 [儲存體] 圖表,在紫色線上了解須修復的資料量,此線正上方會有精確數字。 當伺服器停止運作時,此數值會增加 (因為有更多資料須重新同步),而當伺服器重新上線時,此數值會逐步減少 (因為資料已同步)。 當須修復的資料量為 0 時,則您的儲存體已完成重新同步,這表示如有需要,您可將伺服器關機。

下列螢幕擷取畫面顯示 Windows Admin Center 中的伺服器檢視:

Screen capture of server view in Windows Admin Center.

如何在 Windows Server 2016 中監視儲存體重新同步

Windows Server 2019 和更新版本中提供的警示有助於全面了解儲存層中發生的狀況。 此功能可摘要說明您可透過 Get-StorageJob Cmdlet 取得的資訊。 此 Cmdlet 會傳回長期執行儲存體模組工作 (例如儲存空間上的修復作業) 的相關資訊,如下列範例輸出所示。

Get-StorageJob

以下為範例輸出:

Name                  ElapsedTime           JobState              PercentComplete       IsBackgroundTask
----                  -----------           --------              ---------------       ----------------
Regeneration          00:01:19              Running               50                    True

此視圖更為細分,因為每個磁碟區均會列出儲存體工作。 您可以查看正在執行的作業清單,並追蹤其個別進度。 此 Cmdlet 同時適用於 Windows Server 2016 和 2019。

其他參考