Azure Stack HCI 與 Windows Server 叢集的容錯和儲存效率

發行項
04/18/2023

適用于：Azure Stack HCI 版本 22H2 和 21H2;Windows Server 2022、Windows Server 2019

本文將說明可用的復原選項，並概述其規模需求、儲存效率，以及這每一項的一般優點和取捨。

概觀

儲存空間直接存取可以為資料提供「容錯」，通常稱為「復原」。其實作類似 RAID，但差在會分散於伺服器，並實作於軟體中。

和 RAID 一樣，儲存空間有幾個不同方式可執行此操作，這些方式會在容錯、儲存效率與計算複雜度之間做出不同取捨。這些廣泛分為兩類：「鏡像」和「同位」，後者有時稱為「抹除碼」。

鏡像

鏡像可為所有資料保存多個複本，以提供容錯能力。其行為最像 RAID-1。這類資料的等量化和放置方式並非一般人所能了解 (若要深入了解請參閱此部落格)，但可確定的是，任何使用鏡像進行儲存的資料，都會以整體的方式寫入多次。每個複本會寫入至不同的硬體 (不同伺服器中的不同磁碟機)，而理論上其故障只會單獨發生。

您可以在兩種鏡像 (「雙向」和「三向」) 之間進行選擇。

雙向鏡像

雙向鏡像會為所有內容寫入兩個複本。其儲存效率為 50% (若要寫入 1 TB 的資料，您至少需要 2 TB 的實體儲存體容量)。同樣地，您至少需要兩個硬體「容錯網域」(若使用儲存空間直接存取，這表示需要兩部伺服器)。

雙向鏡像

警告

如果您有兩部以上的伺服器，建議您改用三向鏡像。

三向鏡像

三向鏡像會為所有內容寫入三個複本。其儲存效率為 33.3% (若要寫入 1 TB 的資料，您至少需要 3 TB 的實體儲存體容量)。同樣地，您也需要至少三個硬體「容錯網域」，在使用儲存空間直接存取時，這表示需要三部伺服器。

三向鏡像在同一時間可容許至少兩個硬體問題 (磁碟機或伺服器)，而安全無虞。例如，如果您在一個磁碟機或伺服器突然故障時重新啟動另一部伺服器，所有資料都將保有安全性，且持續可供存取。

three-way-mirror

Parity

同位編碼 (通常稱為「抹除碼」) 提供使用位元運算的容錯功能，這非常複雜。相較於鏡像，同位的運作方式較不容易理解，但有許多絕佳的線上資源 (例如，這個由第三方提供的清除編碼傻瓜指南) 可協助您了解。可以這麼說，它提供更好的儲存效率，卻又不會犧牲容錯能力。

儲存空間提供兩種同位，即「單一」同位和「雙」同位，後者會在大規模上採用稱為「區域重建碼 (local reconstruction codes)」的先進技術。

重要

我們建議使用鏡像處理大部分易受效能影響的工作負載。若要深入了解如何根據您的工作負載來平衡效能與產能，請參閱規劃磁碟區。

單同位

單同位只會保留一個位元同位符號，因此一次只能對一個故障提供容錯。其行為最像 RAID-5。若要使用單同位，您需要至少三個硬體「容錯網域」，在使用儲存空間直接存取時，這表示需要三部伺服器。因為三向鏡像可在相同規模提供更多容錯能力，我們不建議您使用單同位。但如果您堅持要使用也沒問題，而且會受到完全支援。

警告

我們不建議使用單同位，因為它一次只能安全地容許一個硬體故障：如果您重新開機一部伺服器，同時突然另一部磁碟機或伺服器故障，就會發生停機。如果您只有三部伺服器，建議您使用三向鏡像。如果您有四部以上，請參閱下一節。

雙同位

雙同位會實作 Reed-Solomon 錯誤修正程式碼以保留兩個位元同位符號，進而提供和三向鏡像相同的容錯能力 (也就是一次最多兩個故障)，但此方式擁有更好的儲存效率。其行為最像 RAID-6。若要使用雙同位，您需要至少四個硬體「容錯網域」，在使用儲存空間直接存取時，這表示需要四部伺服器。在此規模下，其儲存效率是 50%，因此若要儲存 2 TB 的資料，您需要至少 4 TB 的實體儲存容量。

雙同位

您擁有愈多硬體容錯網域數目，雙同位的儲存效率就會愈高，從 50% 提高到 80%。例如，七個網域 (若使用儲存空間直接存取，這表示有七部伺服器) 的效率會跳到 66.7% (若要儲存 4 TB 的資料，您只需要 6 TB 的實體儲存體容量)。

dual-parity-wide

如需各種規模的雙同位效率和本機重建程式碼，請參閱摘要一節。

本機重建程式碼

儲存空間引進由 Microsoft Research 所開發的先進技術，稱為「區域重建碼 (local reconstruction codes)」或 LRC。在大規模的環境中，雙同位會使用 LRC 將其編碼/解碼分割為幾個較小的群組，以降低進行寫入或從故障中復原所需的負荷。

使用硬碟 (HDD) 時，群組大小是四個符號；使用固態硬碟 (SSD) 時，群組大小是六個符號。例如，以下是具有硬碟和 12 個硬體容錯網域 (亦即 12 部伺服器) 之配置的可能樣貌，其中有兩組四個一群的資料符號。其可達到 72.7% 的儲存效率。

local-reconstruction-codes

我們建議您參閱此深入但十分易讀的逐步解說：區域重建碼如何處理各種不同的失敗案例，以及其為何如此吸引人，其作者是 Claus Joergensen。

鏡像加速的同位

儲存空間直接存取磁碟區可以是部分鏡像和部分同位。寫入首先登陸鏡像部分，稍後逐漸移動至同位部分。實際上，這是使用鏡像加速清除編碼。

若要混合使用三向鏡像與雙同位，您需要至少四個容錯網域，亦即四部伺服器。

鏡像加速同位的儲存效率介於全部使用鏡像與全部使用同位之間，並取決於您選擇的混合比例。例如，此簡報在第 37 分鐘時示範了使用 12 部伺服器時，效率達到 46%、54% 和 65% 的各種混合模式。

重要

我們建議使用鏡像處理大部分易受效能影響的工作負載。若要深入了解如何根據您的工作負載來平衡效能與產能，請參閱規劃磁碟區。

總結

本節摘要說明儲存空間直接存取中可用的復原類型、使用各種類型的最小規模需求、每種類型可容許多少故障，以及對應的儲存效率。

復原類型

災害復原	容錯	儲存效率
雙向鏡像	1	50.0%
三向鏡像	2	33.3%
雙同位	2	50.0% - 80.0%
Mixed	2	33.3% - 80.0%

最小規模需求

災害復原	最小必要容錯網域
雙向鏡像	2
三向鏡像	3
雙同位	4
Mixed	4

提示

除非您使用底座或機架容錯，否則容錯網域的數目就是指伺服器數目。只要您符合儲存空間直接存取的最小需求，每部伺服器中的磁碟機數目就不會影響您所能使用的復原類型。

混合式部署的雙同位效率

下表顯示同時包含硬碟 (HDD) 和固態硬碟 (SSD) 的混合式部署中，雙同位和本機重建程式碼在各種規模的儲存效率。

容錯網域	Layout	效率
2	–	–
3	–	–
4	RS 2+2	50.0%
5	RS 2+2	50.0%
6	RS 2+2	50.0%
7	RS 4+2	66.7%
8	RS 4+2	66.7%
9	RS 4+2	66.7%
10	RS 4+2	66.7%
11	RS 4+2	66.7%
12	LRC (8, 2, 1)	72.7%
13	LRC (8, 2, 1)	72.7%
14	LRC (8, 2, 1)	72.7%
15	LRC (8, 2, 1)	72.7%
16	LRC (8, 2, 1)	72.7%

全快閃部署的雙同位效率

下表顯示只包含固態硬碟 (SSD) 的全快閃部署中，雙同位和本機重建程式碼在各種規模的儲存效率。在全快閃組態中，同位配置可使用較大的群組大小，並達到更好的儲存效率。

容錯網域	Layout	效率
2	–	–
3	–	–
4	RS 2+2	50.0%
5	RS 2+2	50.0%
6	RS 2+2	50.0%
7	RS 4+2	66.7%
8	RS 4+2	66.7%
9	RS 6+2	75.0%
10	RS 6+2	75.0%
11	RS 6+2	75.0%
12	RS 6+2	75.0%
13	RS 6+2	75.0%
14	RS 6+2	75.0%
15	RS 6+2	75.0%
16	LRC (12, 2, 1)	80.0%

範例

除非您只有兩部伺服器，否則建議您使用三向鏡像和/或雙同位，因為它們提供較好的容錯能力。具體而言，它們可確保即使兩個錯誤網域 (在使用儲存空間直接存取時，這表示兩部伺服器) 都受到同時故障的影響，所有資料仍可保持安全並持續可供存取。

全都保持上線的範例

這六個範例示範三向鏡像和/或雙同位可以容許的情形。

1. 失去一個磁碟機 (包括快取磁碟機)
2. 失去一部伺服器

fault-tolerance-examples-1-and-2

3. 失去一部伺服器和一個磁碟機
4. 失去不同伺服器中的兩個磁碟機

fault-tolerance-examples-3-and-4

5. 只要最多兩部伺服器受到影響，就會失去兩個以上的磁碟機
6. 失去兩部伺服器

fault-tolerance-examples-5-and-6

...在每個案例中，所有磁碟區都會保持上線。 (請確定您的叢集會保持仲裁)。

全都離線的範例

儲存空間在其存留期內可容許任何數目的故障，因為只要時間足夠，它就會在每次故障後還原成完整復原能力。不過，任何特定時刻最多只會有兩個錯誤網域可安全地受到故障影響。因此，下列是三向鏡像和/或雙同位無法容許之情形的範例。

7. 一次失去三部以上伺服器中的磁碟機
8. 一次失去三部以上的伺服器

fault-tolerance-examples-7-and-8

使用方式

查看建立磁碟區。

後續步驟

如需進一步了解本文中所述的主旨，請參閱下列主題：

Azure Stack HCI 與 Windows Server 叢集的容錯和儲存效率

概觀

鏡像

雙向鏡像

三向鏡像

Parity

單同位

雙同位

本機重建程式碼

鏡像加速的同位

總結

復原類型

最小規模需求

混合式部署的雙同位效率

全快閃部署的雙同位效率

範例

全都保持上線的範例

全都離線的範例

使用方式

後續步驟

意見反應

意見反應

其他資源