Share via


Azure 私人 5G 核心的可靠性

本文說明 Azure Private 5G Core 中的可靠性支援。 其涵蓋可用性 區域跨區域災害復原和商務持續性的區域復原。 如需 Azure 中可靠性的概觀,請參閱 Azure 可靠性

您也可以在一對 Azure Stack Edge (ASE) 裝置上,將 Azure Private 5G Core 部署為高可用性 (HA) 服務。 如需詳細資訊,請參閱 完成部署私人行動網路的必要條件工作。

可用性區域支援

Azure 可用性區域是每個 Azure 區域內至少三個實體獨立的資料中心群組。 每個區域內的資料中心都配備了獨立的電源、冷卻和網路基礎結構。 可用性區域的作用是在一個區域受影響時 (例如本機區域失敗時),讓其餘兩個區域支援區域服務、容量和高可用性。

這類失敗的範圍可從軟體和硬體故障,擴及到如地震、淹水和火災的事件。 Azure 服務的備援和邏輯隔離功能可以容錯。 如需深入了解 Azure 的可用性區域,請參閱區域和可用性區域

已啟用 Azure 可用性區域的服務是設計來提供正確的可靠性和彈性層級。 您可以透過兩種方式加以設定。 可採用區域備援 (可跨區域自動複寫) 或區域性 (將執行個體釘選在特定區域)。 兩種方法可以結合使用。 如需區域與區域備援結構的詳細資訊,請參閱使用可用性區域和區域的建議

Azure 私人 5G 核心服務會在支援可用性區域的 Azure 區域中自動部署為區域備援,如可用性區域服務和區域支援中所述。 如果區域支援可用性區域,則可以從任何可用性區域管理區域中建立的所有 Azure 私人 5G 核心資源。

設定或管理可用性區域不需要進一步的工作。 可用性區域之間的故障轉移是自動的。

必要條件

如需 Azure Private 5G Core 可供使用的 Azure 區域,請參閱 依區域 提供的產品。

區域關閉體驗

在全區域中斷案例中,用戶應該不會有任何影響,因為服務將會自動利用狀況良好的區域。 在全區域中斷開始時,您可能會看到進行中的ARM要求逾時或失敗。 新的要求會導向至狀況良好的節點,且對使用者造成零影響,而且應該重試任何失敗的作業。 您仍然可以建立新的資源,並在中斷期間更新、監視和管理現有的資源。

安全部署技術

應用程式可確保區域的可用性區域之間會復寫所有雲端狀態,因此所有管理作業都會繼續,而不會中斷。 封包核心正在Edge上執行,且不受區域失敗影響,因此將繼續為使用者提供服務。

跨區域災害復原和商務持續性

災害復原 (DR)是指從重大影響事件中復原,例如自然災害或不成功的部署 (導致停機和資料遺失)。 無論原因為何,解決災害的最佳辦法是定義完善且經過測試的 DR 方案,以及主動支援 DR 的應用程式設計。 開始制定災害復原方案之前,請參閱設計災害復原策略的建議

Microsoft 在災害復原方面,採取共同責任模型。 在共同責任模型中,Microsoft 確保基準基礎結構和平台服務可供使用。 此時許多 Azure 服務不會自動複寫資料,或從故障區域恢復並交叉複寫到另一個已啟用的區域。 您需要為這些服務制定適合工作負載的災害復原方案。 在 Azure 平台即服務 (PaaS) 供應項目上執行的多數服務,都有提供支援災害復原的功能和指導,您可以使用特定服務功能復原,制定災害復原方案。

Azure 私人 5G 核心僅適用於多區域 (3+N) 地理位置。 服務會自動將 SIM 認證複寫至相同地理位置中的備份區域。 這表示區域失敗時不會遺失數據。 在失敗的四小時內,失敗區域中的所有資源都可以透過 Azure 入口網站 和 ARM 工具檢視,但在復原失敗的區域之前,將會是唯讀的。 在Edge上執行的封包核心會繼續運作,而不會中斷,而且會維護網路連線。

Microsoft 負責 Azure 私人 5G 核心服務 Azure 雲端層面的中斷偵測、通知和支援。

中斷偵測、通知及管理

Microsoft 會監視每個區域中提供 Azure 私人 5G 核心服務的基礎資源。 如果這些資源開始顯示不限於單一可用性區域的失敗或健康情況監視警示,Microsoft 會將服務移至相同地理位置中的另一個支持區域。 這是主動-主動模式。 您可以在 Azure 服務健康情況上找到特定區域的服務健康情況(Azure 私人 5G 核心會列在網路一節中)。 您會透過一般 Azure 通訊通道收到任何區域失敗的通知。

此服務會使用 Cosmos DB 多區域寫入,自動將服務所擁有的 SIM 認證復寫到備份區域,因此區域失敗時不會遺失數據。

部署在失敗區域中的 Azure 私人 5G 核心資源將會變成唯讀,但所有其他區域中的資源仍會繼續運作不受影響。 如果您需要隨時撰寫資源,請依照設定災害復原和中斷偵測中的指示執行您自己的災害復原作業,並在另一個區域中設定服務。

在Edge上執行的封包核心會繼續運作,而不會中斷,而且會維護網路連線。

設定災害復原和中斷偵測

本節說明您可以採取哪些動作,以確保在發生區域失敗時,Azure Private 5G Core 服務具有完全作用中的管理平面。 如果您想要能夠在發生區域失敗時修改資源,則需要此專案。

請注意,這會導致封包核心服務中斷,並中斷與 UE 的網路連線長達八小時,因此,如果您有在 Azure 區域關閉時管理資源的商務關鍵原因,建議您只使用此程式。

在災害復原事件之前,您必須將資源設定備份至支援 Azure Private 5G Core 的另一個區域。 發生區域失敗時,您可以使用備份區域中的資源重新部署封包核心。

準備

需要備份以進行災害復原的 Azure 私人 5G 核心組態數據有兩種類型:行動網路組態和 SIM 卡認證。 建議您:

  • 每次將新的 SIM 新增至主要區域時,更新備份區域中的 SIM 認證
  • 每周至少備份一次行動網路設定,或更頻繁地對設定進行頻繁或大型變更,例如建立新月臺。

行動網路設定

請遵循將資源移至不同區域的指示,以導出您的 Azure Private 5G Core 資源設定,並將其上傳至新區域。 建議您針對備份組態使用新的資源群組,以清楚將其與使用中的組態區隔開。 您必須為資源提供新的名稱,才能區別於主要區域中的資源。 這個新區域是被動備份,因此為了避免衝突,您尚未將封包核心組態連結至邊緣硬體。 相反地,請將每個封包核心的 packetCoreControlPlanes.platform 字段的值儲存在安全的位置,以供執行復原程式的人員存取(例如內部檔所參考的記憶體帳戶)。

SIM 數據

基於安全性考慮,Azure Private 5G Core 絕不會傳回在 SIM 建立時提供給服務的 SIM 認證。 因此,無法以與其他 Azure 資源相同的方式匯出 SIM 組態。 我們建議每當將新的 SIM 新增至主要服務時,也會重複為備份行動網路布 建新的 SIM 程式,將相同的 SIM 新增至備份服務。

其他資源

您的 Azure 私人 5G 核心部署可能會使用 Azure 金鑰保存庫 來儲存 SIM 加密密鑰或 HTTPS 憑證以進行本機監視。 您必須遵循 Azure 金鑰保存庫 檔,以確保您的金鑰和憑證可在備份區域中使用。

復原

發生區域失敗時,請先透過 Azure 入口網站 或 API 查詢組態來驗證備份區域中的所有資源是否存在(請參閱將資源移至不同的區域)。 如果所有資源都不存在,請在此停止,且不要遵循此程式的其餘部分。 您可能無法在沒有資源設定的情況下復原邊緣月臺的服務。

每個封包核心的復原程式分成三個階段:

  1. 執行重設來中斷 Azure Stack Edge 裝置與失敗區域的連線
  2. 將 Azure Stack Edge 裝置 連線 至備份區域
  3. 重新安裝並驗證安裝。

您必須針對行動網路中的每個封包核心重複此程式。

警告

復原程式會導致封包核心服務中斷,並中斷每個封包核心最多 8 小時的 UE 網路連線。 建議您只在區域失敗期間,才需要透過 Azure 管理 Azure 私人 5G 核心部署的商務關鍵性程式。

中斷 Azure Stack Edge 裝置與失敗區域的連線

Azure Stack Edge 裝置目前正在執行封包核心軟體,並從失敗的區域控制。 若要中斷 Azure Stack Edge 裝置與失敗區域的連接,並移除執行中的封包核心,您必須遵循重設並重新啟用 Azure Stack Edge 裝置中的指示。 請注意,這會移除目前在 Azure Stack Edge 裝置上執行的所有軟體,而不只是封包核心軟體,因此請確定您能夠重新安裝裝置上的任何其他軟體。 這會啟動連線至此 Azure Stack Edge 裝置上封包核心的所有裝置的網路中斷。

將 Azure Stack Edge 裝置 連線 至新區域

請遵循委託 AKS 叢集中的指示,在 Azure Stack Edge 裝置上重新部署 Azure Kubernetes Service 叢集。 請確定您針對這個新安裝使用不同的名稱,以避免在失敗的區域復原時發生衝突。 在此程式中,您將取得叢集的新自定義位置識別碼,您應該記下此標識符。

重新安裝和驗證

取得您在準備中儲存的 packetCoreControlPlanes.platform 值複本,並使用您上面記下的自定義位置標識符來更新 packetCoreControlPlane.platform.customLocation 字段。 確定 packetCoreControlPlane.platform.azureStackEdgeDevice 符合您要安裝封包核心的 Azure Stack Edge 裝置標識符。 現在請遵循 修改封包核心 ,以平臺值更新備份封包核心。 這會觸發封包核心部署至 Azure Stack Edge 裝置。

您應該遵循一般程式來驗證新的月臺安裝,以確認已還原 UE 連線,且所有網路功能皆可運作。 特別是,您應該確認 Azure 入口網站 中的網站儀錶板顯示 UE 註冊,且數據正流經數據平面。

還原失敗的區域

當失敗的區域復原時,您應該遵循準備中的步驟,執行從作用中備份區域到復原的主要區域的備份,以確保這兩個區域中的組態同步。

您也必須檢查並移除先前步驟尚未終結之復原區域中的任何資源:

  • 針對您移至備份區域的每個 Azure Stack Edge 裝置(遵循復原中的步驟),您必須找到並刪除舊的 ARC 叢集資源。 此資源的標識碼位於您在準備備份之值的 packetCoreControlPlane.platform.customLocation 字段中。 此資源的狀態將會 中斷連線 ,因為對應的 Kubernetes 叢集在復原過程中已刪除。
  • 針對您移至備份區域的每個封包核心(遵循復原中的步驟),您必須尋找並刪除復原區域中的任何 NFM 物件。 這些會列在與封包核心控制平面資源相同的資源群組中,而 [區域 ] 值將會符合復原的區域。

接著,您有兩個持續管理選擇:

  • 使用作業備份區域作為新的主要區域,並使用復原的區域作為備份。 不需要進行其他動作。
  • 依照將資源移至不同區域中的指示,將復原的區域設為新的使用中 主要區域 ,以切換回復原的區域。

測試

如果您想要測試災害復原計劃,您可以隨時遵循單一封包核心的復原程式。 請注意,這會導致封包核心服務的服務中斷,並中斷與ES的網路連線長達四小時,因此我們建議只對非生產封包核心部署執行這項操作,或在中斷不會對您的業務造成負面影響時執行此動作。

下一步