資料中心架構與基礎結構
Microsoft 資料中心的設計目的是為了實施縱深防禦策略,利用多層的保護層來可靠地保護我們的雲端架構,並支援基礎結構。 冗余是內置於多個層級的所有系統,以支援資料中心可用性。
Microsoft 具有遍佈全球的高安全性資料中心設施,可建立分散式資料中心基礎結構,以支援數千項線上服務。 這種全域分散式基礎結構的設計目的是讓應用程式離使用者更近,保留資料派駐服務,並為客戶提供全面的合規性和恢復選項。
地區是透過大量和復原網路互連的資料中心集合。 地區是組織成地區,向客戶授與特定資料派駐和合規性時,必須能夠讓他們的資料和應用程式保持關閉。 內建容錯可讓地區承受透過其連線至專屬、高容量網路基礎結構的完整區域失敗。
地區中實體個別的位置稱為可用性區域,每個區域都是由一個或多個以獨立電源、冷卻及網路為設定的資料中心組成。 可用性區域可讓重要的應用程式以高可用性和低延遲複寫執行。
下圖顯示全域基礎結構對地區和可用性區域在相同資料常駐界限內,以取得高可用性、嚴重損壞修復和備份。

地理位置分散的資料中心可讓 Microsoft 讓服務更接近客戶、減少網路延遲,並允許地域冗余備份和容錯移轉。
可用性
Microsoft 資料中心的設計是為了提供99.999% 的可用性,以滿足客戶的 Sla 和服務需求。 Microsoft 的全球作業、管理、網路及可持續性功能都已大幅投資,可提供24x7x365 服務。
規範標準與需求
Microsoft 已投資超過 $15000000000,可建立全球基礎結構,以及超過 $9000000000 的研發,以提升效率和促進創新。 因此,Microsoft 的資料中心的發展速度比業界中的眾多工具快,所以不遵循傳統資料中心標準所概括的規範性要求。 除了執行全球最大資料中心產品群組的大量操作洞察力之外,Microsoft 還使用 IEEE 黃金圖書資料和協力廠商可靠性模擬軟體,以持續改進我們的資料中心設計標準。 在規範產品群組中,Microsoft 資料中心會以多項規章審核的一部分來進行審核。 Microsoft 資料中心的成熟度層級可透過規範產品群組進行評估,並特別是 ISO 22301 認證。
Microsoft 的程式與 ANSI/TIA-942 電信基礎結構(資料中心標準)的精神搭配使用,但是此標準中的部分功能不適用於 Microsoft,或與其他法規和/或國家/地區的特定需求相衝突。 此外,Microsoft 已選擇使用更具效能的方法來符合客戶的需求。
資料和網路備援
關鍵資料中心設施採用多層備援系統,以利承受錯誤,並盡可能避免服務中斷。 磁碟層級的本機備援儲存體可保護區域內的資料,而異地備援儲存體則提供區域內的備援。 為了確保可靠的網路通訊,Microsoft 擁有並運用各種不同的光纖路由和備援硬體,以保護重要元件,避免故障或服務中斷。
地理複寫是用來提供備用地理位置的冗余。 資料持續性是透過跨不同資料中心的多個資料庫同步複製資料取得。 針對雲端所擁有的所有備份資料執行還原測試。 在不同地理區域的資料中心進行非同步複寫時,會進行災難復原。
容量
雲端作業是一種專用的容量團隊,可預測未來的需求,以確保必要的容量已結構化,且可供客戶和內部使用。 系統會受到監控,以確保可接受的服務效能、可用性、服務使用率、儲存使用量、網路延遲及審核記錄容量。 Microsoft 也會針對頻寬、交易容量及儲存容量等拒絕服務攻擊的影響,保護資料中心。
所有服務小組都包括容量規劃,做為其資料中心模型和資料複寫計畫的主要功能,以確保資訊處理、電信和環境支援等方面有必要的容量。
電源
Microsoft 的資料中心有專用的24x7 不斷電供應系統( (Ups)) 和緊急電源支援(包括提供備份能力的現場發電機)。 對 UPS 和發電機進行定期維護和測試, 且作業小組會與本地廠商簽訂遞送緊急燃料的合約協議。 資料中心也有專用的設備作業中心來監控電力系統,包括重要的電子元件。
Microsoft 資料中心已配備保護性空間,並針對線纜進行適當的標籤。 電源基礎結構裝置會放在已設計為防範環境風險的環境中。 所有的可擕式線上服務資產都必須鎖定或固定到位,以提供對盜竊或移動損毀的防護。 電源線是在地面、電纜託盤和機櫃內執行,以防止移動部件和意外損毀。 所有的電氣都是以適當的讀卡機或其他金鑰鎖定為背後。 存取 hallways、外部入口和裝置碼全都透過影片監控加以監控。 電源系統也會以保護形式使用冗余,將多個電源/公用程式摘要放入設施及發電機和 UPS 系統。
為能夠以最低要求的運作能力來維護電源的資訊系統,會執行長期替代電源。 當電源失敗或下降到無法接受的電壓水準時,UPS 系統會立即線上。 這為執行伺服器提供足夠的電量,直到發電機可以接管為止。 當發生自然災害時,緊急情況發生器會提供備份功能,以進行持續的停機時間、規劃的維護,以及使用現場燃油保留來運作資料中心。
Microsoft 資料中心 (租和完全管理的) 會以負荷的方式,在由 UPS 及發電機系統所備份的專用電路上,以高緊急照明的方式執行緊急照明。 自動緊急照明會依照國家防火和保護關聯 (,NFPA) 使用壽命安全代碼或適用的當地碼/法律。 如果實用程式的電源喪失,緊急光線會自動切換為 UPS 及發電機系統所提供的電量。 資料中心內的緊急照明系統進行例行維護,以確保它們保持正常的工作順序。
維護
系統維護原則和程式是依照 Microsoft 的線上服務實體和環境安全性標準 進行。 所有的 Microsoft 設備和系統都會定期維護,以保證運作效率。 任何設備或系統的維護都必須依照製造商的建議執行,並由授權的人員執行,並記錄在維護票證中。
有兩個資產小組可以維護不同類型的系統:
關鍵環境 (CE) 小組:
- CE 是為電氣、機械和實體系統提供設施管理功能的團隊,該小組組成設施的運作基礎結構。 CE 小組排程、執行、檔,並檢查對 CE 元件所執行的所有維護活動。 Microsoft 資料中心依靠電腦化系統來管理維護排程和工作順序。
- 資料中心管理 (DCM) 負責在網站上或遠端執行的所有 CE 維護。 CE 維護是以稱為過程 (MOP) 方法的逐步檔中規定。 開始進行任何工作之前,MOPs 都會透過資料中心管理進行審閱/核准。
網站服務 小組:
- 網站服務是提供 microsoft datacenter 上的 Microsoft 線上服務資產服務的團隊。 「DC 網站服務小組」為屬於內容提供服務的資產,提供來自資料中心的智慧動手修復服務。 例如,需要實體維護的資產可能要求從 DC Site Services 小組要求 smart 雙手服務。 所有在 Microsoft 資產上運作的網站服務都會在工作流程票證檢查工具內,于工作中排程、執行、記錄及檢查,而且不會發生任何工作。沒有核准的工作票。
- 技術計畫經理 (TPM) 和 DCM 小組負責資料中心的所有網站服務運作,而且需要將資產轉移到異地的工作。 網站服務維護是在資料中心的區域中執行,而這些區域是透過實體安全性機制來控制和保護的。
如果需要從設施中移除 CE 元件,則由 DCM 批准裝置的處理。 在大多數情況下,CE 元件會收到現場維護,而且不會從設施中移除。 屬性資產 (例如,網路裝置或伺服器) 要求送出異地必須具有明確資產擁有者核准。
除非將它移動為損毀,否則不會從 colocation 空間傳輸雲端中的數位媒體。 當這些資產損毀時,它們會儲存在 CCTV 相機覆蓋範圍底下的鎖定存放區中。 當資產可損毀時,實體安全性監察官和 Microsoft 全職員工從資產管理,必須將鎖定的 bin 從要進行現場切碎的 colocation 空間 escort。 當資料中心出現切碎時,在 Microsoft 監管底下,Microsoft 資產不會留下資料中心的控制區域。
所有維護工作必須在工作開始之前獲得核准,包括系統維護工具的存取權。 Microsoft 基礎結構已在資料中心存取工具 (DCAT) 中建立存取層級,以實現維護工具控制項。 每個功能都包含有限的實體鎖定方塊或存取控制的空間,用於儲存專用維護工具。 您可以在 DCAT 工具中控制鎖定盒或存放室的存取,以防止未經授權的存取維護工具。 此程式可確保只有具有核准之存取權的人員才能存取工具。 網站服務小組會執行日常清查檢查,以確認所有工具的狀態。 [!注意] 資料中心管理小組和實體安全小組會逐步執行 DCAT 存取清單的審計,以維護目前的維護人員存取清單。 人員端接或轉帳會立即透過手動更新存取清單進行反映。 存取鎖定方塊或維護存放室會在存取標記讀取器記錄中追蹤,以供任何調查之用。
「網站服務小組」會維護已核准之維護工具的庫存,以供資料中心內使用。 維護人員可導向使用所提供的維護工具。 資料中心管理 (DCM) 必須核准,才能使用資料中心未提供的工具。 實體手形工具不受此類型的控制。
Microsoft 資料中心維護常駐維護人員,以支援重要的資料中心基礎結構系統 (重要環境小組) 和資料中心作業 (網站服務小組) 。 關鍵環境和網站服務小組已識別重要的安全性和技術系統元件,其可在現場維護備件。 重要資訊系統服務會從多個資料中心進行布建,以防止由於其中一個資料中心的事件而中斷服務。