警告
本文參考 CentOS,這是接近生命週期結束 (EOL) 狀態的 Linux 發行版本。 請據以考慮您的使用和規劃。 如需詳細資訊,請參閱 CentOS 生命週期結束指導。
此範例案例示範如何傳遞以 Azure 高效能運算 (HPC) 功能為基礎的軟體即服務 (SaaS) 平臺。 此案例是以工程軟體解決方案為基礎。 不過,此架構與需要 HPC 資源的其他產業相關,例如影像轉譯、複雜的模型化,以及財務風險計算。
架構
工作流程
- 使用者可以使用Apache Guacamole服務,透過具有HTML5型 RDP 連線的瀏覽器,存取NV系列虛擬機(VM)。 這些 VM 實例提供功能強大的 GPU 來轉譯和共同作業工作。 用戶可以編輯其設計並檢視其結果,而不需要存取高端行動運算裝置或膝上型計算機。 排程器會根據使用者定義的啟發學習法來啟動其他 VM。
- 從桌面 CAD 工作階段,用戶可以提交工作負載,以在可用的 HPC 叢集節點上執行。 這些工作負載會執行壓力分析或計算流體動態計算等工作,而不需要專用的內部部署計算叢集。 這些叢集節點可以根據作用中使用者對計算資源的需求,根據負載或佇列深度,設定為自動調整。
- Azure Kubernetes Service (AKS) 可用來裝載使用者可用的 Web 資源。
元件
- H 系列虛擬機 可用來執行計算密集型模擬,例如分子模型化和計算流體力學。 此解決方案也會利用遠端直接記憶體存取 (RDMA) 連線和 InfiniBand 網路等技術。
- NV 系列虛擬機 可讓工程師從標準網頁瀏覽器獲得高端工作站功能。 這些虛擬機有 NVIDIA Tesla M60 GPU,可支援進階轉譯,並可執行單精度工作負載。
- 執行 CentOS 的一般用途虛擬機 會處理更傳統的工作負載,例如 Web 應用程式。
- 應用程式閘道 負載平衡傳入網頁伺服器的要求。
- Azure Kubernetes Service (AKS) 可用來以較低的成本執行可調整的工作負載,而模擬不需要 HPC 或 GPU 虛擬機的高階功能。
- Altair PBS Works Suite 會協調 HPC 工作流程,確保有足夠的虛擬機實例可用來處理目前的負載。 當需求較低以降低成本時,它也會解除分配虛擬機。
- Blob 記憶體 會儲存支援排程作業的檔案。
替代項目
- Azure CycleCloud 可簡化建立、管理、操作和優化 HPC 叢集。 它提供進階的原則和治理功能。 CycleCloud 支援任何作業排程器或軟體堆疊。
- HPC Pack 可以建立和管理適用於 Windows Server 型工作負載的 Azure HPC 叢集。 HPC Pack 不是 Linux 型工作負載的選項。
- Azure 自動化 狀態設定 提供基礎結構即程式代碼方法來定義要部署的虛擬機和軟體。 虛擬機可以部署為虛擬機擴展集的一部分,並根據提交至作業佇列的作業數目,自動調整計算節點的規則。 需要新的虛擬機時,會使用 Azure 映像資源庫中的最新修補映像進行布建,然後透過 PowerShell DSC 組態腳本安裝並設定必要的軟體。
- Azure Functions
案例詳細資料
此範例示範工程軟體提供者,將計算機輔助工程 (CAE) 應用程式傳遞給工程公司和製造企業。 CAE 解決方案可啟用創新、降低開發時間,以及在整個產品設計生命週期內降低成本。 這些解決方案需要大量的計算資源,而且通常會處理大量的數據量。 內部部署 HPC 設備或高端工作站的高成本,通常讓小型工程公司、企業家和學生無法觸達這些技術。
該公司想要藉由建置由雲端式 HPC 技術支援的 SaaS 平臺,擴大其應用程式的市場。 其客戶應該能夠視需要支付計算資源的費用,並存取無法負擔的大規模運算能力。
公司的目標包括:
- 利用 Azure 中的 HPC 功能來加速產品開發和測試程式。
- 使用最新的硬體創新來執行複雜的模擬,同時將更簡單仿真的成本降至最低。
- 在網頁瀏覽器中啟用真對生活視覺效果和轉譯,而不需要高階工程工作站。
潛在使用案例
此案例與媒體、金融、製造、教育、能源和環境產業相關。 其他相關的使用案例包括:
- Genomics research
- 天氣模擬
- 計算化學應用程式
考量
這些考量能實作 Azure Well-Architected Framework 的要素,其為一組指導原則,可以用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework (部分機器翻譯)。
- 雖然使用基礎結構即程式代碼方法是管理虛擬機組建定義的好方法,但使用腳本佈建新的虛擬機可能需要很長的時間。 此解決方案會使用 DSC 腳本定期建立黃金映像,以便比使用 DSC 完全視需要建置 VM 更快佈建新的虛擬機。此解決方案找到了良好的中間點。 Azure DevOps Services 或其他 CI/CD 工具可以使用 DSC 腳本定期重新整理黃金映射。
- 平衡整體解決方案成本與計算資源快速可用性是一個關鍵考慮。 布建 N 系列虛擬機實例的集區,並將其置於已解除分配的狀態會降低作業成本。 當需要額外的虛擬機時,重新配置現有的實例將牽涉到在不同的主機上啟動虛擬機,但OS識別並安裝 GPU 驅動程式所需的PCI 總線偵測時間會消除,因為取消布建的虛擬機,然後重新佈建會在重新啟動時保留 GPU 的相同 PCI 總線。
- 原始架構完全依賴 Azure 虛擬機來執行模擬。 為了降低成本,不需要虛擬機所有功能的工作負載,這些工作負載會容器化並部署至 Azure Kubernetes Service (AKS)。
- 公司的員工在開放原始碼技術方面擁有現有的技能。 他們可以藉由建置 Linux 和 Kubernetes 等技術來利用這些技能。
成本最佳化
成本最佳化是關於考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱成本最佳化要素的概觀。
為了協助您探索執行此案例的成本,成本計算機範例中會預先設定許多必要的服務。 解決方案的成本取決於符合需求所需的服務數目和規模。
下列考慮將推動此解決方案的大部分成本:
- 隨著布建額外的實例,Azure 虛擬機成本會以線性方式增加。 解除分配的虛擬機只會產生記憶體成本,而不會產生計算成本。 然後,當需求很高時,就可以重新配置這些已解除分配的計算機。
- Azure Kubernetes Services 成本是以選擇來支援工作負載的 VM 類型為基礎。 成本會根據叢集中的 VM 數目,以線性方式增加。
下一步
- 閱讀Altair客戶案例。 此範例案例是以其架構版本為基礎。
- 檢閱 Azure 中可用的其他 Big Compute 解決方案 。