你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

HBv2 系列虚拟机概述

注意

本文引用了 CentOS,这是一个接近生命周期结束 (EOL) 状态的 Linux 发行版。 请相应地考虑你的使用和规划。 有关详细信息,请参阅 CentOS 生命周期结束指南

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集 ✔️ 统一规模集。

要在 AMD EPYC 上最大程度地提高高性能计算 (HPC) 应用程序性能,需要考虑周全的方法内存位置和进程放置。 下面概述了 AMD EPYC 体系结构,以及如何在 Azure 上为 HPC 应用程序实现它。 我们使用术语“pNUMA”指代物理 NUMA 域,使用“vNUMA”指代虚拟化 NUMA 域。

从物理上讲,HBv2 系列服务器是 2 * 64 核 EPYC 7V12 CPU,总共 128 个物理内核。 HBv2 上禁用了同时多线程处理 (SMT)。 这 128 个核心分为 16 个部分(每个套接字 8 个),每个部分包含 8 个处理器核心。 Azure HBv2 服务器还运行以下 AMD BIOS 设置:

Nodes per Socket (NPS) = 2
L3 as NUMA = Disabled
NUMA domains within VM OS = 4
C-states = Enabled

因此,该服务器使用 4 个 NUMA 域(每个套接字 2 个)引导,每个域的大小为 32 核。 每个 NUMA 都可以直接访问以 3200 MT/秒的速度运行的 4 个物理 DRAM 通道。

为了给 Azure 虚拟机监控程序提供运行空间而又不干扰 VM,我们为每台服务器预留 8 个物理内核。

VM 拓扑

我们以对称方式在两个 CPU 插槽上保留这 8 个虚拟机监控程序主机核心,前 2 个核心来自每个 NUMA 域上特定的 Core Complex Dies (CCD),其余核心用于 HBv2 系列 VM。 CCD 边界不等效于 NUMA 边界。 在 HBv2 上,一组四 (4) 个连续的 CCD 配置为一个 NUMA 域,无论是在主机服务器级别上还是在来宾 VM 中。 因此,所有 HBv2 VM 大小都会公开 4 个 NUMA 域,这些域显示在 OS 和应用程序中。 4 个统一的 NUMA 域,每个域具有不同数量的核心,具体取决于特定的 HBv2 VM 大小

进程固定适用于 HBv2 系列 VM,因为我们将底层硅按原样公开给来宾 VM。 强烈建议使用进程固定来实现最佳性能和一致性。

硬件规格

硬件规格 HBv2 系列 VM
核心数 120(已禁用 SMT)
CPU AMD EPYC 7V12
CPU 频率(非 AVX) ~3.1 GHz(单个 + 所有核心)
内存 4 GB/核心(总共 480 GB)
本地磁盘 960 GB NVMe(块)、480 GB SSD(页面文件)
Infiniband 200 Gb/s HDR Mellanox ConnectX-6
网络 50 Gb/秒以太网(40 Gb/秒可用)Azure 第二代 SmartNIC

硬件规格

软件规格 HBv2 系列 VM
最大 MPI 作业大小 36,000 个核心(单个虚拟机规模中 300 个 VM,且 singlePlacementGroup=true)
MPI 支持 HPC-X、Intel MPI、OpenMPI、MVAPICH2、MPICH、Platform MPI
其他框架 UCX、libfabric、PGAS
Azure 存储支持 标准磁盘和高级磁盘(最多 8 个磁盘)
SRIOV RDMA 的操作系统支持 CentOS/RHEL 7.9+、Ubuntu 18.04+、SLES 12 SP5+、WinServer 2016+
Orchestrator 支持 CycleCloud、Batch、AKS;群集配置选项

注意

在 HBv2 和大于 64(虚拟或物理)核的其他 VM 上,不支持 Windows Server 2012 R2。 有关详细信息,请参阅 Windows Server 上 Hyper-V 支持的 Windows 来宾操作系统

后续步骤