您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.

ND A100 v4 系列

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集 ✔️ 统一规模集

ND A100 v4 系列虚拟机是 Azure GPU 系列的新增旗舰,专为高端深度学习训练以及紧密耦合的纵向扩展和横向扩展 HPC 工作负荷而设计。

ND A100 v4 系列的起步配置是一个虚拟机 (VM) 和八个 NVIDIA Ampere A100 Tensor Core GPU。 基于 ND A100 v4 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 1.6 Tb/秒。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 200 Gb/秒 NVIDIA Mellanox HDR InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。

每个 GPU 都配备用于 VM 内通信的 NVLINK 3.0 连接,并且实例也由 96 个物理第 2 代 AMD Epyc™ CPU 核心提供支持。

这些实例为众多 AI、ML、支持 GPU 加速的现成分析工具(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架提供卓越的性能。 此外,一大组基于 NVIDIA 的 NCCL2 通信库构建的现有 AI 和 HPC 工具都支持横向扩展 InfiniBand 互连,以便实现无缝的 GPU 群集化。

重要

若要开始使用 ND A100 v4 VM,请参阅 HPC 工作负荷配置和优化,了解包括驱动程序和网络配置在内的步骤。 由于 GPU 内存 I/O 占用量增加,ND A100 v4 需要使用第 2 代 VM 和市场映像。 强烈建议使用 Azure HPC 映像。 支持 Azure HPC Ubuntu 18.04、20.04 和 Azure HPC CentOS 7.9 映像。


高级存储:支持
高级存储缓存:支持
超级磁盘:受支持(详细了解可用性、使用情况和性能)
实时迁移:不支持
内存保留更新:不支持
VM 代系支持:第 2 代
加速网络:不支持
临时 OS 磁盘:支持
InfiniBand:受支持,GPUDirect RDMA,8 x 200 千兆位 HDR
Nvidia NVLink 互连:支持

ND A100 v4 系列支持以下内核版本:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04:5.4.0-1043-azure
Ubuntu 20.04:5.4.0-1046-azure

大小 vCPU 内存:GiB 临时存储 (SSD):GiB GPU GPU 内存:GiB 最大数据磁盘数 非缓存磁盘最大吞吐量:IOPS / MBps 最大网络带宽 最大 NIC 数
Standard_ND96asr_v4 96 900 6000 8 个 A100 40 GB GPU (NVLink 3.0) 40 32 80,000 / 800 24000 Mbps 8

大小表定义

  • 存储容量的单位为 GiB 或 1024^3 字节。 比较以 GB(1000^3 字节)为单位的磁盘和以 GiB(1024^3 字节)为单位的磁盘时,请记住以 GiB 为单位的容量数显得更小。 例如,1023 GiB = 1098.4 GB。

  • 磁盘吞吐量的单位为每秒输入/输出操作数 (IOPS) 和 Mbps,其中 Mbps = 10^6 字节/秒。

  • 数据磁盘可以在缓存或非缓存模式下运行。 对于缓存数据磁盘操作,主机缓存模式设置为 ReadOnlyReadWrite。 对于非缓存数据磁盘操作,主机缓存模式设置为 None

  • 如要了解如何为虚拟机获得最佳存储性能,请参阅虚拟机和磁盘性能

  • 预期的网络带宽是指跨所有 NIC 为每个 VM 类型分配的最大聚合带宽,适用于所有目标。 有关详细信息,请参阅虚拟机网络带宽

    上限不能保证。 这些限制能够为目标应用程序选择适当的虚拟机类型提供指导。 实际的网络性能取决于多种因素,比如网络拥塞、应用程序负载和网络设置。 有关如何优化网络吞吐量的信息,请参阅为 Azure 虚拟机优化网络吞吐量。 如要在 Linux 或 Windows 中达到预期的网络性能,可能需要选择特定的版本或优化虚拟机。 有关详细信息,请参阅带宽/吞吐量测试 (NTTTCP)

其他大小和信息

定价计算器:定价计算器

有关磁盘类型的详细信息,请参阅 Azure 有哪些可用的磁盘类型?

后续步骤

了解有关 Azure 计算单元 (ACU) 如何帮助跨 Azure SKU 比较计算性能的详细信息。