Серия NDm A100 версии 4

Статья
03/20/2024

Внимание

Эта статья ссылается на CentOS, дистрибутив Linux, который приближается к состоянию конца жизни (EOL). Обратите внимание на использование и план соответствующим образом. Дополнительные сведения см. в руководстве centOS End Of Life.

Применимо к: ✔️ Виртуальные машины Linux ✔️ Виртуальные машины Windows ✔️ Универсальные масштабируемые наборы

Виртуальная машина серии NDm A100 версии 4 — это новое флагманское дополнение к семейству GPU Azure. Она предназначена для высокоуровневых Обучение обучения и тесно связанных рабочих нагрузок HPC.

Серия NDm A100 версии 4 начинается с одной виртуальной машины и восьми GPU NVIDIA Ampere A100 80 ГБ Tensor Core. Развертывания на основе NDm A100 версии 4 могут масштабироваться до тысяч gpu с пропускной способностью 1,6 ТБ/с пропускной способности взаимодействия на каждую виртуальную машину. Каждый ГРАФИЧЕСКИй процессор в виртуальной машине предоставляется с собственным выделенным подключением 200 ГБ/с NVIDIA Mellanox HDR InfiniBand. Эти подключения автоматически настраиваются между виртуальными машинами, занимающими один и тот же масштабируемый набор виртуальных машин, и поддерживают GPUDirect RDMA.

Каждый GPU включает подключение NVLINK 3.0 для обмена данными в виртуальной машине, а экземпляр поддерживается 96 физическими 2-го поколения AMD Epyc™ 7V12 (Рим) ядрами ЦП.

Эти экземпляры обеспечивают великолепную производительность для многих средств аналитики, машинного обучения и искусственного интеллекта, которые в стандартной конфигурации поддерживают ускорение GPU, в том числе TensorFlow, Pytorch, Caffe, RAPIDS и другие платформы. Кроме того, межсоединение InfiniBand поддерживается большим набором существующих средств искусственного интеллекта и HPC, созданных на основе библиотек коммуникации NVIDIA NCCL2 для простого кластеризация gpu.

Внимание

Чтобы приступить к работе с виртуальными машинами NDm A100 версии 4, изучите статью о конфигурации и оптимизации рабочей нагрузки HPC, где описана конфигурация драйвера и сети, а также другие шаги. В связи увеличением памяти GPU для операций ввода-вывода для NDm A100 версии 4 требуются образы из marketplace и виртуальные машины 2-го поколения. Мы настоятельно рекомендуем использовать образы Azure HPC. Поддерживаются образы Azure HPC на основе Ubuntu 18.04, 20.04 и CentOS 7.9.

Хранилище класса Premium: поддерживается
Кэширование в хранилище класса Premium: поддерживается
Диски категории "Ультра": поддерживаемые (дополнительные сведения о доступности, использовании и производительности)
Динамическая миграция: не поддерживается
Обновления с сохранением памяти: не поддерживаются
Поддержка создания виртуальных машин: поколение 2
Ускорение сети: поддерживается
Временные диски ОС: поддерживаются
InfiniBand: поддерживается, GPUDirect RDMA, 8×200 ГБ HDR
Nvidia NVLink Interconnect: поддерживается
Вложенная виртуализация: не поддерживается

Серия NDm A100 версии 4 поддерживает следующие версии ядра:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04: 5.4.0-1043-azure
Ubuntu 20.04: 5.4.0-1046-azure

Размер	Виртуальные ЦП	Память, ГиБ	Временное хранилище (SSD): ГиБ	GPU	Память GPU: ГиБ	Макс. количество дисков данных	Максимальная пропускная способность дисков без кэширования: операций ввода-вывода в секунду / МБит/с	Максимальная пропускная способность сети	Макс. количество сетевых адаптеров
Standard_ND96amsr_A100_v4	96	1900	6400	8 GPU A100 80 ГБ (NVLink 3,0)	80	32	80,000 / 800	24 000 Мбит/с	8

Определение размера

Емкость хранилища отображается в единицах ГиБ (1 ГиБ = 1024^3 байтов). При сравнении емкости дисков в ГБ (1000^3 байтов) с емкостью дисков в ГиБ (1024^3 байтов) помните, что значения емкости в ГиБ могут казаться меньше, чем в ГБ. Например, 1023 ГиБ = 1098,4 ГБ.
Пропускная способность дисков измеряется в операциях ввода-вывода в секунду (IOPS) и МБит/с, где 1 МБит/с = 10^6 байтов в секунду.
Диски данных могут работать в режиме кэширования и в режиме без кэширования. Чтобы использовать кэширование диска данных, для режима кэширования узла следует задать значение ReadOnly или ReadWrite. Чтобы не использовать кэширование диска данных, для режима кэширования узла следует задать значение None.
Сведения о том, как получить оптимальную производительность хранилища для виртуальных машин, см. в статье Производительность диска и виртуальной машины.
Ожидаемая пропускная способность сети — это максимальная агрегированная пропускная способность , выделенная для каждого типа виртуальной машины для всех сетевых адаптеров. Чтобы получить дополнительную информацию, см. Пропускная способность сети для виртуальных машин.

Верхние пределы не гарантированы. Пределы предлагают руководство по выбору типа виртуальной машины, подходящего для предполагаемого приложения. Фактическая производительность сети зависит от нескольких факторов, в том числе загрузки сети и приложения, а также параметров сети. Сведения об оптимизации пропускной способности см. в статье Оптимизация пропускной способности сети для виртуальных машин Azure. Чтобы обеспечить ожидаемую производительность сети на виртуальных машинах Linux или Windows, возможно, потребуется выбрать определенную версию виртуальной машины или оптимизировать ее. Чтобы получить дополнительную информацию, см. Проверка пропускной способности (NTTTCP).

Другие размеры и сведения

Калькулятор цен: Калькулятор цен

Дополнительные сведения о типах дисков см. в статье Какие типы дисков доступны в Azure.

Следующие шаги

Узнайте больше о том, как с помощью единиц вычислений Azure (ACU) сравнить производительность вычислений для различных номеров SKU Azure.

Серия NDm A100 версии 4

Определение размера

Другие размеры и сведения

Следующие шаги

Дополнительные ресурсы