Размеры виртуальных машин высокопроизводительных вычислений

Применимо к: ✔️ Виртуальные машины Linux ✔️ Виртуальные машины Windows ✔️ Универсальные масштабируемые наборы

Совет

Воспользуйтесь средством выбора виртуальных машин , чтобы подобрать машину оптимального размера для своей рабочей нагрузки.

Виртуальные машины Azure серии H предназначены для работы в режиме высокой производительности, масштабируемости и экономичности для различных реальных рабочих нагрузок HPC.

Виртуальные машины серии HBv3 оптимизированы для приложений высокопроизводительных вычислений, включая гидродинамику, явный и неявный анализ методом конечных элементов, моделирование погоды, обработку сейсмических данных, симуляторы резервуаров и технических границ коллектора. Виртуальные машины HBv3 имеют до 120 ядер ЦП серии AMD EPYC™ 7003 (Milan), 448 ГБ ОЗУ и не используют технологию Hyper-Threading. Виртуальные машины серии HBv3 также предоставляют пропускную способность памяти в 350 ГБ/с, до 32 МБ кэш-памяти третьего уровня на ядро, производительность твердотельного накопителя до 7 ГБ/с и тактовые частоты до 3,675 ГГц.

Все виртуальные машины серии HBv3 имеют HDR InfiniBand на 200 Гбит/с от NVIDIA Networking, что позволяет выполнять крупномасштабные рабочие нагрузки MPI. Эти виртуальные машины подключены в неблокирующей конфигурации утолщенного дерева для обеспечения оптимальной и стабильной производительности RDMA. Структура HDR InfiniBand также поддерживает адаптивную маршрутизацию и динамический подключенный транспорт (DCT, дополнительно к стандартным транспортам RC и UD). Эти функции улучшают производительность, масштабируемость и согласованность приложений. Их использование настоятельно рекомендуется.

Виртуальные машины серии HBv2 оптимизированы для приложений, которым необходима высокая пропускная способность памяти: приложений для анализа динамики жидкости, анализа методом конечных элементов и моделирования резервуара. Виртуальные машины HBv2 оснащаются 120 ядрами процессора AMD EPYC 7742 и 4 ГБ ОЗУ на каждое ядро ЦП без поддержки одновременной многопоточности. Каждая виртуальная машина HBv2 обеспечивает пропускную способность памяти до 340 ГБ/с и вычислительную мощность FP64 до 4 Tфлопс.

Все виртуальные машины серии HBv2 оснащены сетевым адаптером Mellanox FDR InfiniBand на 200 Гбит/с, а виртуальные машины серий HB и HC — сетевым адаптером Mellanox FDR InfiniBand на 100 Гбит/с. Виртуальные машины всех этих типов подключены в неблокирующей конфигурации утолщенного дерева для обеспечения оптимальной и стабильной производительности RDMA. Виртуальные машины HBv2 также поддерживают адаптивную маршрутизацию и динамический подключенный транспорт (DCT) в дополнение к стандартным транспортам RC и UD. Эти функции улучшают производительность, масштабируемость и согласованность приложений. Их использование настоятельно рекомендуется.

Виртуальные машины серии HB оптимизированы для приложений, которым необходима высокая пропускная способность памяти: приложений для анализа динамики жидкости, явного анализа методом конечных элементов и моделирования погоды. Виртуальные машины HB оснащаются 60 ядрами процессора AMD EPYC 7551 и 4 ГБ ОЗУ на каждое ядро ЦП без поддержки технологии Hyper-Threading. Платформа AMD EPYC обеспечивает пропускную способность памяти более 260 ГБ/с.

Виртуальные машины серии HC оптимизированы для приложений, которым необходима высокая плотность вычислений: приложений для неявного анализа методом конечных элементов, молекулярной динамики и вычислительной химии. Виртуальные машины HC оснащены 44 ядрами процессоров Intel Xeon Platinum 8168 с 8 ГБ ОЗУ на ядро и не используют технологию Hyper-Threading. Платформа Intel Xeon Platinum поддерживает обширную экосистему программных средств Intel, например библиотеку Intel Math Kernel.

Виртуальные машины серии H оптимизированы для приложений, которым необходимы высокая частота ЦП или большой объем памяти на ядро. Виртуальные машины серии H оснащены 8 или 16 ядрами процессоров Intel Xeon E5 2667 v3, 7 или 14 ГБ оперативной памяти на ядро и не используют технологию Hyper-Threading. Серия H оснащена сетевым адаптером Mellanox FDR InfiniBand 56 ГБ/с в неблокирующей конфигурации утолщенного дерева для обеспечения стабильной производительности RDMA. Виртуальные машины серии H поддерживают Intel MPI 5.x и MS-MPI.

Примечание

Все виртуальные машины серий HBv3, HBv2, HB и НС имеют эксклюзивный доступ к физическим серверам. На каждый физический сервер приходится только 1 виртуальная машина, и для виртуальных машин таких размеров не существует общей мультитенантной организации с другими виртуальными машинами.

Примечание

Виртуальные машины A8–A11 выведены из эксплуатации с марта 2021 г. Новые развертывания виртуальных машин с такими размерами не поддерживаются. Если у вас уже есть виртуальные машины, дальнейшие действия с ними изложены в электронных сообщениях, включая переход на виртуальные машины других размеров в руководстве по миграции HPC.

Экземпляры с поддержкой RDMA

Виртуальные машины HPC большинства размеров оснащены сетевым интерфейсом для удаленного прямого доступа к памяти (RDMA). Некоторые размеры виртуальных машин серии N, отмеченные символом "r", также поддерживают RDMA. Этот интерфейс является дополнением к стандартному сетевому интерфейсу Azure Ethernet, который доступен для виртуальных машин других размеров.

Этот дополнительный интерфейс обеспечивает связь экземпляров с поддержкой RDMA по сети InfiniBand (IB), работающей на скорости HDR для виртуальных машин HBv3 и HBv2, EDR для серий HB, HC и NDv2 и FDR для серий H16r, H16mr и других виртуальных машин серии N с поддержкой RDMA. Эти возможности RDMA позволяют увеличить масштабируемость и производительность приложений с интерфейсом MPI.

Примечание

Поддержка SR-IOV. В Azure HPC в настоящее время существует два класса виртуальных машин в зависимости от того, поддерживают ли они SR-IOV для InfiniBand. В настоящее время почти все виртуальные машины новых поколений с поддержкой RDMA или InfiniBand в среде Azure поддерживают SR-IOV, кроме H16r, H16mr и NC24r. Режим RDMA доступен только в сети InfiniBand (IB) и поддерживается для всех виртуальных машин с поддержкой RDMA. Технология IP на базе IB (IP over IB) поддерживается только на виртуальных машинах с поддержкой SR-IOV. RDMA не работает в сети Ethernet.

  • Операционная система. Обычно используются дистрибутивы Linux, такие как CentOS, RHEL, Ubuntu и SUSE. На всех виртуальных машинах серии HPC поддерживаются Windows Server 2016 и более поздние версии. На виртуальных машинах, не поддерживающих SR-IOV, также поддерживаются Windows Server 2012 R2 и Windows Server 2012. Обратите внимание, что Windows Server 2012 R2 не поддерживается на HBv2 и виртуальных машинах больших размеров, имеющих больше 64 ядер (виртуальных или физических). Список поддерживаемых образов виртуальных машин в Marketplace и способ их настройки можно найти в разделе об образах виртуальных машин. На страницах виртуальных машин соответствующих размеров также указана поддержка программного стека.

  • InfiniBand и драйверы. На виртуальных машинах с поддержкой InfiniBand для включения RDMA требуются соответствующие драйверы. Список поддерживаемых образов виртуальных машин в Marketplace и способ их настройки можно найти в разделе об образах виртуальных машин. Узнать о расширениях виртуальных машин или установке драйверов InfiniBand вручную также можно в разделе Включение InfiniBand.

  • MPI. Виртуальные машины тех размеров, которые поддерживают SR-IOV в Azure, также поддерживают использование практически всех версий MPI с Mellanox OFED. Для обмена данными между виртуальными машинами, которые не поддерживают SR-IOV, поддерживаемые реализации MPI используют интерфейс Microsoft Network Direct (ND). Таким образом, поддерживаются только Microsoft MPI (MS-MPI) 2012 R2 и более поздних версий, а также Intel MPI 5.x. Более поздние версии библиотеки среды выполнения Intel MPI могут быть как совместимы, так и несовместимы с драйверами Azure RDMA. Дополнительные сведения о настройке MPI на виртуальных машинах HPC в Azure см. в статье Настройка MPI для HPC.

    Примечание

    Адресное пространство сети RDMA. Сеть RDMA в Azure резервирует адресное пространство 172.16.0.0/16. Чтобы выполнять приложения MPI в экземплярах, развернутых в виртуальной сети Azure, убедитесь, что адресное пространство виртуальной сети не пересекается с сетью RDMA.

Параметры конфигурации кластера

Azure предоставляет несколько вариантов для создания кластеров виртуальных машин HPC, которые могут взаимодействовать с помощью сети RDMA, включая:

  • Виртуальные машины. Разверните виртуальные машины HPC с поддержкой RDMA в одном масштабируемом наборе или группе доступности (используя модель развертывания Azure Resource Manager). Если вы используете классическую модель развертывания, разверните виртуальные машины в одну облачную службу.

  • Масштабируемый набор виртуальных машин. В масштабируемом наборе виртуальных машин ограничьте развертывание одной группой размещения, чтобы обеспечить возможность обмена данными по протоколу InfiniBand в масштабируемом наборе. Например, в шаблоне Resource Manager задайте значение true для свойства singlePlacementGroup. Обратите внимание, что максимальный размер масштабируемого набора, который можно установить с помощью свойства singlePlacementGroup=true, по умолчанию ограничен до 100 виртуальных машин. Если потребность в масштабировании заданий HPC превышает 100 виртуальных машин в одном арендаторе, вы можете запросить увеличение, отправив бесплатный запрос в службу поддержки клиентов. Ограничение на количество виртуальных машин в одном масштабируемом наборе можно повысить до 300. Обратите внимание, что при развертывании виртуальных машин с использованием групп доступности верхнее ограничение составляет 200 виртуальных машин на группу.

    Примечание

    MPI между виртуальными машинами. Если между виртуальными машинами требуется обеспечить RDMA (например, с использованием MPI-соединения), убедитесь, что эти машины находятся в одном масштабируемом наборе виртуальных машин или группе доступности.

  • Azure CycleCloud. Для запуска заданий MPI создайте кластер HPC в Azure CycleCloud.

  • Пакетная служба Azure. Создайте пул пакетной службы Azure для выполнения рабочих нагрузок MPI. Сведения об использовании экземпляров для ресурсоемких вычислений при запуске приложений MPI с использованием пакетной службы Azure см. в статье Использование задач с несколькими экземплярами для запуска приложений с интерфейсом передачи сообщений в пакетной службе.

  • Пакет Microsoft HPC - Пакет HPC включает среду выполнения для MS-MPI, которая использует сеть Azure RDMA при развертывании на виртуальных машинах Linux с поддержкой RDMA. Примеры развертываний см. в статье Настройка кластера RDMA в Linux с помощью пакета HPC для запуска приложений MPI.

Рекомендации по развертыванию

  • Подписка Azure. Чтобы развернуть большое число экземпляров для ресурсоемких вычислений, рекомендуем подписку с оплатой по мере использования или другие варианты покупки. Если вы используете бесплатную учетную запись Azure, вам доступно ограниченное количество вычислительных ядер Azure.

  • Цены и доступность. Вы можете уточнить цены и доступность виртуальных машин по регионам Azure.

  • Квота ядер. Вам может потребоваться увеличить стандартную квоту на число ядер в подписке Azure. Кроме того, количество ядер, которые можно развернуть для некоторых семейств размеров виртуальных машин (включая серию H), может быть ограничено условиями вашей подписки. Чтобы увеличить квоту, отправьте запрос в службу поддержки. Это бесплатная услуга. (Ограничения по умолчанию могут быть разными в зависимости от категории подписки).

    Примечание

    Если вам нужны ресурсы в очень большом объеме, обратитесь в службу поддержки Azure. Квоты Azure — это ограничения по кредитам, а не гарантированная емкость. Вне зависимости от квоты с вас будет взиматься плата только за используемые ядра.

  • Виртуальная сетьвиртуальная сеть Azure не требуется для использования ресурсоемких экземпляров. Но для нескольких развертываний вам потребуется по крайней мере облачная виртуальная сеть Azure или подключение типа "сеть — сеть", если нужен доступ к локальным ресурсам. При необходимости создайте виртуальную сеть, чтобы развернуть экземпляры. Добавление виртуальных машин для ресурсоемких вычислений в виртуальную сеть в территориальной группе не поддерживается.

  • Изменение размера. Из-за специализированного оборудования изменить можно только размер экземпляров для ресурсоемких вычислений одного семейства размеров (серии H или N). Например, можно изменить только размер виртуальной машины серии H (один размер из серии H на другой размер из этой же серии). Для некоторых виртуальных машин существуют дополнительные факторы, связанные с поддержкой драйвера InfiniBand и дисков NVMe.

Остальные размеры

Дальнейшие действия