Руководство по миграции для рабочих нагрузок службы вычислений GPU в Azure

Так как в marketplace и в центрах обработки данных Microsoft Azure доступны более мощные графические процессоры (GPU), рекомендуется повторно оценить производительность рабочих нагрузок и рассмотреть миграцию на более новые GPU.

По той же причине, а также для поддержки высококачественного и надежного предложения услуги Azure периодически завершает поддержку оборудования с устаревшими размерами виртуальных машин. К первой группе устройств GPU, поддержка которых будет прекращена в Azure, относятся исходные виртуальные машины серии NC, NC v2, ND с ускорителями GPU центров обработки данных NVIDIA Tesla K80, P100 и P40 соответственно. Поддержка этих продуктов будет прекращена 31 августа 2022 г., а самые старые виртуальные машины в этой серии запущены в 2016 году.

С этого момента GPU сделали невероятный шаг вперед вместе со всей отраслью HPC и глубокого обучения, как правило, с повышением производительности между поколениями в два раза. С момента запуска графических процессоров NVIDIA K80, P40 и P100 в Azure предоставлено несколько новых поколений и категорий продуктов виртуальных машин, предназначенных для вычислений на базе GPU и искусственного интеллекта, а также на основе GPU NVIDIA серии T4, V100 и A100, дифференцированных по дополнительным функциям, таким как структуры внутренних соединений на основе InfiniBand. Это все варианты, которые мы рекомендуем клиентам в качестве процесса миграции.

В большинстве случаев значительное увеличение производительности, обеспечиваемое новыми поколениями GPU, снижает общую совокупную стоимость владения за счет уменьшения длительности задания, для выполнения задач с высокой производительностью или уменьшения количества общих виртуальных машин с поддержкой GPU, необходимых для охвата ресурсов вычислений фиксированного объема, даже если затраты на каждый GPU-час могут различаться. Помимо этих преимуществ, клиенты могут улучшить время решения с помощью высокопроизводительных виртуальных машин и улучшить работоспособность и поддержку своих решений за счет использования нового программного обеспечения, среды выполнения CUDA и версий драйверов.

Сравнение миграции и оптимизации

Azure распознает наличие у клиентов множества требований, которые могут зависеть от выбора конкретного продукта виртуальной машины GPU, в том числе рекомендации по архитектуре GPU, взаимосвязи, совокупной стоимости владения, времени для решения и региональным возможностям на основе требований к локализации или задержкам, некоторые из них даже меняются со временем.

В то же время ускорение GPU — это новая и быстро развивающаяся область.

Таким образом, для этой области продукта не существует истинного размера, а миграция — это идеальное время для повторной оценки потенциально существенных изменений в рабочей нагрузке перемещения из кластеризованной модели развертывания на одну крупную виртуальную машину с 8 GPU или наоборот, используя типы значений с уменьшенной точностью, включая такие функции, как GPU с несколькими экземплярами, и многое другое.

Помимо существенного увеличения производительности графического процессора для каждого поколения, где такая функция, как добавление ядер TensorCores, может повысить производительность на порядок, такие рекомендации в значительной степени зависят от рабочей нагрузки.

Сочетание миграции с реструктуризацией приложений может принести большую пользу и снизить стоимость и время принятия решения.

Однако эти улучшения выходят за рамки настоящего документа, целью которого являются классы прямой эквивалентности для общих рабочих нагрузок, выполняющиеся клиентами в настоящее время для определения наиболее похожих параметров виртуальных машин как по цене, так и по производительности на один GPU для существующего семейства виртуальных машин, поддержка которых завершается.

Таким образом, в настоящем документе предполагается, что пользователь не может получить аналитические сведения о таких свойствах рабочих нагрузок (и не может управлять ими), как количество требуемых экземпляров виртуальных машин, графических процессоров (GPU), внутренних подключений и т. д.

виртуальных машин серии NC с поддержкой графических процессоров NVIDIA K80

Виртуальные машины серии NC (v1) — это самый старый тип вычислительных виртуальных машин с GPU в Azure на базе от 1 до 4 ускорителей GPU центра обработки данных NVIDIA Tesla K80, сопряженных с процессорами Intel Xeon E5-2690 v3 (Haswell). Когда-то ведущий тип виртуальных машин для требовательных приложений ИИ, ML и HPC оставался популярным выбором в жизненном цикле продукта (в частности, по продвигаемому по акции ценообразованию серии NC) для пользователей, имеющих очень низкую относительную стоимость на один GPU-час на графических процессорах с более высокой пропускной способностью на один доллар.

На сегодняшний день, с учетом относительно низкой производительности вычислений платформы NVIDIA K80 GPU по сравнению с серией виртуальных машин, в которой используются более новые графические процессоры, популярным вариантом использования серии NC являются рабочие нагрузки для вывода данных в реальном времени и вывода аналитики, где ускоренная виртуальная машина должна быть доступна в стабильном состоянии для обслуживания запросов от приложений по мере их поступления. В этих случаях размер тома или пакета запросов может быть недостаточным для использования более производительных GPU. Виртуальные машины NC также являются популярными для разработчиков и учащихся, занимающихся изучением, разработкой или экспериментированием с ускорением GPU, которым нужен недорогой облачный целевой объект развертывания CUDA, требующий выполнения итерации не на рабочих уровнях.

В общем случае клиентам серии NC следует рассмотреть возможность перехода непосредственно от размеров NC к размерам NC T4 v3, к новой платформе с ускорением GPU для легких рабочих нагрузок на платформе NVIDIA Tesla T4 GPU, хотя другие номера SKU виртуальных машин должны учитываться для рабочих нагрузок, выполняемых на размерах серии NC с поддержкой InfiniBand.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
или диспетчер конфигурации служб
Standard_NC8as_T4
ЦП: Intel Haswell VS AMD Rome
Число GPU: 1 (то же)
Поколение GPU: NVIDIA Keppler — Turing (+ 2 поколения, ~ 2x FP32 FLOPs)
Память GPU (ГиБ на один GPU): 16 (+4)
Виртуальные ЦП: 4 (–2) или 8 (+2)
Память, ГиБ: 16 (–40) или 56 (то же самое)
Временное хранилище (SSD) ГиБ: 180 (–160) или 360 (+20)
Максимальное число дисков данных: 8 (–4) или 16 (+4)
Ускорение сети: да (+)
Хранилище класса Premium: да (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* ЦП: Intel Haswell VS AMD Rome
Число GPU: 4 (то же самое)
Поколение GPU: NVIDIA Keppler — Turing (+2 поколения, ~ 2x FP32 FLOPs)
Память GPU (ГиБ на один GPU): 16 (+4)
Виртуальные ЦП: 64 (+40)
Память, ГиБ: 440 (+216)
Временное хранилище (SSD), ГиБ: 2880 (+1440)
Макс. число дисков данных: 32 (–32)
Ускорение сети: да (+)
Хранилище класса Premium: да (+)
Standard_NC24r
Standard_NC24r_Promo

(Размеры с поддержкой кластеризации InfiniBand)
Standard_NC24rs_v3* ЦП: Intel Haswell — Intel Broadwell
Число GPU: 4 (то же самое)
Поколение GPU: NVIDIA Keppler и Volta (+2 поколения)
Память GPU (ГиБ на один GPU): 16 (+4)
Виртуальные ЦП: 24 (+0)
Память, ГиБ: 448 (+224)
Временное хранилище (SSD), ГиБ: 2948 (+1440)
Максимальное число дисков данных: 32 (то же самое)
Ускорение сети: нет (то же самое)
Хранилище класса Premium: да (+)
Внутреннее соединение InfiniBand: Да

Виртуальные машины серии ND с графическими процессорами NVIDIA Tesla P40 GPU

Виртуальные машины серии ND — это платформа среднего уровня, изначально разработанная для рабочих нагрузок ИИ и глубокого обучения. Они обеспечивают превосходную производительность для пакетного вывода с помощью улучшенных операций с плавающей запятой и обычной точностью по сравнению со своими предшественниками, и оснащены графическими процессорами NVIDIA Tesla P40 GPU и центральными процессорами Intel Xeon E5-2690 V4 (Broadwell). Как и в серии NC и NC v2, конфигурация серии ND предусматривает низкую задержку (менее секунды), высокую пропускную способность сети за счет использования RDMA и подключения InfiniBand. Это позволяет выполнять масштабные задания, связанные с обучением, в которых задействованы многочисленные GPU.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_ND6 Standard_NC4as_T4_v3
или диспетчер конфигурации служб
Standard_NC8as_T4
ЦП: Intel Broadwell — AMD Rome
Число GPU: 1 (то же самое)
Поколение GPU: NVIDIA Pascal — Turing (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (–8)
Виртуальные ЦП: 4 (–2) или 8 (+2)
Память, ГиБ: 16 (–40) или 56 (–56)
Временное хранилище (SSD), ГиБ: 180 (–552) или 360 (–372)
Максимальное число дисков данных: 8 (–4) или 16 (+4)
Ускорение сети: да (+)
Хранилище класса Premium: да (+)
Standard_ND12 Standard_NC16as_T4_v3 ЦП: Intel Broadwell — AMD Rome
Число ЦП: 1 (–1)
Поколение GPU: NVIDIA Pascal — Turing (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (–8)
Виртуальные ЦП: 16 (+4)
Память, ГиБ: 110 (–114)
Временное хранилище (SSD), ГиБ: 360 (–1,114)
Макс. число дисков данных: 48 (+16)
Ускорение сети: да (+)
Хранилище класса Premium: да (+)
Standard_ND24 Standard_NC64as_T4_v3* ЦП: Intel Broadwell — AMD Rome
Число GPU: 4 (то же самое)
Поколение GPU: NVIDIA Pascal — Turing (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (–8)
Виртуальные ЦП: 64 (+40)
Память, ГиБ: 440 (то же самое)
Временное хранилище (SSD), ГиБ: 2880 (то же самое)
Максимальное число дисков данных: 32 (то же самое)
Ускорение сети: да (+)
Хранилище класса Premium: да (+)
Standard_ND24r Standard_NC24rs_v3* ЦП: Intel Broadwell (то же самое)
Число GPU: 4 (то же самое)
Поколение GPU: NVIDIA Pascal — Volta (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (–8)
Виртуальные ЦП: 24 (+0)
Память, ГиБ: 448 (то же самое)
Временное хранилище (SSD), ГиБ: 2948 (то же самое)
Максимальное число дисков данных: 32 (то же самое)
Ускорение сети: нет (то же самое)
Хранилище класса Premium: да (+)
Внутреннее соединение InfiniBand: да (то же самое)

Виртуальные машины серии NC v2 с графическими процессорами NVIDIA Tesla P100 GPU

Виртуальные машины серии NC v2 — это платформа высокого уровня, изначально разработанная для рабочих нагрузок ИИ и глубокого обучения. Они обеспечивают превосходную производительность для глубокого обучения, при этом производительность ориентировочно на одном GPU примерно вдвое выше, чем у исходной серии NC. Виртуальные машины содержат графические процессоры NVIDIA Tesla P100 GPU и центральные процессоры Intel Xeon E5-2690 v4 (Broadwell). Как и в серии NC и ND, конфигурация серии NC v2 предусматривает низкую задержку (менее секунды), высокую пропускную способность сети за счет использования RDMA и подключения InfiniBand. Это позволяет выполнять масштабные задания, связанные с обучением, в которых задействованы многочисленные GPU.

Текущий размер виртуальной машины Целевой размер виртуальной машины Разница в спецификации
Standard_NC6s_v2 Standard_NC6s_v3 ЦП: Intel Broadwell (то же самое)
Число GPU: 1 (то же самое)
Поколение GPU: NVIDIA Pascal — Volta (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (то же самое)
Виртуальные ЦП: 6 (то же самое)
Память, ГиБ: 112 (то же самое)
Временное хранилище (SSD), ГиБ: 736 (то же самое)
Максимальное число дисков данных: 12 (то же самое)
Ускорение сети: нет (то же самое)
Хранилище класса Premium: да (+)
Standard_NC12s_v2 Standard_NC12s_v3 ЦП: Intel Broadwell (то же самое)
Число GPU: 2 (то же самое)
Поколение GPU: NVIDIA Pascal — Volta (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (то же самое)
Виртуальные ЦП: 12 (то же самое)
Память, ГиБ: 112 (то же самое)
Временное хранилище (SSD), ГиБ: 1474 (то же самое)
Максимальное число дисков данных: 24 (то же самое)
Ускорение сети: нет (то же самое)
Хранилище класса Premium: да (+)
Standard_NC24s_v2 Standard_NC24s_v3 ЦП: Intel Broadwell (то же самое)
Число GPU: 4 (то же самое)
Поколение GPU: NVIDIA Pascal — Volta (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (то же самое)
Виртуальные ЦП: 24 (то же самое)
Память, ГиБ: 448 (то же самое)
Временное хранилище (SSD), ГиБ: 2948 (то же самое)
Максимальное число дисков данных: 32 (то же самое)
Ускорение сети: нет (то же самое)
Хранилище класса Premium: да (+)
Standard_NC24rs_v2 Standard_NC24rs_v3* ЦП: Intel Broadwell (то же самое)
Число GPU: 4 (то же самое)
Поколение GPU: NVIDIA Pascal — Volta (+1 поколение)
Память GPU (ГиБ на один GPU): 16 (то же самое)
Виртуальные ЦП: 24 (то же самое)
Память, ГиБ: 448 (то же самое)
Временное хранилище (SSD), ГиБ: 2948 (то же самое)
Максимальное число дисков данных: 32 (то же самое)
Ускорение сети: нет (то же самое)
Хранилище класса Premium: да (+)
Внутреннее соединение InfiniBand: да (то же самое)

Этапы миграции

Общие изменения

  1. Выберите серию и размер для миграции. Воспользуйтесь калькулятором цен для получения дополнительных аналитических сведений.

  2. Получение квоты для серии целевых виртуальных машин

  3. Измените текущий размер виртуальной машины серии N* на целевое значение. Кроме того, это может быть полезно для обновления операционной системы, используемой в образе виртуальной машины, или внедрения одного из образов HPC с драйверами, предварительно установленными на начальном этапе.

    Важно!

    Образ виртуальной машины можно создать с помощью более старой версии среды выполнения CUDA, драйвера NVIDIA и (если применимо, только для размеров с поддержкой RDMA) драйверов Mellanox OFED, чем требуется для новой серии виртуальных машин GPU. Обновления можно выполнить в соответствии с инструкциями, указанными в документации по Azure.

Критические изменения

Выбор целевого размера для миграции

После оценки текущего использования необходимо принять решение, какой тип виртуальной машины GPU вам нужен. В зависимости от требований к рабочей нагрузке у вас может быть несколько различных вариантов.

Примечание

Рекомендуется выбирать размер виртуальной машины в зависимости от стоимости и производительности. Рекомендации, приведенные в настоящем руководстве, основаны на сравнении метрик производительности "один к одному" общего назначения и ближайшего соответствия с другой серии виртуальной машиной. Прежде чем выбрать правильный размер, сравните затраты, используя калькулятор цен Azure.

Важно!

Все устаревшие размеры серий NC, NC v2 и ND доступны в размерах с несколькими GPU, включая размеры 4-GPU с внутренними соединениями InfiniBand и без них для горизонтального увеличения масштаба, тесно связанные рабочие нагрузки, требующие дополнительной мощности вычислений, чем одна виртуальная машина с 4-GPU, или один графический процессор K80, P40 или P100 могут быть предоставлены соответственно. Хотя приведенные выше рекомендации предлагают прямолинейный путь выполнения, пользователи этих размеров должны сосредоточиться на достижении своей производительности с помощью более мощной серии виртуальных машин NVIDIA V100 на основе GPU, например серии NC v3-Series и ND v2, что, как правило, обеспечивает тот же уровень производительности рабочей нагрузки при меньших затратах и улучшает управляемость за счет значительно большей производительности, приходящейся на один GPU, и на одну виртуальную машину до тех пор, пока не потребуются конфигурации с несколькими GPU и несколькими узлами.

Получение квоты для семейства целевых виртуальных машин

Следуйте указаниям, чтобы запросить увеличение квоты виртуальных ЦП для семейства виртуальных машин. Выберите целевой размер виртуальной машины, выбранный для миграции.

Изменение размера текущей виртуальной машины

Вы можете изменить размер виртуальной машины.

Следующие шаги

Полный список размеров виртуальных машин с поддержкой GPU см. в статье Обзор GPU: ускоренные вычисления