Виртуальная машина графического процессора в Azure Stack Hub

Внимание!

В этой статье содержится ссылка на CentOS, дистрибутив Linux, который находится на грани окончания срока службы (EOL). Пожалуйста, рассмотрите использование и спланируйте соответствующим образом. Дополнительные сведения см. в руководстве по окончании жизненного циклов CentOS.

В этой статье описывается, какие модели графических процессоров (GPU) поддерживаются в интегрированной системе Azure Stack Hub. Вы также можете найти инструкции по установке драйверов, используемых с графическими процессорами. Поддержка GPU в Azure Stack Hub предоставляет такие решения, как искусственный интеллект, обучение, вывод и визуализация данных. AMD Radeon Instinct MI25 можно использовать для поддержки приложений с интенсивным использованием графики, таких как Autodesk AutoCAD.

Вы можете выбрать из трех моделей GPU. Они доступны в GPU NVIDIA V100, NVIDIA T4 и AMD MI25. Эти физические GPU соответствуют следующим типам виртуальных машин Azure серии N:

Предупреждение

Виртуальные машины GPU не поддерживаются в этом выпуске. Вам потребуется выполнить обновление до Azure Stack Hub 2005 или более поздней версии. Кроме того, оборудование Azure Stack Hub должно иметь физические GPU.

NCv3

Виртуальные машины серии NCv3 созданы на базе GPU Tesla V100 от NVIDIA. Клиенты могут воспользоваться этими обновленными GPU для традиционных рабочих нагрузок HPC. Вы сможете реализовать такие сценарии, как пластовое моделирование, секвенирование ДНК, анализ белков, моделирование методом Монте-Карло и другие.

Размер vCPU Память: ГиБ Временное хранилище (SSD): ГиБ Графический процессор Память GPU: ГиБ Максимальное число дисков данных Максимальное число сетевых адаптеров
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

Виртуальные машины серии NVv4 работают с GPU AMD Radeon Instinct MI25. Azure Stack Hub серии NVv4 представляет виртуальные машины с частичными GPU. Этот размер можно использовать для графических приложений и виртуальных рабочих столов с ускорением GPU. Виртуальные машины NVv4 в настоящее время поддерживают только гостевую ОС Windows.

Размер vCPU Память: ГиБ Временное хранилище (SSD): ГиБ Графический процессор Память GPU: ГиБ Максимальное число дисков данных Максимальное число сетевых адаптеров
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Размер vCPU Память: ГиБ Графический процессор Память GPU: ГиБ Максимальное число дисков данных Максимальное число сетевых адаптеров
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 версии 4

Виртуальные машины серии NC_A100 работают на gpu NVIDIA Ampere A100, который является преемником GPU Tesla V100. Вы можете воспользоваться преимуществами этих обновленных gpu для традиционных рабочих нагрузок HPC, таких как моделирование резервуаров, секвенирование ДНК, анализ белка, моделирование Монте-Карло и другие.

Размер vCPU Память: ГиБ Временное хранилище, Гиб Максимальное число дисков данных Графический процессор Память GPU ГиБ Максимальное число сетевых адаптеров
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

Рекомендации по системе GPU

  • GPU должен быть одним из следующих номеров SKU: AMD MI-25, Nvidia V100 (и варианты), Nvidia T4.
  • Количество поддерживаемых GPU на сервер (1, 2, 3, 4). Предпочтительнее: 1, 2 и 4.
  • Все GPU должны иметь одинаковый номер SKU во всей единице масштабирования.
  • Все объемы GPU на сервер должны быть одинаковыми во всей единице масштабирования.
  • Размер секции GPU (для AMD Mi25) должен быть одинаковым на всех виртуальных машинах GPU в единице масштабирования.

Планирование емкостей

Планировщик ресурсов Azure Stack Hub обновлен для поддержки конфигураций GPU. Он доступен в https://aka.ms/azstackcapacityplanner.

Добавление графических процессоров в существующий Экземпляр Azure Stack Hub

Azure Stack Hub теперь поддерживает добавление GPU в любую существующую систему. Для этого выполните команду stop-azurestack, выполните процедуру stop-azurestack, добавьте gpu, а затем запустите start-azurestack до завершения. Если в системе уже были GPU, все ранее созданные виртуальные машины GPU необходимо будет остановить иперезапустить.

Исправление и обновление, поведение FRU виртуальных машин

Виртуальные машины GPU будут простои во время таких операций, как исправление и обновление (PnU) и замена оборудования (FRU) Azure Stack Hub. В следующей таблице описано состояние виртуальной машины, которое наблюдалось во время этих действий, и действия, которые можно выполнить вручную, чтобы сделать эти виртуальные машины доступными после операции.

Операция PnU — полное обновление, обновление Update, OEM FRU
Состояние виртуальной машины Недоступно во время обновления. Можно сделать доступным с помощью ручной операции. Виртуальная машина автоматически подключена к сети после обновления. Недоступно во время FRU. Можно сделать доступным с помощью ручной операции. Виртуальную машину необходимо вернуть обратно после FRU
Операция, выполняемая вручную Если виртуальная машина должна быть доступна во время обновления, если есть доступные разделы GPU, ее можно перезапустить на портале, нажав кнопку Перезапустить . Виртуальная машина автоматически вернется после обновления Виртуальная машина недоступна во время FRU. При наличии доступных GPU виртуальная машина может быть остановлена и перезапущена во время FRU. После завершения FRU виртуальная машина должна быть остановлена и освобождена с помощью кнопки Остановить и запущена резервное копирование с помощью кнопки Пуск .

Установка гостевого драйвера

Для установки драйвера можно использовать следующие командлеты PowerShell:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

В зависимости от операционной системы, типа и подключения виртуальной машины GPU Azure Stack Hub необходимо изменить с помощью приведенных ниже параметров.

AMD MI25

Версия гостевого драйвера должна соответствовать версии Azure Stack Hub независимо от состояния подключения. Использование более новых версий, не согласованных с версией Azure Stack Hub, может привести к проблемам с удобством использования.

Версия Azure Stack Hub Гостевой драйвер AMD
2206 21.2-1, 20.Q4-1
2108 21.2-1, 20.Q4-1
2102 21.2-1, 20.Q4-1

Подключен

Используйте сценарий PowerShell из предыдущего раздела с соответствующим типом драйвера для AMD. В статье Установка драйверов AMD GPU на виртуальных машинах серии N под управлением Windows приведены инструкции по установке драйвера для AMD Nvidia Instinct MI25 на виртуальной машине с поддержкой NVv4 GPU-P, а также инструкции по проверке установки драйвера.

Отключен

Так как расширение извлекает драйвер из расположения в Интернете, виртуальная машина, отключенная от внешней сети, не может получить к нему доступ. Вы можете скачать драйвер из предыдущей таблицы и отправить его в учетную запись хранения в локальной сети, доступную для виртуальной машины.

Добавьте драйвер AMD в учетную запись хранения и укажите URL-адрес этой учетной записи в Settings. Эти параметры необходимо использовать в командлете Set-AzureRMVMExtension . Пример:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Драйверы NVIDIA должны быть установлены на виртуальной машине для рабочих нагрузок CUDA или GRID с помощью GPU.

Вариант использования: графика и визуализация GRID

Для этого сценария требуется использование драйверов GRID. Драйверы GRID можно скачать через центр приложений NVIDIA при условии, что у вас есть необходимые лицензии. Для использования драйверов GRID на виртуальной машине также требуется сервер лицензирования GRID с соответствующими лицензиями GRID.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Вариант использования: вычисление/CUDA — подключено

Драйверам CUDA не требуется сервер лицензий и не требуются измененные параметры.

Вариант использования: compute/CUDA — Отключено

Ссылки на драйверы NVIDIA CUDA можно получить по ссылке: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Вам потребуется сослаться на некоторые URL-адреса параметров.

URL-адрес Примечания
PUBKEY_URL PUBKEY_URL является открытым ключом для репозитория драйверов Nvidia, а не для виртуальной машины Linux. Он используется для установки драйвера для Ubuntu.
DKMS_URL DKMS_URL используется для получения пакета для компиляции модуля ядра Nvidia в RedHat/CentOs.
DRIVER_URL DRIVER_URL — это URL-адрес для скачивания сведений о репозитории драйвера Nvidia, который добавляется в список репозиториев виртуальной машины Linux.
LIS_URL LIS_URL — ЭТО URL-адрес для скачивания пакета службы интеграции Linux для RedHat/CentOs, Linux Integration Services версии 4.3 для Hyper-V и Azure по URL-адресуhttps://www.microsoft.com/download/details.aspx?id=55106 по умолчанию он не установлен LIS_RHEL_ver является резервной версией ядра, которая должна работать с драйвером Nvidia. Он используется в RedHat/CentOs, если ядро виртуальной машины Linux несовместимо с запрошенным драйвером Nvidia.

Добавьте URL-адреса в параметры.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Дальнейшие действия