Виртуальная машина графического процессора в Azure Stack Hub

Область применения: интегрированные системы Azure Stack Hub

В этой статье описывается, какие модели графического процессора поддерживаются в интегрированной системе центра Azure Stack. Вы также можете найти инструкции по установке драйверов, используемых с графическими процессорами. Поддержка GPU в концентраторе Azure Stack позволяет выполнять такие решения, как искусственный интеллект, обучение, вывод и визуализация данных. AMD Radeon Instinct MI25 можно использовать для поддержки приложений с интенсивным использованием графики, таких как Autodesk AutoCAD.

Можно выбрать одну из трех моделей GPU. Они доступны в видеоадаптерах NVIDIA V100, NVIDIA T4 и AMD MI25 GPU. Эти физические GPU выводятся в соответствии со следующими типами виртуальных машин Azure серии N следующим образом:

Предупреждение

В этом выпуске не поддерживаются виртуальные машины GPU. Необходимо выполнить обновление до Azure Stack центра 2005 или более поздней версии. Кроме того, оборудование центра Azure Stack должно иметь физические GPU.

NCv3

Виртуальные машины серии NCv3 созданы на базе GPU Tesla V100 от NVIDIA. Клиенты могут воспользоваться этими обновленными GPU для традиционных рабочих нагрузок HPC. Вы сможете реализовать такие сценарии, как пластовое моделирование, секвенирование ДНК, анализ белков, моделирование методом Монте-Карло и другие.

Размер vCPU Память: ГиБ Временное хранилище (SSD): ГиБ Графический процессор Память GPU: ГиБ Максимальное число дисков данных Максимальное число сетевых адаптеров
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

Виртуальные машины серии NVv4 работают с GPU AMD Radeon Instinct MI25. Azure Stack Hub серии NVv4 представляет виртуальные машины с частичными GPU. Этот размер можно использовать для графических приложений и виртуальных рабочих столов с ускорением GPU. Виртуальные машины NVv4 в настоящее время поддерживают только гостевую ОС Windows.

Размер vCPU Память: ГиБ Временное хранилище (SSD): ГиБ Графический процессор Память GPU: ГиБ Максимальное число дисков данных Максимальное число сетевых адаптеров
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Размер vCPU Память: ГиБ Графический процессор Память GPU: ГиБ Максимальное число дисков данных Максимальное число сетевых адаптеров
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

Рекомендации по системе GPU

  • GPU должен быть одним из следующих номеров SKU: AMD MI-25, NVIDIA V100 (и варианты), NVIDIA T4.
  • Число поддерживаемых процессоров на сервере (1, 2, 3, 4). Предпочтительные: 1, 2 и 4.
  • Все GPU должны иметь одинаковый номер SKU в пределах единицы масштабирования.
  • Все количества GPU на каждом сервере должны быть одинаковыми во всей единице масштабирования.
  • Размер раздела GPU (для AMD Mi25) должен быть одинаковым во всех виртуальных машинах GPU в единице масштабирования.

Планирование ресурсов

Планировщик емкости центра Azure Stack был обновлен для поддержки конфигураций GPU. Он доступен в https://aka.ms/azstackcapacityplanner .

Добавление GPU в существующий центр Azure Stack

Концентратор Azure Stack теперь поддерживает добавление GPU в любую существующую систему. Для этого выполните команду «azurestack», выполните процедуру, описанную в разделе «останавливается-azurestack», добавьте GPU, а затем запустите Start-azurestack до завершения. Если система уже имела GPU, то все ранее созданные виртуальные машины GPU необходимо будет освободить , а затем перезапустить.

Исправление и обновление, режим FRU виртуальных машин

Виртуальные машины GPU будут проходить простой во время таких операций, как исправление и обновление (ПНУ) и замена оборудования (FRU) центра Azure Stack. В следующей таблице рассматривается состояние виртуальной машины в ходе этих действий, а также ручное действие, которое позволяет сделать эти виртуальные машины доступными после выполнения операции.

Операция PnU — полное обновление, обновление Update, OEM FRU
Состояние виртуальной машины Недоступно во время обновления. Можно сделать доступным при ручной операции. Виртуальная машина автоматически обновляется после обновления. Недоступно во время FRU. Можно сделать доступным при ручной операции. Виртуальную машину необходимо восстановить после FRU
Операция, выполняемая вручную Если виртуальную машину необходимо сделать доступной во время обновления, при наличии доступных разделов GPU можно перезапустить виртуальную машину на портале, нажав кнопку перезапустить . Виртуальная машина автоматически получит резервную копию после обновления Виртуальная машина недоступна во время FRU. При наличии доступных графических процессоров виртуальная машина может быть приостановлена и перезапущена во время FRU. После завершения FRU необходимо отменить выделение виртуальной машины с помощью кнопки " Закрыть " и запустить резервное копирование с помощью кнопки " Пуск ".

Установка гостевого драйвера

Для установки драйверов можно использовать следующие командлеты PowerShell:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

В зависимости от операционной системы введите и подключение виртуальной машины GPU Azure Stack Hub, необходимо изменить с помощью параметров ниже.

AMD MI25 — подключено

Приведенную выше команду можно использовать с соответствующим типом драйвера для AMD. в статье устанавливаются драйверы amd GPU на виртуальных машинах серии N, где выполняется Windows содержатся инструкции по установке драйвера для AMD Radeon порывом MI25 на виртуальной машине с включенной NVv4 GPU-P, а также инструкции по проверке установки драйверов.

AMD MI25 — отключено

Так как расширение извлекает драйвер из расположения в Интернете, виртуальная машина, отключенная от внешней сети, не может получить к ней доступ. Вы можете скачать драйвер по ссылке ниже и отправить ее в учетную запись хранения в локальной сети, доступной для виртуальной машины.

URL-адрес драйвера: https://download.microsoft.com/download/3/8/9/3893407b-e8aa-4079-8592-735d7dd1c19a/Radeon-Pro-Software-for-Enterprise-GA.exe

добавьте указанный выше драйвер в учетную запись хранения и вложите URL-адрес в Параметры. Эти параметры потребуется использовать в командлете Set-AzureRMVMExtension .

$Settings = @{
"DriverURL" = <URL to Driver in Storage Account>
}

NVIDIA

Драйверы NVIDIA должны быть установлены внутри виртуальной машины для рабочих нагрузок CUDA или GRID с помощью GPU.

Вариант использования: сетка графики или визуализации

Этот сценарий требует использования драйверов сетки. Драйверы сетки можно скачать с помощью центра приложений NVIDIA, если у вас есть необходимые лицензии. Для драйверов сетки также требуется сервер лицензирования сетки с соответствующими лицензиями на СЕТКу, прежде чем использовать драйверы сетки на виртуальной машине.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Вариант использования: "COMPUTE/CUDA-Connected"

Драйверам CUDA не требуется сервер лицензий, и изменения параметров не требуются.

Вариант использования: "COMPUTE" или "CUDA-disconnected"

Ссылки на драйверы NVIDIA CUDA можно получить по ссылке: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Вам потребуется сослаться на некоторые URL-адреса для параметров.

URL-адрес Примечания
PUBKEY_URL PUBKEY_URL является открытым ключом для репозитория драйверов NVIDIA, а не для виртуальной машины Linux. Он используется для установки драйвера для Ubuntu.
DKMS_URL DKMS_URL используется для получения пакета для компиляции модуля ядра NVIDIA в RedHat/CentOs.
DRIVER_URL DRIVER_URL — это URL-адрес для скачивания сведений о репозитории драйвера NVIDIA, который добавляется в список репозиториев виртуальной машины Linux.
LIS_URL LIS_URL является URL-адресом для скачивания пакета службы интеграции Linux для RedHat/CentOs, Linux Integration Services V 4.3 для Hyper-V и Azure по URL-адресу по умолчанию он не установлен LIS_RHEL_ver является резервной версией ядра, которая должна работать с драйвером NVIDIA. Он используется в RedHat/CentOs, если ядро виртуальной машины Linux несовместимо с запрошенным драйвером NVIDIA.

Добавьте URL-адреса в параметры.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Дальнейшие действия