Virtuální počítač s grafickým procesorem (GPU) ve službě Azure Stack Hub

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu konce životnosti (EOL). Zvažte prosím své použití a naplánujte podle toho. Další informace najdete v pokynech ke konci životnosti CentOS.

Tento článek popisuje, které modely grafických procesorů (GPU) jsou podporované v integrovaném systému Azure Stack Hubu. Můžete také najít pokyny k instalaci ovladačů používaných s grafickými procesory. Podpora GPU ve službě Azure Stack Hub umožňuje řešení, jako je umělá inteligence, trénování, odvozování a vizualizace dat. AMD Radeon Instinct MI25 lze použít k podpoře graficky náročných aplikací, jako je Autodesk AutoCAD.

Můžete si vybrat ze tří modelů GPU. Jsou k dispozici v grafických procesorech NVIDIA V100, NVIDIA T4 a AMD MI25. Tyto fyzické gpu jsou v souladu s následujícími typy virtuálních počítačů řady Azure N-Series:

Upozornění

Virtuální počítače GPU nejsou v této verzi podporované. Budete muset upgradovat na Azure Stack Hub 2005 nebo novější. Kromě toho musí váš hardware služby Azure Stack Hub obsahovat fyzické gpu.

NCv3

Virtuální počítače řady NCv3 jsou poháněné grafickými procesory NVIDIA Tesla V100. Zákazníci můžou tyto aktualizované grafické procesory využívat pro tradiční úlohy HPC, jako je modelování nádrží, sekvenování DNA, analýza proteinů, simulace Monte Carlo a další.

Velikost Virtuální procesory Paměť: GiB Dočasné úložiště (SSD): GiB GPU Paměť GPU: GiB Max. datových disků Maximální počet síťových karet
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

Virtuální počítače řady NVv4-series využívají gpu AMD Radeon Instinct MI25. V případě řady NVv4 zavádí Azure Stack Hub virtuální počítače s částečnými grafickými procesory. Tuto velikost lze použít pro grafické aplikace s akcelerací GPU a virtuální plochy. Virtuální počítače NVv4 v současné době podporují pouze hostovaný operační systém Windows.

Velikost Virtuální procesory Paměť: GiB Dočasné úložiště (SSD): GiB GPU Paměť GPU: GiB Max. datových disků Maximální počet síťových karet
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Velikost Virtuální procesory Paměť: GiB GPU Paměť GPU: GiB Max. datových disků Maximální počet síťových karet
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

Virtuální počítače řady NC_A100 využívají grafické procesory NVIDIA Ampere A100, které jsou následníky grafických procesorů Tesla V100. Tyto aktualizované grafické procesory můžete využít pro tradiční úlohy PROSTŘEDÍ HPC, jako je modelování nádrží, sekvenování DNA, analýza proteinů, simulace Monte Carlo a další.

Velikost Virtuální procesory Paměť: GiB Dočasné úložiště (GiB) Max. datových disků GPU GiB paměti GPU Maximální počet síťových karet
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

Důležité informace o systému GPU

  • GPU musí být jednou z těchto skladových položek: AMD MI-25, Nvidia V100 (a varianty), Nvidia T4.
  • Počet podporovaných gpu na server (1, 2, 3, 4) Upřednostňované jsou: 1, 2 a 4.
  • Všechny grafické procesory musí mít v celé jednotce škálování přesně stejnou skladovou položku.
  • Všechna množství GPU na server musí být v celé jednotce škálování stejná.
  • Velikost oddílu GPU (pro AMD Mi25) musí být stejná na všech virtuálních počítačích GPU na jednotce škálování.

Plánování kapacity

Plánovač kapacity služby Azure Stack Hub byl aktualizován tak, aby podporoval konfigurace GPU. Je přístupný na .https://aka.ms/azstackcapacityplanner

Přidání GPU do existujícího služby Azure Stack Hub

Azure Stack Hub teď podporuje přidávání gpu do libovolného existujícího systému. Provedete to tak, že spustíte stop-azurestack, projdete postupem stop-azurestack, přidáte GPU a pak spustíte start-azurestack až do dokončení. Pokud už systém grafické procesory GPU měl, bude potřeba zastavit a restartovat všechny dříve vytvořené virtuální počítače GPU.

Opravy a aktualizace, chování FRU virtuálních počítačů

Virtuální počítače GPU projdou výpadky během operací, jako jsou opravy a aktualizace (PnU) a výměna hardwaru (FRU) služby Azure Stack Hub. Následující tabulka popisuje stav virtuálního počítače během těchto aktivit a ruční akci, kterou můžete provést, abyste tyto virtuální počítače po operaci zpřístupnili.

Operace PnU – úplná aktualizace, aktualizace OEM FRU
Stav virtuálního počítače Během aktualizace není k dispozici. Může být k dispozici s ručním ovládáním. Virtuální počítač je po aktualizaci automaticky online. Není k dispozici během FRU. Může být k dispozici s ručním ovládáním. Virtuální počítač je potřeba po FRU vrátit zpět
Ruční operace Pokud je potřeba virtuální počítač během aktualizace zpřístupnit a pokud jsou k dispozici oddíly GPU, můžete virtuální počítač restartovat z portálu kliknutím na tlačítko Restartovat . Virtuální počítač se po aktualizaci automaticky vrátí zpět Virtuální počítač není během FRU k dispozici. Pokud jsou k dispozici grafické procesory, virtuální počítač se může zastavit a během FRU restartovat. Po dokončení FRU je potřeba virtuální počítač zastavit a uvolnit pomocí tlačítka Zastavit a spustit zálohování pomocí tlačítka Start .

Instalace ovladače hosta

K instalaci ovladače je možné použít následující rutiny PowerShellu:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

V závislosti na operačním systému, typu a připojení virtuálního počítače GPU služby Azure Stack Hub budete muset provést změny pomocí nastavení níže.

AMD MI25

Verze ovladače hosta musí odpovídat verzi služby Azure Stack Hub bez ohledu na stav připojení. Použití novějších verzí, které nejsou v souladu s verzí služby Azure Stack Hub, může způsobit problémy s použitelností.

Verze služby Azure Stack Hub Ovladač hosta AMD
2206 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Připojeno

Použijte skript PowerShellu v předchozí části s příslušným typem ovladače pro AMD. Článek Instalace ovladačů AMD GPU na virtuální počítače řady N-series se systémem Windows obsahuje pokyny k instalaci ovladače pro AMD Radeon Instinct MI25 na virtuálním počítači s podporou GPU-P NVv4 a pokyny k ověření instalace ovladače.

Odpojeno

Vzhledem k tomu, že rozšíření stáhne ovladač z umístění na internetu, virtuální počítač, který je odpojený od externí sítě, k němu nemůže získat přístup. Ovladač si můžete stáhnout z předchozí tabulky a nahrát ho do účtu úložiště v místní síti, který je přístupný pro virtuální počítač.

Přidejte ovladač AMD do účtu úložiště a zadejte adresu URL pro tento účet v nástroji Settings. Tato nastavení se musí použít v rutině Set-AzureRMVMExtension . Příklad:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Ovladače NVIDIA musí být nainstalované uvnitř virtuálního počítače pro úlohy CUDA nebo GRID využívající GPU.

Případ použití: grafika/vizualizace GRID

Tento scénář vyžaduje použití ovladačů GRID. Ovladače GRID je možné stáhnout prostřednictvím centra aplikací NVIDIA za předpokladu, že máte požadované licence. Ovladače GRID také před použitím ovladačů GRID na virtuálním počítači vyžadují licenční server GRID s příslušnými licencemi GRID.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Případ použití: compute/CUDA – Připojeno

Ovladače CUDA nepotřebují licenční server a nepotřebují měnit nastavení.

Případ použití: compute/CUDA – Odpojeno

Odkazy na ovladače NVIDIA CUDA lze získat pomocí odkazu: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Pro nastavení budete muset odkazovat na některé adresy URL.

URL Poznámky
PUBKEY_URL PUBKEY_URL je veřejný klíč pro úložiště ovladačů Nvidia, nikoli pro virtuální počítač s Linuxem. Používá se k instalaci ovladače pro Ubuntu.
DKMS_URL DKMS_URL se používá k získání balíčku ke kompilaci modulu jádra Nvidia na RedHat/CentOs.
DRIVER_URL DRIVER_URL je adresa URL pro stažení informací o úložišti ovladače Nvidia a přidá se do seznamu úložišť virtuálního počítače s Linuxem.
LIS_URL LIS_URL je adresa URL pro stažení balíčku linuxové integrační služby pro RedHat/CentOs, Linux Integration Services v4.3 pro Hyper-V a Azure na adrese URL https://www.microsoft.com/download/details.aspx?id=55106 se ve výchozím nastavení nenainstaluje LIS_RHEL_ver je záložní verze jádra, která by měla fungovat s ovladačem Nvidia. Používá se v RedHat/CentOs, pokud jádro virtuálního počítače s Linuxem není kompatibilní s požadovaným ovladačem Nvidia.

Přidejte adresy URL do nastavení.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Další kroky