GPU (Graphics Processing Unit) virtuele machine (VM) op Azure Stack Hub

Waarschuwing

Dit artikel verwijst naar CentOS, een Linux-distributie die de EOL-status (End Of Life) nadert. Overweeg uw gebruik en plan dienovereenkomstig. Zie de richtlijnen voor het einde van de levensduur van CentOS voor meer informatie.

In dit artikel wordt beschreven welke GPU-modellen (Graphics Processing Unit) worden ondersteund op een geïntegreerd Azure Stack Hub-systeem. U kunt ook instructies vinden voor het installeren van de stuurprogramma's die worden gebruikt met de GPU's. GPU-ondersteuning in Azure Stack Hub maakt oplossingen mogelijk zoals kunstmatige intelligentie, training, deductie en gegevensvisualisatie. De AMD Radeon Instinct MI25 kan worden gebruikt ter ondersteuning van grafisch intensieve toepassingen, zoals Autodesk AutoCAD.

U kunt kiezen uit drie GPU-modellen. Ze zijn beschikbaar in GPU's van NVIDIA V100, NVIDIA T4 en AMD MI25. Deze fysieke GPU's zijn als volgt afgestemd op de volgende typen virtuele machines (VM's) uit de Azure N-serie:

Waarschuwing

GPU-VM's worden niet ondersteund in deze release. U moet een upgrade uitvoeren naar Azure Stack Hub 2005 of hoger. Bovendien moet uw Azure Stack Hub-hardware fysieke GPU's hebben.

NCv3

Vm's uit de NCv3-serie worden aangedreven door NVIDIA Tesla V100 GPU's. Klanten kunnen profiteren van deze bijgewerkte GPU's voor traditionele HPC-workloads, zoals reservoirmodellering, DNA-sequencing, eiwitanalyse, Monte Carlo-simulaties en andere.

Grootte vCPU Geheugen: GiB Tijdelijke opslag (SSD) GiB GPU GPU-geheugen: GiB Max. aantal gegevensschijven Max. aantal NIC's
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

De virtuele machines uit de NVv4-serie worden aangedreven door AMD Radeon Instinct MI25 GPU's. Met de NVv4-serie introduceert Azure Stack Hub virtuele machines met gedeeltelijke GPU's. Deze grootte kan worden gebruikt voor gpu-versnelde grafische toepassingen en virtuele bureaubladen. Virtuele NVv4-machines ondersteunen momenteel alleen het Windows-gastbesturingssysteem.

Grootte vCPU Geheugen: GiB Tijdelijke opslag (SSD) GiB GPU GPU-geheugen: GiB Max. aantal gegevensschijven Max. aantal NIC's
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Grootte vCPU Geheugen: GiB GPU GPU-geheugen: GiB Max. aantal gegevensschijven Max. aantal NIC's
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

De vm's uit de NC_A100-serie worden aangedreven door NVIDIA Ampere A100 GPU's, de opvolger van de Tesla V100 GPU's. U kunt profiteren van deze bijgewerkte GPU's voor traditionele HPC-workloads, zoals reservoirmodellering, DNA-sequencing, eiwitanalyse, Monte Carlo-simulaties en andere.

Grootte vCPU Geheugen: GiB Tijdelijke opslag (GiB) Max. aantal gegevensschijven GPU GPU-geheugen GiB Max. aantal NIC's
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

Overwegingen voor GPU-systeem

  • GPU moet een van deze SKU's zijn: AMD MI-25, Nvidia V100 (en varianten), Nvidia T4.
  • Het aantal GPU's per server dat wordt ondersteund (1, 2, 3, 4). Voorkeursinstelling is: 1, 2 en 4.
  • Alle GPU's moeten in de schaaleenheid exact dezelfde SKU hebben.
  • Alle GPU-hoeveelheden per server moeten hetzelfde zijn in de schaaleenheid.
  • De grootte van de GPU-partitie (voor AMD Mi25) moet hetzelfde zijn voor alle GPU-VM's op de schaaleenheid.

Capaciteitsplanning

De Azure Stack Hub-capaciteitsplanner is bijgewerkt om GPU-configuraties te ondersteunen. Het is toegankelijk op https://aka.ms/azstackcapacityplanner.

GPU's toevoegen aan een bestaande Azure Stack Hub

Azure Stack Hub ondersteunt nu het toevoegen van GPU's aan een bestaand systeem. Hiervoor voert u stop-azurestack uit, voert u de procedure stop-azurestack uit, voegt u GPU's toe en voert u start-azurestack uit totdat dit is voltooid. Als het systeem al GPU's had, moeten alle eerder gemaakte GPU-VM's worden gestopt en de toewijzing ongedaan worden gemaakt en vervolgens opnieuw worden opgestart.

Patch en update, FRU-gedrag van VM's

GPU-VM's ondergaan downtime tijdens bewerkingen zoals patch en update (PnU) en hardwarevervanging (FRU) van Azure Stack Hub. De volgende tabel bevat informatie over de status van de VM zoals waargenomen tijdens deze activiteiten en de handmatige actie die u kunt uitvoeren om deze VM's beschikbaar te maken na de bewerking.

Bewerking PnU - Volledige update, OEM-update FRU
VM-status Niet beschikbaar tijdens de update. Kan met handmatige bediening beschikbaar worden gesteld. VM is automatisch online na de update. Niet beschikbaar tijdens FRU. Kan met handmatige bediening beschikbaar worden gesteld. DE VM moet worden teruggezet na FRU
Handmatige bewerking Als de VM beschikbaar moet worden gesteld tijdens de update en er GPU-partities beschikbaar zijn, kan de VM opnieuw worden opgestart vanuit de portal door op de knop Opnieuw opstarten te klikken. De VM wordt automatisch na de update teruggezet VM is niet beschikbaar tijdens FRU. Als er beschikbare GPU's zijn, kan de toewijzing van de VM worden opgeheven en opnieuw worden gestart tijdens FRU. Na voltooiing van FRU moet de toewijzing van de VM worden gestopt met behulp van de knop Stoppen en opnieuw worden gestart met behulp van de startknop .

Installatie van gaststuurprogramma

De volgende PowerShell-cmdlets kunnen worden gebruikt voor de installatie van het stuurprogramma:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Afhankelijk van het besturingssysteem, het type en de connectiviteit van uw AZURE Stack Hub GPU-VM, moet u wijzigen met de onderstaande instellingen.

AMD MI25

De versie van het gaststuurprogramma moet overeenkomen met de versie van Azure Stack Hub, ongeacht de connectiviteitsstatus. Het gebruik van nieuwere versies die niet zijn afgestemd op de Azure Stack Hub-versie, kan problemen met de bruikbaarheid veroorzaken.

Azure Stack Hub-versie AMD-gaststuurprogramma
2206 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Verbonden

Gebruik het PowerShell-script in de vorige sectie met het juiste stuurprogrammatype voor AMD. Het artikel AMD GPU-stuurprogramma's installeren op vm's uit de N-serie waarop Windows wordt uitgevoerd , bevat instructies voor het installeren van het stuurprogramma voor de AMD Radeon Instinct MI25 in de VM met NVv4 GPU-P, samen met stappen voor het controleren van de installatie van stuurprogramma's.

Ontkoppeld

Omdat de extensie het stuurprogramma ophaalt vanaf een locatie op internet, heeft een VM die is losgekoppeld van het externe netwerk, geen toegang tot het stuurprogramma. U kunt het stuurprogramma uit de vorige tabel downloaden en uploaden naar een opslagaccount in uw lokale netwerk dat toegankelijk is voor de virtuele machine.

Voeg het AMD-stuurprogramma toe aan een opslagaccount en geef de URL naar dat account op in Settings. Deze instellingen moeten worden gebruikt in de cmdlet Set-AzureRMVMExtension . Bijvoorbeeld:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

NVIDIA-stuurprogramma's moeten worden geïnstalleerd in de virtuele machine voor CUDA- of GRID-workloads met behulp van de GPU.

Gebruiksvoorbeeld: afbeeldingen/visualisatie GRID

Voor dit scenario is het gebruik van GRID-stuurprogramma's vereist. GRID-stuurprogramma's kunnen worden gedownload via de NVIDIA Application Hub, mits u over de vereiste licenties beschikt. Voor de GRID-stuurprogramma's is ook een GRID-licentieserver met de juiste GRID-licenties vereist voordat u de GRID-stuurprogramma's op de VM kunt gebruiken.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Gebruiksvoorbeeld: compute/CUDA - Verbonden

CUDA-stuurprogramma's hebben geen licentieserver nodig en hebben geen gewijzigde instellingen nodig.

Gebruiksvoorbeeld: compute/CUDA - Verbinding verbroken

Koppelingen naar NVIDIA CUDA-stuurprogramma's kunnen worden verkregen via de koppeling: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

U moet verwijzen naar enkele URL's voor uw instellingen.

URL Notities
PUBKEY_URL De PUBKEY_URL is de openbare sleutel voor de opslagplaats met nvidia-stuurprogramma's en niet voor de Linux-VM. Het wordt gebruikt om het stuurprogramma voor Ubuntu te installeren.
DKMS_URL DKMS_URL wordt gebruikt om het pakket op te halen om de Nvidia-kernelmodule op RedHat/CentOs te compileren.
DRIVER_URL DRIVER_URL is de URL voor het downloaden van de opslagplaatsinformatie van het Nvidia-stuurprogramma en wordt toegevoegd aan de lijst met opslagplaatsen van de Linux-VM.
LIS_URL LIS_URL is de URL voor het downloaden van het Linux Integration Service-pakket voor RedHat/CentOs, Linux Integration Services v4.3 voor Hyper-V en Azure standaard https://www.microsoft.com/download/details.aspx?id=55106 niet geïnstalleerd LIS_RHEL_ver is de terugval kernelversie die moet werken met het Nvidia-stuurprogramma. Deze wordt gebruikt op RedHat/CentOs als de kernel van de Linux-VM niet compatibel is met het aangevraagde Nvidia-stuurprogramma.

Voeg de URL's toe aan uw instellingen.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Volgende stappen