Virtuell GPU-dator på Azure Stack Hub

Varning

Den här artikeln refererar till CentOS, en Linux-distribution som närmar sig EOL-status (End Of Life). Överväg att använda och planera i enlighet med detta. Mer information finns i CentOS End Of Life-vägledningen.

Den här artikeln beskriver vilka GPU-modeller (graphics processing unit) som stöds i ett integrerat Azure Stack Hub-system. Du hittar också instruktioner om hur du installerar drivrutinerna som används med GPU:er. GPU-stöd i Azure Stack Hub möjliggör lösningar som artificiell intelligens, träning, slutsatsdragning och datavisualisering. AMD Radeon Instinct MI25 kan användas för att stödja grafikintensiva program som Autodesk AutoCAD.

Du kan välja mellan tre GPU-modeller. De finns i NVIDIA V100, NVIDIA T4 och AMD MI25 GPU:er. Dessa fysiska GPU:er överensstämmer med följande typer av virtuella Datorer i Azure N-serien (VM) på följande sätt:

Varning

Virtuella GPU-datorer stöds inte i den här versionen. Du måste uppgradera till Azure Stack Hub 2005 eller senare. Dessutom måste din Azure Stack Hub-maskinvara ha fysiska GPU:er.

NCv3

Virtuella datorer i NCv3-serien drivs av NVIDIA Tesla V100 GPU:er. Kunder kan dra nytta av dessa uppdaterade GPU:er för traditionella HPC-arbetsbelastningar som modellering av reservoarer, DNA-sekvensering, proteinanalys, Monte Carlo-simuleringar med mera.

Storlek Virtuell processor Minne: GiB Temporär lagring (SSD) GiB GPU GPU-minne: GiB Maximalt antal datadiskar Maximalt antal nätverkskort
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

De virtuella datorerna i NVv4-serien drivs av AMD Radeon Instinct MI25 GPU:er. Med NVv4-serien introducerar Azure Stack Hub virtuella datorer med partiella GPU:er. Den här storleken kan användas för GPU-accelererade grafikprogram och virtuella skrivbord. Virtuella NVv4-datorer stöder för närvarande endast Windows-gästoperativsystem.

Storlek Virtuell processor Minne: GiB Temporär lagring (SSD) GiB GPU GPU-minne: GiB Maximalt antal datadiskar Maximalt antal nätverkskort
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Storlek Virtuell processor Minne: GiB GPU GPU-minne: GiB Maximalt antal datadiskar Maximalt antal nätverkskort
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

De virtuella datorerna i NC_A100-serien drivs av NVIDIA Ampere A100 GPU:er, efterföljaren till Tesla V100 GPU:er. Du kan dra nytta av dessa uppdaterade GPU:er för traditionella HPC-arbetsbelastningar som modellering av reservoarer, DNA-sekvensering, proteinanalys, Monte Carlo-simuleringar med mera.

Storlek Virtuell processor Minne: GiB Temporär lagring (GiB) Maximalt antal datadiskar GPU GPU-minne GiB Maximalt antal nätverkskort
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

GPU-systemöverväganden

  • GPU måste vara en av dessa SKU:er: AMD MI-25, Nvidia V100 (och varianter), Nvidia T4.
  • Antal GPU:er per server som stöds (1, 2, 3, 4). Önskade är: 1, 2 och 4.
  • Alla GPU:er måste ha exakt samma SKU i hela skalningsenheten.
  • Alla GPU-kvantiteter per server måste vara desamma i hela skalningsenheten.
  • GPU-partitionsstorleken (för AMD Mi25) måste vara densamma i alla virtuella GPU-datorer i skalningsenheten.

Kapacitetsplanering

Kapacitetshanteraren för Azure Stack Hub har uppdaterats för att stödja GPU-konfigurationer. Den är tillgänglig på https://aka.ms/azstackcapacityplanner.

Lägga till GPU:er på en befintlig Azure Stack Hub

Azure Stack Hub har nu stöd för att lägga till GPU:er i alla befintliga system. Det gör du genom att köra stop-azurestack, köra proceduren för stop-azurestack, lägga till GPU:er och sedan köra start-azurestack tills det är klart. Om systemet redan hade GPU:er måste alla tidigare skapade virtuella GPU-datorer stoppas och sedan startas om.

Korrigering och uppdatering, FRU-beteende för virtuella datorer

Virtuella GPU-datorer kommer att utsättas för driftstopp under åtgärder som korrigering och uppdatering (PnU) och maskinvarubyte (FRU) för Azure Stack Hub. I följande tabell beskrivs tillståndet för den virtuella datorn enligt vad som observerats under dessa aktiviteter och den manuella åtgärd som du kan göra för att göra dessa virtuella datorer tillgängliga efter åtgärden.

Åtgärd PnU – fullständig uppdatering, OEM-uppdatering FRU
VM-tillstånd Inte tillgänglig under uppdateringen. Kan göras tillgängligt med manuell drift. Den virtuella datorn är automatiskt online efter uppdatering. Ej tillgänglig under FRU. Kan göras tillgängligt med manuell drift. Den virtuella datorn måste tas upp igen efter FRU
Manuell åtgärd Om den virtuella datorn måste göras tillgänglig under uppdateringen, om det finns tillgängliga GPU-partitioner, kan den virtuella datorn startas om från portalen genom att klicka på knappen Starta om . Den virtuella datorn säkerhetskopieras automatiskt efter uppdateringen Den virtuella datorn är inte tillgänglig under FRU. Om det finns tillgängliga GPU:er kan den virtuella datorn stoppas och startas om under FRU. Efter FRU-slutförandet måste den virtuella datorn stoppas med knappen Stoppa och startas igen med startknappen.

Installation av gästdrivrutiner

Följande PowerShell-cmdletar kan användas för drivrutinsinstallation:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Beroende på operativsystem, typ och anslutning för din virtuella Azure Stack Hub GPU-dator måste du ändra med inställningarna nedan.

AMD MI25

Gästdrivrutinsversionen måste matcha Azure Stack Hub-versionen, oavsett anslutningstillstånd. Användning av nyare versioner som inte är anpassade till Azure Stack Hub-versionen kan orsaka användbarhetsproblem.

Azure Stack Hub-version AMD-gästdrivrutin
2206 21.Q2-1, 20.Q4-1
2108 21.Q2-1, 20.Q4-1
2102 21.Q2-1, 20.Q4-1

Ansluten

Använd PowerShell-skriptet i föregående avsnitt med lämplig drivrutinstyp för AMD. Artikeln Installera AMD GPU-drivrutiner på virtuella datorer i N-serien som kör Windows innehåller instruktioner om hur du installerar drivrutinen för AMD Radeon Instinct MI25 i den virtuella NVv4 GPU-P-aktiverade virtuella datorn, tillsammans med steg om hur du verifierar drivrutinsinstallationen.

Frånkopplad

Eftersom tillägget hämtar drivrutinen från en plats på Internet kan en virtuell dator som är frånkopplad från det externa nätverket inte komma åt den. Du kan ladda ned drivrutinen från föregående tabell och ladda upp till ett lagringskonto i ditt lokala nätverk som är tillgängligt för den virtuella datorn.

Lägg till AMD-drivrutinen i ett lagringskonto och ange URL:en till kontot i Settings. De här inställningarna måste användas i cmdleten Set-AzureRMVMExtension . Exempel:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

NVIDIA-drivrutiner måste installeras på den virtuella datorn för CUDA- eller GRID-arbetsbelastningar med hjälp av GPU:n.

Användningsfall: grid för grafik/visualisering

Det här scenariot kräver användning av GRID-drivrutiner. GRID-drivrutiner kan laddas ned via NVIDIA Application Hub förutsatt att du har de licenser som krävs. GRID-drivrutinerna kräver också en GRID-licensserver med lämpliga GRID-licenser innan du använder GRID-drivrutinerna på den virtuella datorn.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Användningsfall: compute/CUDA – Ansluten

CUDA-drivrutiner behöver ingen licensserver och behöver inte ändra inställningarna.

Användningsfall: compute/CUDA – Frånkopplad

Länkar till NVIDIA CUDA-drivrutiner kan hämtas med hjälp av länken: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Du måste referera till några URL:er för dina inställningar.

URL Kommentarer
PUBKEY_URL PUBKEY_URL är den offentliga nyckeln för Nvidia-drivrutinslagringsplatsen, inte för den virtuella Linux-datorn. Den används för att installera drivrutinen för Ubuntu.
DKMS_URL DKMS_URL används för att hämta paketet för att kompilera Nvidia-kernelmodulen på RedHat/CentOs.
DRIVER_URL DRIVER_URL är URL:en för att ladda ned Nvidia-drivrutinens lagringsplatsinformation och den läggs till i den virtuella Linux-datorns lista över lagringsplatser.
LIS_URL LIS_URL är URL:en för att ladda ned Linux Integration Service-paketet för RedHat/CentOs, Linux Integration Services v4.3 för Hyper-V och Azure på URL som https://www.microsoft.com/download/details.aspx?id=55106 standard är det inte installerat LIS_RHEL_ver är den återställningskärnversion som bör fungera med Nvidia-drivrutinen. Den används på RedHat/CentOs om den virtuella Linux-datorns kernel inte är kompatibel med den begärda Nvidia-drivrutinen.

Lägg till URL:erna i inställningarna.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Nästa steg