Macchina virtuale dell'unità di elaborazione grafica (Graphics Processing Unit, GPU) nell'hub di Azure Stack

Si applica a: hub di Azure Stack sistemi integrati

Questo articolo descrive i modelli di unità di elaborazione grafica (GPU) supportati in un hub di Azure Stack integrato. È anche possibile trovare istruzioni sull'installazione dei driver usati con le GPU. Il supporto della GPU in hub di Azure Stack soluzioni come intelligenza artificiale, training, inferenza e visualizzazione dei dati. AMD Radeon Istintivo MI25 può essere usato per supportare applicazioni a elevato utilizzo di grafica, ad esempio Autodesk AutoCAD.

È possibile scegliere tra tre modelli GPU. Sono disponibili nelle GPU NVIDIA V100, NVIDIA T4 e AMD MI25. Queste GPU fisiche sono allineate ai tipi di macchina virtuale (VM) serie N di Azure seguenti, come indicato di seguito:

Avviso

Le macchine virtuali GPU non sono supportate in questa versione. Sarà necessario eseguire l'aggiornamento a hub di Azure Stack 2005 o versione successiva. Inoltre, l'hardware hub di Azure Stack deve avere GPU fisiche.

NCv3

Le macchine virtuali serie NCv3 sono basate sulle GPU NVIDIA Tesla V100. I clienti possono sfruttare i vantaggi di queste GPU aggiornate per carichi di lavoro HPC tradizionali, come la modellazione delle riserve, il sequenziamento del DNA, l'analisi di proteine, le simulazioni Monte Carlo e altro ancora.

Dimensione vCPU Memoria: GiB GiB di archiviazione temp (unità SSD) GPU Memoria GPU: GiB Numero massimo di dischi dati Schede di interfaccia di rete max
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

Le macchine virtuali serie NVv4 sono basate su GPU AMD Radeon Istintiva MI25 . Con la serie NVv4 hub di Azure Stack l'introduzione di macchine virtuali con GPU parziali. Queste dimensioni possono essere usate per applicazioni grafiche con accelerazione GPU e desktop virtuali. Le macchine virtuali NVv4 attualmente supportano solo Windows sistema operativo guest.

Dimensione vCPU Memoria: GiB GiB di archiviazione temp (unità SSD) GPU Memoria GPU: GiB Numero massimo di dischi dati Schede di interfaccia di rete max
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Dimensione vCPU Memoria: GiB GPU Memoria GPU: GiB Numero massimo di dischi dati Schede di interfaccia di rete max
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

Considerazioni sul sistema GPU

  • La GPU deve essere uno di questi SKU: AMD MI-25, Nvidia V100 (e varianti), Nvidia T4.
  • Numero di GPU per server supportate (1, 2, 3, 4). I preferiti sono: 1, 2 e 4.
  • Tutte le GPU devono essere dello stesso SKU esatto in tutta l'unità di scala.
  • Tutte le quantità di GPU per server devono essere le stesse in tutta l'unità di scala.
  • Le dimensioni della partizione GPU (per AMD Mi25) devono essere le stesse in tutte le macchine virtuali GPU nell'unità di scala.

Pianificazione della capacità

Il hub di Azure Stack capacity planner è stato aggiornato per supportare le configurazioni GPU. È accessibile in https://aka.ms/azstackcapacityplanner.

Aggiunta di GPU in un hub di Azure Stack

hub di Azure Stack ora supporta l'aggiunta di GPU a qualsiasi sistema esistente. A tale scopo, eseguire stop-azurestack, eseguire la procedura stop-azurestack, aggiungere GPU e quindi eseguire start-azurestack fino al completamento. Se il sistema dispone già di GPU, tutte le macchine virtuali GPU create in precedenza dovranno essere deallocate e quindi riavviate.

Patch e aggiornamento, comportamento della FRU delle macchine virtuali

Le macchine virtuali GPU subiranno tempi di inattività durante operazioni quali patch e aggiornamenti (PnU) e sostituzione hardware (FRU) di hub di Azure Stack. La tabella seguente illustra lo stato della macchina virtuale osservato durante queste attività e l'azione manuale che è possibile eseguire per rendere disponibili queste macchine virtuali dopo l'operazione.

Operazione PnU - Aggiornamento completo, aggiornamento OEM FRU
Stato della macchina virtuale Non disponibile durante l'aggiornamento. Può essere reso disponibile con il funzionamento manuale. La macchina virtuale è online automaticamente dopo l'aggiornamento. Non disponibile durante la FRU. Può essere reso disponibile con il funzionamento manuale. La macchina virtuale deve essere riescita dopo la FRU
Funzionamento manuale Se la macchina virtuale deve essere resa disponibile durante l'aggiornamento, se sono disponibili partizioni GPU, è possibile riavviare la macchina virtuale dal portale facendo clic sul pulsante Riavvia . La macchina virtuale verrà automaticamente tornata dopo l'aggiornamento La macchina virtuale non è disponibile durante la FRU. Se sono disponibili GPU, la macchina virtuale può essere deallocata e riavviata durante la FRU. Dopo il completamento della FRU, la macchina virtuale deve essere deallocata con il pulsante Arresta ed è stato avviato il backup usando il pulsante Avvia .

Installazione del driver guest

Per l'installazione dei driver è possibile usare i cmdlet di PowerShell seguenti:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

A seconda del sistema operativo, del tipo e della connettività della macchina hub di Azure Stack GPU, è necessario modificare con le impostazioni seguenti.

AMD MI25 - Connesso

Il comando precedente può essere usato con il tipo di driver appropriato per AMD. L'articolo Installare driver GPU AMD in macchine virtuali serie N che eseguono Windows fornisce istruzioni sull'installazione del driver per AMD Radeon Instinct MI25 all'interno della macchina virtuale abilitata per GPU-P NVv4 insieme alla procedura per verificare l'installazione del driver.

AMD MI25 - Disconnesso

Poiché l'estensione estrae il driver da una posizione su Internet, una macchina virtuale disconnessa dalla rete esterna non può accedervi. È possibile scaricare il driver dal collegamento seguente e caricarlo in un account di archiviazione nella rete locale accessibile alla macchina virtuale.

URL driver: https://download.microsoft.com/download/3/8/9/3893407b-e8aa-4079-8592-735d7dd1c19a/Radeon-Pro-Software-for-Enterprise-GA.exe

Aggiunta del driver precedente a un account di archiviazione e collegamento dell'URL in Impostazioni. Queste impostazioni dovranno essere usate nel cmdlet Set-AzureRMVMExtension .

$Settings = @{
"DriverURL" = <URL to Driver in Storage Account>
}

NVIDIA

I driver NVIDIA devono essere installati all'interno della macchina virtuale per carichi di lavoro CUDA o GRID usando la GPU.

Caso d'uso: griglia grafica/visualizzazione

Questo scenario richiede l'uso di driver GRID. I driver GRID possono essere scaricati tramite l'hub applicazioni NVIDIA, a condizione che siano disponibili le licenze necessarie. I driver GRID richiedono anche un server licenze GRID con licenze GRID appropriate prima di usare i driver GRID nella macchina virtuale.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Caso d'uso: compute/CUDA - Connected

I driver CUDA non necessitano di un server licenze e non necessitano di impostazioni modificate.

Caso d'uso: compute/CUDA - Disconnected

È possibile ottenere collegamenti ai driver NVIDIA CUDA usando il collegamento: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

È necessario fare riferimento ad alcuni URL per le impostazioni.

URL Note
PUBKEY_URL Il PUBKEY_URL è la chiave pubblica per il repository di driver Nvidia non per la macchina virtuale Linux. Viene usato per installare il driver per Ubuntu.
DKMS_URL DKMS_URL viene usato per ottenere il pacchetto per compilare il modulo kernel Nvidia in RedHat/CentOs.
DRIVER_URL DRIVER_URL è l'URL per scaricare le informazioni del repository del driver Nvidia e viene aggiunto all'elenco di repository della macchina virtuale Linux.
LIS_URL LIS_URL è l'URL per scaricare il pacchetto del servizio di integrazione Linux per RedHat/CentOs, Linux Integration Services v4.3 per Hyper-V e Azure all'URL per impostazione predefinita non è installato LIS_RHEL_ver è la versione del kernel di fallback che dovrebbe funzionare con il driver Nvidia. Viene usato in RedHat/CentOs se il kernel della macchina virtuale Linux non è compatibile con il driver Nvidia richiesto.

Aggiungere gli URL alle impostazioni.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Passaggi successivi