Share via


GPU-extensie installeren op VM's voor uw Azure Stack Edge Pro GPU-apparaat

Let op

In dit artikel wordt verwezen naar CentOS, een Linux-distributie die de status End Of Life (EOL) nadert. Overweeg uw gebruik en planning dienovereenkomstig. Zie de Richtlijnen voor het einde van de levensduur van CentOS voor meer informatie.

VAN TOEPASSING OP:Ja voor Pro - GPU-SKU Azure Stack Edge Pro - GPUJa voor Pro 2 SKUAzure Stack Edge Pro 2Ja voor Pro R SKUAzure Stack Edge Pro R

In dit artikel wordt beschreven hoe u de EXTENSIE voor GPU-stuurprogramma's installeert om de juiste Nvidia-stuurprogramma's te installeren op de GPU-VM's die worden uitgevoerd op uw Azure Stack Edge-apparaat. In het artikel worden de installatiestappen beschreven voor het installeren van een GPU-extensie met behulp van Azure Resource Manager-sjablonen op zowel Windows- als Linux-VM's.

Notitie

Vereisten

Voordat u de GPU-extensie installeert op de GPU-VM's die op uw apparaat worden uitgevoerd, moet u ervoor zorgen dat:

  1. U hebt toegang tot een Azure Stack Edge-apparaat waarop u een of meer GPU-VM's hebt geïmplementeerd. Bekijk hoe u een GPU-VM op uw apparaat implementeert.

    • Zorg ervoor dat de poort die is ingeschakeld voor het rekennetwerk op uw apparaat is verbonden met internet en toegang heeft. De GPU-stuurprogramma's worden gedownload via internettoegang.

      Hier volgt een voorbeeld waarin poort 2 is verbonden met internet en is gebruikt om het rekennetwerk in te schakelen. Als Kubernetes niet is geïmplementeerd in uw omgeving, kunt u het IP-adres van het Kubernetes-knooppunt en de ip-toewijzing van externe services overslaan.

      Schermopname van het deelvenster Compute voor een Azure Stack Edge-apparaat. Rekeninstellingen voor poort 2 zijn gemarkeerd.

  2. Download de GPU-extensiesjablonen en parameterbestanden naar uw clientcomputer. Pak deze uit in een map die u als werkmap gaat gebruiken.

  3. Controleer of de client die u gebruikt voor toegang tot uw apparaat nog steeds is verbonden met Azure Resource Manager via Azure PowerShell. De verbinding met Azure Resource Manager verloopt elke 1,5 uur of als uw Azure Stack Edge-apparaat opnieuw wordt opgestart. Als dit gebeurt, retourneren alle cmdlets die u uitvoert foutberichten naar het effect dat u niet meer bent verbonden met Azure. U moet zich opnieuw aanmelden. Zie Verbinding maken naar Azure Resource Manager op uw Azure Stack Edge-apparaat voor gedetailleerde instructies.

Parametersbestand bewerken

Afhankelijk van het besturingssysteem voor uw VIRTUELE machine, kunt u de GPU-extensie voor Windows of voor Linux installeren.

Als u Nvidia GPU-stuurprogramma's voor een bestaande VIRTUELE machine wilt implementeren, bewerkt u het addGPUExtWindowsVM.parameters.json parameterbestand en implementeert u vervolgens de sjabloon addGPUextensiontoVM.json.

Versie 2205 en hoger

Het bestand addGPUExtWindowsVM.parameters.json heeft de volgende parameters:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.5"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Versies lager dan 2205

Het bestand addGPUExtWindowsVM.parameters.json heeft de volgende parameters:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Sjabloon implementeren

Implementeer de sjabloon addGPUextensiontoVM.json om de extensie op een bestaande VIRTUELE machine te installeren.

Voer de volgende opdracht uit:

$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Notitie

De implementatie van de extensie is een langlopende taak en duurt ongeveer 10 minuten.

Hier volgt een voorbeelduitvoer:

PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"

DeploymentName          : deployment3
ResourceGroupName       : myasegpuvm1
ProvisioningState       : Succeeded
Timestamp               : 12/16/2020 12:18:50 AM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                       Name             Type                       Value
                       ===============  =========================  ==========
                       vmName           String                     VM2
                       extensionName    String                     windowsgpuext
                       publisher        String                     Microsoft.HpcCompute
                       type             String                     NvidiaGpuDriverWindows
                       typeHandlerVersion  String                     1.3
                       settings         Object                     {
                         "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                         "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                         "DriverType": "CUDA"
                       }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Implementatie bijhouden

Als u de implementatiestatus van extensies voor een bepaalde VM wilt controleren, opent u een andere PowerShell-sessie (als administrator uitvoeren) en voert u de volgende opdracht uit:

Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>

Hier volgt een voorbeelduitvoer:

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext

ResourceGroupName       : myasegpuvm1
VMName                  : VM2
Name                    : windowsgpuext
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverWindows
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/947b3cfd-7a1b-4a90-7cc5-e52caf221332/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings          : {
                            "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                            "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                            "DriverType": "CUDA"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

Uitvoer van extensie-uitvoer wordt vastgelegd in het volgende bestand. Raadpleeg dit bestand C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status om de status van de installatie bij te houden.

Een geslaagde installatie wordt aangegeven door een message as Enable Extension en status as success.

"status":  {
                       "formattedMessage":  {
                                                "message":  "Enable Extension",
                                                "lang":  "en"
                                            },
                       "name":  "NvidiaGpuDriverWindows",
                       "status":  "success",

Installatie van stuurprogramma controleren

Meld u aan bij de VIRTUELE machine en voer het nvidia-smi-opdrachtregelprogramma uit dat is geïnstalleerd met het stuurprogramma.

Versie 2205 en hoger

De nvidia-smi.exe bevindt zich op C:\Windows\System32\nvidia-smi.exe. Als u het bestand niet ziet, is het mogelijk dat de installatie van het stuurprogramma nog steeds op de achtergrond wordt uitgevoerd. Wacht tien minuten en controleer het opnieuw.

Versies lager dan 2205

De nvidia-smi.exe bevindt zich op C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Als u het bestand niet ziet, is het mogelijk dat de installatie van het stuurprogramma nog steeds op de achtergrond wordt uitgevoerd. Wacht tien minuten en controleer het opnieuw.

Als het stuurprogramma is geïnstalleerd, ziet u een uitvoer die lijkt op het volgende voorbeeld:

PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls

    Directory: C:\Program Files\NVIDIA Corporation\NVSMI

Mode                LastWriteTime         Length Name
----                -------------         ------ ----
-a----        2/26/2020  12:00 PM         849640 MCU.exe
-a----        2/26/2020  12:00 PM         443104 nvdebugdump.exe
-a----        2/25/2020   2:06 AM          81823 nvidia-smi.1.pdf
-a----        2/26/2020  12:01 PM         566880 nvidia-smi.exe
-a----        2/26/2020  12:01 PM         991344 nvml.dll

PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50       Driver Version: 442.50       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 0000503C:00:00.0 Off |                    0 |
| N/A   35C    P8    11W /  70W |      8MiB / 15205MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>

Zie de extensie voor Nvidia GPU-stuurprogramma's voor Windows voor meer informatie.

Notitie

Nadat u klaar bent met het installeren van het GPU-stuurprogramma en de GPU-extensie, hoeft u geen poort met internettoegang meer te gebruiken voor berekening.

GPU-extensie verwijderen

Gebruik de volgende opdracht om de GPU-extensie te verwijderen:

Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>

Hier volgt een voorbeelduitvoer:

PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
          True                OK         OK

Volgende stappen

Leer hoe u het volgende doet: