Installera GPU-tillägget på virtuella datorer för din Azure Stack Edge Pro GPU-enhet

Varning

Den här artikeln refererar till CentOS, en Linux-distribution som närmar sig EOL-status (End Of Life). Överväg att använda och planera i enlighet med detta. Mer information finns i CentOS End Of Life-vägledningen.

GÄLLER FÖR:Ja för Pro – GPU SKUAzure Stack Edge Pro – GPUJa för Pro 2 SKUAzure Stack Edge Pro 2Ja för Pro R SKUAzure Stack Edge Pro R

I den här artikeln beskrivs hur du installerar GPU-drivrutinstillägget för att installera lämpliga Nvidia-drivrutiner på de virtuella GPU-datorer som körs på din Azure Stack Edge-enhet. Artikeln beskriver installationssteg för att installera ett GPU-tillägg med hjälp av Azure Resource Manager-mallar på både virtuella Windows- och Linux-datorer.

Kommentar

Förutsättningar

Innan du installerar GPU-tillägget på de virtuella GPU-datorer som körs på enheten kontrollerar du att:

  1. Du har åtkomst till en Azure Stack Edge-enhet där du har distribuerat en eller flera virtuella GPU-datorer. Se hur du distribuerar en virtuell GPU-dator på enheten.

    • Kontrollera att porten som är aktiverad för beräkningsnätverket på enheten är ansluten till Internet och har åtkomst. GPU-drivrutinerna laddas ned via Internetåtkomsten.

      Här är ett exempel där port 2 var ansluten till Internet och användes för att aktivera beräkningsnätverket. Om Kubernetes inte distribueras i din miljö kan du hoppa över Ip-adressen för Kubernetes-noden och ip-tilldelningen för externa tjänster.

      Skärmbild av fönstret Beräkning för en Azure Stack Edge-enhet. Beräkningsinställningarna för port 2 är markerade.

  2. Ladda ned GPU-tilläggsmallarna och parameterfilerna till klientdatorn. Packa upp den i en katalog som du ska använda som arbetskatalog.

  3. Kontrollera att klienten som du använder för att komma åt enheten fortfarande är ansluten till Azure Resource Manager via Azure PowerShell. Anslutningen till Azure Resource Manager upphör att gälla var 1,5:e timme eller om Din Azure Stack Edge-enhet startas om. Om detta händer returnerar eventuella cmdletar som du kör felmeddelanden om att du inte längre är ansluten till Azure. Du måste logga in igen. Detaljerade anvisningar finns i Anslut till Azure Resource Manager på din Azure Stack Edge-enhet.

Redigera parameterfil

Beroende på operativsystemet för den virtuella datorn kan du installera GPU-tillägget för Windows eller Linux.

Om du vill distribuera Nvidia GPU-drivrutiner för en befintlig virtuell dator redigerar du addGPUExtWindowsVM.parameters.json parameterfilen och distribuerar sedan mallen addGPUextensiontoVM.json.

Version 2205 och senare

Filen addGPUExtWindowsVM.parameters.json tar följande parametrar:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.5"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Versioner som är lägre än 2205

Filen addGPUExtWindowsVM.parameters.json tar följande parametrar:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Distribuera mallen

Distribuera mallen addGPUextensiontoVM.json för att installera tillägget på en befintlig virtuell dator.

Kör följande kommando:

$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Kommentar

Tilläggsdistributionen är ett tidskrävande jobb och tar cirka 10 minuter att slutföra.

Här är ett exempel på utdata:

PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"

DeploymentName          : deployment3
ResourceGroupName       : myasegpuvm1
ProvisioningState       : Succeeded
Timestamp               : 12/16/2020 12:18:50 AM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                       Name             Type                       Value
                       ===============  =========================  ==========
                       vmName           String                     VM2
                       extensionName    String                     windowsgpuext
                       publisher        String                     Microsoft.HpcCompute
                       type             String                     NvidiaGpuDriverWindows
                       typeHandlerVersion  String                     1.3
                       settings         Object                     {
                         "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                         "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                         "DriverType": "CUDA"
                       }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Spåra distribution

Om du vill kontrollera distributionstillståndet för tillägg för en viss virtuell dator öppnar du en annan PowerShell-session (körs som administratör) och kör sedan följande kommando:

Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>

Här är ett exempel på utdata:

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext

ResourceGroupName       : myasegpuvm1
VMName                  : VM2
Name                    : windowsgpuext
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverWindows
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/947b3cfd-7a1b-4a90-7cc5-e52caf221332/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings          : {
                            "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                            "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                            "DriverType": "CUDA"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

Utdata för tilläggskörning loggas till följande fil. Se den här filen C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status för att spåra installationsstatusen.

En lyckad installation indikeras av en message som Enable Extension och status som success.

"status":  {
                       "formattedMessage":  {
                                                "message":  "Enable Extension",
                                                "lang":  "en"
                                            },
                       "name":  "NvidiaGpuDriverWindows",
                       "status":  "success",

Verifiera drivrutinsinstallation

Logga in på den virtuella datorn och kör kommandoradsverktyget nvidia-smi installerat med drivrutinen.

Version 2205 och senare

nvidia-smi.exe finns på C:\Windows\System32\nvidia-smi.exe. Om du inte ser filen är det möjligt att drivrutinsinstallationen fortfarande körs i bakgrunden. Vänta i 10 minuter och kontrollera igen.

Versioner som är lägre än 2205

nvidia-smi.exe finns på C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe. Om du inte ser filen är det möjligt att drivrutinsinstallationen fortfarande körs i bakgrunden. Vänta i 10 minuter och kontrollera igen.

Om drivrutinen är installerad ser du utdata som liknar följande exempel:

PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls

    Directory: C:\Program Files\NVIDIA Corporation\NVSMI

Mode                LastWriteTime         Length Name
----                -------------         ------ ----
-a----        2/26/2020  12:00 PM         849640 MCU.exe
-a----        2/26/2020  12:00 PM         443104 nvdebugdump.exe
-a----        2/25/2020   2:06 AM          81823 nvidia-smi.1.pdf
-a----        2/26/2020  12:01 PM         566880 nvidia-smi.exe
-a----        2/26/2020  12:01 PM         991344 nvml.dll

PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50       Driver Version: 442.50       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 0000503C:00:00.0 Off |                    0 |
| N/A   35C    P8    11W /  70W |      8MiB / 15205MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>

Mer information finns i Nvidia GPU-drivrutinstillägget för Windows.

Kommentar

När du har installerat GPU-drivrutinen och GPU-tillägget behöver du inte längre använda en port med Internetåtkomst för beräkning.

Ta bort GPU-tillägg

Om du vill ta bort GPU-tillägget använder du följande kommando:

Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>

Här är ett exempel på utdata:

PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
          True                OK         OK

Nästa steg

Lär dig att: