Instalace rozšíření GPU na virtuální počítače pro zařízení Azure Stack Edge Pro GPU

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a plánování odpovídajícím způsobem. Další informace najdete v doprovodných materiálech CentOS End Of Life.

PLATÍ PRO:Ano pro Pro – SKU GPU Azure Stack Edge Pro – GPUAno pro skladovou položku Pro 2Azure Stack Edge Pro 2Ano pro skladovou položku Pro RAzure Stack Edge Pro R

Tento článek popisuje, jak nainstalovat rozšíření ovladače GPU pro instalaci vhodných ovladačů Nvidia na virtuální počítače GPU spuštěné na zařízení Azure Stack Edge. Tento článek popisuje postup instalace rozšíření GPU pomocí šablon Azure Resource Manageru na virtuálních počítačích s Windows i Linuxem.

Poznámka:

Požadavky

Než nainstalujete rozšíření GPU na virtuální počítače GPU spuštěné na vašem zařízení, ujistěte se, že:

  1. Máte přístup k zařízení Azure Stack Edge, na kterém jste nasadili jeden nebo více virtuálních počítačů GPU. Podívejte se, jak na zařízení nasadit virtuální počítač s GPU.

    • Ujistěte se, že je port povolený pro výpočetní síť na vašem zařízení připojený k internetu a že má přístup. Ovladače GPU se stáhnou přes přístup k internetu.

      Tady je příklad, kdy byl port 2 připojený k internetu a byl použit k povolení výpočetní sítě. Pokud kubernetes není ve vašem prostředí nasazený, můžete přeskočit IP adresu uzlu Kubernetes a přiřazení IP adresy externí služby.

      Snímek obrazovky s podoknem Výpočty pro zařízení Azure Stack Edge Nastavení výpočetních prostředků pro port 2 jsou zvýrazněná.

  2. Stáhněte si šablony rozšíření GPU a soubory parametrů do klientského počítače. Rozbalte ho do adresáře, který použijete jako pracovní adresář.

  3. Ověřte, že klient, kterého použijete pro přístup k zařízení, je stále připojený k Azure Resource Manageru přes Azure PowerShell. Připojení k Azure Resource Manageru vyprší každých 1,5 hodiny nebo pokud se vaše zařízení Azure Stack Edge restartuje. Pokud k tomu dojde, vrátí všechny rutiny, které spustíte, chybové zprávy, které se projeví, že už nejste připojení k Azure. Budete se muset znovu přihlásit. Podrobné pokyny najdete v tématu Připojení do Azure Resource Manageru na zařízení Azure Stack Edge.

Úprava souboru parametrů

V závislosti na operačním systému virtuálního počítače můžete nainstalovat rozšíření GPU pro Windows nebo Linux.

Pokud chcete nasadit ovladače Nvidia GPU pro existující virtuální počítač, upravte addGPUExtWindowsVM.parameters.json soubor parametrů a pak šablonu nasaďte addGPUextensiontoVM.json.

Verze 2205 a vyšší

Soubor addGPUExtWindowsVM.parameters.json má následující parametry:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.5"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/511.65/511.65-data-center-tesla-desktop-winserver-2016-2019-2022-dch-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Verze nižší než 2205

Soubor addGPUExtWindowsVM.parameters.json má následující parametry:

"parameters": {
	"vmName": {
	"value": "<name of the VM>"
	},
	"extensionName": {
	"value": "<name for the extension. Example: windowsGpu>"
	},
	"publisher": {
	"value": "Microsoft.HpcCompute"
	},
	"type": {
	"value": "NvidiaGpuDriverWindows"
	},
	"typeHandlerVersion": {
	"value": "1.3"
	},
	"settings": {
	"value": {
	"DriverURL" : "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
	"DriverCertificateUrl" : "https://go.microsoft.com/fwlink/?linkid=871664",
	"DriverType":"CUDA"
	}
	}
	}

Nasazení šablony

Nasaďte šablonu addGPUextensiontoVM.json pro instalaci rozšíření na existující virtuální počítač.

Spusťte následující příkaz:

$templateFile = "<Path to addGPUextensiontoVM.json>"
$templateParameterFile = "<Path to addGPUExtWindowsVM.parameters.json>"
RGName = "<Name of your resource group>"
New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "<Name for your deployment>"

Poznámka:

Nasazení rozšíření je dlouhotrvající úloha a dokončení trvá přibližně 10 minut.

Tady je ukázkový výstup:

PS C:\WINDOWS\system32> "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json
PS C:\WINDOWS\system32> $templateFile = "C:\12-09-2020\ExtensionTemplates\addGPUextensiontoVM.json"
PS C:\WINDOWS\system32> $templateParameterFile = "C:\12-09-2020\ExtensionTemplates\addGPUExtWindowsVM.parameters.json"
PS C:\WINDOWS\system32> $RGName = "myasegpuvm1"
PS C:\WINDOWS\system32> New-AzureRmResourceGroupDeployment -ResourceGroupName $RGName -TemplateFile $templateFile -TemplateParameterFile $templateParameterFile -Name "deployment3"

DeploymentName          : deployment3
ResourceGroupName       : myasegpuvm1
ProvisioningState       : Succeeded
Timestamp               : 12/16/2020 12:18:50 AM
Mode                    : Incremental
TemplateLink            :
Parameters              :
                       Name             Type                       Value
                       ===============  =========================  ==========
                       vmName           String                     VM2
                       extensionName    String                     windowsgpuext
                       publisher        String                     Microsoft.HpcCompute
                       type             String                     NvidiaGpuDriverWindows
                       typeHandlerVersion  String                     1.3
                       settings         Object                     {
                         "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                         "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                         "DriverType": "CUDA"
                       }

Outputs                 :
DeploymentDebugLogLevel :
PS C:\WINDOWS\system32>

Sledování nasazení

Pokud chcete zkontrolovat stav nasazení rozšíření pro daný virtuální počítač, otevřete jinou relaci PowerShellu (spusťte ji jako správce) a spusťte následující příkaz:

Get-AzureRmVMExtension -ResourceGroupName <Name of resource group> -VMName <Name of VM> -Name <Name of the extension>

Tady je ukázkový výstup:

PS C:\WINDOWS\system32> Get-AzureRmVMExtension -ResourceGroupName myasegpuvm1 -VMName VM2 -Name windowsgpuext

ResourceGroupName       : myasegpuvm1
VMName                  : VM2
Name                    : windowsgpuext
Location                : dbelocal
Etag                    : null
Publisher               : Microsoft.HpcCompute
ExtensionType           : NvidiaGpuDriverWindows
TypeHandlerVersion      : 1.3
Id                      : /subscriptions/947b3cfd-7a1b-4a90-7cc5-e52caf221332/resourceGroups/myasegpuvm1/providers/Microsoft.Compute/virtualMachines/VM2/extensions/windowsgpuext
PublicSettings          : {
                            "DriverURL": "http://us.download.nvidia.com/tesla/442.50/442.50-tesla-desktop-winserver-2019-2016-international.exe",
                            "DriverCertificateUrl": "https://go.microsoft.com/fwlink/?linkid=871664",
                            "DriverType": "CUDA"
                          }
ProtectedSettings       :
ProvisioningState       : Creating
Statuses                :
SubStatuses             :
AutoUpgradeMinorVersion : True
ForceUpdateTag          :

PS C:\WINDOWS\system32>

Výstup spuštění rozšíření se protokoluje do následujícího souboru. Informace o stavu instalace najdete v tomto souboru C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status .

Úspěšná instalace je označena message jako Enable Extension a status jako success.

"status":  {
                       "formattedMessage":  {
                                                "message":  "Enable Extension",
                                                "lang":  "en"
                                            },
                       "name":  "NvidiaGpuDriverWindows",
                       "status":  "success",

Ověření instalace ovladače

Přihlaste se k virtuálnímu počítači a spusťte nástroj příkazového řádku nvidia-smi nainstalovaný s ovladačem.

Verze 2205 a vyšší

Nachází se nvidia-smi.exe na C:\Windows\System32\nvidia-smi.exeadrese . Pokud soubor nevidíte, je možné, že instalace ovladače stále běží na pozadí. Počkejte 10 minut a zkontrolujte to znovu.

Verze nižší než 2205

Nachází se nvidia-smi.exe na C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exeadrese . Pokud soubor nevidíte, je možné, že instalace ovladače stále běží na pozadí. Počkejte 10 minut a zkontrolujte to znovu.

Pokud je ovladač nainstalovaný, zobrazí se výstup podobný následujícímu příkladu:

PS C:\Users\Administrator> cd "C:\Program Files\NVIDIA Corporation\NVSMI"
PS C:\Program Files\NVIDIA Corporation\NVSMI> ls

    Directory: C:\Program Files\NVIDIA Corporation\NVSMI

Mode                LastWriteTime         Length Name
----                -------------         ------ ----
-a----        2/26/2020  12:00 PM         849640 MCU.exe
-a----        2/26/2020  12:00 PM         443104 nvdebugdump.exe
-a----        2/25/2020   2:06 AM          81823 nvidia-smi.1.pdf
-a----        2/26/2020  12:01 PM         566880 nvidia-smi.exe
-a----        2/26/2020  12:01 PM         991344 nvml.dll

PS C:\Program Files\NVIDIA Corporation\NVSMI> .\nvidia-smi.exe
Wed Dec 16 00:35:51 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 442.50       Driver Version: 442.50       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            TCC  | 0000503C:00:00.0 Off |                    0 |
| N/A   35C    P8    11W /  70W |      8MiB / 15205MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
PS C:\Program Files\NVIDIA Corporation\NVSMI>

Další informace naleznete v tématu Rozšíření ovladače Nvidia GPU pro Windows.

Poznámka:

Po dokončení instalace ovladače GPU a rozšíření GPU už nemusíte pro výpočetní prostředky používat port s přístupem k internetu.

Odebrání rozšíření GPU

Pokud chcete rozšíření GPU odebrat, použijte následující příkaz:

Remove-AzureRmVMExtension -ResourceGroupName <Resource group name> -VMName <VM name> -Name <Extension name>

Tady je ukázkový výstup:

PS C:\azure-stack-edge-deploy-vms> Remove-AzureRmVMExtension -ResourceGroupName rgl -VMName WindowsVM -Name windowsgpuext
Virtual machine extension removal operation
This cmdlet will remove the specified virtual machine extension. Do you want to continue? [Y] Yes [N] No [S] Suspend [?] Help (default is "Y"): y
Requestld IsSuccessStatusCode StatusCode ReasonPhrase
--------- ------------------- ---------- ------------
          True                OK         OK

Další kroky

Naučte se: