Řešení potíží s rozšířením GPU pro virtuální počítače GPU ve službě Azure Stack Edge Pro GPU

PLATÍ PRO:Yes for Pro - GPU SKU Azure Stack Edge Pro – GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Tento článek obsahuje pokyny k řešení nejběžnějších problémů, které způsobují selhání instalace rozšíření GPU na virtuálním počítači s GPU ve službě Azure Stack Edge Pro.

Postup instalace najdete v tématu Instalace rozšíření GPU.

Ve verzích nižších než 2205 nainstaluje rozšíření GPU pro Linux staré podpisové klíče: chybí podpis nebo požadovaný klíč.

Popis chyby: Rozšíření GPU s Linuxem nainstaluje staré podpisové klíče, což brání stažení požadovaného ovladače GPU. V tomto případě se v syslogu virtuálního počítače s Linuxem zobrazí následující chyba:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Navrhovaná řešení: Máte dvě možnosti, jak tento problém zmírnit:

  • Možnost 1: Použijte na zařízení aktualizace Azure Stack Edge 2205.

  • Možnost 2: Po vytvoření virtuálního počítače s GPU ve NCasT4_v3 řadách ručně nainstalujte nové podpisové klíče před instalací rozšíření a pak pomocí kroků v aktualizaci klíče úložiště GPG pro CUDA Linux | NVIDIA Technical Blog.

    Tady je příklad, který nainstaluje podpisové klíče na virtuální počítač s Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Selhání instalace rozšíření GPU na virtuální pevný disk s Windows 2016

Popis chyby: Jedná se o známý problém ve verzích nižších než 2205. Rozšíření GPU vyžaduje protokol TLS 1.2. V tomto případě se může zobrazit následující chybová zpráva:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Další podrobnosti:

  • Zkontrolujte přidruženou chybu v protokolu hosta. Pokud chcete shromáždit protokoly hosta, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače na zařízení Azure Stack Edge Pro GPU.
  • Na virtuálním počítači s Linuxem vyhledejte /var/log/waagent.log nebo /var/log/azure/nvidia-vmext-status.
  • Na virtuálním počítači s Windows vyhledejte stav chyby v C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Statussouboru .
  • Zkontrolujte úplný protokol C:\WindowsAzure\Logs\WaAppAgent.txtspuštění .

Pokud se instalace během stahování balíčku nezdařila, znamená to, že virtuální počítač nemohl získat přístup k veřejné síti a stáhnout ovladač.

Navrhované řešení: K povolení protokolu TLS 1.2 na virtuálním počítači s Windows 2016 a následnému nasazení rozšíření GPU použijte následující postup.

  1. Spuštěním následujícího příkazu na virtuálním počítači povolte protokol TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Nasaďte šablonu addGPUextensiontoVM.json pro instalaci rozšíření na existující virtuální počítač. Rozšíření můžete nainstalovat ručně nebo ho můžete nainstalovat z webu Azure Portal.

    Poznámka:

    Nasazení rozšíření je dlouhotrvající úloha a dokončení trvá přibližně 10 minut.

Ruční instalace ovladače Nvidia na RHEL 7

Popis chyby: Při instalaci rozšíření GPU na virtuální počítač RHEL 7 může instalace selhat kvůli problému obměně certifikátů a nekompatibilní verzi ovladače.

Navrhované řešení: V tomto případě máte dvě možnosti:

  • Možnost 1: Vyřešte problém s obměnou certifikáty a pak nainstalujte ovladač Nvidia nižší než verze 510.

    1. Pokud chcete vyřešit problém s obměnou certifikáty, spusťte následující příkaz:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Nainstalujte ovladač Nvidia nižší než verze 510.

  • Možnost 2: Nasazení rozšíření GPU Při nasazování rozšíření ARM použijte následující nastavení:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

Velikost virtuálního počítače není velikost virtuálního počítače GPU

Popis chyby: Virtuální počítač GPU musí být buď Standard_NC4as_T4_v3, nebo Standard_NC8as_T4_v3 velikost. Pokud se použije nějaká jiná velikost virtuálního počítače, rozšíření GPU se nepodaří připojit.

Navrhované řešení: Vytvořte virtuální počítač s velikostí Standard_NC4as_T4_v3 nebo Standard_NC8as_T4_v3 virtuálních počítačů. Další informace najdete v tématu Podporované velikosti virtuálních počítačů pro virtuální počítače s GPU. Informace o určení velikosti najdete v tématu Vytvoření virtuálních počítačů GPU.

Operační systém imagí není podporovaný.

Popis chyby: Rozšíření GPU nepodporuje operační systém nainstalovaný na imagi virtuálního počítače.

Navrhované řešení: Připravte novou image virtuálního počítače s operačním systémem, který rozšíření GPU podporuje.

Parametr rozšíření je nesprávný.

Popis chyby: Při nasazování rozšíření GPU na virtuálním počítači s Linuxem se použilo nesprávné nastavení rozšíření.

Navrhované řešení: Před nasazením rozšíření GPU upravte soubor parametrů. Další informace najdete v tématu Instalace rozšíření GPU.

Instalace rozšíření virtuálního počítače selhala při stahování balíčku

Popis chyby: Zřizování rozšíření selhalo během instalace rozšíření nebo během povolení.

  1. Zkontrolujte přidruženou chybu v protokolu hosta. Pokud chcete shromáždit protokoly hostů, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače ve službě Azure Stack Edge Pro.

    Na virtuálním počítači s Linuxem:

    • Podívejte se nebo /var/log/waagent.log/var/log/azure/nvidia-vmext-status.

    Na virtuálním počítači s Windows:

    • Zjistěte stav chyby v C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Statussouboru .
    • Zkontrolujte úplný protokol spuštění: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Pokud se instalace během stahování balíčku nezdařila, znamená to, že virtuální počítač nemohl získat přístup k veřejné síti a stáhnout ovladač.

Navrhované řešení:

  1. Povolte výpočetní prostředky na portu připojeném k internetu. Pokyny najdete v tématu Vytvoření virtuálních počítačů GPU.

  2. Uvolněte virtuální počítač zastavením virtuálního počítače na portálu. Pokud chcete virtuální počítač zastavit, přejděte na Přehled virtuálních počítačů>a vyberte virtuální počítač. Potom na stránce vlastností virtuálního počítače vyberte Zastavit.

  3. Vytvořte nový virtuální počítač.

Rozšíření virtuálního počítače selhalo s chybou dpkg is used/yum lock is used (virtuální počítač s Linuxem)

Popis chyby: Nasazení rozšíření GPU na virtuálním počítači s Linuxem selhalo, protože jiný proces používal dpkg nebo jiný proces vytvořil yum lock.

Navrhované řešení: Pokud chcete tento problém vyřešit, postupujte takto:

  1. Pokud chcete zjistit, jaký proces používá zámek, vyhledejte v protokolu stavu \var\log\azure\nvidia-vmext-status chybu, například "dpkg se používá jiným procesem" nebo "Jiná aplikace drží yum lock".

  2. Buď počkejte na dokončení procesu, nebo proces ukončete.

  3. Znovu nainstalujte rozšíření GPU.

  4. Pokud nasazení rozšíření selže znovu, vytvořte nový virtuální počítač a před instalací rozšíření GPU se ujistěte, že zámek neexistuje.

Další kroky

Shromážděte protokoly hosta a vytvořte balíček podpory.