Megosztás a következőn keresztül:


NVIDIA GPU-illesztők telepítése N-sorozatú, Linuxot futtató virtuális gépeken

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Fontolja meg a használatát, és ennek megfelelően tervezze meg. További információ: CentOS End Of Life útmutató.

A következőkre vonatkozik: ✔️ Linux rendszerű virtuális gépek

Az NVIDIA GPU-k által támogatott Azure N sorozatú virtuális gépek GPU-képességeinek kihasználásához telepítenie kell az NVIDIA GPU-illesztőprogramokat. Az NVIDIA GPU-illesztőbővítmény telepíti a megfelelő NVIDIA CUDA- vagy GRID-illesztőprogramokat egy N sorozatú virtuális gépen. Telepítse vagy kezelje a bővítményt az Azure Portalon vagy olyan eszközökkel, mint az Azure CLI vagy az Azure Resource Manager-sablonok. A támogatott disztribúciókkal és üzembe helyezési lépésekkel kapcsolatban tekintse meg az NVIDIA GPU-illesztőprogram-bővítmény dokumentációját .

Ha úgy dönt, hogy manuálisan telepíti az NVIDIA GPU-illesztőprogramokat, ez a cikk támogatott disztribúciókat, illesztőprogramokat, valamint telepítési és ellenőrzési lépéseket tartalmaz. A manuális illesztőprogram-beállítási információk Windows rendszerű virtuális gépekhez is elérhetők.

Az N sorozatú virtuális gépek specifikációiról, a tárolási kapacitásokról és a lemez részleteiről lásd a GPU Linux rendszerű virtuális gépek méretét.

Támogatott disztribúciók és illesztőprogramok

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést.

NVIDIA CUDA-illesztőprogramok

A legújabb CUDA-illesztőprogramok és támogatott operációs rendszerekért látogasson el az NVIDIA webhelyére. Győződjön meg arról, hogy a legújabb támogatott CUDA-illesztőprogramokat telepíti vagy frissíti a disztribúcióhoz.

Feljegyzés

Az eredeti NC-sorozatú termékváltozatú virtuális gépek legújabb támogatott CUDA-illesztőprogramjai jelenleg 470.82.01-es verzióban érhetőek el. A későbbi illesztőverziók nem támogatottak a K80-kártyákon az NC-ben.

Feljegyzés

Az Azure NVads A10 v5 virtuális gépek csak a GRID 14.1(510.73) vagy újabb illesztőprogram-verziókat támogatják. Az A10 termékváltozat vGPU-illesztője egy egységes illesztőprogram, amely támogatja a grafikus és számítási számítási feladatokat is.

Tipp.

A manuális CUDA-illesztőprogram linuxos virtuális gépeken történő telepítésének alternatívájaként üzembe helyezhet egy Azure Adattudomány virtuálisgép-lemezképet. Az Ubuntu 16.04 LTS-hez vagy CentOS 7.4-hez készült DSVM-kiadások előre telepített NVIDIA CUDA-illesztőprogramokhoz, a CUDA mély neurális hálózati könyvtárhoz és egyéb eszközökhöz.

NVIDIA GRID-illesztőprogramok

A Microsoft újra terjeszti az NVIDIA GRID illesztőprogram-telepítőit a virtuális munkaállomásként vagy virtuális alkalmazásokhoz használt NV és NVv3 sorozatú virtuális gépekhez. Csak ezeket a GRID-illesztőprogramokat telepítse azure NV-beli virtuális gépekre, csak az alábbi táblázatban felsorolt operációs rendszerekre. Ezek az illesztőprogramok magukban foglalják a GRID virtuális GPU-szoftverek licencelését az Azure-ban. Nem kell nvidia vGPU szoftverlicenc-kiszolgálót beállítania.

Az Azure által újraterjesztett GRID-illesztőprogramok nem működnek a legtöbb nem NV sorozatú virtuális gépen, például NC, NCv2, NCv3, ND és NDv2 sorozatú virtuális gépeken, de az NCasT4v3 sorozaton működik.

Az adott vGPU- és illesztőprogram-ágverziókkal kapcsolatos további információkért látogasson el az NVIDIA webhelyére.

Disztribúció Illesztő
Ubuntu 20.04 LTS, 22.04 LTS

Red Hat Enterprise Linux 7.9, 8.6, 8.8, 8.9

SU Standard kiadás Linux Enterprise Server 15 SP2, 12 SP2,12 SP5

Rocky Linux 8.4
NVIDIA vGPU 16.5, R535 illesztőág (.exe)

NVIDIA vGPU 16.3, R535-ös illesztőág (.exe)

Feljegyzés

Az Azure NVads A10 v5 virtuális gépek esetében azt javasoljuk, hogy az ügyfelek mindig a legújabb illesztőprogram-verzión legyenek. A legújabb NVIDIA fő illesztőág(n) csak az előző főággal (n-1) való kompatibilitás. Például a vGPU 17.x visszamenőlegesen kompatibilis csak a vGPU 16.x-szel. Az n-2 vagy annál kisebb virtuális gépeken illesztőprogram-hibák léphetnek fel, amikor a legújabb meghajtóágat az Azure-gazdagépekre vezetik be.

NVs_v3 virtuális gépek csak a vGPU 16-os vagy alacsonyabb illesztőprogram-verziót támogatják.

Látogasson el a GitHubra az összes korábbi Nvidia GRID-illesztő hivatkozás teljes listájához.

Figyelmeztetés

A külső gyártótól származó szoftverek Red Hat termékekre történő telepítése befolyásolhatja a Red Hat támogatási feltételeit. Tekintse meg a vonatkozó cikket a Red Hat tudásbázisában.

CUDA-illesztőprogramok telepítése N sorozatú virtuális gépekre

Az alábbi lépésekkel telepítheti a CUDA-illesztőprogramokat az NVIDIA CUDA eszközkészletből N sorozatú virtuális gépekre.

A C és c++ fejlesztők igény szerint telepíthetik a teljes eszközkészletet GPU-gyorsított alkalmazások létrehozásához. További információkért tekintse meg a CUDA telepítési útmutatóját.

A CUDA-illesztőprogramok telepítéséhez hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez. Annak ellenőrzéséhez, hogy a rendszer rendelkezik-e CUDA-kompatibilis GPU-val, futtassa a következő parancsot:

lspci | grep -i NVIDIA

A kimenet hasonló az alábbi példához (nvidia Tesla K80-kártyát mutat):

lspci parancs kimenete

Az lspci felsorolja a virtuális gépen lévő PCIe-eszközöket, beleértve az InfiniBand hálózati adaptert és gpu-kat, ha vannak ilyenek. Ha az lspci nem tér vissza sikeresen, előfordulhat, hogy telepítenie kell a LIS-t a CentOS/RHEL rendszerre.

Ezután futtassa a disztribúcióra vonatkozó telepítési parancsokat.

Ubuntu

Az Ubuntu nvidia által védett illesztőprogramokat tartalmaz. Ezek az illesztőprogramok közvetlenül az NVIDIA-ból származnak, és egyszerűen az Ubuntu csomagolja őket, hogy a rendszer automatikusan felügyelhesse őket. Az illesztőprogramok letöltése és telepítése egy másik forrásból hibás rendszerhez vezethet. Ezenkívül a külső illesztőprogramok telepítéséhez további lépésekre van szükség a TrustedLaunch és a Biztonságos rendszerindítás funkcióval rendelkező virtuális gépeken. Megkövetelik a felhasználótól, hogy adjon hozzá egy új géptulajdonosi kulcsot a rendszerindításhoz. Az Ubuntu illesztőprogramjait a Canonical írta alá, és a Biztonságos rendszerindítással fog működni.

  1. Telepítse a ubuntu-drivers segédprogramot:

    sudo apt update && sudo apt install -y ubuntu-drivers-common
    
  2. Telepítse a legújabb NVIDIA-illesztőprogramokat:

    sudo ubuntu-drivers install
    

    Indítsa újra a virtuális gépet a GPU-illesztőprogram telepítése után.

  3. Töltse le és telepítse a CUDA eszközkészletet az NVIDIA-ból:

    Feljegyzés

    A példa az Ubuntu 22.04 LTS CUDA csomagútvonalát mutatja be. Cserélje le a használni kívánt verzióra vonatkozó elérési utat.

    Látogasson el az NVIDIA letöltőközpontba vagy az NVIDIA CUDA-erőforrások oldalára az egyes verziókhoz tartozó teljes elérési úthoz.

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
    sudo apt install -y ./cuda-keyring_1.1-1_all.deb
    sudo apt update
    sudo apt -y install cuda-toolkit-12-3
    

    A telepítés több percet is igénybe vehet.

  4. Ellenőrizze, hogy a GPU megfelelően van-e felismerve (előfordulhat, hogy újra kell indítania a virtuális gépet a rendszermódosítások érvénybe lépéséhez):

    nvidia-smi
    

NVIDIA-illesztőprogramok frissítései

Javasoljuk, hogy az üzembe helyezés után rendszeresen frissítse az NVIDIA-illesztőprogramokat.

sudo apt update
sudo apt full-upgrade

CentOS vagy Red Hat Enterprise Linux

  1. Frissítse a kernelt (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a rendszermag verziói kernel-develés dkms azok megfelelnek a kernelnek.

    sudo yum install kernel kernel-tools kernel-headers kernel-devel
    sudo reboot
    
  2. Telepítse a Legújabb Linux Integration Servicest a Hyper-V-hez és az Azure-hoz. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.

    A LIS a Red Hat Enterprise Linux, a CentOS és az Oracle Linux Red Hat Kompatibilis Kernel 5.2-5.11, 6.0-6.10 és 7.0-7.7 rendszerekre alkalmazható. További részletekért tekintse meg a Linux Integration Services dokumentációját . Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
  3. Csatlakozzon újra a virtuális géphez, és folytassa a telepítést a következő parancsokkal:

    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
    sudo yum clean all
    sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
    

    A telepítés több percet is igénybe vehet.

    Feljegyzés

    Látogasson el a Fedora és az Nvidia CUDA adattárba , és válassza ki a használni kívánt CentOS- vagy RHEL-verzióhoz megfelelő csomagot.

A CentOS 8-nak és az RHEL 8-nak például a következő lépésekre van szüksége.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers
  1. A teljes CUDA-eszközkészlet opcionális telepítéséhez írja be a következőt:

    sudo yum install cuda
    

    Feljegyzés

    Ha hibaüzenet jelenik meg az olyan hiányzó csomagokról, mint a vulkan-filesystem, akkor lehet, hogy szerkesztenie kell a /etc/yum.repos.d/rh-cloud fájlt, keresse meg az opcionális rpm-eket, és állítsa be az 1 értéket

  2. Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.

Illesztőprogram telepítésének ellenőrzése

A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.

Ha az illesztőprogram telepítve van, az Nvidia SMI 0%-ként sorolja fel a GPU-Util-t , amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.

NVIDIA-eszköz állapota

RDMA hálózati kapcsolat

Az RDMA hálózati kapcsolat engedélyezhető RDMA-kompatibilis N sorozatú virtuális gépeken, például ugyanazon rendelkezésre állási csoportban vagy virtuálisgép-méretezési csoportban üzembe helyezett NC24r esetén. Az RDMA-hálózat támogatja a Message Passing Interface (MPI) forgalmat az Intel MPI 5.x vagy újabb verzióval futó alkalmazások esetében:

Disztribúciók

RdMA-kompatibilis N sorozatú virtuális gépek üzembe helyezése az Azure Marketplace egyik rendszerképéből, amely támogatja az RDMA-kapcsolatot N sorozatú virtuális gépeken:

  • Ubuntu 16.04 LTS – RDMA-illesztőprogramok konfigurálása a virtuális gépen, és regisztráljon az Intelben az Intel MPI letöltéséhez:

    1. A dapl, rdmacm, ibverbs és mlx4 telepítése

      sudo apt-get update
      
      sudo apt-get install libdapl2 libmlx4-1
      
      
    2. A /etc/waagent.conf fájlban engedélyezze az RDMA-t az alábbi konfigurációs sorok kibontásával. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége.

      OS.EnableRDMA=y
      
      OS.UpdateRdmaDriver=y
      
    3. Adja hozzá vagy módosítsa a következő memóriabeállításokat a KB-ban a /etc/security/limits.conf fájlban. A fájl szerkesztéséhez gyökérszintű hozzáférésre van szüksége. Tesztelési célokra korlátlanra állíthatja a memlockot. Például: <User or group name> hard memlock unlimited

      <User or group name> hard    memlock <memory required for your application in KB>
      
      <User or group name> soft    memlock <memory required for your application in KB>
      
    4. Telepítse az Intel MPI-kódtárat. Vásárolja meg és töltse le a kódtárat az Intelből, vagy töltse le az ingyenes próbaverziót.

      wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
      

      Csak az Intel MPI 5.x futtatókörnyezetek támogatottak.

      A telepítési lépésekért tekintse meg az Intel MPI-kódtár telepítési útmutatóját.

    5. Engedélyezze a ptrace-t a nem gyökérszintű nem hibakereső folyamatokhoz (az Intel MPI legújabb verzióihoz szükséges).

      echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
      
  • CentOS-alapú 7.4 HPC - RDMA-illesztőprogramok és Intel MPI 5.1 telepítve vannak a virtuális gépen.

  • CentOS-alapú HPC – CentOS-HPC 7.6 és újabb (olyan termékváltozatokhoz, ahol az InfiniBand támogatott az SR-IOV-n keresztül). Ezek a képek mellanox OFED- és MPI-kódtárakat telepítettek előre.

Feljegyzés

A CX3-Pro kártyák csak a Mellanox OFED LTS-verzióin keresztül támogatottak. Használja az LTS Mellanox OFED verziót (4.9-0.1.7.0) az N sorozatú virtuális gépeken Csatlakozás X3-Pro kártyákkal. További információ: Linux-illesztőprogramok.

A legújabb Azure Marketplace HPC-rendszerképek közül néhány mellanox OFED 5.1 és újabb verzióval rendelkezik, amelyek nem támogatják Csatlakozás X3-Pro kártyákat. Ellenőrizze a Mellanox OFED verziót a HPC-lemezképben, mielőtt Csatlakozás X3-Pro kártyákkal rendelkező virtuális gépeken használja.

A következő képek a legújabb CentOS-HPC-képek, amelyek támogatják Csatlakozás X3-Pro kártyákat:

  • OpenLogic:CentOS-HPC:7.6:7.6.2020062900
  • OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
  • OpenLogic:CentOS-HPC:7.7:7.7.2020062600
  • OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
  • OpenLogic:CentOS-HPC:8_1:8.1.2020062400
  • OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

GRID-illesztőprogramok telepítése NV vagy NVv3 sorozatú virtuális gépekre

Ha NVIDIA GRID-illesztőprogramokat szeretne telepíteni NV vagy NVv3 sorozatú virtuális gépekre, hozzon létre egy SSH-kapcsolatot az egyes virtuális gépekhez, és kövesse a Linux-disztribúció lépéseit.

Ubuntu

  1. Futtassa a következő parancsot: lspci. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.

  2. Telepítse a frissítéseket.

    sudo apt-get update
    sudo apt-get upgrade -y
    sudo apt-get dist-upgrade -y
    sudo apt-get install build-essential ubuntu-desktop -y
    sudo apt-get install linux-azure -y
    
  3. Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NVv2 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Az illesztőprogram letiltásához hozzon létre egy fájlt /etc/modprobe.d a következő tartalommal:nouveau.conf

    blacklist nouveau
    blacklist lbm-nouveau
    
  4. Indítsa újra a virtuális gépet, és csatlakozzon újra. Kilépés az X kiszolgálóról:

    sudo systemctl stop lightdm.service
    
  5. Töltse le és telepítse a GRID-illesztőt:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.

  7. A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. Adja hozzá a következőket a következőhöz /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. Távolítsa el a következőket /etc/nvidia/gridd.conf , ha az jelen van:

    FeatureType=0
    
  10. Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.

A GRID-illesztő telepítése az Ubuntu-ra a biztonságos rendszerindítás engedélyezésével

A GRID-illesztő telepítési folyamata nem kínál lehetőséget a kernelmodulok összeállításának és telepítésének kihagyására, valamint az aláírt kernelmodulok egy másik forrásának kiválasztására, ezért az aláírt kernelmodulok telepítése után le kell tiltani a biztonságos rendszerindítást Linux rendszerű virtuális gépeken, hogy azokat a GRID-szel együtt használhassák.

CentOS vagy Red Hat Enterprise Linux

  1. Frissítse a kernelt és a DKMS-t (ajánlott). Ha úgy dönt, hogy nem frissíti a kernelt, győződjön meg arról, hogy a kernel verziói kernel-devel és dkms azok megfelelőek.

    sudo yum update
    sudo yum install kernel-devel
    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum install dkms
    sudo yum install hyperv-daemons
    
  2. Tiltsa le a Nouveau kernelillesztőt, amely nem kompatibilis az NVIDIA-illesztőprogrammal. (Csak NV vagy NV3 rendszerű virtuális gépeken használja az NVIDIA-illesztőt.) Ehhez hozzon létre egy fájlt /etc/modprobe.d a következő tartalommal:nouveau.conf

    blacklist nouveau
    blacklist lbm-nouveau
    
  3. Indítsa újra a virtuális gépet, csatlakozzon újra, és telepítse a Legújabb Linux Integration Servicest a Hyper-V-hez és az Azure-hoz. Ellenőrizze, hogy szükség van-e LIS-ra az lspci eredményeinek ellenőrzésével. Ha az összes GPU-eszköz a várt módon van felsorolva, a LIS telepítése nem szükséges.

    Hagyja ki ezt a lépést, ha a CentOS/RHEL 7.8 (vagy újabb verziók) használatát tervezi, mivel ezekhez a verziókhoz már nincs szükség LIS-re.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
    
  4. Csatlakozzon újra a virtuális géphez, és futtassa a lspci parancsot. Ellenőrizze, hogy az NVIDIA M60 kártya vagy kártyák PCI-eszközként láthatók-e.

  5. Töltse le és telepítse a GRID-illesztőt:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. Amikor a rendszer megkérdezi, hogy szeretné-e futtatni az nvidia-xconfig segédprogramot az X konfigurációs fájl frissítéséhez, válassza az Igen lehetőséget.

  7. A telepítés befejezése után másolja a /etc/nvidia/gridd.conf.template fájlt egy új fájlra gridd.conf helyre /etc/nvidia/

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. Két sor hozzáadása a következőhöz /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. Távolítsa el az egyik sort /etc/nvidia/gridd.conf , ha az jelen van:

    FeatureType=0
    
  10. Indítsa újra a virtuális gépet, és ellenőrizze a telepítést.

Illesztőprogram telepítésének ellenőrzése

A GPU-eszköz állapotának lekérdezéséhez az SSH-t a virtuális gépre, és futtassa az nvidia-smi parancssori segédprogramot az illesztőprogrammal együtt.

Ha az illesztőprogram telepítve van, az Nvidia SMI 0%-ként sorolja fel a GPU-Util-t , amíg gpu-számítási feladatot nem futtat a virtuális gépen. Előfordulhat, hogy az illesztőprogram verziója és a GPU adatai eltérnek a megjelenítettektől.

Képernyőkép a GPU-eszköz állapotának lekérdezésekor megjelenő kimenetről.

X11-kiszolgáló

Ha X11-kiszolgálóra van szüksége egy NV vagy NVv2 virtuális gép távoli kapcsolataihoz, akkor az x11vnc használata ajánlott, mert lehetővé teszi a grafikus elemek hardveres gyorsítását. Az M60-eszköz BusID azonosítóját manuálisan kell hozzáadni az X11 konfigurációs fájlhoz (általában etc/X11/xorg.conf). Adjon hozzá egy "Device" , a következőhöz hasonló szakaszt:

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

Emellett frissítse a szakaszt "Screen" az eszköz használatára.

A decimális BusID a futtatással

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

A BusID változhat, ha egy virtuális gépet újratelepítenek vagy újraindítanak. Ezért érdemes lehet létrehozni egy szkriptet, amely frissíti a BusID-t az X11 konfigurációban a virtuális gép újraindításakor. Hozzon létre például egy szkriptet busidupdate.sh (vagy egy másik választott nevet) az alábbihoz hasonló tartalommal:

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

Ezután hozzon létre egy bejegyzést a frissítési szkripthez /etc/rc.d/rc3.d , hogy a szkript gyökérként legyen meghívva a rendszerindításkor.

Hibaelhárítás

  • Az adatmegőrzési módot nvidia-smi úgy állíthatja be, hogy a parancs kimenete gyorsabb legyen, ha kártyákat kell lekérdeznie. Az adatmegőrzési mód beállításához hajtsa végre a következőt nvidia-smi -pm 1: . Vegye figyelembe, hogy ha a virtuális gép újraindul, a módbeállítás megszűnik. Az indításkor végrehajtandó módbeállítást mindig szkriptelheti.
  • Ha frissítette az NVIDIA CUDA-illesztőprogramokat a legújabb verzióra, és úgy találja, hogy az RDMA-kapcsolat már nem működik, telepítse újra az RDMA-illesztőprogramokat a kapcsolat újbóli létrehozásához.
  • A LIS telepítése során, ha egy bizonyos CentOS/RHEL OS-verzió (vagy kernel) nem támogatott a LIS esetében, a rendszer "Nem támogatott kernelverzió" hibaüzenetet ad. Jelentse ezt a hibát az operációs rendszer és a kernelverziók mellett.
  • Ha a gpu ECC-hibái megszakítják a feladatokat (javítható vagy javíthatatlan), először ellenőrizze, hogy a GPU megfelel-e az Nvidia ECC-hibákra vonatkozó RMA-feltételeinek. Ha a GPU jogosult az RMA használatára, forduljon az ügyfélszolgálathoz a szolgáltatással kapcsolatban; ellenkező esetben indítsa újra a virtuális gépet a GPU újraaktiválásához az itt leírtak szerint. Kevésbé invazív módszerek, például nvidia-smi -r nem működnek az Azure-ban üzembe helyezett virtualizálási megoldással.

Következő lépések

  • Linux rendszerű virtuálisgép-rendszerképek a telepített NVIDIA-illesztőprogramokkal való rögzítéséhez tekintse meg a Linux rendszerű virtuális gépek általánosítását és rögzítését ismertető témakört.