NVIDIA GPU-stuurprogramma's installeren op VM's uit de N-serie met Linux

Artikel
02/01/2024

Let op

In dit artikel wordt verwezen naar CentOS, een Linux-distributie die de status End Of Life (EOL) nadert. Houd rekening met uw gebruik en plan dienovereenkomstig. Zie de Richtlijnen voor het einde van de levensduur van CentOS voor meer informatie.

Van toepassing op: ✔️ Virtuele Linux-machines

Als u wilt profiteren van de GPU-mogelijkheden van VM's uit de Azure N-serie die worden ondersteund door NVIDIA GPU's, moet u NVIDIA GPU-stuurprogramma's installeren. De NVIDIA GPU-stuurprogrammaextensie installeert de juiste NVIDIA CUDA- of GRID-stuurprogramma's op een VM uit de N-serie. Installeer of beheer de extensie met behulp van Azure Portal of hulpprogramma's zoals de Azure CLI of Azure Resource Manager-sjablonen. Zie de documentatie over de extensie voor NVIDIA GPU-stuurprogramma's voor ondersteunde distributies en implementatiestappen.

Als u ervoor kiest OM NVIDIA GPU-stuurprogramma's handmatig te installeren, biedt dit artikel ondersteunde distributies, stuurprogramma's en installatie- en verificatiestappen. Informatie over het instellen van handmatige stuurprogramma's is ook beschikbaar voor Windows-VM's.

Zie VOOR VM-specificaties uit de N-serie, opslagcapaciteiten en schijfdetails GPU Linux VM-grootten.

Ondersteunde distributies en stuurprogramma 's

Let op

In dit artikel wordt verwezen naar CentOS, een Linux-distributie die de status End Of Life (EOL) nadert. Overweeg uw gebruik en planning dienovereenkomstig.

NVIDIA CUDA-stuurprogramma's

Ga naar de NVIDIA-website voor de nieuwste CUDA-stuurprogramma's en ondersteunde besturingssystemen. Zorg ervoor dat u de meest recente ondersteunde CUDA-stuurprogramma's voor uw distributie installeert of upgradet.

Notitie

De meest recente ondersteunde CUDA-stuurprogramma's voor oorspronkelijke SKU-machines uit de NC-serie zijn momenteel 470.82.01. Latere stuurprogrammaversies worden niet ondersteund op de K80-kaarten in NC.

Notitie

De Azure NVads A10 v5-VM's ondersteunen alleen GRID 14.1(510.73) of hogere stuurprogrammaversies. Het vGPU-stuurprogramma voor de A10-SKU is een geïntegreerd stuurprogramma dat ondersteuning biedt voor zowel grafische als rekenworkloads.

Tip

Als alternatief voor handmatige installatie van CUDA-stuurprogramma's op een Linux-VM kunt u een installatiekopie van azure Datawetenschap virtual machine implementeren. De DSVM-edities voor Ubuntu 16.04 LTS of CentOS 7.4 installeren VOORAF NVIDIA CUDA-stuurprogramma's, de CUDA Deep Neural Network Library en andere hulpprogramma's.

NVIDIA GRID-stuurprogramma's

Microsoft herdistribueert installatieprogramma's voor NVIDIA GRID-stuurprogramma's voor VM's uit de NV- en NVv3-serie die worden gebruikt als virtuele werkstations of voor virtuele toepassingen. Installeer alleen deze GRID-stuurprogramma's op Azure NV-VM's, alleen op de besturingssystemen die worden vermeld in de volgende tabel. Deze stuurprogramma's omvatten licenties voor VIRTUELE GRID GPU-software in Azure. U hoeft geen NVIDIA vGPU-softwarelicentieserver in te stellen.

De GRID-stuurprogramma's die door Azure worden gedistribueerd, werken niet op de meeste VM's uit de niet-NV-serie, zoals NC, NCv2, NCv3, ND en NDv2-serie, maar werkt op NCasT4v3-serie.

Ga naar de NVIDIA-website voor meer informatie over de specifieke versies van de vGPU en stuurprogramma branch.

Distributie	Stuurprogramma
Ubuntu 20.04 LTS, 22.04 LTS Red Hat Enterprise Linux 7.9, 8.6, 8.8 SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5 Rocky Linux 8.4	NVIDIA vGPU 16.3, driver branch R535(.exe) NVIDIA vGPU 16.2, driver branch R535(.exe)

Notitie

Voor Azure NVads A10 v5-VM's raden we klanten aan altijd de nieuwste stuurprogrammaversie te gebruiken. De nieuwste NVIDIA-hoofdstuurprogrammavertakking(n) is alleen achterwaarts compatibel met de vorige primaire vertakking (n-1). VGPU 17.x is bijvoorbeeld alleen compatibel met vGPU 16.x. Vm's die nog steeds n-2 of lager worden uitgevoerd, kunnen stuurprogrammafouten zien wanneer de meest recente stationsvertakking wordt geïmplementeerd naar Azure-hosts.

NVs_v3 VM's ondersteunen alleen vGPU 16 of lagere stuurprogrammaversie.

Ga naar GitHub voor de volledige lijst met alle vorige nvidia GRID-stuurprogrammakoppelingen.

Waarschuwing

Installatie van software van derden in Red Hat-producten kan invloed hebben op de ondersteuningsvoorwaarden van Red Hat. Zie het Knowledge Base-artikel over Red Hat.

CUDA-stuurprogramma's installeren op VM's uit de N-serie

Hier volgen stappen voor het installeren van CUDA-stuurprogramma's van de NVIDIA CUDA Toolkit op VM's uit de N-serie.

C- en C++-ontwikkelaars kunnen eventueel de volledige toolkit installeren om met GPU versnelde toepassingen te bouwen. Zie de CUDA-installatiehandleiding voor meer informatie.

Als u CUDA-stuurprogramma's wilt installeren, maakt u een SSH-verbinding met elke VIRTUELE machine. Voer de volgende opdracht uit om te controleren of het systeem een GPU met CUDA-functionaliteit heeft:

lspci | grep -i NVIDIA

Uitvoer is vergelijkbaar met het volgende voorbeeld (met een NVIDIA Tesla K80-kaart):

Uitvoer van lspci-opdracht

lspci vermeldt de PCIe-apparaten op de virtuele machine, inclusief de InfiniBand NIC en GPU's, indien van toepassing. Als lspci niet met succes retourneert, moet u LIS mogelijk installeren op CentOS/RHEL.

Voer vervolgens installatieopdrachten uit die specifiek zijn voor uw distributie.

Ubuntu

Ubuntu-pakketten NVIDIA eigen stuurprogramma's. Deze stuurprogramma's zijn rechtstreeks afkomstig van NVIDIA en worden eenvoudig verpakt door Ubuntu, zodat ze automatisch kunnen worden beheerd door het systeem. Het downloaden en installeren van stuurprogramma's van een andere bron kan leiden tot een verbroken systeem. Bovendien vereist het installeren van stuurprogramma's van derden extra stappen op VM's waarvoor TrustedLaunch en Beveiligd opstarten zijn ingeschakeld. Ze vereisen dat de gebruiker een nieuwe sleutel voor de eigenaar van de machine toevoegt om het systeem op te starten. Stuurprogramma's van Ubuntu zijn ondertekend door Canonical en werken met Beveiligd opstarten.

Hulpprogramma installeren ubuntu-drivers :

sudo apt update && sudo apt install -y ubuntu-drivers-common

Installeer de nieuwste NVIDIA-stuurprogramma's:
```
sudo ubuntu-drivers install
```
Start de VM opnieuw op nadat het GPU-stuurprogramma is geïnstalleerd.
Download en installeer de CUDA-toolkit van NVIDIA:

Notitie

In het voorbeeld ziet u het CUDA-pakketpad voor Ubuntu 22.04 LTS. Vervang het pad dat specifiek is voor de versie die u wilt gebruiken.

Ga naar het NVIDIA Downloadcentrum of de pagina NVIDIA CUDA-resources voor het volledige pad dat specifiek is voor elke versie.
```
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo apt install -y ./cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt -y install cuda-toolkit-12-3
```
De installatie kan enkele minuten in beslag nemen.
Controleer of de GPU correct wordt herkend (mogelijk moet u de VM opnieuw opstarten om de systeemwijzigingen van kracht te laten worden):
```
nvidia-smi
```

Updates voor NVIDIA-stuurprogramma's

We raden u aan NVIDIA-stuurprogramma's periodiek bij te werken na de implementatie.

sudo apt update
sudo apt full-upgrade

CentOS of Red Hat Enterprise Linux

Werk de kernel bij (aanbevolen). Als u ervoor kiest om de kernel niet bij te werken, moet u ervoor zorgen dat de versies van kernel-develen dkms geschikt zijn voor uw kernel.
```
sudo yum install kernel kernel-tools kernel-headers kernel-devel
sudo reboot
```
Installeer de nieuwste Linux Integration Services voor Hyper-V en Azure. Controleer of LIS is vereist door de resultaten van lspci te controleren. Als alle GPU-apparaten worden vermeld zoals verwacht, is het installeren van LIS niet vereist.

LIS is van toepassing op Red Hat Enterprise Linux, CentOS en de Oracle Linux Red Hat Compatibele Kernel 5.2-5.11, 6.0-6.10 en 7.0-7.7. Raadpleeg de documentatie voor Linux Integration Services voor meer informatie. Sla deze stap over als u Van plan bent CentOS/RHEL 7.8 (of hogere versies) te gebruiken, omdat LIS niet meer nodig is voor deze versies.
```
wget https://aka.ms/lis
tar xvzf lis
cd LISISO

sudo ./install.sh
sudo reboot
```

Maak opnieuw verbinding met de virtuele machine en ga door met de volgende opdrachten:

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms cuda-drivers

De installatie kan enkele minuten in beslag nemen.

Notitie

Bezoek de Fedora - en Nvidia CUDA-opslagplaats om het juiste pakket te kiezen voor de CentOS- of RHEL-versie die u wilt gebruiken.

CentOS 8 en RHEL 8 hebben bijvoorbeeld de volgende stappen nodig.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers

Als u desgewenst de volledige CUDA-toolkit wilt installeren, typt u:
```
sudo yum install cuda
```
Notitie

Als er een foutbericht wordt weergegeven met betrekking tot ontbrekende pakketten zoals vulkan-filesystem, moet u mogelijk /etc/yum.repos.d/rh-cloud bewerken, zoeken naar optionele rpms en zijn ingeschakeld op 1
Start de VM opnieuw op en ga verder met het verifiëren van de installatie.

Installatie van stuurprogramma controleren

Als u een query wilt uitvoeren op de status van het GPU-apparaat, voert u SSH uit naar de VM en voert u het nvidia-smi-opdrachtregelprogramma uit dat is geïnstalleerd met het stuurprogramma.

Als het stuurprogramma is geïnstalleerd, vermeldt Nvidia SMI de GPU-Util als 0% totdat u een GPU-workload op de VIRTUELE machine uitvoert. De versie van uw stuurprogramma en GPU-gegevens kunnen afwijken van de weergegeven versies.

NVIDIA-apparaatstatus

RDMA-netwerkverbinding

RDMA-netwerkconnectiviteit kan worden ingeschakeld op VM's uit de RDMA-serie die geschikt zijn voor N-serie, zoals NC24r die zijn geïmplementeerd in dezelfde beschikbaarheidsset of in één plaatsingsgroep in een virtuele-machineschaalset (VM). Het RDMA-netwerk ondersteunt MPI-verkeer (Message Passing Interface) voor toepassingen die worden uitgevoerd met Intel MPI 5.x of een latere versie:

Distributies

Implementeer VM's uit de N-serie die geschikt zijn voor RDMA vanuit een van de installatiekopieën in Azure Marketplace die RDMA-connectiviteit op VM's uit de N-serie ondersteunen:

Ubuntu 16.04 LTS - RDMA-stuurprogramma's op de VM configureren en registreren bij Intel om Intel MPI te downloaden:
1. Dapl, rdmacm, ibverbs en mlx4 installeren
```
sudo apt-get update

sudo apt-get install libdapl2 libmlx4-1
```
2. Schakel in /etc/waagent.conf RDMA in door de opmerkingen bij de volgende configuratieregels ongedaan te maken. U hebt hoofdtoegang nodig om dit bestand te bewerken.
```
OS.EnableRDMA=y

OS.UpdateRdmaDriver=y
```
3. Voeg de volgende geheugeninstellingen toe of wijzig deze in KB in het bestand /etc/security/limits.conf. U hebt hoofdtoegang nodig om dit bestand te bewerken. Voor testdoeleinden kunt u memlock instellen op onbeperkt. Voorbeeld: <User or group name> hard memlock unlimited.
```
<User or group name> hard    memlock <memory required for your application in KB>

<User or group name> soft    memlock <memory required for your application in KB>
```
4. Installeer de Intel MPI-bibliotheek. Koop en download de bibliotheek van Intel of download de gratis evaluatieversie.
```
wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
```
  Alleen Intel MPI 5.x-runtimes worden ondersteund.
  
  Zie de Installatiehandleiding voor de Intel MPI-bibliotheek voor installatiestappen.
5. Schakel ptrace in voor niet-root niet-foutopsporingsprogrammaprocessen (nodig voor de meest recente versies van Intel MPI).
```
echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
```
Op CentOS gebaseerde 7.4 HPC - RDMA-stuurprogramma's en Intel MPI 5.1 zijn geïnstalleerd op de VIRTUELE machine.
Op CentOS gebaseerde HPC - CentOS-HPC 7.6 en hoger (voor SKU's waarbij InfiniBand wordt ondersteund via SR-IOV). Voor deze installatiekopieën zijn Mellanox OFED- en MPI-bibliotheken vooraf geïnstalleerd.

Notitie

CX3-Pro-kaarten worden alleen ondersteund via LTS-versies van Mellanox OFED. Gebruik LTS Mellanox OFED-versie (4.9-0.1.7.0) op de VM's uit de N-serie met Verbinding maken X3-Pro-kaarten. Zie Linux-stuurprogramma's voor meer informatie.

Sommige van de nieuwste HPC-installatiekopieën van Azure Marketplace hebben Mellanox OFED 5.1 en hoger, die geen ondersteuning bieden voor Verbinding maken X3-Pro-kaarten. Controleer de Mellanox OFED-versie in de HPC-installatiekopieën voordat u deze gebruikt op VM's met Verbinding maken X3-Pro-kaarten.

De volgende afbeeldingen zijn de nieuwste CentOS-HPC-installatiekopieën die ondersteuning bieden voor Verbinding maken X3-Pro-kaarten:

OpenLogic:CentOS-HPC:7.6:7.6.2020062900
OpenLogic:CentOS-HPC:7_6gen2:7.6.20062901
OpenLogic:CentOS-HPC:7.7:7.7.2020062600
OpenLogic:CentOS-HPC:7_7-gen2:7.7.20062601
OpenLogic:CentOS-HPC:8_1:8.1.2020062400
OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

GRID-stuurprogramma's installeren op VM's uit de NV- of NVv3-serie

Als u NVIDIA GRID-stuurprogramma's wilt installeren op VM's uit de NV- of NVv3-serie, maakt u een SSH-verbinding met elke VM en volgt u de stappen voor uw Linux-distributie.

Ubuntu

Voer de opdracht lspci uit. Controleer of de NVIDIA M60-kaart of -kaarten zichtbaar zijn als PCI-apparaten.

Installeer updates.

sudo apt-get update
sudo apt-get upgrade -y
sudo apt-get dist-upgrade -y
sudo apt-get install build-essential ubuntu-desktop -y
sudo apt-get install linux-azure -y

Schakel het stuurprogramma van de Nouveau-kernel uit, wat niet compatibel is met het NVIDIA-stuurprogramma. (Gebruik alleen het NVIDIA-stuurprogramma op NV- of NVv2-VM's.) Als u het stuurprogramma wilt uitschakelen, maakt u een bestand met /etc/modprobe.d de naam met nouveau.conf de volgende inhoud:
```
blacklist nouveau
blacklist lbm-nouveau
```
Start de VIRTUELE machine opnieuw op en maak opnieuw verbinding. X-server afsluiten:
```
sudo systemctl stop lightdm.service
```

Download en installeer het GRID-stuurprogramma:

wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
chmod +x NVIDIA-Linux-x86_64-grid.run
sudo ./NVIDIA-Linux-x86_64-grid.run

Wanneer u wordt gevraagd of u het nvidia-xconfig-hulpprogramma wilt uitvoeren om uw X-configuratiebestand bij te werken, selecteert u Ja.
Nadat de installatie is voltooid, kopieert u /etc/nvidia/gridd.conf.template naar een nieuw bestand gridd.conf op locatie /etc/nvidia/
```
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
```
Voeg het volgende toe in /etc/nvidia/gridd.conf:
```
IgnoreSP=FALSE
EnableUI=FALSE
```
Verwijder het volgende van /etc/nvidia/gridd.conf als deze aanwezig is:
```
FeatureType=0
```
Start de VM opnieuw op en ga verder met het verifiëren van de installatie.

GRID-stuurprogramma installeren op Ubuntu waarvoor Beveiligd opstarten is ingeschakeld

Het installatieproces van het GRID-stuurprogramma biedt geen opties om de build en installatie van kernelmodules over te slaan en een andere bron van ondertekende kernelmodules te selecteren. Beveiligd opstarten moet dus worden uitgeschakeld op Linux-VM's om ze te kunnen gebruiken met GRID, na de installatie van ondertekende kernelmodules.

CentOS of Red Hat Enterprise Linux

Werk de kernel en DKMS bij (aanbevolen). Als u ervoor kiest om de kernel niet bij te werken, moet u ervoor zorgen dat de versies van kernel-devel en dkms geschikt zijn voor uw kernel.

sudo yum update
sudo yum install kernel-devel
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo yum install dkms
sudo yum install hyperv-daemons

Schakel het stuurprogramma van de Nouveau-kernel uit, wat niet compatibel is met het NVIDIA-stuurprogramma. (Gebruik alleen het NVIDIA-stuurprogramma op NV- of NV3-VM's.) Hiervoor maakt u een bestand met /etc/modprobe.d de naam met nouveau.conf de volgende inhoud:
```
blacklist nouveau
blacklist lbm-nouveau
```
Start de VM opnieuw op, maak opnieuw verbinding en installeer de nieuwste Linux Integration Services voor Hyper-V en Azure. Controleer of LIS is vereist door de resultaten van lspci te controleren. Als alle GPU-apparaten worden vermeld zoals verwacht, is het installeren van LIS niet vereist.

Sla deze stap over als u Van plan bent CentOS/RHEL 7.8 (of hogere versies) te gebruiken, omdat LIS niet meer nodig is voor deze versies.
```
wget https://aka.ms/lis
tar xvzf lis
cd LISISO

sudo ./install.sh
sudo reboot
```
Maak opnieuw verbinding met de virtuele machine en voer de lspci opdracht uit. Controleer of de NVIDIA M60-kaart of -kaarten zichtbaar zijn als PCI-apparaten.

Download en installeer het GRID-stuurprogramma:

wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
chmod +x NVIDIA-Linux-x86_64-grid.run

sudo ./NVIDIA-Linux-x86_64-grid.run

Wanneer u wordt gevraagd of u het nvidia-xconfig-hulpprogramma wilt uitvoeren om uw X-configuratiebestand bij te werken, selecteert u Ja.
Nadat de installatie is voltooid, kopieert u /etc/nvidia/gridd.conf.template naar een nieuw bestand gridd.conf op locatie /etc/nvidia/
```
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
```
Voeg twee regels toe aan /etc/nvidia/gridd.conf:
```
IgnoreSP=FALSE
EnableUI=FALSE
```
Eén regel verwijderen als /etc/nvidia/gridd.conf deze aanwezig is:
```
FeatureType=0
```
Start de VM opnieuw op en ga verder met het verifiëren van de installatie.

Installatie van stuurprogramma controleren

Als u een query wilt uitvoeren op de status van het GPU-apparaat, voert u SSH uit naar de VM en voert u het nvidia-smi-opdrachtregelprogramma uit dat is geïnstalleerd met het stuurprogramma.

Als het stuurprogramma is geïnstalleerd, vermeldt Nvidia SMI de GPU-Util als 0% totdat u een GPU-workload op de VM uitvoert. De versie van uw stuurprogramma en GPU-gegevens kunnen afwijken van de weergegeven versies.

Schermopname van de uitvoer wanneer de STATUS van het GPU-apparaat wordt opgevraagd.

X11-server

Als u een X11-server nodig hebt voor externe verbindingen met een NV- of NVv2-VM, wordt x11vnc aanbevolen omdat hiermee hardwareversnelling van afbeeldingen mogelijk is. De BusID van het M60-apparaat moet handmatig worden toegevoegd aan het X11-configuratiebestand (meestal, etc/X11/xorg.conf). Voeg een "Device" sectie toe die vergelijkbaar is met de volgende:

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

Werk ook uw "Screen" sectie bij om dit apparaat te gebruiken.

De decimale BusID kan worden gevonden door het uitvoeren

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

De BusID kan wijzigen wanneer een virtuele machine opnieuw wordt toegewezen of opnieuw wordt opgestart. Daarom kunt u een script maken om de BusID in de X11-configuratie bij te werken wanneer een virtuele machine opnieuw wordt opgestart. Maak bijvoorbeeld een script met de naam busidupdate.sh (of een andere naam die u kiest) met inhoud die er ongeveer als volgt uitziet:

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

Maak vervolgens een vermelding voor uw updatescript, /etc/rc.d/rc3.d zodat het script wordt aangeroepen als root bij het opstarten.

Probleemoplossing

U kunt de persistentiemodus instellen, nvidia-smi zodat de uitvoer van de opdracht sneller verloopt wanneer u query's moet uitvoeren op kaarten. Als u de persistentiemodus wilt instellen, voert u het volgende uit nvidia-smi -pm 1. Houd er rekening mee dat als de virtuele machine opnieuw wordt opgestart, de modusinstelling verdwijnt. U kunt altijd de modusinstelling scripten die moet worden uitgevoerd bij het opstarten.
Als u de NVIDIA CUDA-stuurprogramma's hebt bijgewerkt naar de nieuwste versie en de RDMA-connectiviteit niet meer werkt, installeert u de RDMA-stuurprogramma's opnieuw om die connectiviteit te herstellen.
Als tijdens de installatie van LIS een bepaalde Versie van het CentOS-/RHEL-besturingssysteem (of kernel) niet wordt ondersteund voor LIS, wordt er een fout 'Niet-ondersteunde kernelversie' gegenereerd. Meld deze fout samen met de versies van het besturingssysteem en de kernel.
Als taken worden onderbroken door ECC-fouten op de GPU (herstelbaar of onherstelbaar), controleert u eerst of de GPU voldoet aan een van de RMA-criteria van Nvidia voor ECC-fouten. Als de GPU in aanmerking komt voor RMA, neemt u contact op met de ondersteuning voor het verkrijgen van de service; Anders start u de VM opnieuw op om de GPU opnieuw te koppelen, zoals hier wordt beschreven. Minder ingrijpende methoden, zoals nvidia-smi -r niet werken met de virtualisatieoplossing die is geïmplementeerd in Azure.

Volgende stappen

Zie How to generalize and capture a Linux virtual machine( een virtuele Linux-machine) voor informatie over het vastleggen van een linux-VM-installatiekopieën met uw geïnstalleerde NVIDIA-stuurprogramma's.

NVIDIA GPU-stuurprogramma's installeren op VM's uit de N-serie met Linux

Ondersteunde distributies en stuurprogramma 's

NVIDIA CUDA-stuurprogramma's

NVIDIA GRID-stuurprogramma's

CUDA-stuurprogramma's installeren op VM's uit de N-serie

Ubuntu

Updates voor NVIDIA-stuurprogramma's

CentOS of Red Hat Enterprise Linux

Installatie van stuurprogramma controleren

RDMA-netwerkverbinding

Distributies

GRID-stuurprogramma's installeren op VM's uit de NV- of NVv3-serie

Ubuntu

GRID-stuurprogramma installeren op Ubuntu waarvoor Beveiligd opstarten is ingeschakeld

CentOS of Red Hat Enterprise Linux

Installatie van stuurprogramma controleren

X11-server

Probleemoplossing

Volgende stappen

Aanvullende resources