Instalación de controladores de GPU de NVIDIA en VM de la serie N con Windows

Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows ✔️ Conjuntos de escalado flexibles

Para aprovechar las funcionalidades de GPU de las VM de la serie N de Azure respaldadas por GPU de NVIDIA, deben instalarse controladores de GPU de NVIDIA. La extensión de controlador de GPU de NVIDIA instala los controladores CUDA de NVIDIA o GRID adecuados en una máquina virtual de la serie N. Instale o administre la extensión mediante Azure Portal o con herramientas como las plantillas de Azure PowerShell o Azure Resource Manager. Consulte la documentación de la extensión de controlador de GPU de NVIDIA para los sistemas operativos compatibles y los pasos de implementación.

Si decide instalar manualmente los controladores de GPU de NVIDIA, este artículo proporciona pasos de instalación y verificación, controladores y los sistemas operativos compatibles. También está disponible la información de instalación manual del controlador para las máquinas virtuales Linux.

Para conocer las especificaciones básicas, las capacidades de almacenamiento y los detalles del disco, consulte Tamaño de máquinas virtuales para GPU Windows.

Sistemas operativos y controladores compatibles

Controladores NVIDIA Tesla (CUDA)

Los controladores NVIDIA Tesla (CUDA) para máquinas virtuales de las series NC, NCv2, NCv3, NCasT4_v3, ND y NDv2 (opcionales para la serie NV) solo se admiten en las distribuciones de sistemas operativos enumeradas en la tabla siguiente. Los vínculos de descarga de controladores están actualizados en el momento de la publicación. Para ver los controladores más recientes, visite el sitio web de NVIDIA.

Sugerencia

Como alternativa a la instalación manual de controladores de CUDA en una máquina virtual de Windows Server, puede implementar una imagen de Data Science Virtual Machine de Azure. Las ediciones de DSVM para Windows Server 2016 preinstalan los controladores NVIDIA CUDA, la biblioteca CUDA Deep Neural Network Library y otras herramientas.

SO Controlador
Windows Server 2019 451.82 (.exe)
Windows Server 2016 451.82 (.exe)

Controladores de NVIDIA GRID

Microsoft redistribuye los instaladores del controlador NVIDIA GRID para VM de las series NV y NVv3 que se emplean como estaciones de trabajo virtuales o para aplicaciones virtuales. Instale estos controladores GRID en VM de la serie NV de Azure y solo en los sistemas operativos enumerados en la tabla siguiente. Estos controladores incluyen licencias del software GRID Virtual GPU en Azure. No es necesario configurar un servidor de licencias de software vGPU NVIDIA.

Los controladores de GRID redistribuidos por Azure no funcionan en máquinas virtuales que no son de la serie NV, como las máquinas virtuales de las series NCv2, NCv3, ND y NDv2. La única excepción es la serie de VM NCas_T4_V3, donde los controladores de GRID habilitarán las funcionalidades de gráficos similares a las de la serie NV.

La serie NC con las GPU de NVIDIA K80 no admite aplicaciones de gráficos ni cuadrículas.

Tenga en cuenta que la extensión de NVIDIA siempre instalará el controlador más reciente. Aquí se proporcionan vínculos a la versión anterior para los clientes que tienen dependencias de una versión anterior.

En Windows Server 2019, Windows Server 2016 1607, 1709 y Windows 10 (hasta la compilación 20H2):

En Windows Server 2012 R2:

Para obtener la lista completa de los vínculos de todos los controladores de Nvidia GRID anteriores, visite GitHub

Instalación del controlador

  1. Conéctese mediante Escritorio remoto a cada máquina virtual de la serie N.

  2. Descargue, extraiga e instale el controlador compatible con su sistema operativo Windows.

Después de la instalación de controladores de GRID en una VM, se requiere un reinicio. Después de la instalación de controladores de CUDA, no se requiere un reinicio.

Comprobación de la instalación del controlador

Tenga en cuenta que el panel de control de Nvidia solo es accesible con la instalación del controlador GRID. Si ha instalado controladores CUDA, el panel de control de Nvidia no será visible.

Puede comprobar la instalación del controlador en el Administrador de dispositivos. En el ejemplo siguiente se muestra una configuración correcta de la tarjeta Tesla K80 en una máquina virtual de Azure NC.

Propiedades del controlador de GPU

Para consultar el estado del dispositivo de GPU, ejecute la utilidad de línea de comandos smi nvidia que se instala con el controlador.

  1. Abra un símbolo del sistema y cambie al directorio C:\Program Files\NVIDIA Corporation\NVSMI.

  2. Ejecute nvidia-smi. Si el controlador está instalado, verá una salida parecida a la siguiente. La utilidad GPU-Util muestra 0 % , salvo que se esté ejecutando una carga de trabajo de GPU en la máquina virtual. La versión del controlador y los detalles de GPU pueden ser diferentes de los que se muestran.

Estado del dispositivo de NVIDIA

Conectividad de red RDMA

La conectividad de red RDMA puede habilitarse en las máquinas virtuales de la serie N que puedan usar RDMA, como la NC24r, implementadas en el mismo conjunto de disponibilidad o en un único grupo de selección de red en un conjunto de escalado de máquinas virtuales. En las máquinas virtuales compatibles con RDMA, es necesario agregar la extensión HpcVmDrivers a las máquinas virtuales para instalar los controladores de dispositivos de red de Windows necesarios para la conectividad RDMA. Para agregar la extensión de máquina virtual a una máquina virtual de la serie N habilitada para RDMA, puede usar cmdlets de Azure PowerShell para Azure Resource Manager.

Para instalar la versión más reciente de la extensión HpcVMDrivers 1.1 en una máquina virtual compatible con RDMA existente denominada "myVM" en la región de oeste de EE. UU.:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

Para obtener más información, consulte Características y extensiones de las máquinas virtuales para Windows.

Ahora, la red RDMA admite el tráfico de interfaz de paso de mensajes (MPI) para aplicaciones que se ejecutan con Microsoft MPI o Intel MPI 5.x.

Pasos siguientes

  • Los desarrolladores que creen aplicaciones con aceleración por GPU para las GPU Tesla de NVIDIA también pueden descargar e instalar el último CUDA Toolkit. Para obtener más información, consulte la guía de instalación de CUDA.