Partilhar via


Solucionar problemas de extensão de GPU para VMs de GPU na GPU do Azure Stack Edge Pro

APLICA-SE A:Yes for Pro - GPU SKUAzure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Este artigo fornece orientação para resolver os problemas mais comuns que fazem com que a instalação da extensão GPU em uma VM GPU falhe em um dispositivo GPU Azure Stack Edge Pro.

Para conhecer as etapas de instalação, consulte Instalar extensão GPU.

Em versões inferiores a 2205, a extensão GPU Linux instala chaves de assinatura antigas: assinatura e/ou chave necessária ausente

Descrição do erro: A extensão GPU Linux instala chaves de assinatura antigas, impedindo o download do driver de GPU necessário. Nesse caso, você verá o seguinte erro no syslog da VM Linux:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Soluções sugeridas: você tem duas opções para mitigar esse problema:

  • Opção 1: Aplique as atualizações do Azure Stack Edge 2205 ao seu dispositivo.

  • Opção 2: Depois de criar uma máquina virtual GPU de tamanho na série NCasT4_v3, instale manualmente as novas chaves de assinatura antes de instalar a extensão e, em seguida, defina as chaves de assinatura necessárias usando as etapas em Atualizando a chave do repositório CUDA Linux GPG | Blog técnico da NVIDIA.

    Aqui está um exemplo que instala chaves de assinatura em uma máquina virtual Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Falha ao instalar a extensão GPU em um VHD do Windows 2016

Descrição do erro: Este é um problema conhecido em versões inferiores a 2205. A extensão GPU requer TLS 1.2. Nesse caso, você verá a seguinte mensagem de erro:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Detalhes adicionais:

  • Verifique o log de convidado para o erro associado. Para coletar os logs de convidado, consulte Coletar logs de convidado para VMs em um dispositivo de GPU do Azure Stack Edge Pro.
  • Em uma VM Linux, procure ou /var/log/waagent.log/var/log/azure/nvidia-vmext-status.
  • Em uma VM do Windows, localize o status do erro em C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Revise o log de execução completo .C:\WindowsAzure\Logs\WaAppAgent.txt

Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.

Solução sugerida: use as etapas a seguir para habilitar o TLS 1.2 em uma VM do Windows 2016 e implante a extensão da GPU.

  1. Execute o seguinte comando dentro da VM para habilitar o TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Implante o modelo addGPUextensiontoVM.json para instalar a extensão em uma VM existente. Você pode instalar a extensão manualmente ou pode instalá-la a partir do portal do Azure.

    Nota

    A implantação da extensão é um trabalho de longa execução e leva cerca de 10 minutos para ser concluída.

Instale manualmente o driver Nvidia no RHEL 7

Descrição do erro: Ao instalar a extensão GPU em uma VM RHEL 7, a instalação pode falhar devido a um problema de rotação de certificado e uma versão de driver incompatível.

Solução sugerida: Neste caso, você tem duas opções:

  • Opção 1: Resolva o problema de rotação do certificado e, em seguida, instale um driver Nvidia inferior à versão 510.

    1. Para resolver o problema de rotação de certificados, execute o seguinte comando:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Instale um driver Nvidia inferior à versão 510.

  • Opção 2: Implante a extensão da GPU. Use as seguintes configurações ao implantar a extensão ARM:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

O tamanho da VM não é o tamanho da VM da GPU

Descrição do erro: Uma VM GPU deve ter Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3 tamanho. Se qualquer outro tamanho de VM for usado, a extensão da GPU não será anexada.

Solução sugerida: crie uma VM com o tamanho Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3 VM. Para obter mais informações, consulte Tamanhos de VM suportados para VMs GPU. Para obter informações sobre como especificar o tamanho, consulte Criar VMs de GPU.

O SO de imagem não é suportado

Descrição do erro: A extensão GPU não suporta o sistema operacional instalado na imagem da VM.

Solução sugerida: prepare uma nova imagem de VM que tenha um sistema operacional suportado pela extensão GPU.

O parâmetro de extensão está incorreto

Descrição do erro: Configurações de extensão incorretas foram usadas ao implantar a extensão GPU em uma VM Linux.

Solução sugerida: edite o arquivo de parâmetros antes de implantar a extensão GPU. Para obter mais informações, consulte Instalar extensão GPU.

Falha na instalação da extensão VM ao baixar o pacote

Descrição do erro: O provisionamento da extensão falhou durante a instalação da extensão ou enquanto estava no estado Ativar.

  1. Verifique o log de convidado para o erro associado. Para coletar os logs de convidado, consulte Coletar logs de convidado para VMs em um Azure Stack Edge Pro.

    Em uma VM Linux:

    • Olhe para dentro /var/log/waagent.log ou /var/log/azure/nvidia-vmext-status.

    Em uma VM do Windows:

    • Descubra o status do erro em C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Revise o log de execução completo: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.

Solução sugerida:

  1. Habilite a computação em uma porta conectada à Internet. Para obter orientações, consulte Criar VMs GPU.

  2. Desaloque a VM interrompendo a VM no portal. Para parar a VM, vá para Visão geral das máquinas>virtuais e selecione a VM. Em seguida, na página de propriedades da VM, selecione Parar.

  3. Crie uma nova VM.

Falha na extensão da VM com erro dpkg is used/yum lock is used (VM Linux)

Descrição do erro: A implantação da extensão GPU em uma VM Linux falhou porque outro processo estava usando dpkg ou outro processo criou um yum lockarquivo .

Solução sugerida: para resolver o problema, siga estas etapas:

  1. Para descobrir qual processo está aplicando o bloqueio, pesquise no log \var\log\azure\nvidia-vmext-status por um erro como "dpkg is used by another process" ou "Another app is holding yum lock".

  2. Aguarde a conclusão do processo ou termine o processo.

  3. Instale a extensão GPU novamente.

  4. Se a implantação da extensão falhar novamente, crie uma nova VM e verifique se o bloqueio não está presente antes de instalar a extensão da GPU.

Próximos passos

Coletar logs de convidados e criar um pacote de suporte