Azure Stack Edge Pro GPU'da GPU VM'leri için GPU uzantısı sorunlarını giderme

ŞUNLAR IÇIN GEÇERLIDIR:Yes for Pro - GPU SKU Azure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Bu makale, BIR GPU VM'sine GPU uzantısı yüklemesinin Azure Stack Edge Pro GPU cihazında başarısız olmasına neden olan en yaygın sorunları çözmeye yönelik yönergeler sağlar.

Yükleme adımları için bkz . GPU uzantısını yükleme.

2205'ten düşük sürümlerde Linux GPU uzantısı eski imzalama anahtarlarını yükler: imza ve/veya gerekli anahtar eksik

Hata açıklaması: Linux GPU uzantısı eski imzalama anahtarlarını yükleyerek gerekli GPU sürücüsünün indirilmesini engeller. Bu durumda, Linux VM'sinin syslog'unda aşağıdaki hatayı görürsünüz:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Önerilen çözümler: Bu sorunu hafifletmek için iki seçeneğiniz vardır:

  • 1. Seçenek: Azure Stack Edge 2205 güncelleştirmelerini cihazınıza uygulayın.

  • Seçenek 2: NCasT4_v3 serisinde bir GPU sanal makinesi oluşturduktan sonra, uzantıyı yüklemeden önce yeni imzalama anahtarlarını el ile yükleyin, ardından CUDA Linux GPG Depo Anahtarını Güncelleştirme bölümündeki adımları kullanarak gerekli imzalama anahtarlarını ayarlayın | NVIDIA Teknik Blogu.

    Aşağıda, Ubuntu 1804 sanal makinesine imzalama anahtarlarını yükleyen bir örnek verilmiştir:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Windows 2016 VHD'ye GPU uzantısı yüklenememesi

Hata açıklaması: Bu, 2205'ten düşük sürümlerde bilinen bir sorundur. GPU uzantısı TLS 1.2 gerektirir. Bu durumda, aşağıdaki hata iletisini görebilirsiniz:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Ek ayrıntılar:

  • İlişkili hata için konuk günlüğünü denetleyin. Konuk günlüklerini toplamak için bkz . Azure Stack Edge Pro GPU cihazında VM'ler için konuk günlüklerini toplama.
  • Linux VM'sinde veya /var/log/azure/nvidia-vmext-statusöğesine /var/log/waagent.log bakın.
  • Windows VM'sinde hata durumunu içinde C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Statusbulun.
  • içindeki C:\WindowsAzure\Logs\WaAppAgent.txtyürütme günlüğünün tamamını gözden geçirin.

Yükleme paket indirme sırasında başarısız olduysa, bu hata VM'nin sürücüyü indirmek için genel ağa erişemediğini gösterir.

Önerilen çözüm: Windows 2016 VM'sinde TLS 1.2'yi etkinleştirmek ve ardından GPU uzantısını dağıtmak için aşağıdaki adımları kullanın.

  1. TLS 1.2'yi etkinleştirmek için VM'nin içinde aşağıdaki komutu çalıştırın:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Uzantıyı mevcut bir VM'ye yüklemek için şablonu addGPUextensiontoVM.json dağıtın. Uzantıyı el ile veya Azure portalından yükleyebilirsiniz.

    Dekont

    Uzantı dağıtımı uzun süre çalışan bir iştir ve tamamlanması yaklaşık 10 dakika sürer.

RHEL 7'de Nvidia sürücüsünü el ile yükleme

Hata açıklaması: GPU uzantısı rhel 7 VM'sine yüklenirken, sertifika döndürme sorunu ve uyumsuz sürücü sürümü nedeniyle yükleme başarısız olabilir.

Önerilen çözüm: Bu durumda iki seçeneğiniz vardır:

  • Seçenek 1: Sertifika döndürme sorununu çözün ve ardından sürüm 510'dan düşük bir Nvidia sürücüsü yükleyin.

    1. Sertifika döndürme sorununu çözmek için aşağıdaki komutu çalıştırın:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Sürüm 510'dan daha düşük bir Nvidia sürücüsü yükleyin.

  • Seçenek 2: GPU uzantısını dağıtma. ARM uzantısını dağıtırken aşağıdaki ayarları kullanın:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM boyutu GPU VM boyutu değil

Hata açıklaması: GPU VM'si Standard_NC4as_T4_v3 veya Standard_NC8as_T4_v3 boyutta olmalıdır. Başka bir VM boyutu kullanılırsa GPU uzantısı eklenemez.

Önerilen çözüm: Standard_NC4as_T4_v3 veya Standard_NC8as_T4_v3 VM boyutuna sahip bir VM oluşturun. Daha fazla bilgi için bkz . GPU VM'leri için desteklenen VM boyutları. Boyutu belirtme hakkında bilgi için bkz . GPU VM'leri oluşturma.

Görüntü işletim sistemi desteklenmiyor

Hata açıklaması: GPU uzantısı, VM görüntüsünde yüklü olan işletim sistemini desteklemiyor.

Önerilen çözüm: GPU uzantısının desteklediği bir işletim sistemine sahip yeni bir VM görüntüsü hazırlayın.

  • Desteklenen işletim sistemlerinin listesi için bkz . GPU VM'leri için desteklenen işletim sistemi ve GPU sürücüleri.

  • GPU VM'leri için görüntü hazırlama gereksinimleri için bkz . GPU VM'leri oluşturma.

Uzantı parametresi yanlış

Hata açıklaması: Linux VM'de GPU uzantısı dağıtılırken yanlış uzantı ayarları kullanıldı.

Önerilen çözüm: GPU uzantısını dağıtmadan önce parametre dosyasını düzenleyin. Daha fazla bilgi için bkz . GPU uzantısını yükleme.

PAKET indirilirken VM uzantısı yüklemesi başarısız oldu

Hata açıklaması: Uzantı sağlama, uzantı yüklemesi sırasında veya Etkinleştir durumundayken başarısız oldu.

  1. İlişkili hata için konuk günlüğünü denetleyin. Konuk günlüklerini toplamak için bkz . Azure Stack Edge Pro'da VM'ler için konuk günlüklerini toplama.

    Linux VM'sinde:

    • veya /var/log/azure/nvidia-vmext-statusöğesine /var/log/waagent.log bakın.

    Windows VM'sinde:

    • içinde C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Statushata durumunu öğrenin.
    • Yürütme günlüğünün tamamını gözden geçirin: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Paket indirme sırasında yükleme başarısız olduysa, bu hata VM'nin sürücüyü indirmek için genel ağa erişemediğini gösterir.

Önerilen çözüm:

  1. İnternet'e bağlı bir bağlantı noktasında işlem etkinleştirin. Yönergeler için bkz . GPU VM'leri oluşturma.

  2. Portalda VM'yi durdurarak VM'yi serbest bırakma. VM'yi durdurmak için Sanal makinelere>Genel Bakış'a gidin ve VM'yi seçin. Ardından VM özellikleri sayfasında Durdur'u seçin.

  3. Yeni bir VM oluşturun.

VM Uzantısı hatayla dpkg is used/yum lock is used başarısız oldu (Linux VM)

Hata açıklaması: Linux VM'sinde GPU uzantısı dağıtımı, başka bir işlemin kullandığı dpkg veya başka bir işlemin oluşturduğu yum lockiçin başarısız oldu.

Önerilen çözüm: Sorunu çözmek için şu adımları uygulayın:

  1. Kilidi hangi işlemin uyguladığını öğrenmek için \var\log\azure\nvidia-vmext-status günlüğünde "dpkg başka bir işlem tarafından kullanılıyor" veya "Başka bir uygulama tutuyor yum lock" gibi bir hata arayın.

  2. İşlemin tamamlanmasını bekleyin veya işlemi sonlandırın.

  3. GPU uzantısını yeniden yükleyin.

  4. Uzantı dağıtımı yeniden başarısız olursa yeni bir VM oluşturun ve GPU uzantısını yüklemeden önce kilidin mevcut olmadığından emin olun.

Sonraki adımlar

Konuk günlüklerini toplama ve Destek paketi oluşturma