Устранение неполадок с расширением GPU для виртуальных машин GPU в Azure Stack Edge Pro GPU

Статья
06/01/2023

ОБЛАСТЬ ПРИМЕНЕНИЯ: Yes for Pro - GPU SKU Azure Stack Edge Pro — GPU Yes for Pro 2 SKU Azure Stack Edge Pro 2 Yes for Pro R SKU Azure Stack Edge Pro R

В этой статье приводятся рекомендации по устранению наиболее распространенных проблем, которые приводят к сбою установки расширения GPU на виртуальной машине GPU на устройстве Azure Stack Edge Pro GPU.

Инструкции по установке см. в статье Установка расширения GPU.

В версиях ниже 2205 расширение GPU Linux устанавливает старые ключи подписи: подпись и /или обязательный ключ отсутствуют

Описание ошибки. Расширение GPU Linux устанавливает старые ключи подписывания, предотвращая загрузку требуемого драйвера GPU. В этом случае в системном журнале виртуальной машины Linux появится следующая ошибка:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel

Предлагаемые решения. У вас есть два варианта устранения этой проблемы:

Вариант 1. Применение обновлений Azure Stack Edge 2205 к устройству.
Вариант 2. После создания виртуальной машины GPU размера в NCasT4_v3 серии вручную установите новые ключи подписывания перед установкой расширения, а затем задайте необходимые ключи подписывания с помощью шагов в обновлении ключа репозитория GPG для CUDA Linux | Технический блог NVIDIA.

Ниже приведен пример установки ключей подписывания на виртуальной машине Ubuntu 1804:
```
$ sudo apt-key adv --fetch-
keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
```

Сбой установки расширения GPU на VHD Windows 2016

Описание ошибки: это известная проблема в версиях ниже 2205. Для расширения GPU требуется TLS 1.2. В этом случае может появить следующее сообщение об ошибке:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Дополнительная информация

Проверьте наличие связанной ошибки в журнале гостевой виртуальной машины. Сведения о сборе гостевых журналов см. в статье Сбор гостевых журналов для виртуальных машин на устройстве GPU Azure Stack Edge Pro.
На виртуальной машине Linux просмотрите или /var/log/azure/nvidia-vmext-statusвыполните поиск/var/log/waagent.log.
На виртуальной машине Windows найдите состояние C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Statusошибки.
Просмотрите полный журнал выполнения в C:\WindowsAzure\Logs\WaAppAgent.txt.

Если во время скачивания пакета произошел сбой установки, эта ошибка указывает, что виртуальная машина не могла получить доступ к общедоступной сети для скачивания драйвера.

Рекомендуемое решение. Выполните следующие действия, чтобы включить TLS 1.2 на виртуальной машине Windows 2016, а затем развернуть расширение GPU.

Выполните следующую команду на виртуальной машине, чтобы включить TLS 1.2:
```
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
```
Разверните шаблон addGPUextensiontoVM.json для установки расширения на существующей виртуальной машине. Расширение можно установить вручную или установить его из портал Azure.
- Чтобы установить расширение вручную, см. раздел "Установка расширения GPU на виртуальных машинах" для устройства GPU Azure Stack Edge Pro
- Чтобы установить шаблон с помощью портал Azure, см. статью "Развертывание виртуальных машин GPU на устройстве GPU Azure Stack Edge Pro".
Примечание.

Развертывание расширения выполняется как длительное задание и может занять около 10 минут.

Установка драйвера Nvidia вручную на RHEL 7

Описание ошибки. При установке расширения GPU на виртуальной машине RHEL 7 установка может завершиться ошибкой из-за проблемы с сменой сертификата и несовместимой версией драйвера.

Предлагаемое решение. В этом случае у вас есть два варианта:

Вариант 1. Устраните проблему смены сертификатов, а затем установите драйвер Nvidia ниже версии 510.
1. Чтобы устранить проблему смены сертификатов, выполните следующую команду:
```
$ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
```
2. Установите драйвер Nvidia ниже версии 510.

Вариант 2. Развертывание расширения GPU. При развертывании расширения ARM используйте следующие параметры:

settings": { 
"isCustomInstall": true, 
"InstallMethod": 0, 
"DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
"DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
"LIS_URL": "  https://aka.ms/lis", 
"LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
}

Размер виртуальной машины не является размером виртуальной машины GPU

Описание ошибки. Виртуальная машина GPU должна иметь размер Standard_NC4as_T4_v3 или Standard_NC8as_T4_v3. При использовании любого другого размера виртуальной машины расширение GPU не будет подключено.

Предлагаемое решение. Создайте виртуальную машину с размером Standard_NC4as_T4_v3 или Standard_NC8as_T4_v3. Дополнительные сведения см. в разделе Поддерживаемые размеры виртуальных машин GPU. Дополнительные сведения об указании размера см. в разделе Создание виртуальных машин GPU.

ОС образа не поддерживается

Описание ошибки. Расширение GPU не поддерживает операционную систему, установленную в образе виртуальной машины.

Предлагаемое решение. Подготовьте новый образ виртуальной машины с операционной системой, поддерживаемой расширением GPU.

Список поддерживаемых операционных систем см. в разделе Поддерживаемые драйверы ОС и GPU для виртуальных машин GPU.
Требования к подготовке образа для виртуальной машины GPU см. в разделе Создание виртуальных машин GPU.

Неверный параметр расширения

Описание ошибки. При развертывании расширения GPU на виртуальной машине Linux были использованы неправильные параметры расширения.

Предлагаемое решение. Перед развертыванием расширения GPU измените файл параметров. Дополнительные сведения см. в разделе Установка расширения GPU.

Сбой установки расширения виртуальной машины при скачивании пакета

Описание ошибки. Сбой подготовки расширения во время его установки или в состоянии включения.

Проверьте наличие связанной ошибки в журнале гостевой виртуальной машины. Сведения о том, как собирать гостевые журналы, см. в статье о сборе гостевых журналов для виртуальных машин на Azure Stack Edge Pro.

На виртуальной машине Linux:
- Ищите в /var/log/waagent.log или /var/log/azure/nvidia-vmext-status.
Для виртуальной машины Windows
- Найдите состояние ошибки в C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
- Ознакомьтесь с полным журналом выполнения: C:\WindowsAzure\Logs\WaAppAgent.txt.
Если сбой установки произошел во время скачивания пакета, то эта ошибка указывает на то, что виртуальной машине не удалось получить доступ к общедоступной сети для скачивания драйвера.

Предлагаемое решение.

Включите вычисление на порте, подключенном к Интернету. Инструкции см. в разделе Создание виртуальных машин GPU.
Освободите виртуальную машину, остановив ее на портале. Чтобы остановить виртуальную машину, перейдите к разделу Виртуальные машины>Обзор и выберите виртуальную машину. Затем на странице свойств виртуальной машины нажмите кнопку "Остановить".
Создать виртуальную машину.

Сбой расширения виртуальной машины с ошибкой `dpkg is used/yum lock is used` (виртуальная машина Linux)

Описание ошибки. При развертывании расширения GPU на виртуальной машине Linux произошел сбой из-за того, что другой процесс использовал dpkg или другой процесс создал yum lock.

Предлагаемое решение. Чтобы устранить эту проблему, выполните приведенные ниже действия.

Чтобы узнать, какой процесс применяет блокировку, найдите в журнале \var\log\Azure\nvidia-vmext-status ошибку, например "dpkg используется другим процессом" или "Другое приложение удерживает блокировку yum lock".
Дождитесь завершения процесса или завершите процесс.
Снова установите расширение GPU.
Если развертывание расширения снова завершится сбоем, создайте новую виртуальную машину и убедитесь в отсутствии блокировки до установки расширения GPU.

Следующие шаги

Сбор гостевых журналов и создание пакета поддержки