Устранение неполадок с расширением GPU для виртуальных машин GPU в Azure Stack Edge Pro GPU

ПРИМЕНИМО К: Да для SKU Pro GPUAzure Stack Edge Pro — GPUДа для SKU Pro RAzure Stack Edge Pro R                  

В этой статье приводятся рекомендации по устранению наиболее распространенных проблем, которые приводят к сбою установки расширения GPU на виртуальной машине GPU на устройстве Azure Stack Edge Pro GPU.

Инструкции по установке см. в статье Установка расширения GPU.

Размер виртуальной машины не является размером виртуальной машины GPU

Описание ошибки. Виртуальная машина GPU должна иметь размер Standard_NC4as_T4_v3 или Standard_NC8as_T4_v3. При использовании любого другого размера виртуальной машины расширение GPU не будет подключено.

Предлагаемое решение. Создайте виртуальную машину с размером Standard_NC4as_T4_v3 или Standard_NC8as_T4_v3. Дополнительные сведения см. в разделе Поддерживаемые размеры виртуальных машин GPU. Дополнительные сведения об указании размера см. в разделе Создание виртуальных машин GPU.

ОС образа не поддерживается

Описание ошибки. Расширение GPU не поддерживает операционную систему, установленную в образе виртуальной машины.

Предлагаемое решение. Подготовьте новый образ виртуальной машины с операционной системой, поддерживаемой расширением GPU.

Неверный параметр расширения

Описание ошибки. При развертывании расширения GPU на виртуальной машине Linux были использованы неправильные параметры расширения.

Предлагаемое решение. Перед развертыванием расширения GPU измените файл параметров. Дополнительные сведения см. в разделе Установка расширения GPU.

Сбой установки расширения виртуальной машины при скачивании пакета

Описание ошибки. Сбой подготовки расширения во время его установки или в состоянии включения.

  1. Проверьте наличие связанной ошибки в журнале гостевой виртуальной машины. Сведения о том, как собирать гостевые журналы, см. в статье о сборе гостевых журналов для виртуальных машин на Azure Stack Edge Pro.

    На виртуальной машине Linux:

    • Ищите в /var/log/waagent.log или /var/log/azure/nvidia-vmext-status.

    Для виртуальной машины Windows:

    • Найдите состояние ошибки в C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Ознакомьтесь с полным журналом выполнения: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Если сбой установки произошел во время скачивания пакета, то эта ошибка указывает на то, что виртуальной машине не удалось получить доступ к общедоступной сети для скачивания драйвера.

Предлагаемое решение.

  1. Включите вычисление на порте, подключенном к Интернету. Инструкции см. в разделе Создание виртуальных машин GPU.

  2. Освободите виртуальную машину, остановив ее на портале. Чтобы остановить виртуальную машину, перейдите к разделу Виртуальные машины > Обзор и выберите виртуальную машину. Затем на странице свойств виртуальной машины выберите пункт Остановить.

  3. Создать виртуальную машину.

Сбой расширения виртуальной машины с ошибкой dpkg is used/yum lock is used (виртуальная машина Linux)

Описание ошибки. При развертывании расширения GPU на виртуальной машине Linux произошел сбой из-за того, что другой процесс использовал dpkg или другой процесс создал yum lock.

Предлагаемое решение. Чтобы устранить эту проблему, выполните приведенные ниже действия.

  1. Чтобы узнать, какой процесс применяет блокировку, найдите в журнале \var\log\Azure\nvidia-vmext-status ошибку, например "dpkg используется другим процессом" или "Другое приложение удерживает блокировку yum lock".

  2. Дождитесь завершения процесса или завершите процесс.

  3. Снова установите расширение GPU.

  4. Если развертывание расширения снова завершится сбоем, создайте новую виртуальную машину и убедитесь в отсутствии блокировки до установки расширения GPU.

Дальнейшие действия

Сбор гостевых журналов и создание пакета поддержки