Устранение неполадок при развертывании виртуальной машины в GPU Azure Stack Edge Pro

Статья
03/24/2023

ОБЛАСТЬ ПРИМЕНЕНИЯ: Yes for Pro GPU SKU Azure Stack Edge Pro — GPU Yes for Pro 2 SKU Azure Stack Edge Pro 2 Yes for Pro R SKU Azure Stack Edge Pro R Yes for Mini R SKU Azure Stack Edge Mini R

Из этой статьи вы узнаете, как устранять распространенные ошибки при развертывании виртуальных машин на GPU-устройстве Azure Stack Edge Pro. В ней также приведены рекомендации по исследованию наиболее распространенных проблем, приводящих к истечению времени ожидания при подготовке виртуальной машины и возникновению проблем во время создания сетевого интерфейса и виртуальной машины.

Чтобы диагностировать сбои при подготовке виртуальной машины, ознакомьтесь с гостевыми журналами для виртуальной машины, на которой произошел сбой. Инструкции по сбору гостевых журналов виртуальных машин и их включению в пакет поддержки см. в статье о сборе гостевых журналов для виртуальных машин в Azure Stack Edge Pro.

Руководство по решению проблем, препятствующих успешной загрузке образа виртуальной машины перед развертыванием виртуальной машины, см. в статье Устранение неполадок при отправке образа виртуальной машины в GPU Azure Stack Edge Pro.

Время ожидания подготовки виртуальной машины

В этом разделе содержатся сведения об устранении причин наиболее распространенных проблем с истечением времени ожидания при подготовке виртуальной машины.

При истечении времени ожидания во время подготовки виртуальной машины отображается следующая ошибка:

Screenshot of the error displayed in the Azure portal when VM provisioning times out in Azure Stack Edge.

Ниже перечислены основные причины истечения времени ожидания при подготовке виртуальной машины.

IP-адрес, назначенный виртуальной машине, уже используется. Подробнее
Образ, использованный для развертывания виртуальной машины, неправильно подготовлен. Подробнее
Гостевой виртуальной машине не удалось получить доступ к стандартному шлюзу и DNS-серверу. Подробнее
Во время установки cloud init средство cloud init не запустилось, либо же проблемы возникли во время выполнения. (Только для виртуальных машин Linux) Дополнительные сведения
Для виртуальной машины Linux, развернутой с помощью пользовательского образа, указаны неправильные флаги подготовки в файле /etc/waagent.conf. (Только для виртуальных машин Linux) Дополнительные сведения
Основной сетевой интерфейс, подключенный к виртуальному коммутатору с поддержкой SRIOV, см. дополнительные сведения

IP-адрес, назначенный виртуальной машине, уже используется

Описание ошибки. Виртуальной машине назначен уже используемый статический IP-адрес, поэтому подготовка виртуальной машины завершилась сбоем. Эта ошибка возникает, если IP-адрес уже используется в подсети, в которой вы развернули виртуальную машину. В процессе развертывания виртуальной машины с помощью портала Azure выполняется проверка на наличие такого же IP-адреса на устройстве, однако проверить IP-адреса других служб или виртуальных машин, которые также могут находиться в вашей подсети, этому процессу не удастся.

Предлагаемое решение. Используйте еще не используемый статический IP-адрес или динамический IP-адрес, предоставленный сервером DHCP.

Чтобы выполнить проверку на наличие повторяющихся IP-адресов, сделайте следующее:

Выполните приведенные ниже команды ping и Test-NetConnection (tnc) с любого устройства в одной сети:
```
ping <IP address>
tnc <IP address>
tnc <IP address> -CommonTCPPort “RDP”
```

Если вы получили ответ, IP-адрес, назначенный виртуальной машине, уже используется.

Образ виртуальной машины подготовлен неправильно

Описание ошибки. Чтобы подготовить образ виртуальной машины для использования на GPU-устройстве Azure Stack Edge Pro, необходимо выполнить конкретный рабочий процесс. Вы должны создать виртуальную машину 1-го поколения в Azure, настроить ее, подготовить VHD к использованию, а затем загрузить виртуальный жесткий диск ОС для этой виртуальной машины. Подготовленный образ должен быть виртуальным жестким диском 1-го поколения, иметь расширение файла vhd и фиксированный тип.

Общие сведения о требованиях см. в статье Создание пользовательских образов виртуальных машин для GPU-устройства Azure Stack Edge Pro. Рекомендации по устранению проблем с образами виртуальных машин см. в статье Устранение неполадок при отправке образов виртуальных машин в GPU Azure Stack Edge Pro.

Предлагаемое решение. Завершите рабочий процесс для подготовки образа виртуальной машины. Соответствующее руководство см. в одной из следующих статей:

Гостевой виртуальной машине не удалось получить доступ к шлюзу и DNS-серверу

Описание ошибки. Если во время развертывания виртуальной машины не удастся получить доступ к стандартному шлюзу и DNS-серверу, произойдет истечение времени ожидания подготовки виртуальной машины, и развертывание виртуальной машины завершится сбоем.

Предлагаемое решение. Убедитесь, что виртуальной машине удается получить доступ к стандартному шлюзу и DNS-серверу. Затем повторите развертывание виртуальной машины.

Чтобы убедиться, что стандартный шлюз и DNS-сервер доступны для виртуальной машины, выполните следующие действия.

Подключитесь к виртуальной машине.
Выполните следующие команды:
```
ping <default gateway IP address>
ping <DNS server IP address>
```
Чтобы узнать IP-адреса для стандартных шлюза и DNS-серверов, перейдите в локальный пользовательский интерфейс своего устройства. Выберите нужный порт и ознакомьтесь с параметрами сети.

Проблемы с `cloud init` (виртуальные машины Linux)

Описание ошибки:cloud init не выполнялось или возникали проблемы во время cloud init выполнения. Средство cloud-init позволяет настроить виртуальную машину Linux при ее первой загрузке. Дополнительные сведения см. в статье Поддержка cloud-init для виртуальных машин в Azure.

Предлагаемые решения. Чтобы определить проблемы, возникающие при запуске cloud init, выполните следующие действия.

Подключитесь к виртуальной машине.
Выполните проверку на наличие ошибок cloud init в следующих файлах журнала:
- /var/log/cloud-init-output.log
- /var/log/cloud-init.log
- /var/log/waagent.log

Чтобы выполнить проверку на наличие некоторых наиболее распространенных проблем, препятствующих успешному запуску cloud init, выполните следующие действия:

Убедитесь, что образ виртуальной машины основан на cloud init. Выполните следующую команду:

cloud-init --version

Команда должна возвращать номер версии cloud init. Если образ не основан на cloud init, команда не возвратит сведения о версии.

Чтобы получить справку по параметрам cloud init, выполните следующую команду:

cloud-init --help
Убедитесь, что экземпляр cloud init может успешно выполняться, используя в качестве источника данных Azure.

Если в качестве источника данных используется Azure, запись в журналах cloud init будет выглядеть примерно так:

Если источником данных не является Azure, вам, возможно, потребуется изменить скрипт cloud init. Дополнительные сведения см. в статье Углубленное изучение cloud-init.

Флаги подготовки заданы неправильно (виртуальные машины Linux)

Описание ошибки. Чтобы обеспечить успешное развертывание виртуальной машины Linux в Azure, вам понадобится отключить подготовку для образа и включить подготовку с помощью cloud init. Для стандартных образов виртуальных машин флаги подготовки, задающие эти значения, уже настроены правильно. Но, если вы используете пользовательский образ виртуальной машины, правильность этих параметров нужно проверять.

Предлагаемое решение. Убедитесь, что флаги подготовки в файле /etc/waagent.conf имеют следующие значения:

Возможность	Обязательное значение
Включение подготовки	`Provisioning.Enabled=n`
Использование cloud-init для подготовки	`Provisioning.UseCloudInit=y`

Основной сетевой интерфейс, подключенный к виртуальному коммутатору с поддержкой SRIOV

Описание ошибки. Основной сетевой интерфейс, подключенный к одному корневому виртуальному коммутатору виртуализации ввода-вывода (SRIOV), вызвал сетевой трафик для обхода hyper-v, поэтому узел не мог получать DHCP-запросы от виртуальной машины, что привело к истечении времени ожидания подготовки.

Предлагаемые решения:

Подключение основной сетевой интерфейс виртуальной машины к виртуальному коммутатору без включения ускорения сети.
На устройстве Azure Stack Edge Pro 1 виртуальные коммутаторы, созданные на порте 1 до порта 4, не обеспечивают ускорение сети. В порте 5 или порте 6 виртуальные коммутаторы будут включать ускоренную сеть по умолчанию.
На устройстве Azure Stack Edge Pro 2 виртуальные коммутаторы, созданные на порту 1 или порте 2, не обеспечивают ускорение сети. В порте 3 или порте 4 виртуальные коммутаторы будут включать ускоренную сеть по умолчанию.

Проблемы при создании сетевого интерфейса

В этом разделе приведены рекомендации по решению проблем, которые приводят к сбою при создании сетевого интерфейса во время развертывания виртуальной машины.

Время ожидания при создании сетевого адаптера

Описание ошибки. Создание сетевого интерфейса на виртуальной машине не завершилось в течение допустимого периода ожидания. К этой ошибке могли привести проблемы с сервером DHCP в вашем окружении.

Чтобы проверить, успешно ли создан сетевой интерфейс, выполните следующие действия.

На портале Azure перейдите к ресурсу Azure Stack Edge для вашего устройства (перейдите в раздел Edge Services(Службы Edge) >Виртуальные машины). Затем выберите пункт Развертывания и перейдите к развертыванию виртуальной машины.
Если создать сетевой интерфейс не удалось, вы увидите следующую ошибку.

Предлагаемое решение. Создайте виртуальную машину еще раз и назначьте ей статический IP-адрес.

Проблемы при создании виртуальной машины

В этом разделе рассматриваются распространенные проблемы, которые могут возникнуть при создании виртуальной машины.

Недостаточно памяти для создания виртуальной машины

Описание ошибки. Если создание виртуальной машины завершается неудачно из-за недостаточного количества памяти, вы увидите следующую ошибку.

Screenshot of the error displayed in the Azure portal when VM creation fails on an Azure Stack Edge device.

Предлагаемое решение. Проверьте объем доступной памяти на устройстве и соответствующим образом выберите размер виртуальной машины. Дополнительные сведения см. в разделе Поддерживаемые размеры виртуальных машин для Azure Stack Edge.

Объем памяти, доступный для развертывания виртуальной машины, ограничивается несколькими факторами:

Объем доступной памяти на устройстве. Дополнительные сведения о вычислительных характеристиках и характеристиках памяти см. в описаниях технических характеристик GPU Azure Stack Edge Pro и Azure Stack Edge Mini R.
Если вы используете Kubernetes, то это — объем памяти для вычислений, необходимый для Kubernetes и приложений в кластере Kubernetes.
Дополнительные затраты на каждую виртуальную машину в Hyper-V.

Предлагаемые решения:

Используйте размер виртуальной машины, для которого нужно меньше памяти.
Остановите неиспользуемые виртуальные машины на портале, прежде чем развертывать новую виртуальную машину.
Удалите виртуальные машины, которые больше не используются.

Недостаточное количество GPU для создания виртуальной машины GPU

Если вы попытаетесь развернуть виртуальную машину на GPU-устройстве, которое уже использует Kubernetes, процессоры GPU будут недоступны, а подготовка виртуальной машины завершится сбоем из-за следующей ошибки:

Screenshot of the error displayed in the Azure portal when creation of a GPU VM fails because of no available GPUs on an Azure Stack Edge device.

Возможные причины. Если включить Kubernetes до создания виртуальной машины, Kubernetes будет использовать все доступные GPU, и вы не сможете создавать виртуальные машины с размером, необходимым для GPU. Вы сможете создать столько виртуальных машин с размером GPU, сколько доступно процессоров GPU. Устройство Azure Stack Edge может иметь 1 или 2 GPU.

Предлагаемое решение. Ознакомьтесь со сведениями о вариантах развертывания виртуальных машин на устройстве с 1 GPU или 2 GPU и настроенной платформе Kubernetes в разделе о виртуальных машинах GPU и Kubernetes.

Устранение неполадок при развертывании виртуальной машины в GPU Azure Stack Edge Pro

Время ожидания подготовки виртуальной машины

IP-адрес, назначенный виртуальной машине, уже используется

Образ виртуальной машины подготовлен неправильно

Гостевой виртуальной машине не удалось получить доступ к шлюзу и DNS-серверу

Проблемы с `cloud init` (виртуальные машины Linux)

Флаги подготовки заданы неправильно (виртуальные машины Linux)

Основной сетевой интерфейс, подключенный к виртуальному коммутатору с поддержкой SRIOV

Проблемы при создании сетевого интерфейса

Время ожидания при создании сетевого адаптера

Проблемы при создании виртуальной машины

Недостаточно памяти для создания виртуальной машины

Недостаточное количество GPU для создания виртуальной машины GPU

Следующие шаги

Дополнительные ресурсы

Устранение неполадок при развертывании виртуальной машины в GPU Azure Stack Edge Pro

Время ожидания подготовки виртуальной машины

IP-адрес, назначенный виртуальной машине, уже используется

Образ виртуальной машины подготовлен неправильно

Гостевой виртуальной машине не удалось получить доступ к шлюзу и DNS-серверу

Проблемы с cloud init (виртуальные машины Linux)

Флаги подготовки заданы неправильно (виртуальные машины Linux)

Основной сетевой интерфейс, подключенный к виртуальному коммутатору с поддержкой SRIOV

Проблемы при создании сетевого интерфейса

Время ожидания при создании сетевого адаптера

Проблемы при создании виртуальной машины

Недостаточно памяти для создания виртуальной машины

Недостаточное количество GPU для создания виртуальной машины GPU

Следующие шаги

Дополнительные ресурсы

Проблемы с `cloud init` (виртуальные машины Linux)