Solución de problemas de implementación de máquinas virtuales en Azure Stack Edge Pro con GPU

SE APLICA A:Yes for Pro GPU SKUAzure Stack Edge Pro: GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro RYes for Mini R SKUAzure Stack Edge Mini R

En este artículo se describe cómo solucionar errores comunes al implementar máquinas virtuales en un dispositivo GPU de Azure Stack Edge. En el artículo se proporcionan instrucciones para investigar los problemas más comunes que provocan tiempos de espera y errores de aprovisionamiento de máquinas virtuales durante la creación de la interfaz de red y la máquina virtual.

Para diagnosticar cualquier error de aprovisionamiento de máquinas virtuales, revisará los registros de invitado de la máquina virtual con errores. Para consultar los pasos necesarios para recopilar los registros de invitado de las máquinas virtuales en un paquete de registros, vea Recopilación de registros de invitado de VM en Azure Stack Edge Pro.

Para obtener instrucciones sobre los problemas que impiden la carga correcta de una imagen de máquina virtual antes de la implementación de la máquina virtual, consulte Solución de problemas de cargas de imágenes de máquina virtual en Azure Stack Edge Pro con GPU.

Tiempo de espera de aprovisionamiento de máquinas virtuales

En esta sección se proporciona la solución de problemas de las causas más comunes del tiempo de espera de aprovisionamiento de máquinas virtuales.

Cuando se haya agotado el tiempo de espera de aprovisionamiento de máquinas virtuales, verá el siguiente error:

Screenshot of the error displayed in the Azure portal when VM provisioning times out in Azure Stack Edge.

Los problemas siguientes son las principales causas de los tiempos de espera de aprovisionamiento de máquinas virtuales:

  • La dirección IP que asignó a la máquina virtual ya está en uso. Más información
  • La imagen de máquina virtual que usó para implementar la máquina virtual no se preparó correctamente. Más información
  • No se pudo establecer contacto con la puerta de enlace predeterminada y el servidor DNS desde la máquina virtual invitada. Más información
  • Durante una instalación de cloud init, cloud init no se ejecutó o hubo problemas mientras se ejecutaba. (Solo máquinas virtuales Linux) Más información.
  • En el caso de una máquina virtual Linux implementada con una imagen de máquina virtual personalizada, las marcas de aprovisionamiento del archivo /etc/waagent.conf no son correctas. (Solo máquinas virtuales Linux) Más información.
  • Interfaz de red principal conectada a un conmutador virtual habilitado para SRIOV Más información

La dirección IP asignada a la máquina virtual ya está en uso

Descripción del error:: se asignó a la máquina virtual una dirección IP estática que ya está en uso y se produjo un error al aprovisionar la máquina virtual. Este error se produce cuando la dirección IP está en uso en la subred en la que se implementa la máquina virtual. Al implementar una máquina virtual mediante Azure Portal, el proceso comprueba si hay una dirección IP existente en el dispositivo, pero no puede comprobar las direcciones IP de otros servicios o máquinas virtuales que también podrían estar en la subred.

Solución sugerida: use una dirección IP estática que no esté en uso o una dirección IP dinámica proporcionada por el servidor DHCP.

Para comprobar si hay una dirección IP duplicada:

  • Ejecute los comandos ping y Test-NetConnection (tnc) desde cualquier dispositivo de la misma red:

    ping <IP address>
    tnc <IP address>
    tnc <IP address> -CommonTCPPort “RDP”
    

Si recibe una respuesta, la dirección IP que asignó a la nueva máquina virtual ya está en uso.

Imagen de máquina virtual no preparada correctamente

Descripción del error: para preparar una imagen de máquina virtual para su uso en un dispositivo GPU de Azure Stack Edge Pro, debe seguir un flujo de trabajo específico. Debe crear una máquina virtual gen1 en Azure, personalizarla, generalizar el VHD y, luego, descargar el VHD del sistema operativo para esa máquina virtual. La imagen preparada debe ser un VHD gen1 con la extensión de nombre de archivo "vhd" y el tipo fijo.

Para información general sobre los requisitos, consulte Creación de imágenes de máquina virtual personalizadas para un dispositivo GPU de Azure Stack Edge Pro. Para instrucciones sobre cómo resolver los problemas relacionados con las imágenes de máquina virtual, consulte Solución de problemas de cargas de imágenes de máquina virtual en Azure Stack Edge Pro con GPU.

Solución sugerida: complete el flujo de trabajo para preparar la imagen de máquina virtual. Consulte uno los artículos siguientes como guía:

No se pudo establecer contacto con la puerta de enlace y el servidor DNS desde la máquina virtual invitada

Descripción del error: si no se puede establecer contacto con la puerta de enlace y el servidor DNS predeterminados durante la implementación de la máquina virtual, el aprovisionamiento de la máquina virtual agotará el tiempo de espera y se producirá un error en la operación.

Solución sugerida: compruebe que se puede acceder a la puerta de enlace y al servidor DNS predeterminados desde la máquina virtual. Luego, repita la implementación de la máquina virtual.

Para comprobar que se puede acceder a la puerta de enlace y al servidor DNS predeterminados desde la máquina virtual, siga estos pasos:

  1. Conecte a la máquina virtual.

  2. Ejecute los comandos siguientes:

    ping <default gateway IP address>
    ping <DNS server IP address>
    

    Para averiguar las direcciones IP de la puerta de enlace y los servidores DNS predeterminados, vaya a la interfaz de usuario local del dispositivo. Seleccione el puerto que le interesa y vea la configuración de red.

    Screenshot of the Network page for an Azure Stack Edge device with Network settings for Port 2 displayed.

Problemas de cloud init (máquinas virtuales Linux)

Descripción del error:cloud init no se ejecutó o hubo problemas mientras se ejecutaba. cloud-init se usa para personalizar una máquina virtual Linux cuando la máquina virtual arranca por primera vez. Para más información, consulte Compatibilidad de cloud-init con máquinas virtuales en Azure.

Soluciones sugeridas: para encontrar problemas que se produjeron al ejecutar cloud init, siga estos pasos:

  1. Conecte a la máquina virtual.

  2. Compruebe si hay errores de cloud init en los siguientes archivos de registro:

    • /var/log/cloud-init-output.log
    • /var/log/cloud-init.log
    • /var/log/waagent/log

Para comprobar algunos de los problemas más comunes que impiden que cloud init se ejecute correctamente, siga estos pasos:

  1. Asegúrese de que la imagen de máquina virtual se basa en cloud init. Ejecute el siguiente comando:

    cloud-init --version

    El comando debe devolver el número de versión de cloud init. Si la imagen no está basada en cloud init, el comando no devolverá la información de la versión.

    Para obtener ayuda con las opciones de cloud init, ejecute el siguiente comando:

    cloud-init --help

  2. Asegúrese de que la instancia de cloud init se puede ejecutar correctamente con el origen de datos establecido en Azure.

    Cuando el origen de datos se establece en Azure, la entrada de los registros de cloud-init es similar a la siguiente.

    Illustration of a cloud-init log entry for a VM image with the Data Source set to Azure. The identifying text is highlighted.

    Si el origen de datos no está establecido en Azure, es posible que tenga que revisar el script de cloud init. Para más información, consulte Profundización en cloud-init.

Marcas de aprovisionamiento establecidas incorrectamente (máquinas virtuales Linux)

Descripción del error: para implementar correctamente una máquina virtual Linux en Azure, el aprovisionamiento debe deshabilitarse en la imagen y habilitarse mediante cloud init. Las marcas de aprovisionamiento que establecen estos valores están configuradas correctamente para las imágenes de máquina virtual estándar. Si usa una imagen de máquina virtual personalizada, debe asegurarse de que son correctas.

Solución sugerida: asegúrese de que las marcas de aprovisionamiento del archivo /etc/waagent.conf tienen los valores siguientes:

Funcionalidad Valor obligatorio
Habilitación de aprovisionamiento Provisioning.Enabled=n
Confiar en cloud-init para el aprovisionamiento Provisioning.UseCloudInit=y

Interfaz de red principal conectada a un conmutador virtual habilitado para SRIOV

Descripción del error: la interfaz de red principal conectada a una única virtualización de E/S raíz (SRIOV) habilitada para la interfaz ha provocado que el tráfico de red omita hyper-v, por lo que el host no pudo recibir solicitudes DHCP de la máquina virtual, lo que da lugar a un tiempo de espera de aprovisionamiento.

Soluciones propuestas:

  • Conectar la interfaz de red principal de la máquina virtual a un conmutador virtual sin habilitar las redes aceleradas.

  • En un dispositivo de Azure Stack Edge Pro 1, los conmutadores virtuales creados en el puerto 1 al puerto 4 no habilitan las redes aceleradas. En el puerto 5 o el puerto 6, los conmutadores virtuales habilitarán las redes aceleradas de forma predeterminada.

  • En un dispositivo de Azure Stack Edge Pro 2, los conmutadores virtuales creados en el puerto 1 o el puerto 2 no habilitan las redes aceleradas. En el puerto 3 o el puerto 4, los conmutadores virtuales habilitarán las redes aceleradas de forma predeterminada.

Problemas de creación de la interfaz de red

En esta sección se proporcionan instrucciones para los problemas que provocan errores en la creación de la interfaz de red durante la implementación de una máquina virtual.

Tiempo de espera de creación de NIC

Descripción del error: la creación de la interfaz de red en la máquina virtual no se ha completado dentro del período de tiempo de espera permitido. Este error puede deberse a problemas del servidor DHCP en su entorno.

Para comprobar si la interfaz de red se creó correctamente, siga estos pasos:

  1. En Azure Portal, vaya al recurso Azure Stack Edge del dispositivo (vaya a Edge Services>Virtual machines [Servicios perimetrales > Máquinas virtuales]). Luego, seleccione Deployments (Implementaciones) y vaya a la implementación de máquinas virtuales.

  2. Si no se creó correctamente una interfaz de red, verá el siguiente error.

    Screenshot of the error displayed in the Azure portal when network interface creation fails during VM deployment on an Azure Stack Edge device.

Solución sugerida: vuelva a crear la máquina virtual y asígnele una dirección IP estática.

Problemas de creación de la máquina virtual

En esta sección se tratan los problemas comunes que se producen durante la creación de máquinas virtuales.

Memoria insuficiente para crear la máquina virtual

Descripción del error: cuando no se puede crear la máquina virtual porque no hay memoria suficiente, verá el siguiente error.

Screenshot of the error displayed in the Azure portal when VM creation fails on an Azure Stack Edge device.

Solución sugerida: compruebe la memoria disponible en el dispositivo y elija el tamaño de la máquina virtual en consecuencia. Para más información, consulte Tamaños de máquina virtual admitidos en Azure Stack Edge.

La memoria disponible para la implementación de una máquina virtual está supeditada a varios factores:

Soluciones propuestas:

  • Use un tamaño de máquina virtual que requiera menos memoria.
  • Detenga las máquinas virtuales que no se utilicen desde el portal antes de implementar la nueva máquina virtual.
  • Elimine las máquinas virtuales que ya no se usen.

Número insuficiente de GPU para crear una máquina virtual con GPU

Si intenta implementar una máquina virtual en un dispositivo GPU que ya tiene habilitado Kubernetes, no habrá ninguna GPU disponible y no se podrá realizar el aprovisionamiento de la máquina virtual. Aparece este error:

Screenshot of the error displayed in the Azure portal when creation of a GPU VM fails because of no available GPUs on an Azure Stack Edge device.

Causas posibles: si Kubernetes está habilitado antes de crear la máquina virtual, usará todas las GPU disponibles y no podrá crear ninguna máquina virtual del tamaño de la GPU. Puede crear tantas máquinas virtuales del tamaño de la GPU como GPU haya disponibles. El dispositivo de Azure Stack Edge puede incluir 1 o 2 GPU.

Solución sugerida: para ver las opciones de implementación de máquinas virtuales en un dispositivo de 1 o 2 GPU con Kubernetes configurado, consulte Máquinas virtuales con GPU y Kubernetes.

Pasos siguientes