Tamaños de VM para informática de alto rendimiento

Precaución

En este artículo, se hace referencia a CentOS, una distribución de Linux que está cerca del estado Fin de vida (EOL). Tenga en cuenta su uso y planeación en consecuencia.

Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows ✔️ Conjuntos de escalado flexibles ✔️ Conjuntos de escalado uniformes

Sugerencia

Pruebe la herramienta Selector de máquinas virtuales para buscar otros tamaños que se adapten mejor a la carga de trabajo.

Las máquinas virtuales de la serie HBv4 están optimizadas para diversas cargas de trabajo de HPC, como la dinámica de fluidos computacionales, el análisis de elementos finitos, el EDA de front-end y back-end, la representación, la dinámica molecular, la geociencia computacional, la simulación meteorológica y el análisis de riesgos financieros. Las máquinas virtuales HBv4 incluirán hasta 176 núcleos de CPU de la serie AMD EPYC™ 9004 (Genoa), 688 GB de RAM y sin multithreading simultáneo. Las máquinas virtuales de la serie HBv4 también proporcionan 800 GB/s de ancho de banda de memoria DDR5 y caché L3 de 768 MB por máquina virtual, hasta 12 GB/s (lectura) y 7 GB/s (escritura) de rendimiento SSD del dispositivo de bloque y frecuencias de reloj de hasta 3,7 GHz.

Todas las máquinas virtuales de la serie HBv4 incorporan InfiniBand NDR de 400 Gb/s de redes NVIDIA para permitir cargas de trabajo MPI de gran tamaño. Estas máquinas virtuales están conectadas en un árbol FAT sin bloqueos para un rendimiento de RDMA optimizado y coherente. NDR sigue admitiendo características como enrutamiento adaptable y transporte conectado dinámicamente (DCT). Esta nueva generación de InfiniBand también aporta mayor compatibilidad con la descarga de colectivos MPI, latencias optimizadas en el mundo real debido a la inteligencia de control de congestión y funcionalidades de enrutamiento adaptable mejoradas. Estas características mejoran el rendimiento, la escalabilidad y la coherencia de las aplicaciones, y se recomienda su uso.

Las máquinas virtuales de la serie HBv3 están optimizadas para aplicaciones HPC como dinámica de fluidos, análisis de elementos finitos explícitos e implícitos, modelado meteorológico, procesamiento sísmico, simulación de depósitos y simulación de RTL. Las máquinas virtuales HBv3 cuentan con un máximo de 120 núcleos de CPU AMD EPYC™ de la serie 7003 (Milan), 448 GB de RAM y sin hyperthreading. Las máquinas virtuales de la serie HBv3 también proporcionan 350 GB/s de ancho de banda de memoria, hasta 32 MB de caché L3 por núcleo, hasta 7 GB/s de rendimiento de SSD de dispositivo en bloque y frecuencias de reloj de hasta 3,5 GHz.

Todas las máquinas virtuales de la serie HBv3 incorporan InfiniBand HDR de 200 Gb/s de redes NVIDIA para permitir cargas de trabajo MPI de gran tamaño. Estas máquinas virtuales están conectadas en un árbol FAT sin bloqueos para un rendimiento de RDMA optimizado y coherente. El tejido InfiniBand de HDR también admite el enrutamiento adaptativo y el transporte conectado dinámico (DCT, además de los transportes estándar RC y UD). Estas características mejoran el rendimiento, la escalabilidad y la coherencia de las aplicaciones, y se recomienda su uso.

Las máquinas virtuales de la serie HBv2 están optimizadas para aplicaciones controladas por el ancho de banda de memoria, como la dinámica de fluidos, el análisis de elementos finitos y la simulación de yacimientos. Las máquinas virtuales HBv2 cuentan con 120 núcleos de procesador AMD EPYC 7742, 4 GB de RAM por núcleo de CPU y sin multithreading simultáneo. Cada máquina virtual de HBv2 proporciona hasta 340 GB/s de ancho de banda de memoria y hasta 4 teraFLOPS de proceso FP64.

Las máquinas virtuales de la serie HBv2 cuentan con la característica Mellanox HDR InfiniBand a 200 GB/s, mientras que las máquinas virtuales de las series HB y HC cuentan con la característica Mellanox EDR InfiniBand a 100 GB/s. Cada uno de estos tipos de máquinas virtuales están conectados en un árbol FAT sin bloqueos para un rendimiento de RDMA optimizado y coherente. Las máquinas virtuales HBv2 admiten el enrutamiento adaptable y el transporte conectado dinámico (DCT, además de los transportes estándar RC y UD). Estas características mejoran el rendimiento, la escalabilidad y la coherencia de las aplicaciones, y se recomienda su uso.

Las máquinas virtuales de la serie HB están optimizadas para aplicaciones que funcionan con ancho de banda de la memoria, como la dinámica de fluidos, el análisis explícito de elementos finitos y los modelos de clima. Las máquinas virtuales HB cuentan con 60 núcleos de procesador AMD EPYC 7551, 4 GB de RAM por núcleo de CPU y no tienen hyperthreading. La plataforma AMD EPYC proporciona un ancho de banda de memoria de más de 260 GB/s.

Las máquinas virtuales de la serie HC están optimizadas para aplicaciones basadas en cálculos intensivos, como el análisis implícito de elementos finitos, la dinámica molecular y la química computacional. Las máquinas virtuales HC cuentan con 44 núcleos de procesador Intel Xeon Platinum 8168, 8 GB de RAM por núcleo de CPU y no tienen hyperthreading. La plataforma Intel Xeon Platinum admite el rico ecosistema de herramientas de software de Intel, como la biblioteca Intel Math Kernel Library.

Las máquinas virtuales de la serie HX están optimizadas para cargas de trabajo que requieren una capacidad de memoria significativa con el doble de capacidad de memoria que HBv4. Por ejemplo, las cargas de trabajo como el diseño de silicio pueden usar máquinas virtuales de la serie HX para permitir que los clientes de EDA que tienen como destino los procesos de fabricación más avanzados ejecuten sus cargas de trabajo que requieren un uso más intensivo de la memoria. Las máquinas virtuales HX incluyen hasta 176 núcleos de CPU de la serie AMD EPYC 9004 (Genoa), 1408 GB de RAM y sin multithreading simultáneo. Las máquinas virtuales de la serie HX también proporcionan 800 GB/s de ancho de banda de memoria DDR5 y caché L3 de 768 MB por máquina virtual, hasta 12 GB/s (lectura) y 7 GB/s (escritura) de rendimiento SSD del dispositivo de bloque y frecuencias de reloj de hasta 3,7 GHz.

Nota

Todas las máquinas virtuales de la serie HBv4, HBv3, HBv2, HB, HC y HX tienen acceso exclusivo a los servidores físicos. Solo hay una máquina virtual por cada servidor físico y no hay ningún multiinquilino compartido con otras máquinas virtuales para estos tamaños de máquina virtual.

Instancias compatibles con RDMA

La mayoría de los tamaños de VM para HPC incluye una interfaz de red para la conectividad de acceso directo a memoria remota (RDMA). Los tamaños seleccionados de la serie N designados con "r" también son compatibles con RDMA. Esta interfaz se agrega a la interfaz de red estándar de Azure Ethernet disponible en los otros tamaños de máquina virtual.

Esta interfaz secundaria permite que las instancias compatibles con RDMA se comuniquen través de una red InfiniBand (IB), que funciona a velocidades HDR en la serie HBv3, HBv2, EDR en las series HB, HC y NDv2, a velocidades FDR en las series H16r, H16mr y en otras máquinas virtuales de la serie N compatibles con RDMA. Estas funcionalidades RDMA pueden mejorar la escalabilidad y el rendimiento basado en las aplicaciones de la Interfaz de paso de mensajes (MPI).

Nota

Compatibilidad con SR-IOV: En Azure HPC, hay dos clases de máquinas virtuales en función de si están habilitadas para SR-IOV de InfiniBand. Actualmente, casi todas las máquinas virtuales de la generación más reciente, compatibles con RDMA o InfiniBand en Azure, están habilitadas para SR-IOV, excepto H16r, H16mr y NC24r. RDMA solo se habilita a través de la red InfiniBand (IB) y es compatible con todas las máquinas virtuales que admiten RDMA. Solo se admite IP sobre IB en máquinas virtuales habilitadas para SR-IOV. RDMA no se habilita a través de la red Ethernet.

  • Sistema operativo: habitualmente se usan distribuciones de Linux como CentOS, RHEL, Ubuntu y SUSE. En todas las máquinas virtuales de la serie HPC se admite Windows Server 2016 y versiones más recientes. Tenga en cuenta que Windows Server 2012 R2 no se admite en HBv2 en adelante como máquinas virtuales con más de 64 núcleos (virtuales o físicos). Consulte Imágenes de máquina virtual para obtener una lista de imágenes de máquina virtual compatibles en Marketplace y cómo se pueden configurar de forma adecuada. En las páginas con tamaño de máquina virtual correspondientes también se muestra la compatibilidad con la pila de software.

  • InfiniBand y controladores: en las máquinas virtuales compatibles con InfiniBand, se necesitan los controladores adecuados para habilitar RDMA. Consulte Imágenes de máquina virtual para obtener una lista de imágenes de máquina virtual compatibles en Marketplace y cómo se pueden configurar de forma adecuada. Consulte también habilitación de InfiniBand para obtener información acerca de las extensiones de máquina virtual o la instalación manual de los controladores Infiniband.

  • MPI: los tamaños de máquina virtual habilitados para SR-IOV en Azure permiten que se use prácticamente cualquier tipo de MPI con Mellanox OFED. Consulte Configuración de MPI para HPC para obtener más información sobre cómo configurar MPI en máquinas virtuales de HPC en Azure.

    Nota

    Espacio de direcciones de la red RDMA: la red RDMA en Azure reserva el espacio de direcciones 172.16.0.0/16. Para ejecutar aplicaciones MPI en instancias implementadas en una red virtual Azure, asegúrese de que el espacio de direcciones de la red virtual no se superpone a la red RDMA.

Opciones de configuración del clúster

Azure ofrece varias opciones para crear clústeres de máquinas virtuales de HPC que se pueden comunicar con la red RDMA, incluidos:

  • Máquinas virtuales: implemente las máquinas virtuales de HPC compatibles con RDMA en el mismo conjunto de escalado o de disponibilidad (cuando use el modelo de implementación de Azure Resource Manager). Si usa el modelo de implementación clásica, implemente las máquinas virtuales en el mismo servicio en la nube.

  • Conjuntos de escalado de máquinas virtuales: en un conjunto de escalado de máquinas virtuales, asegúrese de limitar la implementación a un único grupo de selección de ubicación para la comunicación InfiniBand dentro del conjunto de escalado. Por ejemplo, en una plantilla de Resource Manager, establezca la propiedad singlePlacementGroup en true. Tenga en cuenta que el tamaño de conjunto de escalado máximo que se puede usar con singlePlacementGroup=true está limitado a 100 máquinas virtuales de manera predeterminada. Si los requisitos de escalado de su trabajo de HPC son superiores a 100 máquinas virtuales en un único inquilino, puede solicitar un aumento. Para ello, realice una solicitud de soporte técnico al cliente en línea sin cargo alguno. El número máximo de máquinas virtuales en un único conjunto de escalado se puede aumentar hasta 300. Tenga en cuenta que al implementar máquinas virtuales con conjuntos de disponibilidad, el límite máximo es de 200 máquinas virtuales por conjunto de disponibilidad.

    Nota

    MPI entre las máquinas virtuales: si la característica de RDMA (por ejemplo, para usar la comunicación de MPI) es necesaria entre las máquinas virtuales (VM), asegúrese de que las VM estén en el mismo conjunto de escalado de máquinas virtuales o conjunto de disponibilidad.

  • Azure CycleCloud: cree un clúster de HPC en Azure CycleCloud para ejecutar trabajos MPI.

  • Azure Batch: cree un grupo de Azure Batch para ejecutar cargas de trabajo MPI. Para usar instancias de proceso intensivo para ejecutar aplicaciones MPI con Azure Batch, consulte Uso de tareas de instancias múltiples para ejecutar aplicaciones de la Interfaz de paso de mensajes (MPI) en Azure Batch.

  • Microsoft HPC Pack: HPC Pack incluye un entorno de tiempo de ejecución para MS-MPI que usa la red RDMA de Azure cuando se implementa en máquinas virtuales Linux compatibles con RDMA. Para obtener ejemplos de implementación, consulte Configuración de un clúster de RDMA de Linux con HPC Pack para ejecutar aplicaciones MPI.

Consideraciones de la implementación

  • Suscripción de Azure: para implementar más que algunas instancias de proceso intensivo, considere la posibilidad de usar una suscripción de pago por uso u otras opciones de compra. Si usa una cuenta gratuita de Azure, solo puede usar un número limitado de núcleos de proceso de Azure.

  • Precios y disponibilidad: compruebe la disponibilidad y los precios de las máquinas virtuales en las regiones de Azure.

  • Cuota de núcleos: quizás tenga que aumentar la cuota de núcleos de su suscripción de Azure partiendo del valor predeterminado. La suscripción también podría limitar el número de núcleos que se pueden implementar en ciertas familias de tamaño de máquina virtual, como la serie H. Para solicitar un aumento de cuota, abra una solicitud de soporte técnico al cliente en línea sin cargo alguno. (Los límites predeterminados pueden variar según la categoría de suscripción).

    Nota

    Si tiene necesidades de capacidad a gran escala, póngase en contacto con el soporte técnico de Azure. Las cuotas de Azure son límites de crédito, no garantías de capacidad. Independientemente de la cuota, solamente se le cobrarán los núcleos que use.

  • Red virtual : no se necesita una red virtual de Azure para usar instancias de proceso intensivo. Sin embargo, para muchas implementaciones necesita al menos una red virtual de Azure basada en la nube o una conexión de sitio a sitio si necesita acceder a recursos locales. Si es necesario, cree una red virtual para implementar las instancias. No se admite la adición de máquinas virtuales de proceso intensivo a las redes virtuales de grupos de afinidad.

  • Cambio de tamaño: debido a su hardware especializado, solo se puede cambiar el tamaño de las instancias de proceso intensivo dentro de la misma familia de tamaño (serie H o serie N). Por ejemplo, una máquina virtual de la serie H solo se puede cambiar de un tamaño de serie H a otro. Es posible que tenga que tener en cuenta las consideraciones adicionales sobre la compatibilidad del controlador de InfiniBand y los discos de NVMe para determinadas máquinas virtuales.

Otros tamaños

Pasos siguientes