Share via


Fabricación de almacenamiento HPC

El acceso al almacenamiento es una parte importante de la planificación del rendimiento de la carga de trabajo de HPC. Los siguientes materiales ayudan a simplificar el proceso de toma de decisiones y a minimizar los malentendidos relacionados con las funciones de una solución de almacenamiento concreta (o a la falta de ellas).

Consideraciones de diseño

Es importante asegurarse de que los datos necesarios llegarán a las máquinas del clúster de HPC en el momento adecuado. También querrá asegurarse de que los resultados de esas máquinas individuales se guardan rápidamente y están disponibles para su posterior análisis.

Distribución del tráfico de la carga de trabajo

Tenga en cuenta los tipos de tráfico que genera y procesa el entorno de HPC. Este paso es muy importante si tiene previsto ejecutar varios tipos de cargas de trabajo y tiene previsto usar el almacenamiento para otros fines. Tenga en cuenta y registre los siguientes tipos de tráfico:

  • Flujo único frente a varios flujos
  • Proporción entre tráfico de lectura y de escritura
  • Promedio de tamaños y recuentos de archivos
  • Patrones de acceso aleatorios frente a secuenciales

Localidad de los datos

La siguiente categoría da cuenta de la ubicación de los datos. El reconocimiento de la localidad le ayuda a determinar si puede usar la copia, el almacenamiento en caché o la sincronización como estrategia de movimiento de datos. A continuación se muestran los elementos de localidad que se deben comprobar de antemano:

  • ¿Datos de origen locales, en Azure o ambos?
  • ¿Datos de resultados locales, en Azure o ambos?
  • ¿Se coordinan las cargas de trabajo de HPC en Azure con las escalas de tiempo de modificación de los datos de origen?
  • ¿Datos confidenciales/HIPAA?

Requisitos de rendimiento

Los requisitos de rendimiento de las soluciones de almacenamiento se resumen generalmente de la siguiente manera:

  • Rendimiento de un solo flujo (en Gb/s)
  • Rendimiento de varios flujos (en Gb/s)
  • IOPS máxima esperada
  • Latencia media (ms)

Cada consideración afecta al rendimiento, por lo que estos números representan una guía que una solución determinada debe lograr. Por ejemplo, es posible que tenga una carga de trabajo de HPC que realice numerosas operaciones de creación y eliminación de archivos como parte del flujo de trabajo. Dichas operaciones podrían afectar al rendimiento general.

Métodos de acceso

Tenga en cuenta el protocolo de acceso de cliente necesario y tenga claro qué características del protocolo necesita. Hay diferentes versiones de NFS y SMB.

Estos son algunos aspectos que hay que tener en cuenta:

  • Se requieren versiones NFS/SMB
  • Características de protocolo esperadas (ACL, cifrado)
  • Solución de sistema de archivos paralelos

Requisito de capacidad total

La capacidad de almacenamiento de Azure es la siguiente consideración. Ayuda a informar del costo general de la solución. Si tiene previsto almacenar una gran cantidad de datos durante un período de tiempo prolongado, puede que quiera tener en cuenta los niveles como parte de la solución de almacenamiento. Los niveles ofrecen opciones de almacenamiento de menor costo combinadas con un almacenamiento de mayor costo pero mayor rendimiento en un nivel de acceso frecuente. Por lo tanto, evalúe los requisitos de capacidad de la siguiente manera:

  • Capacidad total necesaria
  • Capacidad total de "nivel de acceso frecuente" necesaria
  • Capacidad total de "nivel activo" necesaria
  • Capacidad total de "nivel inactivo" necesaria

Método de autenticación y autorización

Con respecto a los requisitos de autenticación y autorización, como el uso de un servidor LDAP o un entorno de Active Directory, garantizan que se incluyan los sistemas auxiliares adecuados para la arquitectura. Si necesita admitir funcionalidades como la asignación de UID o GID a usuarios de Active Directory, confirme que la solución de almacenamiento las admite.

Estos son algunos aspectos que hay que tener en cuenta:

  • Local (UID o GID solo en el servidor de archivos)
  • Directorio (LDAP, Active Directory)
  • ¿Asignación de UID/GID a usuarios de Active Directory?

Comparación común de soluciones de almacenamiento de Azure

Category Azure Blob Storage Azure Files Azure Managed Lustre Azure NetApp Files
Casos de uso Azure Blob Storage es más adecuado para cargas de trabajo de acceso secuencial con numerosas lecturas a gran escala en las que los datos se ingieren una vez con pocas o ninguna modificación adicional.

Blob Storage ofrece el costo total de propiedad más bajo, si hay poco o ningún mantenimiento.

Algunos escenarios de ejemplo son: datos analíticos a gran escala, computación de alto rendimiento sensible a la capacidad de proceso, copia de seguridad y archivo, conducción autónoma, representación multimedia o secuenciación genómica.
Azure Files es un servicio de alta disponibilidad que está optimizado para cargas de trabajo de acceso aleatorio.

En el caso de los recursos compartidos NFS, Azure Files proporciona compatibilidad completa con el sistema de archivos POSIX. Puede usarlo fácilmente desde plataformas de contenedores como Azure Container Instance (ACI) y Azure Kubernetes Service (AKS) con el controlador CSI integrado y plataformas basadas en VM.

Algunos escenarios de ejemplo son: archivos compartidos, bases de datos, directorios principales, aplicaciones tradicionales, ERP, CMS, migraciones NAS que no requieren administración avanzada y aplicaciones personalizadas que requieren almacenamiento de archivos de escalabilidad horizontal.
Azure Managed Lustre es un sistema de archivos en paralelo totalmente administrado más adecuado para cargas de trabajo de HPC de medianas a grandes.

Habilita las aplicaciones HPC en la nube sin interrumpir la compatibilidad de las aplicaciones al proporcionar la funcionalidad, los comportamientos y el rendimiento familiares del sistema de archivos en paralelo de Lustre, lo que garantiza las inversiones en aplicaciones a largo plazo.
Servicio de archivos totalmente administrado en la nube, con tecnología de NetApp, con funcionalidades de administración avanzadas.

NetApp Files es adecuado para cargas de trabajo que requieren acceso aleatorio y proporciona una amplia compatibilidad con protocolos y funcionalidades de protección de datos.

Algunos escenarios de ejemplo son: migración NAS empresarial local que requiere numerosas funcionalidades de administración, cargas de trabajo sensibles a la latencia, como SAP HANA, proceso de alto rendimiento con uso intensivo de IOPS o sensible a la latencia o cargas de trabajo que requieren acceso simultáneo a varios protocolos.
Protocolos disponibles NFS 3.0

REST

Data Lake Storage Gen2
SMB

NFS 4.1

(No hay interoperabilidad entre ninguno de los protocolos).
Lustre NFS 3.0 y 4.1

SMB
Características principales Se integra con la memoria caché HPC en el caso de cargas de trabajo de baja latencia.

Administración integrada, incluido el ciclo de vida, los blobs inmutables, la conmutación por error de datos y el índice de metadatos.
Redundancia zonal para alta disponibilidad.

Baja latencia constante (menos de 10 ms).

Rendimiento y costo predecibles que se escalan con la capacidad.
Alta capacidad de almacenamiento de hasta 2,5 PB.

Latencia baja (~2 ms).

Pone en marcha nuevos clústeres en cuestión de minutos.

Admite cargas de trabajo contenedorizadas con AKS.
Latencia extremadamente baja (menos de un milisegundo).

Completa funcionalidad de administración NetApp ONTAP, como SnapMirror en la nube.

Experiencia coherente de nube híbrida.
Rendimiento (por volumen). Hasta 20 000 IOPS, con un rendimiento de hasta 100 GiB/s. Hasta 100 000 IOPS, con un rendimiento de hasta 80 GiB/s. Hasta 100 000 IOPS, con un rendimiento de hasta 500 GiB/s. Hasta 460 000 IOPS, con un rendimiento de hasta 36 GiB/s.
Precios Precios de Azure Blob Storage Precios de Azure Files Precios de Azure Managed Lustre Precios de Azure NetApp Files

Desarrollo de su propio sistema de archivos en paralelo

Al igual que con NFS, puede crear un sistema de archivos BeeGFS o Lustre de varios nodos. El rendimiento de estos sistemas depende en gran medida del tipo de Virtual Machines que seleccione. Puede usar imágenes que se encuentran en Azure Marketplace para BeeGFS o una implementación de Lustre por DDN denominada Whamcloud. El uso de imágenes de terceros de proveedores como BeeGFS o DDN le permite adquirir su soporte técnico. De lo contrario, puede usar BeeGFS y Lustre por medio de sus licencias GPL sin otros cargos (más allá de las máquinas y discos). Estas herramientas son fáciles de implementar mediante los scripts de HPC de Azure con discos locales efímeros (para cero) o SSD prémium o SSD Ultra para el almacenamiento persistente.

Cray ClusterStor

Uno de los mayores desafíos con cargas de trabajo más grandes es replicar el rendimiento puro “sin sistema operativo” de grandes clústeres de proceso que funcionan junto con entornos de Lustre grandes (en términos de rendimiento de TB/s y, posiblemente, petabytes de almacenamiento). Ahora puede ejecutar estas cargas de trabajo con la solución Azure Cray ClusterStor. Este enfoque es una implementación pura de Lustre sin sistema operativo colocada en el centro de datos de Azure correspondiente. Los sistemas de archivos en paralelo, como BeeGFS y Lustre, proporcionan el máximo rendimiento debido a su arquitectura. Pero esa arquitectura tiene un alto precio de administración, al igual que el uso de estas tecnologías.

Pasos siguientes

Los siguientes artículos proporcionan una guía sobre cada paso en el recorrido de adopción de la nube para entornos HPC de fabricación.