Produzione di archiviazione HPC

Articolo
04/03/2024

L'accesso alle risorse di archiviazione è una parte importante della pianificazione per le prestazioni dei carichi di lavoro HPC. I materiali seguenti consentono di semplificare il processo decisionale e ridurre al minimo eventuali malintesi relativi alle funzionalità di una particolare soluzione di archiviazione (o alla mancanza di funzionalità).

Considerazioni relative alla progettazione

È importante assicurarsi che i dati necessari vengano visualizzati nei computer del cluster HPC al momento giusto. Si vuole anche assicurarsi che i risultati di tali singoli computer vengano salvati rapidamente e disponibili per ulteriori analisi.

Distribuzione del traffico del carico di lavoro

Occorre prendere in considerazione i tipi di traffico che vengono generati ed elaborati dall'ambiente HPC. Questo passaggio è particolarmente importante se si prevede di eseguire più carichi di lavoro e di usare le risorse di archiviazione per altre finalità. Prendere in considerazione e registrare i tipi di traffico seguenti:

Flusso singolo e più flussi
Rapporto tra traffico di lettura e traffico di scrittura
Dimensioni e numeri medi dei file
Confronto tra criteri di accesso casuali e sequenziali

Località dei dati

La categoria successiva prende in considerazione la posizione dei dati. Il riconoscimento della località contribuisce a determinare se è possibile usare la copia, la memorizzazione nella cache o la sincronizzazione come strategia di spostamento dati. Di seguito sono riportati gli elementi di località da controllare in anticipo:

Dati di origine in locale, in Azure o in entrambe le posizioni?
Dati dei risultati in locale, in Azure o in entrambe le posizioni?
Carichi di lavoro HPC in Azure da coordinare con le sequenze temporali di modifica dei dati di origine?
Dati sensibili/HIPAA?

Requisiti per le prestazioni

I requisiti di prestazioni per le soluzioni di archiviazione sono in genere riepilogati nel modo seguente:

Velocità effettiva a flusso singolo (in Gb/ps)
Velocità effettiva multi-flusso (in Gb/ps)
Operazioni di I/O al secondo massime previste
Latenza media (ms)

Ogni considerazione influisce sulle prestazioni, quindi questi numeri costituiscono una guida per gli obiettivi che una soluzione specifica dovrebbe realizzare. È ad esempio possibile che sia presente un carico di lavoro HPC che esegue un numero elevato di operazioni di creazione ed eliminazione di file come parte del flusso di lavoro. Queste operazioni potrebbero influire sulla velocità effettiva complessiva.

Metodi di accesso

Tenere conto del protocollo di accesso client necessario ed essere chiari sulle funzionalità del protocollo necessario. Esistono versioni diverse di NFS e SMB.

Di seguito sono indicati alcuni aspetti da considerare:

Versioni NFS/SMB necessarie
Funzionalità del protocollo previste (ACL, crittografia)
Soluzione file system parallela

Requisito per la capacità totale

La capacità di archiviazione in Azure è la considerazione successiva. Contribuisce a definire il costo complessivo della soluzione. Se si prevede di archiviare una quantità elevata di dati per molto tempo, è consigliabile prendere in considerazione la suddivisione in livelli come parte della soluzione di archiviazione. La suddivisione in livelli offre opzioni di archiviazione a costo più basso combinate con risorse di archiviazione a costo più elevato ma con prestazioni superiori in un livello di accesso frequente. Valutare quindi i requisiti di capacità nel modo seguente:

Capacità totale necessaria
Capacità totale necessaria per il livello di accesso frequente
Capacità totale necessaria per il livello di accesso abbastanza frequente
Capacità totale necessaria per il livello di accesso sporadico

Autenticazione e metodo di autorizzazione

Per quanto riguarda i requisiti di autenticazione e autorizzazione, ad esempio l'uso di un server LDAP o di un ambiente Active Directory, garantisce di includere i sistemi di supporto appropriati per l'architettura. Se è necessario supportare funzionalità come il mapping UID/GID agli utenti di Active Directory, verificare che la soluzione di archiviazione supporti tale funzionalità.

Di seguito sono indicati alcuni aspetti da considerare:

Locale (ID utente/identificatore di gruppo solo in file server)
Directory (LDAP, Active Directory)
Mapping di ID utente/identificatore di gruppo a utenti di Active Directory?

Confronto tra soluzioni di archiviazione di Azure comuni

Categoria	Archiviazione BLOB di Azure	File di Azure	Managed Lustre di Azure	Azure NetApp Files
Utilizzare casi	Archiviazione BLOB di Azure è più adatto per carichi di lavoro di accesso sequenziale su larga scala e con un numero elevato di operazioni di lettura, in cui i dati vengono inseriti una sola volta con poche o nessuna ulteriore modifica. Archiviazione BLOB offre il costo totale di proprietà più basso, in caso di poca o nessuna manutenzione. Alcuni scenari di esempio sono: dati analitici su larga scala, elaborazione ad alte prestazioni sensibili alla velocità effettiva, backup e archivio, driving autonomo, rendering multimediale o sequenziazione genomica.	File di Azure è un servizio a disponibilità elevata più adatto per i carichi di lavoro ad accesso casuale. Per le condivisioni NFS, File di Azure fornisce il supporto completo del file system POSIX. È possibile usarlo facilmente da piattaforme contenitore come Istanza di Azure Container e servizio Azure Kubernetes (AKS) con il driver CSI predefinito e le piattaforme basate su vm. Alcuni scenari di esempio sono: file condivisi, database, home directory, applicazioni tradizionali, ERP, CMS, migrazioni NAS che non richiedono gestione avanzata e applicazioni personalizzate che richiedono l'archiviazione file con scalabilità orizzontale.	Lustre gestito di Azure è un file system parallelo completamente gestito più adatto ai carichi di lavoro HPC di medie e grandi dimensioni. Abilita le applicazioni HPC nel cloud senza interrompere la compatibilità delle applicazioni fornendo funzionalità familiari del file system parallelo Lustre, comportamenti e prestazioni, garantendo investimenti a lungo termine nelle applicazioni.	Servizio file completamente gestito nel cloud, basato su NetApp, con funzionalità di gestione avanzate. NetApp Files è adatto per carichi di lavoro che richiedono l'accesso casuale e offre un ampio supporto per il protocollo e funzionalità di protezione dei dati. Alcuni scenari di esempio sono: migrazione NAS aziendale locale che richiede funzionalità di gestione avanzate, carichi di lavoro sensibili alla latenza come SAP HANA, calcolo a elevato utilizzo di latenza o operazioni di I/O al secondo a elevato utilizzo di prestazioni o carichi di lavoro che richiedono l'accesso simultaneo a più protocolli.
Protocolli disponibili	NFS 3.0 RESTO Data Lake Storage Gen2	SMB NFS 4.1 (Nessuna interoperabilità tra uno dei due protocolli)	Lustro	NFS 3.0 e 4.1 SMB
Funzionalità chiave	Integrato con la cache HPC per carichi di lavoro a bassa latenza. Gestione integrata, inclusi ciclo di vita, BLOB non modificabili, failover dei dati e indice di metadati.	Ridondanza zona per la disponibilità elevata. Latenza coerente in millisecondi a una cifra. Prestazioni prevedibili e costi scalabili con capacità.	Capacità di archiviazione elevata fino a 2,5PB. Latenza bassa (~2 ms). Attivare nuovi cluster in pochi minuti. Supporta i carichi di lavoro in contenitori con il servizio Azure Kubernetes.	Latenza estremamente bassa (nell’ordine di sub-ms). Funzionalità di gestione Rich NetApp ONTAP, ad esempio SnapMirror nel cloud. Esperienza cloud ibrida coerente.
Prestazioni (per volume)	Fino a 20.000 operazioni di I/O al secondo, velocità effettiva fino a 100 GiB/s.	Fino a 100.000 operazioni di I/O al secondo, fino a 80 GiB/s velocità effettiva.	Fino a 100.000 operazioni di I/O al secondo, fino a 500 GiB/s velocità effettiva.	Fino a 460.000 operazioni di I/O al secondo, fino a 36 GiB/s velocità effettiva.
Prezzi	Prezzi di Archivio BLOB di Azure	Prezzi di File di Azure	Prezzi di Lustre gestito di Azure	Prezzi di Azure NetApp Files

Roll your own parallel file system

Come con NFS, è possibile creare un file system BeeGFS a più nodi o Lustre. Le prestazioni di tali sistemi dipendono in gran parte dal tipo di Macchine virtuali selezionato. È possibile usare le immagini disponibili in Azure Marketplace per BeeGFS o un'implementazione lustre di DDN denominata Whamcloud. L'uso di immagini di terze parti da fornitori come BeeGFS o DDN consente di acquistare il supporto. In caso contrario, è possibile utilizzare sia BeeGFS che Lustre tramite le loro licenze GP SENZA altri addebiti (oltre i computer e i dischi). Questi strumenti sono facili da implementare usando gli script HPC di Azure con dischi locali temporanei (per scratch) o Premium/Ultra SSD per l'archiviazione permanente.

Cray ClusterStor

Uno dei principali problemi con i carichi di lavoro di grandi dimensioni consiste nella replica delle prestazioni "bare metal" pure dei cluster di calcolo di grandi dimensioni che funzionano insieme a ambienti Lustre di grandi dimensioni (in termini di velocità effettiva da TB/s e possibilmente petabyte di archiviazione). È ora possibile eseguire questi carichi di lavoro con la soluzione ClusterStor di Azure Cray. Questo approccio è una distribuzione lustre bare metal pura inserita nel data center di Azure pertinente. I file system paralleli, ad esempio BeeGFS e Lustre, offrono le prestazioni più elevate grazie alla loro architettura. Ma questa architettura è dotata di un prezzo di gestione elevato e quindi usa queste tecnologie.

Passaggi successivi

Gli articoli seguenti forniscono indicazioni su ogni passaggio del percorso di adozione del cloud per gli ambienti HPC di produzione.

Share via