Guida alla migrazione per carichi di lavoro di calcolo GPU in Azure

Articolo
09/03/2023

Poiché le GPU più potenti diventano disponibili nel marketplace e nei data center di Microsoft Azure, è consigliabile valutare nuovamente le prestazioni dei carichi di lavoro e valutare la migrazione a GPU più recenti.

Per lo stesso motivo, nonché per mantenere un'offerta di servizio di alta qualità e affidabile, Azure ritira periodicamente l'hardware che supporta le dimensioni delle macchine virtuali precedenti. Il primo gruppo di prodotti GPU da ritirare in Azure è rispettivamente le macchine virtuali NC, NC v2 e serie ND, basate rispettivamente da NVIDIA Tesla K80, P100 e I acceleratori GPU del data center P40. Questi prodotti verranno ritirati il 31 agosto 2023 e le macchine virtuali meno recenti di questa serie lanciata nel 2016.

Da allora, le GPU hanno fatto passi incredibili insieme all'intero settore di deep learning e HPC, in genere superando un raddoppio delle prestazioni tra generazioni. Dall'avvio di GPU NVIDIA K80, P40 e P100, Azure ha fornito più generazioni e categorie di prodotti vm orientati a calcolo accelerato con GPU e intelligenza artificiale, basati sulle GPU T4, V100 e A100 e sulle GPU A100, e differenziate da funzionalità facoltative come le interfacce di interconnessione basate su InfiniBand. Queste sono tutte le opzioni che invitiamo i clienti a esplorare come percorsi di migrazione.

Nella maggior parte dei casi, l'aumento drammatico delle prestazioni offerte dalle nuove generazioni di GPU riduce il TCO complessivo riducendo la durata del processo, per i processi burstable o riducendo la quantità di macchine virtuali abilitate per GPU complessive necessarie per coprire una domanda fissa di dimensioni per le risorse di calcolo, anche se i costi per ora gpu possono variare. Oltre a questi vantaggi, i clienti possono migliorare il tempo a soluzione tramite macchine virtuali con prestazioni superiori e migliorare l'integrità e il supporto della soluzione adottando versioni più recenti del software, del runtime CUDA e del driver.

Migrazione e ottimizzazione

Azure riconosce che i clienti hanno una moltitudine di requisiti che possono determinare la selezione di un prodotto vm GPU specifico, tra cui considerazioni sull'architettura della GPU, interconnessioni, TCO, time to Solution e disponibilità a livello di area in base ai requisiti di conformità o latenza e alcuni di questi cambiano anche nel tempo.

Allo stesso tempo, l'accelerazione GPU è un'area nuova e in rapida evoluzione.

Pertanto, non esiste una vera guida adatta a tutte le dimensioni per questa area del prodotto e una migrazione è un momento perfetto per rivalutare le modifiche potenzialmente drammatiche a un carico di lavoro, ad esempio lo spostamento da un modello di distribuzione cluster a una singola macchina virtuale a 8 GPU di grandi dimensioni o viceversa, sfruttando i tipi di dati di precisione ridotti, adottando funzionalità come GPU istanza multipla e molto altro ancora.

Questi tipi di considerazioni- quando si è fatto il contesto di prestazioni GPU già drammatiche per generazione aumentano, dove una funzionalità come l'aggiunta di TensorCore può aumentare le prestazioni in base a un ordine di grandezza, sono estremamente specifiche del carico di lavoro.

La combinazione della migrazione con la ri-architettura dell'applicazione può produrre un valore immenso e un miglioramento nel costo e nella soluzione tempo-to-solution.

Tuttavia, questi tipi di miglioramenti sono oltre l'ambito di questo documento, che mira a concentrarsi sulle classi di equivalenza diretta per i carichi di lavoro generalizzati che possono essere eseguiti dai clienti oggi, per identificare le opzioni di vm più simili in entrambi i prezzi e prestazioni per GPU alle famiglie di macchine virtuali esistenti in fase di ritiro.

Pertanto, questo documento presuppone che l'utente non disponga di informazioni dettagliate o di controllo sulle proprietà specifiche del carico di lavoro, ad esempio il numero di istanze di vm necessarie, GPU, interconnessioni e altro ancora.

Percorsi di aggiornamento consigliati

NC-Series macchine virtuali con GPU NVIDIA K80

Le macchine virtuali NC (v1)Series sono il tipo di macchina virtuale con accelerazione GPU di Azure meno recente, basato su 1 a 4 acceleratori GPU NVIDIA Tesla K80 abbinati ai processori Intel Xeon E5-2690 v3 (Haswell). Una volta che un tipo di macchina virtuale di punta per applicazioni di intelligenza artificiale, ML e HPC è rimasta una scelta popolare in ritardo nel ciclo di vita del prodotto (in particolare tramite prezzi promozionali della serie NC) per gli utenti che hanno apprezzato un costo assoluto molto basso per gpu su GPU con velocità effettiva superiore per dollaro.

Oggi, dato che le prestazioni di calcolo relativamente basse della piattaforma GPU NVIDIA K80 invecchiano, rispetto alla serie di macchine virtuali con GPU più recenti, un caso d'uso comune per la serie NC è inferenza in tempo reale e carichi di lavoro di analisi, in cui una macchina virtuale accelerata deve essere disponibile in uno stato costante per servire le richieste dalle applicazioni durante l'arrivo. In questi casi, le dimensioni del volume o del batch delle richieste potrebbero non essere sufficienti per trarre vantaggio da GPU più efficienti. Le macchine virtuali NC sono anche popolari per gli sviluppatori e gli studenti che imparano, sviluppano o sperimentano l'accelerazione della GPU, che hanno bisogno di una destinazione di distribuzione CUDA basata sul cloud poco costoso su cui eseguire l'iterazione che non deve eseguire ai livelli di produzione.

In generale, NC-Series i clienti devono prendere in considerazione lo spostamento direttamente tra le dimensioni NC e le dimensioni NC T4 v3 , la nuova piattaforma con accelerazione GPU di Azure per i carichi di lavoro leggeri basati su GPU NVIDIA Tesla T4.

Dimensioni della macchina virtuale correnti	Dimensioni della macchina virtuale di destinazione	Differenza nella specifica
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 oppure Standard_NC8as_T4	CPU: Intel Haswell e AMD Rome Numero GPU: 1 (stesso) Generazione gpu: NVIDIA Keppler vs. Turing (+2 generazioni, ~2x FP32 FLOPs) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 4 (-2) o 8 (+2) GiB memoria: 16 (-40) o 56 (stesso) Archiviazione temporanea (SSD) GiB: 180 (-160) o 360 (+20) Numero massimo di dischi dati: 8 (-4) o 16 (+4) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell e AMD Rome Numero GPU: 1 (-1) Generazione gpu: NVIDIA Keppler vs. Turing (+2 generazioni, ~2x FP32 FLOPs) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 16 (+4) GiB memoria: 110 (-2) Temp Storage (SSD) GiB: 360 (-320) Numero massimo di dischi dati: 48 (+16) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell e AMD Rome Numero GPU: 4 (stesso) Generazione gpu: NVIDIA Keppler vs. Turing (+2 generazioni, ~2x FP32 FLOPs) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) GiB memoria: 440 (+216) Archiviazione temporanea (SSD) GiB: 2880 (+1440) Numero massimo di dischi dati: 32 (-32) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell e AMD Rome Numero GPU: 4 (stesso) Generazione gpu: NVIDIA Keppler vs. Turing (+2 generazioni, ~2x FP32 FLOPs) Memoria GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) GiB memoria: 440 (+216) Archiviazione temporanea (SSD) GiB: 2880 (+1440) Numero massimo di dischi dati: 32 (-32) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: No

Macchine virtuali nc v2 serie con GPU NVIDIA Tesla P100

Le macchine virtuali della serie NC v2 sono una piattaforma di punta progettata originariamente per i carichi di lavoro di intelligenza artificiale e Deep Learning. Hanno offerto prestazioni eccellenti per il training di Deep Learning, con prestazioni per GPU approssimativamente 2x che della NC-Series originale e sono basate su GPU NVIDIA Tesla P100 e Intel Xeon E5-2690 v4 (Broadwell). Come la serie NC e ND, la serie NC v2 offre una configurazione con una rete secondaria a bassa latenza, velocità effettiva elevata tramite RDMA e connettività InfiniBand in modo da poter eseguire processi di training su larga scala che si estendono su molte GPU.

In generale, NCv2-Series i clienti devono prendere in considerazione lo spostamento direttamente tra le dimensioni di NC A100 v4 , la nuova piattaforma con accelerazione GPU di Azure basata su GPU NVIDIA Ampere A100 PCIe.

Dimensioni della macchina virtuale correnti	Dimensioni della macchina virtuale di destinazione	Differenza nella specifica
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell e AMD Milano Numero GPU: 1 (stesso) Generazione gpu: NVIDIA Pascal vs. Ampere (+2 generazione) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 24 (+18) GiB memoria: 220 (+108) Archiviazione temporanea (SSD) GiB: 1123 (+387) Numero massimo di dischi dati: 12 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell e AMD Milano Numero GPU: 2 (stesso) Generazione gpu: NVIDIA Pascal vs. Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 48 (+36) GiB memoria: 440 (+216) Archiviazione temporanea (SSD) GiB: 2246 (+772) Numero massimo di dischi dati: 24 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell e AMD Milano Numero GPU: 4 (stesso) Generazione gpu: NVIDIA Pascal vs. Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) GiB memoria: 880 (+432) Archiviazione temporanea (SSD) GiB: 4492 (+1544) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell e AMD Milano Numero GPU: 4 (Stesso) Generazione gpu: NVIDIA Pascal vs. Ampere (+2 generazioni) Memoria GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) GiB memoria: 880 (+432) Archiviazione temporanea (SSD) GiB: 4492 (+1544) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: No (-)

ND-Series macchine virtuali con GPU NVIDIA Tesla P40

Le macchine virtuali serie ND sono una piattaforma midrange originariamente progettata per i carichi di lavoro di intelligenza artificiale e Deep Learning. Hanno offerto prestazioni eccellenti per l'inferenza batch tramite operazioni a virgola mobile a precisione singola migliorata sui loro predecessori e sono basate su GPU NVIDIA Tesla P40 e Intel Xeon E5-2690 v4 (Broadwell). Come la serie NC e NC v2, la ND-Series offre una configurazione con una rete secondaria a bassa latenza, velocità effettiva elevata tramite RDMA e connettività InfiniBand in modo da poter eseguire processi di training su larga scala che si estendono su molte GPU.

Dimensioni della macchina virtuale correnti	Dimensioni della macchina virtuale di destinazione	Differenza nella specifica
Standard_ND6	Standard_NC4as_T4_v3 oppure Standard_NC8as_T4_v3	CPU: Intel Broadwell e AMD Rome Numero GPU: 1 (stesso) Generazione della GPU: NVIDIA Pascal e Turing (+1 generazione) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 4 (-2) o 8 (+2) GiB memoria: 16 (-40) o 56 (-56) Archiviazione temporanea (SSD) GiB: 180 (-552) o 360 (-372) Numero massimo di dischi dati: 8 (-4) o 16 (+4) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell e AMD Rome Numero GPU: 1 (-1) Generazione della GPU: NVIDIA Pascal e Turing (+1 generazioni) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 16 (+4) GiB memoria: 110 (-114) Archiviazione temporanea (SSD) GiB: 360 (-1.114) Numero massimo di dischi dati: 48 (+16) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell e AMD Rome Numero GPU: 4 (stesso) Generazione della GPU: NVIDIA Pascal e Turing (+1 generazioni) Memoria GPU (GiB per GPU): 16 (-8) vCPU: 64 (+40) GiB memoria: 440 (stesso) GiB di Archiviazione temporanea (SSD): 2880 (stesso) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell e AMD Rome Numero GPU: 8 (+4) Generazione gpu: NVIDIA Pascal vs. Ampere (+2 generazione) Memoria GPU (GiB per GPU): 80 (+56) vCPU: 96 (+72) GiB memoria: 1900 (+1452) Archiviazione temporanea (SSD) GiB: 6400 (+3452) Numero massimo di dischi dati: 32 (stesso) Rete accelerata: Sì (+) Archiviazione Premium: Sì (+) Interconnessione InfiniBand: Sì (Stesso)

Passaggi della migrazione

Modifiche generali

Scegliere una serie e una dimensione per la migrazione. Sfruttare il calcolatore dei prezzi per ulteriori informazioni dettagliate.
Ottenere la quota per la serie di macchine virtuali di destinazione
Ridimensionare le dimensioni correnti della macchina virtuale serie N* alle dimensioni di destinazione. Questo può anche essere un buon momento per aggiornare il sistema operativo usato dall'immagine della macchina virtuale o adottare una delle immagini HPC con driver preinstallati come punto di partenza.

Importante

È possibile che l'immagine della macchina virtuale sia stata prodotta con una versione precedente del runtime CUDA, del driver NVIDIA e , se applicabile, solo per le dimensioni abilitate per RDMA, i driver Mellanox OFED rispetto alla nuova serie di macchine virtuali GPU, che possono essere aggiornati seguendo le istruzioni riportate nella documentazione di Azure.

Modifiche di rilievo

Selezionare le dimensioni di destinazione per la migrazione

Dopo aver valutato l'utilizzo corrente, decidere quale tipo di macchina virtuale GPU è necessario. A seconda dei requisiti del carico di lavoro, sono disponibili alcune scelte diverse.

Nota

Una procedura consigliata consiste nel selezionare una dimensione della macchina virtuale in base sia ai costi che alle prestazioni. Le raccomandazioni riportate in questa guida si basano su un confronto generico, uno-a-uno delle metriche delle prestazioni e la corrispondenza più vicina in un'altra serie di macchine virtuali. Prima di decidere le dimensioni corrette, ottenere un confronto dei costi usando il calcolatore dei prezzi di Azure.

Importante

Tutte le dimensioni di NC, NC v2 e ND-Series legacy sono disponibili in dimensioni multi-GPU, incluse le dimensioni di 4 GPU con e senza l'interconnessione InfiniBand per i carichi di lavoro con scalabilità orizzontale, strettamente accoppiati, che richiedono una potenza di calcolo maggiore rispetto a una singola macchina virtuale da 4 GPU o una singola GPU K80, P40 o P100 possono fornire rispettivamente. Anche se le raccomandazioni precedenti offrono un percorso semplice in avanti, gli utenti di queste dimensioni dovrebbero prendere in considerazione il raggiungimento dei loro obiettivi di prestazioni con macchine virtuali basate su GPU NVIDIA V100 più potenti, come la serie NC v3 e la serie ND v2, che in genere abilitano lo stesso livello di prestazioni dei carichi di lavoro a costi inferiori e con una maggiore gestibilità fornendo prestazioni notevolmente maggiori per GPU e per macchina virtuale prima che siano necessarie configurazioni multi-GPU e multi-node, Rispettivamente.

Ottenere la quota per la famiglia di macchine virtuali di destinazione

Seguire la guida per richiedere un aumento della quota vCPU in base alla famiglia di macchine virtuali. Selezionare le dimensioni della macchina virtuale di destinazione selezionate per la migrazione.

Ridimensionare la macchina virtuale corrente

È possibile ridimensionare la macchina virtuale.

Passaggi successivi

Per un elenco completo delle dimensioni delle macchine virtuali abilitate per GPU, vedere Panoramica del calcolo accelerato - GPU