Migreringsguide för GPU-beräkningsarbetsbelastningar i Azure

När kraftfullare GPU:er blir tillgängliga på marknadsplatsen och i Microsoft Azure datacenter rekommenderar vi att du utvärderar om prestanda för dina arbetsbelastningar och överväger att migrera till nyare GPU:er.

Av samma anledning, och för att upprätthålla ett tillförlitligt tjänsterbjudande av hög kvalitet, drar Azure regelbundet tillbaka maskinvaran som driver äldre VM-storlekar. Den första gruppen GPU-produkter som ska dras tillbaka i Azure är de ursprungliga virtuella datorerna NC, NC v2 och ND-serien, som drivs av NVIDIA Tesla K80, P100 respektive P40 datacenter GPU-acceleratorer. Dessa produkter dras tillbaka den 31 augusti 2022 och de äldsta virtuella datorerna i den här serien lanserades 2016.

Sedan dess har GPU:er gjort fantastiska framsteg tillsammans med hela djupinlärnings- och HPC-branschen, vilket vanligtvis överstiger en fördubbling i prestanda mellan generationerna. Sedan lanseringen av NVIDIA K80-, P40- och P100-GPU:er har Azure levererat flera nyare generationer och kategorier av VM-produkter som är inriktade på GPU-accelererad beräkning och AI, baserat på NVIDIA:s T4-, V100- och A100-GPU:er, och åtskilt av valfria funktioner som InfiniBand-baserade sammankopplingsresurser. Det här är alla alternativ som vi uppmuntrar kunder att utforska som migreringsvägar.

I de flesta fall sänker den dramatiska prestandaökningen som erbjuds av nyare generationer av GPU:er den totala TCO:n genom att minska jobbets varaktighet, för burst-jobb eller minska antalet övergripande GPU-aktiverade virtuella datorer som krävs för att täcka en fast storlek för beräkningsresurser, även om kostnaderna per GPU-timme kan variera. Utöver dessa fördelar kan kunder förbättra time-to-solution via högpresterande virtuella datorer och förbättra hälsa och support för sin lösning genom att införa nyare programvara, CUDA-körning och drivrutinsversioner.

Migrering jämfört med optimering

Azure är medveten om att kunderna har en mängd olika krav som kan styra valet av en specifik GPU VM-produkt, inklusive arkitekturöverväganden för GPU, sammankopplingar, TCO, tid till lösning och regional tillgänglighet baserat på kompatibilitets- eller svarstidskrav– och vissa av dessa ändras även över tid.

Samtidigt är GPU-acceleration ett nytt och snabbt växande område.

Därför finns det ingen verklig vägledning som passar alla för det här produktområdet, och en migrering är ett perfekt tillfälle att omvärdera potentiellt dramatiska ändringar i en arbetsbelastning, som att flytta från en klustrad distributionsmodell till en enda stor virtuell dator med 8 GPU eller vice versa, utnyttja minskade precisionsdatatyper, använda funktioner som GPU med flera instanser och mycket mer.

Den här typen av överväganden – när kontexten för redan dramatiska prestanda per generation av GPU ökar, där en funktion som att lägga till TensorCores kan öka prestandan med en viss omfattning, är mycket arbetsbelastningsspecifik.

Att kombinera migrering med programarkitektur kan ge stort värde och förbättring av kostnader och tid till lösning.

Den här typen av förbättringar ligger dock utanför omfånget för det här dokumentet, som syftar till att fokusera på direkta motsvarande klasser för generaliserade arbetsbelastningar som kan köras av kunder i dag, för att identifiera de mest liknande VM-alternativen i både pris och prestanda per GPU till befintliga VM-familjer som går i pension.

Därför förutsätter det här dokumentet att användaren kanske inte har någon insikt eller kontroll över arbetsbelastningsspecifika egenskaper som antalet nödvändiga VM-instanser, GPU:er, sammankopplingar med mera.

NC-Series virtuella datorer med NVIDIA K80-GPU:er

De virtuella datorerna i NC-serien (v1) är Azures äldsta GPU-accelererade beräknings-VM-typ, som drivs av 1 till 4 NVIDIA Tesla K80 datacenter GPU-acceleratorer i par med Intel Xeon E5-2690 v3-processorer (Haswell). När en virtuell datortyp för krävande AI-, ML- och HPC-program var de ett populärt val sent i produktlivscykeln (särskilt via kampanjpriser i NC-serien) för användare som uppskattade en mycket låg absolut kostnad per GPU-timme över GPU:er med högre dataflöde per dollar.

Med tanke på den äldre NVIDIA K80 GPU-plattformens relativt låga beräkningsprestanda jämfört med VM-serien med nyare GPU:er är ett populärt användningsfall för NC-serien idag arbetsbelastningar för slutsatsledning och analys, där en accelererad virtuell dator måste vara tillgänglig i ett stabilt tillstånd för att kunna betjäna förfrågningar från program när de tas emot. I dessa fall kan volymen eller batchstorleken för begäranden vara otillräcklig för att dra nytta av mer presterande GPU:er. Virtuella NC-datorer är också populära för utvecklare och studenter som lär sig mer om, utvecklar för eller experimenterar med GPU-acceleration, som behöver ett kostnadseffektivt molnbaserat CUDA-distributionsmål att iterera på som inte behöver prestera på produktionsnivå.

I allmänhet bör NC-Series-kunder överväga att flytta direkt mellan NC-storlekar till NC T4 v3-storlekar, Azures nya GPU-accelererade plattform för lätta arbetsbelastningar som drivs av NVIDIA Tesla T4-GPU:er, även om andra VM-SKU:er bör övervägas för arbetsbelastningar som körs på InfiniBand-aktiverade NC-Series-storlekar.

Aktuell VM-storlek Vm-målstorlek Skillnad i specifikation
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
eller
Standard_NC8as_T4
CPU: Intel Haswell jämfört med AMD Amd
ANTAL GPU: 1 (samma)< br>GPU-generering: NVIDIA Keppler jämfört med Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 4 (-2) eller 8 (+2)
Minnes-GiB: 16 (-40) eller 56 (samma)
Temp Storage (SSD) GiB: 180 (-160) eller 360 (+20)
Maximalt antal datadiskar: 8 (-4) eller 16 (+4)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell jämfört med AMD Amd
ANTAL GPU: 4 (samma)
GPU-generation: NVIDIA Keppler jämfört med Turing (+2 generationer, ~2x FP32 FLOPs)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Memory GiB: 440 (+216)
Temp Storage (SSD) GiB: 2880 (+1440)
Maximalt antal datadiskar: 32 (-32)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_NC24r
Standard_NC24r_Promo

(InfiniBand-klusteraktiverade storlekar)
Standard_NC24rs_v3* CPU: Intel Haswell jämfört med Intel Broadwell
ANTAL GPU: 4 (samma)
GPU-generation: NVIDIA Keppler jämfört med Volta (+2 generationer)
GPU-minne (GiB per GPU): 16 (+4)
vCPU: 24 (+0)
Memory GiB: 448 (+224)
Temp Storage (SSD) GiB: 2948 (+1440)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Nej (samma)
Premium Storage: Ja (+)
InfiniBand-sammankoppling: Ja

ND-Series virtuella datorer med NVIDIA Tesla P40-GPU:er

De virtuella datorerna i ND-serien är en plattform med medelintervall som ursprungligen utformades för AI och deep Learning arbetsbelastningar. De erbjuder utmärkt prestanda för batch-inferens via förbättrade flyttalsåtgärder med enkel precision över sina föregångare och drivs av NVIDIA Tesla P40 GPU:er och Intel Xeon E5-2690 v4-processorer (Broadwell). Precis som NC- och NC v2-serien erbjuder ND-Series en konfiguration med en sekundär nätverksanslutning med låg latens, högt dataflöde via RDMA och InfiniBand så att du kan köra storskaliga träningsjobb som sträcker sig över många GPU:er.

Aktuell VM-storlek Vm-målstorlek Skillnad i specifikation
Standard_ND6 Standard_NC4as_T4_v3
eller
Standard_NC8as_T4
CPU: Intel Broadwell jämfört med AMD Amd
ANTAL GPU: 1 (samma)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generation)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 4 (-2) eller 8 (+2)
Minnes-GiB: 16 (-40) eller 56 (-56)
Temp Storage (SSD) GiB: 180 (-552) eller 360 (-372)
Maximalt antal datadiskar: 8 (-4) eller 16 (+4)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell jämfört med AMD Amd
ANTAL GPU: 1 (-1)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generation)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 16 (+4)
Memory GiB: 110 (-114)
Temp Storage (SSD) GiB: 360 (-1 114)
Maximalt antal datadiskar: 48 (+16)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell jämfört med AMD Amd
GPU-antal: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Turing (+1 generationer)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 64 (+40)
Memory GiB: 440 (samma)
Temp Storage (SSD) GiB: 2880 (samma)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Ja (+)
Premium Storage: Ja (+)
Standard_ND24r Standard_NC24rs_v3* CPU: Intel Broadwell (samma)
GPU-antal: 4 (samma)
GPU-generation: NVIDIA Pascal kontra Volta (+1 generation)
GPU-minne (GiB per GPU): 16 (-8)
vCPU: 24 (+0)
Memory GiB: 448 (samma)
Temp Storage (SSD) GiB: 2948 (samma)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Nej (samma)
Premium Storage: Ja (+)
InfiniBand-sammankoppling: Ja (samma)

Virtuella datorer i NC v2-serien med NVIDIA Tesla P100 GPU:er

Virtuella datorer i NC v2-serien är en ursprunglig plattform som utformats för AI och Deep Learning arbetsbelastningar. De erbjöd utmärkt prestanda för djup Learning-träning, med prestanda per GPU ungefär 2 gånger den ursprungliga NC-Series och drivs av NVIDIA Tesla P100 GPU:er och Intel Xeon E5-2690 v4-processorer (Broadwell). Precis som NC- och ND-serien erbjuder NC v2-serien en konfiguration med ett sekundärt nätverk med korta svarstider, högt dataflöde via RDMA och InfiniBand-anslutningar så att du kan köra storskaliga träningsjobb som omfattar många GPU:er.

Aktuell VM-storlek Storlek på virtuell måldatorn Skillnad i specifikation
Standard_NC6s_v2 Standard_NC6s_v3 CPU: Intel Broadwell (samma)
ANTAL GPU: 1 (samma)
GPU-generation: NVIDIA Pascal kontra Volta (+1 generation)
GPU-minne (GiB per GPU): 16 (samma)
vCPU: 6 (samma)
Memory GiB: 112 (samma)
Temp Storage (SSD) GiB: 736 (samma)
Maximalt antal datadiskar: 12 (samma)
Accelererat nätverk: Nej (samma)
Premium Storage: Ja (+)
Standard_NC12s_v2 Standard_NC12s_v3 CPU: Intel Broadwell (samma)
ANTAL GPU: 2 (samma)
GPU-generation: NVIDIA Pascal jämfört med Volta (+1 generation)
GPU-minne (GiB per GPU): 16 (samma)
vCPU: 12 (samma)
Memory GiB: 112 (samma)
Temp Storage (SSD) GiB: 1474 (samma)
Maximalt antal datadiskar: 24 (samma)
Accelererat nätverk: Nej (samma)
Premium Storage: Ja (+)
Standard_NC24s_v2 Standard_NC24s_v3 CPU: Intel Broadwell (samma)
GPU-antal: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Volta (+1 generation)
GPU-minne (GiB per GPU): 16 (samma)
vCPU: 24 (samma)
Memory GiB: 448 (samma)
Temp Storage (SSD) GiB: 2948 (samma)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Nej (samma)
Premium Storage: Ja (+)
Standard_NC24rs_v2 Standard_NC24rs_v3* CPU: Intel Broadwell (samma)
GPU-antal: 4 (samma)
GPU-generation: NVIDIA Pascal jämfört med Volta (+1 generation)
GPU-minne (GiB per GPU): 16 (samma)
vCPU: 24 (samma)
Memory GiB: 448 (samma)
Temp Storage (SSD) GiB: 2948 (samma)
Maximalt antal datadiskar: 32 (samma)
Accelererat nätverk: Nej (samma)
Premium Storage: Ja (+)
InfiniBand-sammankoppling: Ja (samma)

Migreringssteg

Allmänna ändringar

  1. Välj en serie och storlek för migrering. Använd priskalkylatorn för ytterligare insikter.

  2. Hämta kvot för vm-målserien

  3. Ändra storlek på den aktuella * vm-storleken i N-serien till målstorleken. Det kan också vara ett bra tillfälle att uppdatera operativsystemet som används av avbildningen av den virtuella datorn eller använda en av HPC-avbildningarna med drivrutiner förinstallerade som startpunkt.

    Viktigt

    Den virtuella datoravbildningen kan ha producerats med en äldre version av CUDA-körningen, NVIDIA-drivrutinen och (om tillämpligt endast för RDMA-aktiverade storlekar) Mellanox OFED-drivrutiner än vad som krävs i din nya GPU VM-serie, som kan uppdateras genom att följa anvisningarna i Azure-dokumentationen.

Icke-bakåtkompatibla ändringar

Välj målstorlek för migrering

När du har utvärderat din aktuella användning bestämmer du vilken typ av virtuell GPU-dator du behöver. Beroende på vilka arbetsbelastningskrav du har har du några olika alternativ.

Anteckning

Ett bra sätt är att välja en VM-storlek baserat på både kostnad och prestanda. Rekommendationerna i den här guiden baseras på en jämförelse av prestandamått för generell användning och en-till-en och den närmaste matchningen i en annan VM-serie. Innan du bestämmer dig för rätt storlek bör du få en kostnadsjämförelse med hjälp av Priskalkylatorn för Azure.

Viktigt

Alla äldre NC-, NC v2- och ND-Series-storlekar är tillgängliga i flera GPU-storlekar, inklusive 4 GPU-storlekar med och utan InfiniBand-sammankoppling för utskalning, nära kopplade arbetsbelastningar som kräver mer beräkningskraft än en enskild virtuell dator med 4 GPU eller en enda K80-, P40- eller P100 GPU kan tillhandahålla. Även om rekommendationerna ovan är en enkel väg framåt bör användare av dessa storlekar överväga att uppnå sina prestandamål med kraftfullare NVIDIA V100 GPU-baserade VM-serier som NC v3-serien och ND v2-serien,som vanligtvis möjliggör samma nivå av arbetsbelastningsprestanda till lägre kostnader och med förbättrad hanterbarhet genom att tillhandahålla betydligt bättre prestanda per GPU och per virtuell dator innan konfigurationer med flera GPU och flera noder krävs. Respektive.

Hämta kvot för den virtuella måldatorns familj

Följ guiden för att begära en ökning av vCPU-kvoten efter VM-familj. Välj den VM-målstorlek som du har valt för migrering.

Ändra storlek på den aktuella virtuella datorn

Du kan ändra storlek på den virtuella datorn.

Nästa steg

En fullständig lista över STORLEKAR på GPU-aktiverade virtuella datorer finns i GPU – accelererad beräkningsöversikt