Przewodnik migracji obciążeń obliczeniowych procesora GPU na platformie Azure

Artykuł
03/25/2023

Ponieważ bardziej zaawansowane procesory GPU stają się dostępne na platformie handlowej i w centrach danych platformy Microsoft Azure, zalecamy ponowne ocenianie wydajności obciążeń i rozważanie migracji do nowszych procesorów GPU.

Z tego samego powodu, a także do utrzymania wysokiej jakości i niezawodnej oferty usług platforma Azure okresowo wycofuje sprzęt obsługujący starsze rozmiary maszyn wirtualnych. Pierwszą grupą produktów gpu, które mają zostać wycofane na platformie Azure, są oryginalne maszyny wirtualne NC, NC v2 i ND z serii ND, obsługiwane odpowiednio przez NVIDIA Tesla K80, P100 i P40 akceleratory procesora GPU centrum danych. Te produkty zostaną wycofane 31 sierpnia 2023 r., a najstarsze maszyny wirtualne z tej serii zostaną uruchomione w 2016 roku.

Od tego czasu procesory GPU poczyniły niesamowite postępy wraz z całą branżą uczenia głębokiego i HPC, zwykle przekraczając podwojenie wydajności między generacjami. Od czasu uruchomienia procesorów GPU NVIDIA K80, P40 i P100 platforma Azure dostarczyła wiele nowszych generacji i kategorii produktów maszyn wirtualnych wyposażonych w przyspieszone procesory GPU i sztuczną inteligencję, na podstawie technologii T4 firmy NVIDIA, V100 i A100 procesorów GPU, a także rozróżniana przez opcjonalne funkcje, takie jak sieci szkieletowe połączenia międzyoperacyjne oparte na technologii InfiniBand. Są to wszystkie opcje, które zachęcamy klientów do eksplorowania jako ścieżek migracji.

W większości przypadków dramatyczny wzrost wydajności oferowany przez nowsze generacje procesorów GPU obniża ogólny koszt posiadania dzięki zmniejszeniu czasu trwania zadania, w przypadku zadań z możliwością zwiększania wydajności lub zmniejszenia ilości ogólnych maszyn wirtualnych z obsługą procesora GPU wymaganych do pokrycia stałego zapotrzebowania na zasoby obliczeniowe, mimo że koszty na godzinę procesora GPU mogą się różnić. Oprócz tych korzyści klienci mogą poprawić czas na rozwiązanie za pośrednictwem maszyn wirtualnych o wyższej wydajności oraz poprawić kondycję i obsługę swojego rozwiązania, przyjmując nowsze oprogramowanie, środowisko uruchomieniowe CUDA i wersje sterowników.

Migracja a optymalizacja

Platforma Azure rozpoznaje, że klienci mają wiele wymagań, które mogą dyktować wybór określonego produktu maszyny wirtualnej z procesorem GPU, w tym zagadnienia dotyczące architektury procesora GPU, połączenia między procesorami GPU, TCO, czas do rozwiązania i dostępność regionalną w oparciu o wymagania dotyczące lokalizacji zgodności lub opóźnienia — a niektóre z nich nawet zmieniają się wraz z upływem czasu.

Jednocześnie przyspieszanie procesora GPU jest nowym i szybko zmieniającym się obszarem.

W związku z tym nie ma żadnych wskazówek dotyczących jednego rozmiaru dla tego obszaru produktu, a migracja jest idealnym czasem ponownej oceny potencjalnie dramatycznych zmian w obciążeniu, takich jak przejście z klastrowanego modelu wdrażania do jednej dużej maszyny wirtualnej 8-GPU lub odwrotnie, wykorzystując ograniczone typy danych precyzji, wdrażanie funkcji takich jak procesor GPU z wieloma wystąpieniami i wiele innych.

Tego rodzaju zagadnienia — gdy kontekst już dramatycznego wzrostu wydajności procesora GPU na generację wzrasta, gdzie funkcja taka jak dodanie rdzeni TensorCore może zwiększyć wydajność o kolejność wielkości, są bardzo specyficzne dla obciążenia.

Połączenie migracji z architekturą re-aplikacji może przynieść ogromną wartość i poprawę kosztów i czasu rozwiązania.

Jednak tego rodzaju ulepszenia wykraczają poza zakres tego dokumentu, który ma na celu skupienie się na bezpośrednich klasach równoważności dla uogólnionych obciążeń, które mogą być obecnie uruchamiane przez klientów, w celu zidentyfikowania najbardziej podobnych opcji maszyn wirtualnych zarówno w cenie, jak i wydajności procesora GPU dla istniejących rodzin maszyn wirtualnych przechodzących emeryturę.

W związku z tym w tym dokumencie założono, że użytkownik może nie mieć żadnych szczegółowych informacji ani kontroli nad właściwościami specyficznymi dla obciążenia, takimi jak liczba wymaganych wystąpień maszyn wirtualnych, procesorów GPU, połączeń międzyoperacyjnych i nie tylko.

Zalecane ścieżki uaktualniania

NC-Series maszyn wirtualnych z procesorami GPU NVIDIA K80

Maszyny wirtualne z serii NC (wersja 1) to najstarszy typ maszyny wirtualnej z przyspieszonym procesorem GPU platformy Azure, obsługiwany przez od 1 do 4 akceleratorów procesora GPU firmy NVIDIA Tesla K80 w połączeniu z procesorami Intel Xeon E5-2690 v3 (Haswell). Gdy flagowy typ maszyny wirtualnej dla wymagających aplikacji sztucznej inteligencji, uczenia maszynowego i HPC pozostał popularnym wyborem późnym w cyklu życia produktu (szczególnie za pośrednictwem cen promocyjnych serii NC) dla użytkowników, którzy cenili bardzo niski koszt bezwzględny na godzinę procesora GPU w przypadku procesorów GPU z większą przepływnością na dolara.

Obecnie, biorąc pod uwagę stosunkowo niską wydajność obliczeniową starzejącej się platformy procesora GPU NVIDIA K80, w porównaniu do serii maszyn wirtualnych z nowszymi procesorami GPU, popularnym przypadkiem użycia dla serii NC jest wnioskowanie w czasie rzeczywistym i obciążenia analityczne, gdzie przyspieszona maszyna wirtualna musi być dostępna w stanie stabilnym, aby obsługiwać żądania od aplikacji w miarę ich nadejścia. W takich przypadkach wielkość woluminu lub partii żądań może być niewystarczająca, aby korzystać z bardziej wydajnych procesorów GPU. Maszyny wirtualne NC są również popularne dla deweloperów i studentów uczących się, opracowywanych na potrzeby lub eksperymentowania z przyspieszaniem procesora GPU, którzy potrzebują niedrogiego celu wdrożenia CUDA opartego na chmurze, na którym iteracja nie musi być wykonywana na poziomach produkcyjnych.

Ogólnie rzecz biorąc, NC-Series klienci powinni rozważyć przejście bezpośrednio z rozmiarów NC do rozmiarów NC T4 v3 , nowa platforma przyspieszona przez procesor GPU platformy Azure dla lekkich obciążeń obsługiwanych przez procesory GPU NVIDIA Tesla T4.

Bieżący rozmiar maszyny wirtualnej	Docelowy rozmiar maszyny wirtualnej	Różnica w specyfikacji
Standardowa_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 lub Standard_NC8as_T4	Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 1 (taka sama) Generacja procesora GPU: NVIDIA Keppler vs. Turing (+2 generacje, ~2x FP32 FLOPs) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 4 (-2) lub 8 (+2) GiB pamięci: 16 (-40) lub 56 (to samo) Magazyn tymczasowy (SSD) GiB: 180 (-160) lub 360 (+20) Maksymalna liczba dysków danych: 8 (-4) lub 16 (+4) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standardowa_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 1 (-1) Generacja procesora GPU: NVIDIA Keppler vs. Turing (+2 generacje, ~2x FP32 FLOPs) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 16 (+4) GiB pamięci: 110 (-2) GiB magazynu tymczasowego (SSD): 360 (-320) Maksymalna liczba dysków danych: 48 (+16) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standardowa_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 4 (takie same) Generacja procesora GPU: NVIDIA Keppler vs. Turing (+2 generacje, ~2x FP32 FLOPs) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 64 (+40) GiB pamięci: 440 (+216) GiB magazynu tymczasowego (SSD): 2880 (+1440) Maksymalna liczba dysków danych: 32 (-32) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	Procesor: Intel Haswell vs AMD Rome Liczba procesorów GPU: 4 (takie same) Generacja procesora GPU: NVIDIA Keppler vs. Turing (+2 generacje, ~2x FP32 FLOPs) Pamięć procesora GPU (GiB na procesor GPU): 16 (+4) Procesor wirtualny: 64 (+40) GiB pamięci: 440 (+216) GiB magazynu tymczasowego (SSD): 2880 (+1440) Maksymalna liczba dysków danych: 32 (-32) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) Interconnect InfiniBand: Nie

Maszyny wirtualne z serii NC w wersji 2 wyposażone w procesory GPU NVIDIA Tesla P100

Maszyny wirtualne serii NC w wersji 2 są flagową platformą, która została pierwotnie zaprojektowana dla obciążeń sztucznej inteligencji i uczenia głębokiego. Oferują doskonałą wydajność do trenowania uczenia głębokiego, z wydajnością na procesor GPU około 2x oryginalnej NC-Series i są zasilane przez procesory GPU NVIDIA Tesla P100 i Intel Xeon E5-2690 v4 (Broadwell). Podobnie jak nc i ND -Series, NC v2-Series oferuje konfigurację z pomocniczym małym opóźnieniem, siecią o wysokiej przepływności za pośrednictwem RDMA i łączności InfiniBand, dzięki czemu można uruchamiać zadania trenowania na dużą skalę obejmujące wiele procesorów GPU.

Ogólnie rzecz biorąc, klienci NCv2-Series powinni rozważyć przejście bezpośrednio do rozmiarów NC A100 v4 , nowa platforma przyspieszona przez procesor GPU platformy Azure obsługiwana przez procesory GPU NVIDIA Ampere A100 PCIe GPU.

Bieżący rozmiar maszyny wirtualnej	Docelowy rozmiar maszyny wirtualnej	Różnica w specyfikacji
Standard_NC6s_v2	Standard_NC24ads_A100_v4	Procesor: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 1 (taka sama) Generacja procesora GPU: NVIDIA Pascal vs. Ampere (+2 generacja) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) Procesor wirtualny: 24 (+18) GiB pamięci: 220 (+108) GiB magazynu tymczasowego (SSD): 1123 (+387) Maksymalna liczba dysków danych: 12 (takie same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	Procesor: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 2 (takie same) Generacja procesora GPU: NVIDIA Pascal vs. Ampere (+2 generacje) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) Procesor wirtualny: 48 (+36) GiB pamięci: 440 (+216) GiB magazynu tymczasowego (SSD): 2246 (+772) Maksymalna liczba dysków danych: 24 (takie same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	Procesor: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 4 (takie same) Generacja procesora GPU: NVIDIA Pascal vs. Ampere (+2 generacje) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) Procesor wirtualny: 96 (+72) GiB pamięci: 880 (+432) GiB magazynu tymczasowego (SSD): 4492 (+1544) Maksymalna liczba dysków danych: 32 (takie same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	Procesor: Intel Broadwell vs AMD Milan Liczba procesorów GPU: 4 (takie same) Generacja procesora GPU: NVIDIA Pascal vs. Ampere (+2 generacje) Pamięć procesora GPU (GiB na procesor GPU): 80 (+64) Procesor wirtualny: 96 (+72) GiB pamięci: 880 (+432) GiB magazynu tymczasowego (SSD): 4492 (+1544) Maksymalna liczba dysków danych: 32 (takie same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) Interconnect InfiniBand: Nie (-)

ND-Series maszyny wirtualne z procesorami GPU NVIDIA Tesla P40

Maszyny wirtualne serii ND są platformą średniej klasy, która została pierwotnie zaprojektowana dla obciążeń sztucznej inteligencji i uczenia głębokiego. Oferują doskonałą wydajność wnioskowania wsadowego za pośrednictwem ulepszonych operacji zmiennoprzecinkowych o jednej precyzji nad ich poprzednikami i są zasilane przez procesory GPU NVIDIA Tesla P40 i Intel Xeon E5-2690 v4 (Broadwell). Podobnie jak nc i NC v2-Series, ND-Series oferuje konfigurację z dodatkowymi małymi opóźnieniami, siecią o wysokiej przepływności za pośrednictwem rdMA i łączności InfiniBand, dzięki czemu można uruchamiać zadania trenowania na dużą skalę obejmujące wiele procesorów GPU.

Bieżący rozmiar maszyny wirtualnej	Docelowy rozmiar maszyny wirtualnej	Różnica w specyfikacji
Standard_ND6	Standard_NC4as_T4_v3 lub Standard_NC8as_T4_v3	Procesor: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 1 (taka sama) Generacja procesora GPU: NVIDIA Pascal vs. Turing (+1 generacja) Pamięć procesora GPU (GiB na procesor GPU): 16 (-8) Procesor wirtualny: 4 (-2) lub 8 (+2) GiB pamięci: 16 (-40) lub 56 (-56) Magazyn tymczasowy (SSD) GiB: 180 (-552) lub 360 (-372) Maksymalna liczba dysków danych: 8 (-4) lub 16 (+4) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_ND12	Standard_NC16as_T4_v3	Procesor: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 1 (-1) Generacja procesora GPU: NVIDIA Pascal vs. Turing (+1 generacja) Pamięć procesora GPU (GiB na procesor GPU): 16 (-8) Procesor wirtualny: 16 (+4) GiB pamięci: 110 (-114) GiB magazynu tymczasowego (SSD): 360 (-1,114) Maksymalna liczba dysków danych: 48 (+16) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_ND24	Standard_NC64as_T4_v3*	Procesor: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 4 (takie same) Generacja procesora GPU: NVIDIA Pascal vs. Turing (+1 generacja) Pamięć procesora GPU (GiB na procesor GPU): 16 (-8) Procesor wirtualny: 64 (+40) GiB pamięci: 440 (to samo) GiB magazynu tymczasowego (SSD): 2880 (to samo) Maksymalna liczba dysków danych: 32 (takie same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	Procesor: Intel Broadwell vs AMD Rome Liczba procesorów GPU: 8 (+4) Generacja procesora GPU: NVIDIA Pascal vs. Ampere (+2 generacja) Pamięć procesora GPU (GiB na procesor GPU): 80 (+56) Procesor wirtualny: 96 (+72) GiB pamięci: 1900 (+1452) GiB magazynu tymczasowego (SSD): 6400 (+3452) Maksymalna liczba dysków danych: 32 (takie same) Przyspieszona sieć: Tak (+) Premium Storage: Tak (+) Interconnect InfiniBand: Tak (to samo)

Kroki migracji

Zmiany ogólne

Wybierz serię i rozmiar migracji. Skorzystaj z kalkulatora cen , aby uzyskać więcej szczegółowych informacji.
Pobieranie limitu przydziału dla docelowej serii maszyn wirtualnych
Zmień rozmiar bieżącej maszyny wirtualnej serii N* na rozmiar docelowy. Może to być również dobry moment na zaktualizowanie systemu operacyjnego używanego przez obraz maszyny wirtualnej lub wdrożenie jednego z obrazów HPC ze wstępnie zainstalowanymi sterownikami jako punktem wyjścia.

Ważne

Obraz maszyny wirtualnej mógł zostać utworzony ze starszą wersją środowiska uruchomieniowego CUDA, sterownika NVIDIA i (jeśli dotyczy tylko rozmiarów z włączoną funkcją RDMA) sterowniki Mellanox OFED niż wymaga nowa seria maszyn wirtualnych z procesorem GPU, które można zaktualizować, postępując zgodnie z instrukcjami w dokumentacji platformy Azure.

Zmiany powodujące niezgodność

Wybierz rozmiar docelowy migracji

Po ocenie bieżącego użycia zdecyduj, jakiego typu maszynę wirtualną z procesorem GPU potrzebujesz. W zależności od wymagań dotyczących obciążenia masz kilka różnych opcji.

Uwaga

Najlepszym rozwiązaniem jest wybranie rozmiaru maszyny wirtualnej na podstawie kosztów i wydajności. Zalecenia przedstawione w tym przewodniku są oparte na ogólnym celu, jednym do jednego porównania metryk wydajności i najbliższym dopasowaniu w innej serii maszyn wirtualnych. Przed podjęciem decyzji o odpowiednim rozmiarze zapoznaj się z porównaniem kosztów przy użyciu kalkulatora cen platformy Azure.

Ważne

Wszystkie starsze rozmiary NC, NC v2 i ND-Series są dostępne w rozmiarach wielu procesorów GPU, w tym 4-gpu o rozmiarach i bez połączenia InfiniBand dla obciążeń skalowanych w poziomie, ściśle powiązanych obciążeń, które wymagają większej mocy obliczeniowej niż jedna maszyna wirtualna z procesorem GPU 4 lub jeden procesor GPU K80, P40 lub P100. Mimo że powyższe zalecenia oferują prostą ścieżkę do przodu, użytkownicy tych rozmiarów powinni rozważyć osiągnięcie celów dotyczących wydajności z bardziej wydajnymi seriami maszyn wirtualnych opartych na procesorze GPU V100 firmy NVIDIA v100, takimi jak seria NC v3 i seria ND v2, które zwykle zapewniają ten sam poziom wydajności obciążenia przy niższych kosztach i z lepszą możliwością zarządzania, zapewniając znacznie większą wydajność na procesor GPU i maszynę wirtualną przed wymaganą konfiguracją wielu procesorów GPU i wielu węzłów, Odpowiednio.

Uzyskiwanie limitu przydziału dla docelowej rodziny maszyn wirtualnych

Postępuj zgodnie z przewodnikiem, aby zażądać zwiększenia limitu przydziału procesorów wirtualnych według rodziny maszyn wirtualnych. Wybierz docelowy rozmiar maszyny wirtualnej wybrany do migracji.

Zmienianie rozmiaru bieżącej maszyny wirtualnej

Możesz zmienić rozmiar maszyny wirtualnej.

Następne kroki

Aby uzyskać pełną listę rozmiarów maszyn wirtualnych z obsługą procesora GPU, zobacz Gpu — przyspieszone obliczenia — omówienie