Maszyna wirtualna z procesorem graficznym (GPU) w usłudze Azure Stack Hub

Artykuł
04/13/2024

Przestroga

Ten artykuł odwołuje się do systemu CentOS — dystrybucji systemu Linux, która zbliża się do stanu zakończenia życia (EOL). Rozważ odpowiednie użycie i zaplanuj. Aby uzyskać więcej informacji, zobacz wskazówki dotyczące końca życia systemu CentOS.

W tym artykule opisano, które modele procesora graficznego (GPU) są obsługiwane w zintegrowanym systemie usługi Azure Stack Hub. Można również znaleźć instrukcje dotyczące instalowania sterowników używanych z procesorami GPU. Obsługa procesora GPU w usłudze Azure Stack Hub umożliwia korzystanie z rozwiązań, takich jak sztuczna inteligencja, trenowanie, wnioskowanie i wizualizacja danych. Oprogramowanie AMD Amd Instinct MI25 może służyć do obsługi aplikacji intensywnie korzystających z grafiki, takich jak Autodesk AutoCAD.

Można wybrać spośród trzech modeli procesora GPU. Są one dostępne w procesorach GPU NVIDIA V100, NVIDIA T4 i AMD MI25. Te fizyczne procesory GPU są zgodne z następującymi typami maszyn wirtualnych serii N platformy Azure w następujący sposób:

Ostrzeżenie

Maszyny wirtualne procesora GPU nie są obsługiwane w tej wersji. Należy przeprowadzić uaktualnienie do usługi Azure Stack Hub 2005 lub nowszej. Ponadto sprzęt usługi Azure Stack Hub musi mieć fizyczne procesory GPU.

NCv3

Maszyny wirtualne serii NCv3 są obsługiwane przez procesory GPU NVIDIA Tesla V100. Klienci mogą korzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białka, symulacje Monte Carlo i inne.

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (SSD): GiB	Procesory GPU	Pamięć procesora GPU: GiB	Maks. liczba dysków danych	Maksymalna liczba kart sieciowych
Standard_NC6s_v3	6	112	736	1	16	12	4
Standard_NC12s_v3	12	224	1474	2	32	24	8
Standard_NC24s_v3	24	448	2948	4	64	32	8

NVv4

Maszyny wirtualne z serii NVv4 są obsługiwane przez procesory GPU AMD Firmy Amd Instinct MI25. Usługa Azure Stack Hub z serii NVv4 wprowadza maszyny wirtualne z częściowymi procesorami GPU. Ten rozmiar może być używany w przypadku aplikacji graficznych przyspieszanych przez procesor GPU i pulpitów wirtualnych. Maszyny wirtualne NVv4 obecnie obsługują tylko system operacyjny Gościa systemu Windows.

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (SSD): GiB	Procesory GPU	Pamięć procesora GPU: GiB	Maks. liczba dysków danych	Maksymalna liczba kart sieciowych
Standard_NV4as_v4	4	14	88	1/8	2	4	2
Standard_NV8as_v4	8	28	176	1/4	4	8	4
Standard_NV16as_v4	16	56	352	1/2	8	16	8
Standard_NV32as_v4	32	112	704	1	16	32	8

NCasT4_v3

Rozmiar	Procesor wirtualny	Pamięć: GiB	Procesory GPU	Pamięć procesora GPU: GiB	Maks. liczba dysków danych	Maksymalna liczba kart sieciowych
Standard_NC4as_T4_v3	4	28	1	16	8	4
Standard_NC8as_T4_v3	8	56	1	16	16	8
Standard_NC16as_T4_v3	16	110	1	16	32	8
Standard_NC64as_T4_v3	64	440	4	64	32	8

NC_A100 v4

Maszyny wirtualne serii NC_A100 są obsługiwane przez procesory GPU NVIDIA Ampere A100, następcę procesorów GPU Tesla V100. Możesz skorzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białka, symulacje Monte Carlo i inne.

Rozmiar	Procesor wirtualny	Pamięć: GiB	Magazyn tymczasowy (GiB)	Maks. liczba dysków danych	Procesory GPU	GiB pamięci procesora GPU	Maksymalna liczba kart sieciowych
Standard_NC24ads_A100_v4	24	220	1123	12	1	80	2
Standard_NC48ads_A100_v4	48	440	2246	24	2	160	4

Zagadnienia dotyczące systemu procesora GPU

Procesor GPU musi być jednym z następujących jednostek SKU: AMD MI-25, Nvidia V100 (i wariantów), Nvidia T4.
Liczba obsługiwanych procesorów GPU na serwer (1, 2, 3, 4). Preferowane są: 1, 2 i 4.
Wszystkie procesory GPU muszą mieć dokładnie taką samą jednostkę SKU w całej jednostce skalowania.
Wszystkie ilości procesorów GPU na serwer muszą być takie same w całej jednostce skalowania.
Rozmiar partycji procesora GPU (w przypadku procesorów AMD Mi25) musi być taki sam dla wszystkich maszyn wirtualnych procesora GPU w jednostce skalowania.

Planowanie pojemności

Planista pojemności usługi Azure Stack Hub został zaktualizowany w celu obsługi konfiguracji procesora GPU. Jest on dostępny w witrynie https://aka.ms/azstackcapacityplanner.

Dodawanie procesorów GPU w istniejącej usłudze Azure Stack Hub

Usługa Azure Stack Hub obsługuje teraz dodawanie procesorów GPU do dowolnego istniejącego systemu. W tym celu wykonaj polecenie stop-azurestack, uruchom procedurę stop-azurestack, dodaj procesory GPU, a następnie uruchom polecenie start-azurestack do momentu ukończenia. Jeśli system miał już procesory GPU, wszystkie wcześniej utworzone maszyny wirtualne procesora GPU muszą zostać cofnięto przydział , a następnie ponownie uruchomione.

Stosowanie poprawek i aktualizacji, zachowanie jednostek FRU maszyn wirtualnych

Maszyny wirtualne procesora GPU przejdą przestój podczas operacji, takich jak stosowanie poprawek i aktualizacji (PnU) oraz wymiana sprzętu (FRU) usługi Azure Stack Hub. W poniższej tabeli opisano stan maszyny wirtualnej obserwowany podczas tych działań i akcję ręczną, którą można wykonać, aby te maszyny wirtualne były dostępne po wykonaniu operacji.

Operacja	PnU — pełna aktualizacja, aktualizacja OEM	FRU
Stan maszyny wirtualnej	Niedostępne podczas aktualizacji. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna jest automatycznie aktualizowana po aktualizacji online.	Niedostępne podczas jednostki FRU. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna musi zostać przywrócona po frU
Operacja ręczna	Jeśli maszyna wirtualna musi zostać udostępniona podczas aktualizacji, jeśli są dostępne partycje procesora GPU, maszynę wirtualną można uruchomić ponownie z poziomu portalu, klikając przycisk Uruchom ponownie . Maszyna wirtualna zostanie automatycznie przywrócona po aktualizacji	Maszyna wirtualna nie jest dostępna podczas fru. Jeśli są dostępne procesory GPU, maszyna wirtualna może zostać cofnięto przydział i została ponownie uruchomiona podczas jednostki FRU. Po ukończeniu jednostki FRU należy cofnąć przydział maszyny wirtualnej przy użyciu przycisku Zatrzymaj i uruchomić kopię zapasową przy użyciu przycisku Uruchom .

Instalacja sterownika gościa

Następujące polecenia cmdlet programu PowerShell mogą służyć do instalacji sterowników:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

W zależności od systemu operacyjnego typ i łączność maszyny wirtualnej z procesorem GPU usługi Azure Stack Hub należy zmodyfikować przy użyciu poniższych ustawień.

AMD MI25

Wersja sterownika gościa musi być zgodna z wersją usługi Azure Stack Hub, niezależnie od stanu łączności. Korzystanie z nowszych wersji, które nie są zgodne z wersją usługi Azure Stack Hub, może powodować problemy z użytecznością.

Wersja usługi Azure Stack Hub	Sterownik gościa AMD
2206	21.Q2-1, 20.Q4-1
2108	21.Q2-1, 20.Q4-1
2102	21.Q2-1, 20.Q4-1

Połączone

Użyj skryptu programu PowerShell w poprzedniej sekcji z odpowiednim typem sterownika dla firmy AMD. Artykuł Instalowanie sterowników procesora GPU AMD na maszynach wirtualnych serii N z systemem Windows zawiera instrukcje dotyczące instalowania sterownika dla sterownika AMDMware Instinct MI25 wewnątrz maszyny wirtualnej z obsługą procesora GPU NVv4 wraz z instrukcjami dotyczącymi weryfikowania instalacji sterownika.

Odłączony

Ponieważ rozszerzenie ściąga sterownik z lokalizacji w Internecie, maszyna wirtualna odłączona od sieci zewnętrznej nie może uzyskać do niego dostępu. Sterownik można pobrać z poprzedniej tabeli i przekazać do konta magazynu w sieci lokalnej dostępnej dla maszyny wirtualnej.

Dodaj sterownik AMD do konta magazynu i określ adres URL tego konta w pliku Settings. Te ustawienia muszą być używane w poleceniu cmdlet Set-AzureRMVMExtension . Na przykład:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

Sterowniki NVIDIA muszą być zainstalowane wewnątrz maszyny wirtualnej dla obciążeń CUDA lub GRID przy użyciu procesora GPU.

Przypadek użycia: grafika/wizualizacja GRID

Ten scenariusz wymaga użycia sterowników GRID. Sterowniki GRID można pobrać za pośrednictwem centrum aplikacji NVIDIA, pod warunkiem, że masz wymagane licencje. Sterowniki GRID wymagają również serwera licencji GRID z odpowiednimi licencjami GRID przed użyciem sterowników GRID na maszynie wirtualnej.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Przypadek użycia: obliczenia/CUDA — połączone

Sterowniki CUDA nie potrzebują serwera licencji i nie wymagają zmodyfikowanych ustawień.

Przypadek użycia: obliczenia/CUDA — rozłączone

Linki do sterowników NVIDIA CUDA można uzyskać za pomocą linku: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Musisz odwołać się do niektórych adresów URL ustawień.

Adres URL	Uwagi
PUBKEY_URL	PUBKEY_URL jest kluczem publicznym dla repozytorium sterowników firmy Nvidia, a nie dla maszyny wirtualnej z systemem Linux. Służy do instalowania sterownika dla systemu Ubuntu.
DKMS_URL	DKMS_URL służy do pobierania pakietu w celu skompilowania modułu jądra Firmy Nvidia w systemie RedHat/CentOs.
DRIVER_URL	DRIVER_URL to adres URL pobierania informacji o repozytorium sterownika firmy Nvidia i jest dodawany do listy repozytoriów maszyny wirtualnej z systemem Linux.
LIS_URL	LIS_URL to adres URL pobierania pakietu usługi integracji systemu Linux dla oprogramowania RedHat/CentOs, Linux Integration Services w wersji 4.3 dla funkcji Hyper-V i platformy Azure`https://www.microsoft.com/download/details.aspx?id=55106` domyślnie nie jest zainstalowany, LIS_RHEL_ver jest wersją jądra rezerwowego, która powinna działać z sterownikiem firmy Nvidia. Jest on używany w systemie RedHat/CentOs, jeśli jądro maszyny wirtualnej z systemem Linux nie jest zgodne z żądanym sterownikiem Firmy Nvidia.

Dodaj adresy URL do ustawień.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}