Maszyna wirtualna z procesorem graficznym (GPU) w usłudze Azure Stack Hub
Przestroga
Ten artykuł odwołuje się do systemu CentOS — dystrybucji systemu Linux, która zbliża się do stanu zakończenia życia (EOL). Rozważ odpowiednie użycie i zaplanuj. Aby uzyskać więcej informacji, zobacz wskazówki dotyczące końca życia systemu CentOS.
W tym artykule opisano, które modele procesora graficznego (GPU) są obsługiwane w zintegrowanym systemie usługi Azure Stack Hub. Można również znaleźć instrukcje dotyczące instalowania sterowników używanych z procesorami GPU. Obsługa procesora GPU w usłudze Azure Stack Hub umożliwia korzystanie z rozwiązań, takich jak sztuczna inteligencja, trenowanie, wnioskowanie i wizualizacja danych. Oprogramowanie AMD Amd Instinct MI25 może służyć do obsługi aplikacji intensywnie korzystających z grafiki, takich jak Autodesk AutoCAD.
Można wybrać spośród trzech modeli procesora GPU. Są one dostępne w procesorach GPU NVIDIA V100, NVIDIA T4 i AMD MI25. Te fizyczne procesory GPU są zgodne z następującymi typami maszyn wirtualnych serii N platformy Azure w następujący sposób:
Ostrzeżenie
Maszyny wirtualne procesora GPU nie są obsługiwane w tej wersji. Należy przeprowadzić uaktualnienie do usługi Azure Stack Hub 2005 lub nowszej. Ponadto sprzęt usługi Azure Stack Hub musi mieć fizyczne procesory GPU.
NCv3
Maszyny wirtualne serii NCv3 są obsługiwane przez procesory GPU NVIDIA Tesla V100. Klienci mogą korzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białka, symulacje Monte Carlo i inne.
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (SSD): GiB | Procesory GPU | Pamięć procesora GPU: GiB | Maks. liczba dysków danych | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NC6s_v3 | 6 | 112 | 736 | 1 | 16 | 12 | 4 |
Standard_NC12s_v3 | 12 | 224 | 1474 | 2 | 32 | 24 | 8 |
Standard_NC24s_v3 | 24 | 448 | 2948 | 4 | 64 | 32 | 8 |
NVv4
Maszyny wirtualne z serii NVv4 są obsługiwane przez procesory GPU AMD Firmy Amd Instinct MI25. Usługa Azure Stack Hub z serii NVv4 wprowadza maszyny wirtualne z częściowymi procesorami GPU. Ten rozmiar może być używany w przypadku aplikacji graficznych przyspieszanych przez procesor GPU i pulpitów wirtualnych. Maszyny wirtualne NVv4 obecnie obsługują tylko system operacyjny Gościa systemu Windows.
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (SSD): GiB | Procesory GPU | Pamięć procesora GPU: GiB | Maks. liczba dysków danych | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NV4as_v4 | 4 | 14 | 88 | 1/8 | 2 | 4 | 2 |
Standard_NV8as_v4 | 8 | 28 | 176 | 1/4 | 4 | 8 | 4 |
Standard_NV16as_v4 | 16 | 56 | 352 | 1/2 | 8 | 16 | 8 |
Standard_NV32as_v4 | 32 | 112 | 704 | 1 | 16 | 32 | 8 |
NCasT4_v3
Rozmiar | Procesor wirtualny | Pamięć: GiB | Procesory GPU | Pamięć procesora GPU: GiB | Maks. liczba dysków danych | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|
Standard_NC4as_T4_v3 | 4 | 28 | 1 | 16 | 8 | 4 |
Standard_NC8as_T4_v3 | 8 | 56 | 1 | 16 | 16 | 8 |
Standard_NC16as_T4_v3 | 16 | 110 | 1 | 16 | 32 | 8 |
Standard_NC64as_T4_v3 | 64 | 440 | 4 | 64 | 32 | 8 |
NC_A100 v4
Maszyny wirtualne serii NC_A100 są obsługiwane przez procesory GPU NVIDIA Ampere A100, następcę procesorów GPU Tesla V100. Możesz skorzystać z tych zaktualizowanych procesorów GPU dla tradycyjnych obciążeń HPC, takich jak modelowanie zbiorników, sekwencjonowanie DNA, analiza białka, symulacje Monte Carlo i inne.
Rozmiar | Procesor wirtualny | Pamięć: GiB | Magazyn tymczasowy (GiB) | Maks. liczba dysków danych | Procesory GPU | GiB pamięci procesora GPU | Maksymalna liczba kart sieciowych |
---|---|---|---|---|---|---|---|
Standard_NC24ads_A100_v4 | 24 | 220 | 1123 | 12 | 1 | 80 | 2 |
Standard_NC48ads_A100_v4 | 48 | 440 | 2246 | 24 | 2 | 160 | 4 |
Zagadnienia dotyczące systemu procesora GPU
- Procesor GPU musi być jednym z następujących jednostek SKU: AMD MI-25, Nvidia V100 (i wariantów), Nvidia T4.
- Liczba obsługiwanych procesorów GPU na serwer (1, 2, 3, 4). Preferowane są: 1, 2 i 4.
- Wszystkie procesory GPU muszą mieć dokładnie taką samą jednostkę SKU w całej jednostce skalowania.
- Wszystkie ilości procesorów GPU na serwer muszą być takie same w całej jednostce skalowania.
- Rozmiar partycji procesora GPU (w przypadku procesorów AMD Mi25) musi być taki sam dla wszystkich maszyn wirtualnych procesora GPU w jednostce skalowania.
Planowanie pojemności
Planista pojemności usługi Azure Stack Hub został zaktualizowany w celu obsługi konfiguracji procesora GPU. Jest on dostępny w witrynie https://aka.ms/azstackcapacityplanner.
Dodawanie procesorów GPU w istniejącej usłudze Azure Stack Hub
Usługa Azure Stack Hub obsługuje teraz dodawanie procesorów GPU do dowolnego istniejącego systemu. W tym celu wykonaj polecenie stop-azurestack, uruchom procedurę stop-azurestack, dodaj procesory GPU, a następnie uruchom polecenie start-azurestack do momentu ukończenia. Jeśli system miał już procesory GPU, wszystkie wcześniej utworzone maszyny wirtualne procesora GPU muszą zostać cofnięto przydział , a następnie ponownie uruchomione.
Stosowanie poprawek i aktualizacji, zachowanie jednostek FRU maszyn wirtualnych
Maszyny wirtualne procesora GPU przejdą przestój podczas operacji, takich jak stosowanie poprawek i aktualizacji (PnU) oraz wymiana sprzętu (FRU) usługi Azure Stack Hub. W poniższej tabeli opisano stan maszyny wirtualnej obserwowany podczas tych działań i akcję ręczną, którą można wykonać, aby te maszyny wirtualne były dostępne po wykonaniu operacji.
Operacja | PnU — pełna aktualizacja, aktualizacja OEM | FRU |
---|---|---|
Stan maszyny wirtualnej | Niedostępne podczas aktualizacji. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna jest automatycznie aktualizowana po aktualizacji online. | Niedostępne podczas jednostki FRU. Można udostępnić za pomocą operacji ręcznej. Maszyna wirtualna musi zostać przywrócona po frU |
Operacja ręczna | Jeśli maszyna wirtualna musi zostać udostępniona podczas aktualizacji, jeśli są dostępne partycje procesora GPU, maszynę wirtualną można uruchomić ponownie z poziomu portalu, klikając przycisk Uruchom ponownie . Maszyna wirtualna zostanie automatycznie przywrócona po aktualizacji | Maszyna wirtualna nie jest dostępna podczas fru. Jeśli są dostępne procesory GPU, maszyna wirtualna może zostać cofnięto przydział i została ponownie uruchomiona podczas jednostki FRU. Po ukończeniu jednostki FRU należy cofnąć przydział maszyny wirtualnej przy użyciu przycisku Zatrzymaj i uruchomić kopię zapasową przy użyciu przycisku Uruchom . |
Instalacja sterownika gościa
Następujące polecenia cmdlet programu PowerShell mogą służyć do instalacji sterowników:
$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"
Set-AzureRmVMExtension -Location $Location `
-Publisher $driverPublisher `
-ExtensionType $driverType `
-TypeHandlerVersion $driverVersion `
-VMName $VmName `
-ResourceGroupName $ResourceGroupName `
-Name $driverName `
-Settings $Settings ` # If no settings are set, omit this parameter
-Verbose
W zależności od systemu operacyjnego typ i łączność maszyny wirtualnej z procesorem GPU usługi Azure Stack Hub należy zmodyfikować przy użyciu poniższych ustawień.
AMD MI25
Wersja sterownika gościa musi być zgodna z wersją usługi Azure Stack Hub, niezależnie od stanu łączności. Korzystanie z nowszych wersji, które nie są zgodne z wersją usługi Azure Stack Hub, może powodować problemy z użytecznością.
Wersja usługi Azure Stack Hub | Sterownik gościa AMD |
---|---|
2206 | 21.Q2-1, 20.Q4-1 |
2108 | 21.Q2-1, 20.Q4-1 |
2102 | 21.Q2-1, 20.Q4-1 |
Połączone
Użyj skryptu programu PowerShell w poprzedniej sekcji z odpowiednim typem sterownika dla firmy AMD. Artykuł Instalowanie sterowników procesora GPU AMD na maszynach wirtualnych serii N z systemem Windows zawiera instrukcje dotyczące instalowania sterownika dla sterownika AMDMware Instinct MI25 wewnątrz maszyny wirtualnej z obsługą procesora GPU NVv4 wraz z instrukcjami dotyczącymi weryfikowania instalacji sterownika.
Odłączony
Ponieważ rozszerzenie ściąga sterownik z lokalizacji w Internecie, maszyna wirtualna odłączona od sieci zewnętrznej nie może uzyskać do niego dostępu. Sterownik można pobrać z poprzedniej tabeli i przekazać do konta magazynu w sieci lokalnej dostępnej dla maszyny wirtualnej.
Dodaj sterownik AMD do konta magazynu i określ adres URL tego konta w pliku Settings
. Te ustawienia muszą być używane w poleceniu cmdlet Set-AzureRMVMExtension . Na przykład:
$Settings = @{
"DriverURL" = <URL to driver in storage account>
}
NVIDIA
Sterowniki NVIDIA muszą być zainstalowane wewnątrz maszyny wirtualnej dla obciążeń CUDA lub GRID przy użyciu procesora GPU.
Przypadek użycia: grafika/wizualizacja GRID
Ten scenariusz wymaga użycia sterowników GRID. Sterowniki GRID można pobrać za pośrednictwem centrum aplikacji NVIDIA, pod warunkiem, że masz wymagane licencje. Sterowniki GRID wymagają również serwera licencji GRID z odpowiednimi licencjami GRID przed użyciem sterowników GRID na maszynie wirtualnej.
$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="GRID"
}
Przypadek użycia: obliczenia/CUDA — połączone
Sterowniki CUDA nie potrzebują serwera licencji i nie wymagają zmodyfikowanych ustawień.
Przypadek użycia: obliczenia/CUDA — rozłączone
Linki do sterowników NVIDIA CUDA można uzyskać za pomocą linku: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json
Windows:
$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="CUDA"
}
Linux:
Musisz odwołać się do niektórych adresów URL ustawień.
Adres URL | Uwagi |
---|---|
PUBKEY_URL | PUBKEY_URL jest kluczem publicznym dla repozytorium sterowników firmy Nvidia, a nie dla maszyny wirtualnej z systemem Linux. Służy do instalowania sterownika dla systemu Ubuntu. |
DKMS_URL | DKMS_URL służy do pobierania pakietu w celu skompilowania modułu jądra Firmy Nvidia w systemie RedHat/CentOs. |
DRIVER_URL | DRIVER_URL to adres URL pobierania informacji o repozytorium sterownika firmy Nvidia i jest dodawany do listy repozytoriów maszyny wirtualnej z systemem Linux. |
LIS_URL | LIS_URL to adres URL pobierania pakietu usługi integracji systemu Linux dla oprogramowania RedHat/CentOs, Linux Integration Services w wersji 4.3 dla funkcji Hyper-V i platformy Azurehttps://www.microsoft.com/download/details.aspx?id=55106 domyślnie nie jest zainstalowany, LIS_RHEL_ver jest wersją jądra rezerwowego, która powinna działać z sterownikiem firmy Nvidia. Jest on używany w systemie RedHat/CentOs, jeśli jądro maszyny wirtualnej z systemem Linux nie jest zgodne z żądanym sterownikiem Firmy Nvidia. |
Dodaj adresy URL do ustawień.
$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}
Następne kroki
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla