Azure Stack Hub의 GPU(그래픽 처리 장치) VM(가상 머신)

적용 대상: Azure Stack Hub 통합 시스템

이 문서에서는 Azure Stack Hub 통합 시스템에서 지원되는 GPU(그래픽 처리 장치) 모델을 설명합니다. GPU에서 사용하는 드라이버를 설치하는 방법에 대한 지침을 찾을 수도 있습니다. Azure Stack Hub에서 GPU를 지원하면 인공 지능, 학습, 유추 및 데이터 시각화와 같은 솔루션을 사용할 수 있습니다. AMD Radeon Instinct MI25는 Autodesk AutoCAD 같은 그래픽 집약적 애플리케이션을 지원하는 데 사용할 수 있습니다.

세 가지 GPU 모델 중에서 선택할 수 있습니다. NVIDIA V100, NVIDIA T4 및 AMD MI25 GPU에서 사용할 수 있습니다. 이러한 물리적 GPU는 다음과 같이 다음 Azure N 시리즈 VM(가상 머신) 유형에 맞춥니다.

경고

이 릴리스에서는 GPU VM이 지원되지 않습니다. Azure Stack Hub 2005 이상으로 업그레이드해야 합니다. 또한 Azure Stack Hub 하드웨어에는 물리적 GPU가 있어야 합니다.

NCv3

NCv3 시리즈 VM은 NVIDIA Tesla V100 GPU로 구동됩니다. 고객은 저수지 모델링, DNA 배열, 단백질 분석, 몬테카를로 시뮬레이션 등 기존 HPC 워크로드에 이러한 업데이트된 GPU를 활용할 수 있습니다.

크기 vCPU 메모리: GiB 임시 스토리지(SSD) GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

NVv4 시리즈 가상 머신은 AMD Radeon Instinc MI25 GPU를 통해 구동됩니다. NVv4 시리즈의 경우 Azure Stack Hub에서 부분 GPU가 있는 가상 머신을 도입하고 있습니다. 이 크기는 GPU 가속 그래픽 애플리케이션 및 가상 데스크톱에 사용할 수 있습니다. NVv4 가상 머신은 현재 Windows 게스트 운영 체제만 지원합니다.

크기 vCPU 메모리: GiB 임시 스토리지(SSD) GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

크기 vCPU 메모리: GiB GPU GPU 메모리: GiB 최대 데이터 디스크 수 최대 NIC 수
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

GPU 시스템 고려 사항

  • GPU는 AMD MI-25, Nvidia V100(및 변형), Nvidia T4 중 하나여야 합니다.
  • 지원되는 서버당 GPU 수(1, 2, 3, 4). 기본 설정은 1, 2 및 4입니다.
  • 모든 GPU는 배율 단위 전체에서 정확히 동일한 SKU여야 합니다.
  • 서버당 모든 GPU 수량은 배율 단위 전체에서 동일해야 합니다.
  • GPU 파티션 크기(AMD Mi25의 경우)는 배율 단위의 모든 GPU VM에서 동일해야 합니다.

용량 계획

Azure Stack Hub Capacity Planner가 GPU 구성을 지원하도록 업데이트되었습니다. 에서 액세스할 수 있습니다 https://aka.ms/azstackcapacityplanner.

기존 Azure Stack Hub에 GPU 추가

이제 Azure Stack Hub는 기존 시스템에 GPU 추가를 지원합니다. 이렇게 하려면 stop-azurestack을 실행하고, stop-azurestack 절차를 실행하고, GPU를 추가한 다음, 완료될 때까지 start-azurestack을 실행합니다. 시스템에 이미 GPU가 있는 경우 이전에 만든 GPU VM의 할당을 중지한 다음 다시 시작해야 합니다.

VM의 패치 및 업데이트, FRU 동작

GPU VM은 PnU(패치 및 업데이트) 및 Azure Stack Hub의 FRU(하드웨어 교체)와 같은 작업 중에 가동 중지 시간이 발생합니다. 다음 표에서는 이러한 작업 중에 관찰된 VM의 상태와 작업 후 이러한 VM을 사용할 수 있도록 하기 위해 수행할 수 있는 수동 작업에 대해 설명합니다.

작업(Operation) PnU - 전체 업데이트, OEM 업데이트 FRU
VM 상태 업데이트 도중 사용할 수 없습니다. 수동 작업으로 사용할 수 있습니다. VM은 업데이트 후 자동으로 온라인 상태가됩니다. FRU 중에 사용할 수 없습니다. 수동 작업으로 사용할 수 있습니다. FRU 후 VM을 다시 가져와야 합니다.
수동 작업 업데이트 중에 VM을 사용할 수 있도록 해야 하는 경우 사용 가능한 GPU 파티션이 있는 경우 다시 시작 단추를 클릭하여 포털에서 VM을 다시 시작할 수 있습니다. 업데이트 후 VM이 자동으로 백업됩니다. VM은 FRU 중에 사용할 수 없습니다. 사용 가능한 GPU가 있는 경우 VM은 FRU 중에 중지 할당 취소되고 다시 시작될 수 있습니다. FRU 완료 후 중지 단추를 사용하여 VM의 할당을 중지하고 시작 단추를 사용하여 다시 시작해야 합니다.

게스트 드라이버 설치

드라이버 설치에 사용할 수 있는 PowerShell cmdlet은 다음과 같습니다.

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

AZURE Stack Hub GPU VM의 OS, 유형 및 연결에 따라 아래 설정을 사용하여 수정해야 합니다.

AMD MI25 - 연결됨

위의 명령은 AMD에 적합한 드라이버 유형과 함께 사용할 수 있습니다. Windows 실행되는 N 시리즈 VM에 AMD GPU 드라이버 설치 문서에서는 드라이버 설치를 확인하는 방법에 대한 단계와 함께 NVv4 GPU-P 사용 VM 내에 AMD Radeon Instinct MI25용 드라이버를 설치하는 방법에 대한 지침을 제공합니다.

AMD MI25 - 연결 끊김

확장은 인터넷의 위치에서 드라이버를 끌어오기 때문에 외부 네트워크에서 연결이 끊어진 VM은 액세스할 수 없습니다. 아래 링크에서 드라이버를 다운로드하고 VM에 액세스할 수 있는 로컬 네트워크의 스토리지 계정에 업로드할 수 있습니다.

드라이버 URL: https://download.microsoft.com/download/3/8/9/3893407b-e8aa-4079-8592-735d7dd1c19a/Radeon-Pro-Software-for-Enterprise-GA.exe

위의 드라이버를 스토리지 계정에 추가하고 설정 URL을 연결합니다. 이러한 설정은 Set-AzureRMVMExtension cmdlet에서 사용해야 합니다.

$Settings = @{
"DriverURL" = <URL to Driver in Storage Account>
}

NVIDIA

NVIDIA 드라이버는 GPU를 사용하여 CUDA 또는 GRID 워크로드를 위해 가상 머신 내에 설치해야 합니다.

사용 사례: 그래픽/시각화 GRID

이 시나리오에서는 GRID 드라이버를 사용해야 합니다. 필요한 라이선스가 있는 경우 NVIDIA 애플리케이션 허브를 통해 GRID 드라이버를 다운로드할 수 있습니다. 또한 GRID 드라이버는 VM에서 GRID 드라이버를 사용하기 전에 적절한 GRID 라이선스가 있는 GRID 라이선스 서버가 필요합니다.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

사용 사례: compute/CUDA - 연결됨

CUDA 드라이버는 라이선스 서버가 필요하지 않으며 수정된 설정이 필요하지 않습니다.

사용 사례: compute/CUDA - 연결 끊김

NVIDIA CUDA 드라이버에 대한 링크는 다음 링크를 사용하여 가져올 수 있습니다. https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

설정에 대한 일부 URL을 참조해야 합니다.

URL 참고
PUBKEY_URL PUBKEY_URL Linux VM이 아닌 Nvidia 드라이버 리포지토리의 공개 키입니다. Ubuntu용 드라이버를 설치하는 데 사용됩니다.
DKMS_URL DKMS_URL RedHat/CentOs에서 Nvidia 커널 모듈을 컴파일하는 패키지를 가져오는 데 사용됩니다.
DRIVER_URL DRIVER_URL Nvidia 드라이버의 리포지토리 정보를 다운로드하는 URL이며 Linux VM의 리포지토리 목록에 추가됩니다.
LIS_URL LIS_URL RedHat/CentOs용 Linux Integration Service 패키지, Hyper-V용 Linux Integration Services v4.3 및 Azure 를 URL로 다운로드하는 URL 이며 기본적으로 설치되지 않습니다LIS_RHEL_ver Nvidia 드라이버와 함께 작동해야 하는 대체 커널 버전입니다. Linux VM의 커널이 요청된 Nvidia 드라이버와 호환되지 않는 경우 RedHat/CentOs에서 사용됩니다.

설정에 URL을 추가합니다.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

다음 단계