Máquina virtual (GPU) da unidade de processamento de gráficos (GPU) no Azure Stack Hub

Aplica-se a: Sistemas integrados Azure Stack Hub

Este artigo descreve quais os modelos da unidade de processamento de gráficos (GPU) que são suportados num sistema integrado Azure Stack Hub. Também pode encontrar instruções sobre a instalação dos controladores utilizados com as GPUs. O suporte da GPU no Azure Stack Hub permite soluções como inteligência artificial, treino, inferência e visualização de dados. O AMD Radeon Instinct MI25 pode ser usado para suportar aplicações de grande intensidade gráfica, como o Autodesk AutoCAD.

Pode escolher entre três modelos GPU. Estão disponíveis em GPUS NVIDIA V100, NVIDIA T4 e AMD MI25. Estas GPUs físicas alinham-se com os seguintes tipos de máquina virtual Azure N-Series (VM) da seguinte forma:

Aviso

Os VM da GPU não são suportados nesta versão. Terá de fazer upgrade para a Azure Stack Hub 2005 ou mais tarde. Além disso, o seu hardware Azure Stack Hub deve ter GPUs físicos.

NCv3

Os VMs da série NCv3 são alimentados por GPUs NVIDIA Tesla V100. Os clientes podem tirar partido destas GPUs atualizadas para cargas de trabalho tradicionais de HPC, tais como modelação de reservatórios, sequenciação de ADN, análise de proteínas, simulações de Monte Carlo, entre outros.

Tamanho vCPU Memória: GiB Armazenamento (SSD) temporário GiB GPU Memória gpu: GiB Discos de dados máximos NICs máximos
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

As máquinas virtuais da série NVv4 são alimentadas por GPUs AMD Radeon Instinct MI25. Com o NVv4-series Azure Stack Hub está a introduzir máquinas virtuais com GPUs parciais. Este tamanho pode ser usado para aplicações de gráficos acelerados da GPU e desktops virtuais. Atualmente, as máquinas virtuais NVv4 suportam apenas Windows sistema operativo de hóspedes.

Tamanho vCPU Memória: GiB Armazenamento (SSD) temporário GiB GPU Memória gpu: GiB Discos de dados máximos NICs máximos
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Tamanho vCPU Memória: GiB GPU Memória gpu: GiB Discos de dados máximos NICs máximos
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

Considerações do sistema GPU

  • GPU deve ser um destes SKUs: AMD MI-25, Nvidia V100 (e variantes), Nvidia T4.
  • Número de GPUs por servidor suportado (1, 2, 3, 4). Preferidas são: 1, 2 e 4.
  • Todas as GPUs devem ser exatamente do mesmo SKU em toda a unidade de escala.
  • Todas as quantidades de GPU por servidor devem ser as mesmas em toda a unidade de escala.
  • O tamanho da partição GPU (para AMD Mi25) tem de ser o mesmo em todos os VMs gpu na unidade de escala.

Planeamento de capacidade

O planejador de capacidades do Azure Stack Hub foi atualizado para suportar as configurações da GPU. É acessível em https://aka.ms/azstackcapacityplanner .

Adicionar GPUs em um hub de pilha de Azure existente

O Azure Stack Hub suporta agora a adição de GPUs a qualquer sistema existente. Para isso, execute stop-azurestack, execute o procedimento de stop-azurestack, adicione GPUs e, em seguida, execute start-azurestack até a conclusão. Se o sistema já tiver GPUs, então quaisquer VMs de GPU previamente criados terão de ser stop-dealloced e, em seguida, reiniciados.

Patch e atualização, comportamento FRU de VMs

Os VMs da GPU serão submetidos a tempo de inatividade durante operações como patch e atualização (PnU) e substituição de hardware (FRU) do Azure Stack Hub. O quadro que se segue abrange o estado do VM, tal como observado durante estas atividades e a ação manual que pode fazer para disponibilizar estes VMs após a operação.

Operação PNU - Atualização completa, atualização do OEM RIO FRU
Estado VM Indisponível durante a atualização. Pode ser disponibilizado com operação manual. A VM é automaticamente atualização de posts on-line. Indisponível durante a FRU. Pode ser disponibilizado com operação manual. VM precisa de ser trazido de volta após FRU
Operação manual Se o VM precisar de ser disponibilizado durante a atualização, se houver divisórias GPU disponíveis, o VM pode ser reiniciado a partir do portal clicando no botão Reiniciar. VM voltará automaticamente a ser atualizado VM não está disponível durante a FRU. Se existirem GPUs disponíveis, o VM pode ser stop-dealloced e reiniciado durante o FRU. Após a conclusão do FRU, o VM precisa de ser stop-deallocado utilizando o botão Stop e começar a voltar a usar o botão Iniciar.

Instalação do motorista convidado

Os seguintes cmdlets PowerShell podem ser utilizados para a instalação do condutor:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Dependendo do SISTEMA, tipo e conectividade do seu Azure Stack Hub GPU VM, terá de modificar com as definições abaixo.

AMD MI25 - Conectado

O comando acima pode ser utilizado com o tipo de controlador apropriado para AMD. O artigo Instale os controladores DA AMD GPU em VMs da série N em execução Windows fornece instruções sobre a instalação do controlador para o AMD Radeon Instinct MI25 dentro do VM ativado pela GPU-P NVv4, juntamente com etapas sobre como verificar a instalação do condutor.

AMD MI25 - Desligado

Uma vez que a extensão retira o condutor de um local na internet, um VM desligado da rede externa não pode aceder-lhe. Pode fazer o download do controlador a partir do link abaixo e fazer o upload para uma conta de armazenamento na sua rede local acessível ao VM.

URL do condutor: https://download.microsoft.com/download/3/8/9/3893407b-e8aa-4079-8592-735d7dd1c19a/Radeon-Pro-Software-for-Enterprise-GA.exe

Adicionar o controlador acima numa conta de armazenamento e anexar o URL em Definições. Estas definições terão de ser utilizadas no cmdlet Set-AzureRMVMExtension.

$Settings = @{
"DriverURL" = <URL to Driver in Storage Account>
}

NVIDIA

Os controladores NVIDIA devem ser instalados dentro da máquina virtual para cargas de trabalho CUDA ou GRID utilizando a GPU.

Caso de utilização: gráficos/grelha de visualização

Este cenário requer a utilização de controladores GRID. Os controladores grid podem ser descarregados através do NVIDIA Application Hub desde que tenha as licenças necessárias. Os controladores GRID também requerem um servidor de licença GRID com licenças GRID apropriadas antes de utilizar os controladores GRID no VM.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Caso de utilização: compute/CUDA - Conectado

Os controladores CUDA não precisam de um servidor de licença e não necessitam de configurações modificadas.

Caso de utilização: compute/CUDA - Desligado

As ligações com os controladores CUDA da NVIDIA podem ser obtidas utilizando o link: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Terá de fazer referência a alguns URLs para as suas definições.

URL Notas
PUBKEY_URL O PUBKEY_URL é a chave pública para o repositório de condutores da Nvidia, não para o Linux VM. É utilizado para instalar o controlador para ubuntu.
DKMS_URL DKMS_URL é usado para obter o pacote para compilar o módulo de kernel Nvidia em RedHat/CentOs.
DRIVER_URL DRIVER_URL é o URL para descarregar as informações do repositório do condutor da Nvidia e é adicionado à lista de repos do Linux VM.
LIS_URL LIS_URL é o URL para descarregar o pacote do Serviço de Integração Linux para RedHat/CentOs, Linux Integration Services v4.3 para Hyper-V e Azure em URL por padrão não está instalado LIS_RHEL_ver é a versão de kernel de retorno que deve funcionar com o controlador Nvidia. É utilizado em RedHat/CentOs se o núcleo do Linux VM não for compatível com o condutor Nvidia solicitado.

Adicione os URLs às suas definições.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Passos seguintes