VM (máquina virtual) da GPU (unidade de processamento gráfico) no Hub Azure Stack

Aplica-se a: sistemas integrados de Hub de Azure Stack

Este artigo descreve quais modelos de GPU (unidade de processamento gráfico) têm suporte em um sistema integrado de Hub Azure Stack. Você também pode encontrar instruções sobre como instalar os drivers usados com as GPUs. O suporte de GPU no Hub Azure Stack permite soluções como inteligência artificial, treinamento, inferência e visualização de dados. O AMD Radeon instinto MI25 pode ser usado para dar suporte a aplicativos com uso intensivo de gráficos, como o Autodesk AutoCAD.

Você pode escolher entre três modelos de GPU. Eles estão disponíveis nas GPUs NVIDIA V100, NVIDIA T4 e AMD MI25. Essas GPUs físicas se alinham com os seguintes tipos de VM (máquina virtual) da série N do Azure da seguinte maneira:

Aviso

Não há suporte para VMs GPU nesta versão. Será necessário atualizar para Azure Stack Hub 2005 ou posterior. Além disso, o hardware do hub de Azure Stack deve ter GPUs físicas.

NCv3

VMs da série NCv3 têm a tecnologia de GPUs NVIDIA Tesla V100. Os clientes podem aproveitar essas GPUs atualizadas para cargas de trabalho HPC tradicionais como modelagem de reservatório, sequenciamento de DNA, análise de proteína, simulações de Monte Carlo, entre outros.

Tamanho vCPU Memória: GiB Armazenamento temporário (SSD) GiB GPU Memória da GPU: GiB Discos de dados máximos Máximo de NICs
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

As máquinas virtuais da série NVv4 são alimentadas por GPUs de MI25 AMD Radeon instinto . Com o NVv4-Series Hub Azure Stack está introduzindo máquinas virtuais com GPUs parciais. Esse tamanho pode ser usado para aplicativos gráficos acelerados de GPU e áreas de trabalho virtuais. Atualmente, as máquinas virtuais NVv4 dão suporte apenas ao sistema operacional convidado do Windows.

Tamanho vCPU Memória: GiB Armazenamento temporário (SSD) GiB GPU Memória da GPU: GiB Discos de dados máximos Máximo de NICs
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

Tamanho vCPU Memória: GiB GPU Memória da GPU: GiB Discos de dados máximos Máximo de NICs
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

Considerações sobre o sistema de GPU

  • A GPU deve ser uma destas SKUs: AMD MI-25, Nvidia V100 (e variantes), Nvidia T4.
  • Número de GPUs por servidor com suporte (1, 2, 3, 4). Preferencial: 1, 2 e 4.
  • Todas as GPUs devem ter exatamente a mesma SKU em toda a unidade de escala.
  • Todas as quantidades de GPU por servidor devem ser as mesmas em toda a unidade de escala.
  • O tamanho da partição GPU (para AMD Mi25) precisa ser o mesmo em todas as VMs da GPU na unidade de escala.

Planejamento da capacidade

O planejador de capacidade do Hub Azure Stack foi atualizado para dar suporte a configurações de GPU. Ele está acessível no https://aka.ms/azstackcapacityplanner .

Adicionando GPUs em um hub de Azure Stack existente

O Hub de Azure Stack agora dá suporte à adição de GPUs a qualquer sistema existente. Para fazer isso, execute STOP-azurestack, execute o procedimento de stop-azurestack, adicione GPUs e, em seguida, execute Start-azurestack até a conclusão. Se o sistema já tiver GPUs, todas as VMs de GPU criadas anteriormente precisarão ser interrompidas e desalocadas e, em seguida, reiniciadas.

Patch e atualização, comportamento de FRU de VMs

As VMs de GPU passarão por tempo de inatividade durante operações como patch e atualização (PnU) e substituição de hardware (FRU) do hub de Azure Stack. A tabela a seguir aborda o estado da VM como observado durante essas atividades e a ação manual que você pode fazer para disponibilizar essas VMs após a operação.

Operação PnU – atualização completa, atualização de OEM FRU
Estado da VM Não disponível durante a atualização. Pode ser disponibilizado com a operação manual. A VM está online automaticamente após a atualização. Não disponível durante o FRU. Pode ser disponibilizado com a operação manual. A VM precisa ser colocada em backup após a FRU
Operação manual Se a VM precisar ser disponibilizada durante a atualização, se houver partições GPU disponíveis, a VM poderá ser reiniciada no portal clicando no botão reiniciar . A VM automaticamente iniciará o backup após a atualização A VM não está disponível durante a FRU. Se houver GPUs disponíveis, a VM poderá ser parada-desalocada e reiniciada durante a FRU. Após a conclusão da FRU, a VM precisa ser parada-desalocada usando o botão parar e iniciada novamente usando o botão Iniciar .

Instalação do driver de convidado

Os seguintes cmdlets do PowerShell podem ser usados para a instalação do driver:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Dependendo do sistema operacional, tipo e conectividade da VM de GPU do hub de Azure Stack, você precisará modificar com as configurações abaixo.

AMD MI25-conectado

O comando acima pode ser usado com o tipo de driver apropriado para AMD. o artigo instalar os drivers do AMD GPU em VMs da série N em execução Windows fornece instruções sobre como instalar o driver para o AMD Radeon instinto MI25 dentro da VM habilitada para o NVv4 GPU-P, juntamente com as etapas de como verificar a instalação do driver.

AMD MI25-desconectado

Como a extensão extrai o driver de um local na Internet, uma VM desconectada da rede externa não pode acessá-lo. Você pode baixar o driver do link abaixo e carregá-lo em uma conta de armazenamento em sua rede local acessível para a VM.

URL do driver: https://download.microsoft.com/download/3/8/9/3893407b-e8aa-4079-8592-735d7dd1c19a/Radeon-Pro-Software-for-Enterprise-GA.exe

adicionar o driver acima a uma conta de armazenamento e anexar a URL em Configurações. Essas configurações deverão ser usadas no cmdlet set-AzureRMVMExtension .

$Settings = @{
"DriverURL" = <URL to Driver in Storage Account>
}

NVIDIA

Os drivers NVIDIA devem ser instalados dentro da máquina virtual para cargas de trabalho CUDA ou GRID usando a GPU.

Caso de uso: grade de gráficos/visualização

Esse cenário requer o uso de drivers de grade. Os drivers de grade podem ser baixados por meio do hub de aplicativos NVIDIA, desde que você tenha as licenças necessárias. Os drivers de grade também exigem um servidor de licença de grade com licenças de grade apropriadas antes de usar os drivers de grade na VM.

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

Caso de uso: computação/CUDA-conectado

Os drivers CUDA não precisam de um servidor de licença e não precisam de configurações modificadas.

Caso de uso: Compute/CUDA-Disconnected

Links para Drivers NVIDIA CUDA podem ser obtidos usando o link: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

Você precisará fazer referência a algumas URLs para suas configurações.

URL Observações
PUBKEY_URL O PUBKEY_URL é a chave pública para o repositório do Driver Nvidia, não para a VM do Linux. Ele é usado para instalar o driver para Ubuntu.
DKMS_URL DKMS_URL é usado para obter o pacote para compilar o módulo de kernel NVIDIA no RedHat/CentOs.
DRIVER_URL DRIVER_URL é a URL para baixar as informações do repositório do Driver Nvidia e ele é adicionado à lista de repositórios da VM do Linux.
LIS_URL LIS_URL é a URL para baixar o pacote do serviço de integração do Linux para RedHat/CentOs, Linux Integration Services V 4.3 para Hyper-V e Azure na URL , por padrão, ele não está instalado LIS_RHEL_ver é a versão do kernel de fallback que deve funcionar com o Driver Nvidia. Ele será usado no RedHat/CentOs se o kernel da VM Linux não for compatível com o Driver Nvidia solicitado.

Adicione as URLs às suas configurações.

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

Próximas etapas