Použití instancí RDMA nebo GPU ve fondech Služby Batch

Pokud chcete spouštět určité úlohy služby Batch, můžete využít výhod velikostí virtuálních počítačů Azure určených pro rozsáhlé výpočty. Například:

  • Pokud chcete spouštět úlohy MPIs více instancemi, zvolte H-series nebo jiné velikosti, které mají síťové rozhraní pro přímý přístup do paměti vzdáleného počítače (RDMA). Tyto velikosti se připojují k síti InfiniBand kvůli komunikaci mezi uzly, což může zrychlit aplikace MPI.

  • Pro aplikace CUDA zvolte velikosti N-series, které obsahují grafické procesory NVIDIA Tesla (GPU).

Tento článek obsahuje pokyny a příklady použití některých specializovaných velikostí Azure ve fondech Batch. Specifikace a pozadí najdete v těchto bodech:

  • Velikosti virtuálních počítačů s vysokým výpočetním výkonem (Linux, Windows)

  • Velikosti virtuálních počítačů s podporou GPU (Linux, Windows)

Poznámka

Některé velikosti virtuálních počítačů nemusí být dostupné v oblastech, ve kterých vytváříte účty Batch. Pokud chcete zkontrolovat, jestli je dostupná velikost, podívejte se na dostupné produkty podle oblastí a Zvolte velikost virtuálního počítače pro fond Batch.

Závislosti

Možnosti RDMA nebo GPU velikosti náročné na výpočetní výkon ve batche jsou podporované jenom v určitých operačních systémech. (Seznam podporovaných operačních systémů je podmnožinou podporovaných pro virtuální počítače vytvořené v těchto velikostech.) V závislosti na tom, jak fond Batch vytvoříte, možná budete muset na uzlech nainstalovat nebo nakonfigurovat další ovladač nebo jiný software. Následující tabulky shrnují tyto závislosti. Podrobnosti najdete v odkazovaných článcích. Možnosti konfigurace fondů služby Batch najdete dále v tomto článku.

Fondy Linuxu – Konfigurace virtuálního počítače

Velikost Schopnost Operační systémy Požadovaný software Nastavení fondu
H16r, H16mr, A8, A9
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Ubuntu 16.04 LTS nebo
HpC založené na CentOS
(Azure Marketplace)
Intel MPI 5

Linuxové ovladače RDMA
Povolení komunikace mezi uzly, zákaz souběžného provádění úloh
Řada NC, NCv2, NCv3, NDv2 NVIDIA Tesla GPU (liší se podle řady) Ubuntu 16.04 LTS nebo
CentOS 7.3 nebo 7.4
(Azure Marketplace)
Ovladače Toolkit NVIDIA CUDA nebo CUDA
Řada NV, NVv2 NVIDIA Tesla M60 GPU Ubuntu 16.04 LTS nebo
CentOS 7.3
(Azure Marketplace)
Ovladače NVIDIA GRID

*Velikosti N-series s podporou RDMA zahrnují také grafické procesory NVIDIA Tesla.

Windows fondy – Konfigurace virtuálního počítače

Velikost Schopnost Operační systémy Požadovaný software Nastavení fondu
H16r, H16mr, A8, A9
NC24r, NC24rs_v2, NC24rs_v3, ND24rs*
RDMA Windows Server 2016, 2012 R2 nebo
2012 (Azure Marketplace)
Microsoft MPI 2012 R2 nebo novější, nebo
Intel MPI 5

Windows Ovladače RDMA
Povolení komunikace mezi uzly, zákaz souběžného provádění úloh
Řada NC, NCv2, NCv3, ND, NDv2 NVIDIA Tesla GPU (liší se podle řady) Windows Server 2016 nebo
2012 R2 (Azure Marketplace)
Ovladače Toolkit NVIDIA CUDA nebo CUDA
Řada NV, NVv2 NVIDIA Tesla M60 GPU Windows Server 2016 nebo
2012 R2 (Azure Marketplace)
Ovladače NVIDIA GRID

*Velikosti N-series s podporou RDMA zahrnují také grafické procesory NVIDIA Tesla.

Windows fondy – Cloud Services konfigurace

Upozornění

Cloud Services konfigurace jsou zastaralé. Místo toho použijte fondy konfigurace virtuálního počítače.

Velikost Schopnost Operační systémy Požadovaný software Nastavení fondu
H16r, H16mr, A8, A9 RDMA Windows Server 2016, 2012 R2, 2012 nebo
2008 R2 (rodina hostových operačních systémů)
Microsoft MPI 2012 R2 nebo novější, nebo
Intel MPI 5

Windows Ovladače RDMA
Povolení komunikace mezi uzly
zakázání souběžného spouštění úloh

Poznámka

Velikosti N-series se ve fondech Cloud Services konfigurace nepodporují.

Možnosti konfigurace fondu

Pokud chcete pro fond Batch nakonfigurovat specializovanou velikost virtuálního počítače, máte několik možností, jak nainstalovat požadovaný software nebo ovladače:

  • Pro fondy v konfiguraci virtuálního počítače zvolte předkonfigurovanou image virtuálního Azure Marketplace s předinstalovanými ovladači a softwarem. Příklady:

  • vytvořte vlastní image virtuálního počítače s Windows nebo Linux , na které máte nainstalované ovladače, software nebo další nastavení, která se vyžadují pro velikost virtuálního počítače.

  • Vytvořte balíček aplikace Batch z ovladače zip nebo instalačního programu aplikace a nakonfigurujte dávku pro nasazení balíčku do fondu uzlů a nainstalujte se jednou při vytvoření každého uzlu. Například pokud je balíček aplikace instalačním programem, vytvořte příkazový řádek spouštěcího úkolu , který bude tiše instalovat aplikaci na všechny uzly fondu. Pokud vaše zatížení závisí na konkrétní verzi ovladače, zvažte použití balíčku aplikace a spouštěcího úkolu fondu.

    Poznámka

    Spouštěcí úkol musí běžet se zvýšenými oprávněními (správce) a musí čekat na úspěch. Dlouhotrvající úlohy prodlouží dobu zřízení fondu služby Batch.

  • Batch loděnice automaticky KONFIGURUJE ovladače GPU a RDMA, aby fungovaly transparentně s využitím kontejnerových úloh na Azure Batch. Dávková loděnice je zcela řízená pomocí konfiguračních souborů. k dispozici je celá řada ukázkových konfigurací, které umožňují úlohy gpu a RDMA, jako je například CNTKý recept gpu , který předem konfiguruje ovladače gpu pro virtuální počítače řady N-series a načítá Microsoft Cognitive Toolkit software jako image docker.

příklad: ovladače NVIDIA GPU ve fondu virtuálních počítačů Windows NC

chcete-li spouštět aplikace CUDA ve fondu Windowsch uzlů NC, je nutné nainstalovat ovladače NVDIA GPU. Následující ukázkový postup slouží k instalaci ovladačů NVIDIA GPU pomocí balíčku aplikace. Tuto možnost můžete zvolit, pokud vaše zatížení závisí na konkrétní verzi ovladače GPU.

  1. stáhněte instalační balíček pro ovladače GPU na Windows Server 2016 z webu NVIDIA – například verze 411,82. Uložte soubor místně pomocí krátkého názvu, například GPUDriverSetup.exe.
  2. Vytvořte soubor zip balíčku.
  3. Upload balíček na účet Batch. Postup najdete v doprovodné příručce k balíčkům aplikací . Zadejte ID aplikace, například GPUDriver, a verzi, například 411,82.
  4. Pomocí rozhraní API nebo Azure Portal dávky vytvořte fond v konfiguraci virtuálního počítače s požadovaným počtem uzlů a škálování. V následující tabulce jsou uvedena ukázková nastavení pro bezobslužnou instalaci ovladačů NVIDIA GPU pomocí spouštěcího úkolu:
Nastavení Hodnota
Typ obrázku Marketplace (Linux/Windows)
Publisher MicrosoftWindowsServer
Nabídka WindowsServer
Skladové 2016 – Datacenter
Velikost uzlu NC6 Standard
Odkazy na balíček aplikace GPUDriver verze 411,82
Spouštěcí úkol povolen Ano
Příkazový řádek - cmd /c "%AZ_BATCH_APP_PACKAGE_GPUDriver#411.82%\\GPUDriverSetup.exe /s"
Identita uživatele – fond – autouser, správce
Počkat na úspěch – pravda

Příklad: ovladače NVIDIA GPU na fondu virtuálních počítačů se systémem Linux NC

Chcete-li spouštět aplikace CUDA ve fondu uzlů systému Linux NC, je nutné nainstalovat potřebné ovladače NVIDIA Tesla GPU z CUDA Toolkit. Následující příklady kroků vytvoří a nasadí vlastní image Ubuntu 16,04 LTS s ovladači GPU:

  1. Nasazení virtuálního počítače Azure NC-Series se systémem Ubuntu 16,04 LTS. Vytvořte například virtuální počítač v oblasti USA (střed) – jih.
  2. Přidejte do virtuálního počítače rozšíření NVIDIA GPU ovladače pomocí Azure Portal, klientského počítače, který se připojuje k předplatnému Azure nebo Azure Cloud Shell. Případně postupujte podle pokynů pro připojení k virtuálnímu počítači a nainstalujte ovladače CUDA ručně.
  3. Postupujte podle pokynů pro vytvoření Image Galerie výpočtů Azure pro službu Batch.
  4. Vytvořte účet Batch v oblasti, která podporuje virtuální počítače NC.
  5. Pomocí rozhraní API nebo Azure Portal dávky vytvořte fond s použitím vlastní image a požadovaného počtu uzlů a škálování. V následující tabulce jsou uvedena ukázková nastavení fondu pro bitovou kopii:
Nastavení Hodnota
Typ obrázku Vlastní image
Vlastní image Název obrázku
Jednotka SKU zástupce uzlu Batch. Node. Ubuntu 16,04
Velikost uzlu NC6 Standard

příklad: Microsoft MPI na fondu virtuálních počítačů s Windows H16r

pokud chcete spouštět aplikace Windows MPI ve fondu uzlů virtuálních počítačů Azure H16r, musíte nakonfigurovat rozšíření HpcVmDrivers a nainstalovat Microsoft MPI. tady je ukázkový postup nasazení vlastní bitové kopie Windows Server 2016 pomocí nezbytných ovladačů a softwaru:

  1. Nasazení virtuálního počítače Azure s H16r se spuštěným Windows Server 2016. Vytvořte například virtuální počítač v oblasti USA – západ.
  2. pomocí příkazu Azure PowerShell z klientského počítače, který se připojuje k vašemu předplatnému Azure nebo pomocí Azure Cloud Shell, přidejte do virtuálního počítače rozšíření HpcVmDrivers.
  3. Vytvořte připojení ke vzdálené ploše virtuálního počítače.
  4. Stáhněte instalační balíček (MSMpiSetup.exe) pro nejnovější verzi Microsoft MPI a nainstalujte Microsoft MPI.
  5. Postupujte podle pokynů pro vytvoření Image Galerie výpočtů Azure pro službu Batch.
  6. Pomocí rozhraní API služby Batch nebo Azure Portal vytvořte fond pomocí Galerie výpočtů Azure a požadovaného počtu uzlů a škálování. V následující tabulce jsou uvedena ukázková nastavení fondu pro bitovou kopii:
Nastavení Hodnota
Typ obrázku Vlastní image
Vlastní image Název obrázku
Jednotka SKU zástupce uzlu Batch. Node. Windows amd64
Velikost uzlu H16r Standard
Komunikace mezi uzly povolena Ano
Maximální počet úkolů na uzel 1

Příklad: Intel MPI ve fondu virtuálních počítačů se systémem Linux H16r

Pokud chcete spouštět aplikace MPI ve fondu uzlů H-Series, jedna možnost je použít z Azure Marketplace obrázek HPC založený na CentOS 7,4 . Jsou předinstalované ovladače systému Linux RDMA a Intel MPI. Tento obrázek podporuje také úlohy kontejneru Docker.

Pomocí rozhraní API nebo Azure Portal dávky vytvořte fond s použitím tohoto obrázku a s požadovaným počtem uzlů a škálování. V následující tabulce jsou uvedena ukázková nastavení fondu:

Nastavení Hodnota
Typ obrázku Marketplace (Linux/Windows)
Publisher OpenLogic
Nabídka CentOS-HPC
Sku 7,4
Velikost uzlu H16r Standard
Povolená komunikace mezi uzly Ano
Maximální počet úkolů na uzel 1

Další kroky

  • Pokud chcete spouštět úlohy MPI ve fondu Azure Batch, podívejte se na Windows nebo Linux.

  • Příklady úloh GPU ve batche najdete v návodech pro Batch Shipyard.