Rychlý start: Vytvoření clusteru pro trénovací úlohy Batch AI pomocí Azure CLI

V tomto rychlém startu se dozvíte, jak pomocí Azure CLI vytvořit cluster Batch AI, který můžete použít k trénování modelů umělé inteligence a strojového učení. Batch AI je spravovaná služba určená pro odborníky na data a výzkumníky v oblasti umělé inteligence. Umožňuje jim trénovat modely AI a strojového učení požadované velikosti na clusterech virtuálních počítačů Azure.

Tento cluster má zpočátku jeden uzel GPU. Na konci tohoto rychlého startu budete mít cluster, jehož kapacitu můžete vertikálně navýšit a používat k trénování modelů. K odeslání trénovacích úloh do clusteru můžete použít Batch AI, nástroje Azure Machine Learning nebo Visual Studio Tools for AI.

Otevření služby Azure Cloud Shell

Azure Cloud Shell je bezplatné interaktivní prostředí, které můžete použít k provedení kroků v tomto článku. Ve službě Cloud Shell jsou předinstalované obvyklé nástroje Azure a jsou nakonfigurované pro použití s vaším účtem. Stačí vybrat tlačítko Kopírovat a zkopírovat kód, vložit ho do služby Cloud Shell a pak ho spustit stisknutím klávesy Enter. Cloud Shell můžete otevřít několika způsoby:

Zvolte Vyzkoušet v pravém horním rohu bloku kódu. Cloud Shell v tomto článku
Otevřete Cloud Shell ve vašem prohlížeči. https://shell.azure.com/bash
Zvolte Cloud Shell v nabídce v pravém horním rohu webu Azure Portal. Cloud Shell na portálu

Pokud se rozhodnete nainstalovat a používat rozhraní příkazového řádku místně, potřebujete k tomuto rychlému startu Azure CLI verze 2.0.38 nebo novější. Verzi zjistíte spuštěním příkazu az --version. Pokud potřebujete instalaci nebo upgrade, přečtěte si téma Instalace Azure CLI.

V tomto rychlém startu se předpokládá, že příkazy spouštíte v prostředí Bash, a to buď v prostředí Cloud Shell, nebo na místním počítači.

Vytvoření skupiny prostředků

Pomocí příkazu az group create vytvořte skupinu prostředků. Skupina prostředků Azure je logický kontejner, ve kterém se nasazují a spravují prostředky Azure.

Následující příklad vytvoří skupinu prostředků myResourceGroup v umístění eastus2. Zvolte umístění, například USA – východ 2, ve kterém je služba Batch AI dostupná.

az group create \
    --name myResourceGroup \
    --location eastus2

Vytvoření clusteru Batch AI

Nejprve příkazem az batchai workspace create vytvořte pracovní prostor služby Batch AI. Pracovní prostor potřebujete k uspořádání clusterů Batch AI a jiných prostředků.

az batchai workspace create \
    --workspace myworkspace \
    --resource-group myResourceGroup 

K vytvoření clusteru Batch AI použijte příkaz az batchai cluster create. Následující příklad vytvoří cluster s následujícími vlastnostmi:

  • Obsahuje jeden uzel s virtuálním počítačem velikosti NC6, který má jednu GPU NVIDIA Tesla K80.
  • Používá výchozí image Ubuntu Serveru určenou k hostování kontejnerových aplikací, které můžete použít pro většinu trénovacích úloh.
  • Přidá uživatelský účet s názvem myusername a vygeneruje klíče SSH, pokud už neexistují ve výchozím umístění klíčů (~/.ssh) v místním prostředí.
az batchai cluster create \
    --name mycluster \
    --workspace myworkspace \
    --resource-group myResourceGroup \
    --vm-size Standard_NC6 \
    --target 1 \
    --user-name myusername \
    --generate-ssh-keys

Výstup tohoto příkazu zobrazuje vlastnosti clusteru. Vytvoření a spuštění uzlu trvá několik minut. Stav clusteru můžete zobrazit spuštěním příkazu az batchai cluster show.

az batchai cluster show \
    --name mycluster \
    --workspace myworkspace \
    --resource-group myResourceGroup \
    --output table

V rané fázi vytváření clusteru se výstup podobná následujícímu, který udává, že cluster je ve stavu resizing:

Name       Resource Group    Workspace    VM Size       State      Idle    Running    Preparing    Leaving    Unusable
---------  ----------------  -----------  ------------  -------  ------  ---------  -----------  ---------  ----------
mycluster  myResourceGroup   myworkspace  STANDARD_NC6  resizing      0          0            0          0           0

Cluster je připravený k použití, když má stav steady a jeden uzel je Idle.

Seznam uzlů clusteru

Pokud se potřebujete připojit k uzlům clusteru (v našem případě je uzel jeden) kvůli instalaci aplikací nebo provádění údržby, získáte informace o připojení spuštěním příkazu az batchai cluster node list:

az batchai cluster node list \
    --cluster mycluster \
    --workspace myworkspace \
    --resource-group myResourceGroup 

Výstup JSON je podobný tomuto:

[
  {
    "ipAddress": "40.68.254.143",
    "nodeId": "tvm-1816144089_1-20180626t233430z",
    "port": 50000.0
  }
]

Tyto informace použijte k vytvoření připojení SSH k uzlu. V následujícím příkazu například nahraďte IP adresu správnou hodnotou svého uzlu:

ssh myusername@40.68.254.143 -p 50000

Pokračujte ukončením relace SSH.

Změna velikosti clusteru

Když cluster používáte ke spouštění trénovacích úloh, budete zřejmě potřebovat více výpočetních prostředků. Pokud například chcete zvětšit velikost na 2 uzly pro distribuované trénovací úlohy, spusťte příkaz batch ai cluster resize:

az batchai cluster resize \
    --name mycluster \
    --workspace myworkspace \
    --resource-group myResourceGroup \
    --target 2

Změna velikosti clusteru bude trvat několik minut.

Vyčištění prostředků

Pokud chcete pokračovat v dalších kurzech a ukázkách Batch AI, použijte pracovní prostor Batch AI vytvořený v tomto rychlém startu.

Cluster Batch AI se vám účtuje, když běží jeho uzly. Pokud chcete zachovat konfiguraci clusteru, i když nejsou spuštěné žádné úlohy, změňte velikost clusteru na 0 uzlů.

az batchai cluster resize \
    --name mycluster \
    --workspace myworkspace \
    --resource-group myResourceGroup \
    --target 0

Později můžete velikost změnit na 1 nebo více uzlů, na kterých spustíte své úlohy. Když už cluster nepotřebujete, odstraňte ho pomocí příkazu az batchai cluster delete:

az batchai cluster delete \
    --name mycluster \
    --workspace myworkspace \
    --resource-group myResourceGroup \

Příkazem az group delete můžete odebrat skupinu prostředků Batch AI, pokud je už nepotřebujete.

az group delete --name myResourceGroup

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit cluster Batch AI pomocí Azure CLI. Pokud se chcete dozvědět, jak používat cluster Batch AI k trénování modelu, pokračujte rychlým startem o trénování modelu hloubkového učení.