Rychlý start: Vytvoření clusteru Batch AI pro úlohy trénování na webu Azure Portal

V tomto rychlém startu si ukážeme, jak používat Azure Portal k vytvoření clusteru Batch AI, který použijete k trénování modelů AI a strojového učení. Batch AI je spravovaná služba určená pro odborníky na data a výzkumníky v oblasti umělé inteligence. Umožňuje jim trénovat modely AI a strojového učení požadované velikosti na clusterech virtuálních počítačů Azure.

Na začátku má cluster jediný uzel GPU a připojený souborový server. Na konci tohoto rychlého startu budete mít cluster, který můžete škálovat a používat k trénování modelů hloubkového učení. K odeslání trénovacích úloh do clusteru můžete použít Batch AI, nástroje Azure Machine Learning nebo Visual Studio Tools for AI.

Vytvoření páru klíčů SSH

K dokončení tohoto rychlého startu potřebujete pár klíčů SSH. Pokud máte existující pár klíčů SSH, můžete tento krok přeskočit.

Pokud chcete vytvořit pár klíčů SSH, spusťte v prostředí Bash následující příkaz a postupujte podle pokynů na obrazovce. Můžete použít například Azure Cloud Shell. Ve Windows můžete použít subsystém Windows pro Linux. Výstup příkazu zahrnuje název souboru veřejného klíče. Zkopírujte obsah souboru s veřejným klíčem (cat ~/.ssh/id_rsa.pub) do schránky nebo na jiné místo, kde k němu budete mít v dalším kroku přístup.

ssh-keygen -t rsa -b 2048

Podrobnější informace o vytvoření páru klíčů SSH najdete v článku o vytvoření a použití páru veřejného a privátního klíče SSH pro virtuální počítače s Linuxem v Azure.

Přihlášení k Azure

Přihlaste se k webu Azure Portal na adrese https://portal.azure.com.

Vytvoření pracovního prostoru Batch AI

Před vytvořením pracovního prostoru Batch AI si uspořádejte prostředky Batch AI. Pracovní prostor může obsahovat jeden nebo více clusterů nebo jiných prostředků Batch AI.

  1. Vyberte Všechny služby a vyfiltrujte Batch AI.

  2. Vyberte Přidat pracovní prostor.

  3. Zadejte hodnoty Název pracovního prostoru a Skupina prostředků. Pokud chcete, můžete v polích Předplatné a Umístění vybrat pro pracovní prostor jinou možnost. Vyberte Vytvořit pracovní prostor.

Vytvoření pracovního prostoru Batch AI

Po zobrazení zprávy Nasazení bylo úspěšné přejděte k vytvořenému prostředku a vyberte pracovní prostor.

Vytvoření souborového serveru

Souborový server Batch AI je systém souborů NFS s jedním uzlem, který můžete automaticky připojit k uzlům clusteru. Jde o jeden z mnoha způsobů jak zajistit úložiště pro vstupní data a výstupy tréninkových úloh.

  1. V pracovním prostoru vyberte Souborový serverPřidat souborový server> batch ai.

  2. Zadejte hodnoty Název souborového serveru a Velikost virtuálního počítače. Pro tento rychlý start doporučujeme jako souborový server použít virtuální počítač o velikosti Standard D1_v2. Pokud potřebujete při tréninkových úlohách ukládat větší množství vstupních nebo výstupních dat, zvolte jinou velikost.

  3. Zadejte uživatelské jméno správce a zkopírujte obsah souboru s veřejným klíčem SSH do pole Klíč SSH. Ve zbývajících polích potvrďte výchozí hodnoty a vyberte Vytvořit souborový server.

Vytvoření souborového serveru Batch AI

Nasazení souborového serveru zabere jen pár minut.

Po vytvoření serveru klikněte na Vlastnosti a poznamenejte si hodnotu Nastavení připojování. Ke stažení cvičných dat a nahrání výstupních souborů do nebo z určeného adresáře (/data) použijte přístup SSH k veřejné IP adrese serveru.

Vlastnosti souborového serveru

Vytvoření clusteru

Následující postup slouží k vytvoření clusteru s jedním uzlem GPU. Jako uzel clusteru běží výchozí image Ubuntu Serveru, která je navržená na hostování kontejnerových aplikací. Můžete ji použít k většině tréninkových úloh. K bodu připojení uzlu clusteru je připojený souborový server.

  1. V pracovním prostoru Batch AI vyberte Cluster>Add batch ai cluster.

  2. Zadejte Název clusteru a následující nastavení. Navrhovaná velikost virtuálního počítače je jeden počítač NVIDIA Tesla K80 GPU.

    Nastavení Hodnota
    Velikost virtuálního počítače Standard NC6
    Cílový počet uzlů 1
  3. Zadejte uživatelské jméno správce a zkopírujte obsah souboru s veřejným klíčem SSH do pole Klíč SSH. Potvrďte zbývající výchozí hodnoty na této stránce a vyberte Další: Nastavení uzlu.

    Zadání základních informací o clusteru

  4. V části Připojit svazky vyberte Odkazy souborového serveru>Přidat. Vyberte dříve vytvořený souborový server. Zadejte Relativní cestu připojení, kde je souborový server připojený ke každému uzlu clusteru. Vyberte Uložit a pokračovat.

    Přidání odkazu na souborový server

Uložte nastavení uzlu a vyberte Vytvořit cluster.

Přidělení uzlu trvá službě Batch AI několik minut. Po tuto dobu bude mít Stav přidělení clusteru hodnotu Změna velikosti. Po několika minutách se stav clusteru změní na Stabilní a uzel se spustí.

Spuštění clusteru

Vyberte název clusteru a zkontrolujte stav uzlu. Když je stav uzlu Nečinný, je připravený na spuštění cvičných úloh.

Seznam uzlů clusteru

Pokud se potřebujete připojit k uzlům clusteru (v našem případě je uzel jeden) kvůli instalaci aplikací nebo provádění údržby, najdete informace o připojení na portálu. Po vytvoření clusteru klikněte na Uzly a poznamenejte si nastavení připojení SSH (IP adresu a číslo portu).

Uzly clusteru

Tyto informace použijte k vytvoření připojení SSH k uzlu. V následujícím příkazu nahraďte IP adresu a číslo portu správnou hodnotou svého uzlu:

ssh myusername@137.135.82.15 -p 50000

Změna velikosti clusteru

Když cluster používáte k trénování modelu, může se stát, že budete potřebovat další výpočetní prostředky. Pokud třeba chcete kvůli distribuované tréninkové úloze zvětšit velikost na dva uzly, vyberte Měřítko a nastavte Cílový počet uzlů na 2. Konfiguraci uložte.

Škálování clusteru

Změna velikosti clusteru bude trvat několik minut.

Vyčištění prostředků

Pokud chcete pokračovat v dalších kurzech a ukázkách k Batch AI, použijte pracovní prostor Batch AI, souborový server a cluster, které jste vytvořili v tomto rychlém startu.

Bude se vám účtovat cluster Batch AI a souborový server na spuštěných virtuálních počítačích, i když nejsou žádné úlohy naplánované. Pokud chcete zachovat konfiguraci clusteru, a nemáte spuštěné žádné úlohy, změňte velikost clusteru na 0 uzlů. Později můžete velikost změnit na 1 nebo více uzlů, na kterých spustíte své úlohy.

Až nebudete pracovní prostor Batch AI potřebovat, odstraňte ho i s clusterem a souborovým serverem. Uděláte to tak, že vyberete pracovní prostor Batch AI a vyberete Odstranit.

Další kroky

V tomto rychlém startu jste se naučili vytvářet cluster Batch AI a připojený souborový server na webu Azure Portal. Pokud se chcete dozvědět, jak používat cluster Batch AI k trénování modelu, pokračujte rychlým startem o trénování modelu hloubkového učení.