クイックスタート: Azure portal を使用して Batch AI トレーニングジョブ用のクラスターを作成する

[アーティクル]
08/15/2018

このクイックスタートでは、Azure portal を使用して、AI および機械学習モデルのトレーニングに使用できる Batch AI クラスターを作成する方法について説明します。 Batch AI は、データサイエンティストや AI 研究者が、Azure 仮想マシンのクラスター上で、AI および機械学習モデルを大規模にトレーニングするためのマネージドサービスです。

クラスターには、最初は単一の GPU ノードと接続されたファイルサーバーがあります。このクイックスタートを完了すると、スケールアップしてディープラーニングモデルのトレーニングに使用できるクラスターが作成されます。 Batch AI、Azure Machine Learning ツール、または Visual Studio Tools for AI を使用して、トレーニングジョブをクラスターに送信します。

SSH キーペアの作成

このクイックスタートを完了するには、SSH キーペアが必要です。既存の SSH キーペアがある場合は、この手順はスキップしてかまいません。

SSH キーペアを作成するには、Bash シェルから次のコマンドを実行し、画面の指示に従います。たとえば、Azure Cloud Shell や、Windows 上の Linux 用 Windows サブシステムを使用できます。コマンド出力に公開キーファイルの名前が表示されます。公開キーファイル (cat ~/.ssh/id_rsa.pub) の内容を、クリップボードまたは後の手順でアクセスできる別の場所にコピーします。

ssh-keygen -t rsa -b 2048

SSH キーペアの作成方法の詳細については、Azure に Linux VM 用の SSH 公開キーと秘密キーのペアを作成して使用する方法に関する記事をご覧ください。

Azure Portal ( https://portal.azure.com ) にサインインします。

Batch AI ワークスペースの作成

まず、Batch AI リソースを整理するための Batch AI ワークスペースを作成します。ワークスペースには、1 つ以上のクラスターまたは他の Batch AI リソースを含めることができます。

[すべてのサービス] を選択し、[Batch AI] をフィルター選択します。
[ワークスペースの追加] を選択します。
[ワークスペース名] と [リソースグループ] に値を入力します。必要に応じて、ワークスペースの [サブスクリプション] と [場所] に別のオプションを選択します。 [ ワークスペースの作成] を選択します。

Batch AI ワークスペースの作成

"デプロイメントに成功しました" というメッセージが表示されたら、作成したリソースに移動し、ワークスペースを選択します。

ファイルサーバーの作成

Batch AI ファイルサーバーは単一ノード NFS であり、クラスターノードに自動的にマウントできます。これは、トレーニングジョブの入力データと出力のストレージを提供する方法の 1 つです。

ワークスペースで、ファイルサーバーの [バッチ ai ファイルサーバー>の追加] を選択します。
[ファイルサーバー名] と [VM サイズ] に値を入力します。このクイックスタートでは、ファイルサーバーの VM サイズとして Standard D1_v2 が推奨されます。トレーニングジョブの大量の入力データまたは出力データを保存する必要がある場合は、別のサイズを選択します。
管理者ユーザー名を入力し、SSH 公開キーファイルの内容を [SSH キー] にコピーします。残りの値には既定値をそのまま使用し、[ファイルサーバーの作成] を選択します。

Batch AI ファイルサーバーの作成

ファイルサーバーのデプロイには数分かかります。

サーバーが作成されたら、[プロパティ] をクリックし、マウントの設定を書き留めます。サーバーのパブリック IP アドレスに SSH 接続して、指定されたディレクトリ (/data) にトレーニングデータと出力ファイルをアップロードおよびダウンロードできます。

ファイルサーバーのプロパティ

クラスターの作成

次の手順では、単一の GPU ノードを含むクラスターを作成します。クラスターノードでは、コンテナーベースのアプリケーションをホストするように設計された既定の Ubuntu Server イメージを実行します。これは、ほとんどのトレーニングワークロードに使用できます。クラスターノードでは、マウントポイントにファイルサーバーをマウントします。

Batch AI ワークスペースで、[ クラスターの>追加] batch ai クラスターを選択します。
[クラスター名] と次の設定に値を入力します。推奨される VM サイズは、NVIDIA Tesla K80 GPU を 1 つ備えています。

設定値

VM サイズ Standard NC6

ターゲットノード数 1
管理者ユーザー名を入力し、SSH 公開キーファイルの内容を [SSH キー] にコピーします。このページの残りの値には既定値をそのまま使用し、[Next: Node setup]\(次へ: ノードのセットアップ\) を選択します。
[ボリュームのマウント] で、[File server references]\(ファイルサーバー参照\)>[追加] を選択します。以前に作成したファイルサーバーを選択します。各クラスターノードでファイルサーバーをマウントする相対マウントパスを入力します。 [Save and continue] (保存して続行) を選択します。

設定	値
VM サイズ	Standard NC6
ターゲットノード数	1

ノードの設定を保存し、[クラスターの作成] を選択します。

Batch AI によってノードが割り当てられるまで数分かかります。この間は、クラスターの [割り当ての状態] が [サイズ変更中] になります。数分後、クラスターの状態が [安定] になり、ノードが起動します。

クラスターの起動

クラスター名を選択してノードの状態を確認します。ノードの状態が [アイドル] であれば、トレーニングジョブを実行する準備が整っています。

クラスターノードの表示

アプリケーションをインストールしたり、メンテナンスを実行したりするために、クラスターノード (この例では単一ノード) に接続する必要がある場合は、ポータルで接続情報を取得します。クラスターが作成されたら、[ノード] をクリックし、SSH 接続設定 (IP アドレスとポート番号) を書き留めます。

クラスターノード

この情報を使用して、ノードへの SSH 接続を作成します。たとえば、次のコマンドでノードの正しい IP アドレスとポート番号に置き換えます。

ssh myusername@137.135.82.15 -p 50000

クラスターのサイズ変更

クラスターを使用してモデルをトレーニングする場合、より多くのコンピューティングリソースが必要になることがあります。たとえば、分散トレーニングジョブ用にサイズを 2 ノードに増やすには、[スケール] を選択し、[Target number of node]\(ノードのターゲット数\) を 2 に設定します。構成を保存します。

クラスターのスケーリング

クラスターのサイズが変更されるまで数分かかります。

リソースをクリーンアップする

Batch AI のチュートリアルとサンプルを続行する場合は、このクイックスタートで作成した Batch AI ワークスペース、ファイルサーバー、クラスターを使用します。

ジョブがスケジュールされていなくても、基になる仮想マシンの実行中は、Batch AI クラスターとファイルサーバーに対して課金されます。実行するジョブがないときにクラスター構成を保持する場合は、クラスターのサイズを 0 ノードに変更します。後でジョブを実行するときは、サイズを 1 ノード以上に変更します。

クラスターとファイルサーバーを含む Batch AI ワークスペースが不要になったら削除します。そのためには、Batch AI ワークスペースを選択し、[削除] を選択します。

次のステップ

このクイックスタートでは、Azure portal を使用して、Batch AI クラスターおよび接続されたファイルサーバーを作成する方法について説明しました。 Batch AI クラスターを使用してモデルをトレーニングする方法については、ディープラーニングモデルのトレーニングに関するクイックスタートに進んでください。

ディープラーニングモデルをトレーニングする

クイック スタート: Azure portal を使用して Batch AI トレーニング ジョブ用のクラスターを作成する

SSH キー ペアの作成

Azure へのサインイン

Batch AI ワークスペースの作成

ファイル サーバーの作成

クラスターの作成

クラスター ノードの表示

クラスターのサイズ変更

リソースをクリーンアップする

次のステップ

その他のリソース

クイックスタート: Azure portal を使用して Batch AI トレーニングジョブ用のクラスターを作成する

SSH キーペアの作成

ファイルサーバーの作成

クラスターノードの表示