Azure Machine Learning でのコンピューティングターゲットとは

[アーティクル]
01/23/2024

"コンピューティングターゲット" とは、トレーニングスクリプトを実行したり、サービスのデプロイをホストしたりする、指定されたコンピューティングリソースまたは環境のことです。この場所は、ローカルコンピューターでも、クラウドベースのコンピューティングリソースでもかまいません。コンピューティングターゲットを使用すると、コードを変更しなくても、後でコンピューティング環境を容易に変更できます。

Azure Machine Learning では、異なるコンピューティング先に対してさまざまなサポートが提供されています。一般的なモデル開発ライフサイクルでは、次のことを行う可能性があります。

最初に、少量のデータを開発して実験します。この段階では、コンピューティングターゲットとしてローカル環境 (ローカルコンピューターやクラウドベースの仮想マシン (VM) など) を使用します。
より大きなデータにスケールアップするか、またはこれらのトレーニングコンピューティングターゲットのいずれかを使用して分散トレーニングを実行します。
モデルの準備ができたら、これらのデプロイコンピューティングターゲットのいずれかを使用して、そのモデルを Web ホスティング環境にデプロイします。

コンピューティングターゲットに使用するコンピューティングリソースはワークスペースにアタッチされています。ローカルコンピューター以外のコンピューティングリソースは、ワークスペースのユーザーによって共有されます。

コンピューティングターゲットのトレーニング

より大規模なデータセットにトレーニングをスケールアップする、または分散トレーニングを実行する段階で、Azure Machine Learning コンピューティングを使用して、ジョブを送信するたびに自動スケーリングするシングルノードまたはマルチノードクラスターを作成します。また、独自のコンピューティングリソースを接続することもできますが、シナリオごとにサポートは異なることがあります。

コンピューティングターゲットは、各トレーニングジョブで順に再利用できます。 たとえば、リモート VM をワークスペースにアタッチした後、複数のジョブでそれを再利用できます。機械学習パイプラインの場合は、各コンピューティングターゲットに対して、適切なパイプラインステップを使用します。

ほとんどのジョブのトレーニングコンピューティングターゲットには、次のいずれかのリソースを使用できます。一部のリソースは、自動機械学習、機械学習パイプライン、またはデザイナーで使用することができません。 Azure Databricks は、ローカル実行および機械学習パイプライン用のトレーニングリソースとして使用できますが、他のトレーニング用のリモートターゲットとしては使用できません。

トレーニングターゲット	自動機械学習	Machine Learning パイプライン	Azure Machine Learning デザイナー
ローカルコンピューター	はい
Azure Machine Learning コンピューティングクラスター	はい	イエス	はい
Azure Machine Learning サーバーレスコンピューティング	はい	イエス	はい
Azure Machine Learning コンピューティングインスタンス	はい (SDK を使用)	はい	はい
Azure Machine Learning Kubernetes		はい	はい
リモート VM	はい	はい
Apache Spark プール (プレビュー)	はい (SDK ローカルモードのみ)	はい
Azure Databricks	はい (SDK ローカルモードのみ)	はい
Azure Data Lake Analytics		はい
Azure HDInsight		はい
Azure Batch		はい

ヒント

コンピューティングインスタンスには 120 GB の OS ディスクがあります。ディスク領域が不足する場合は、コンピューティングインスタンスを停止または再起動する前に、ターミナルを使用して少なくとも 1 GB から 2 GB をクリアしてください。

推論のコンピューティング先

推論を実行すると、Azure Machine Learning によって、モデルおよびそれを使用するために必要な関連リソースをホストする Docker コンテナーが作成されます。それから、このコンテナーをコンピューティング先で使用します。

モデルをホストするために使用するコンピューティング先は、デプロイされたエンドポイントのコストと可用性に影響します。次のテーブルを使用して、適切なコンピューティング先を選択します。

コンピューティングターゲット	使用目的	GPU のサポート	説明
Azure Machine Learning エンドポイント	リアルタイムの推論バッチ推論	はい	サーバーレスコンピューティングでのリアルタイム (マネージドオンラインエンドポイント) とバッチスコアリング (バッチエンドポイント) 用のフルマネージドコンピューティング。
Azure Machine Learning Kubernetes	リアルタイムの推論バッチ推論	はい	オンプレミス、クラウド、エッジの Kubernetes クラスターで推論ワークロードを実行します。

コンピューティングターゲット	使用目的	GPU のサポート	説明
ローカル Web サービス	テスト/デバッグ		制限付きのテストとトラブルシューティングに使用。ハードウェアアクセラレーションは、ローカルシステムでのライブラリの使用に依存します。
Azure Machine Learning Kubernetes	リアルタイムの推論	はい	クラウドで推論ワークロードを実行します。
Azure Container Instances	リアルタイムの推論開発/テスト目的でのみ推奨されます。		必要な RAM が 48 GB より少ない低スケール CPU ベースワークロードに使用。クラスターを管理する必要はありません。サイズが 1 GB 未満のモデルにのみ適しています。デザイナーでサポートされています。

注意

クラスター SKU を選択する場合は、まずスケールアップしてからスケールアウトします。モデルで必要とされる RAM の 150% が搭載されたマシンから始め、結果をプロファイルして、必要なパフォーマンスを備えたマシンを見つけます。これについて学習した後は、同時推定のニーズに合うようにマシンの数を増やします。

オンラインエンドポイントを使用して機械学習モデルをデプロイおよびスコア付けします。

機械学習モデルを Azure にデプロイする。

Azure Machine Learning コンピューティング (マネージド)

Azure Machine Learning では、マネージドコンピューティングリソースの作成と管理が行われます。この種のコンピューティングは、機械学習ワークロード向けに最適化されています。 Azure Machine Learning コンピューティングクラスター、サーバーレスコンピューティング、コンピューティングインスタンスだけがマネージドコンピューティングです。

サーバーレスコンピューティングを作成する必要はありません。 Azure Machine Learning コンピューティングインスタンスまたはコンピューティングクラスターは次の場所から作成できます。

Azure Machine Learning スタジオ
Python SDK および Azure CLI:
- コンピューティングインスタンス
- コンピューティングクラスター
Azure Resource Manager テンプレート。テンプレートの例については、Azure Machine Learning コンピューティングクラスターの作成に関する記事を参照してください。

Note

コンピューティングクラスターを作成する代わりに、サーバーレスコンピューティングを使って、コンピューティングのライフサイクル管理を Azure Machine Learning にオフロードします。

作成されると、これらのコンピューティングリソースは、他の種類のコンピューティングターゲットとは異なり、自動的にワークスペースの一部になります。

機能	コンピューティングクラスター	コンピューティングインスタンス
シングルノードまたはマルチノードクラスター	✓	シングルノードクラスター
ジョブを送信するたびに自動スケーリング	✓
自動でのクラスター管理とジョブスケジューリング	✓	✓
CPU と GPU の両方のリソースをサポートします	✓	✓

注意

コンピューティングがアイドル状態の場合に課金されないようにするには、次のようにします。

コンピューティング "クラスター" の場合は、ノードの最小数を 0 に設定するか、サーバーレスコンピューティングを使用してください。
コンピューティング "インスタンス" の場合は、アイドリングからのシャットダウンを有効にします。

サポートされている VM シリーズおよびサイズ

重要

コンピューティングインスタンスやコンピューティングクラスターがこれらのシリーズのいずれかをベースにしている場合は、サービスの中断を回避するために、廃止日の前に別の VM サイズで再作成してください。

これらのシリーズは、2023 年 8 月 31 日に廃止されます。

これらのシリーズは、2024 年 8 月 31 日に廃止されます。

Azure Machine Learning でマネージドコンピューティングリソースのノードサイズを選択すると、Azure で使用可能な VM サイズの中から選択できます。 Azure では、さまざまなワークロードに対応する Linux および Windows の幅広いサイズが提供されています。詳細については、VM の種類とサイズに関するページを参照してください。

VM サイズを選択する際には次のような例外と制限事項があります。

一部の VM シリーズは、Azure Machine Learning でサポートされていません。
GPU やその他の特別な SKU など、一部の VM は使用可能な VM の一覧に最初は表示されないことがあります。ただし、クォータの変更を要求すれば、それらも使用できます。クォータの要求について詳しくは、「クォータと制限の増加を要求」を参照してください。サポートされているシリーズの詳細については、次の表を参照してください。

サポートされている VM シリーズ	カテゴリ	サポートしているもの
DDSv4	汎用	コンピューティングのクラスターとインスタンス
Dv2	汎用	コンピューティングのクラスターとインスタンス
Dv3	汎用	コンピューティングのクラスターとインスタンス
DSv2	汎用	コンピューティングのクラスターとインスタンス
DSv3	汎用	コンピューティングのクラスターとインスタンス
EAv4	メモリ最適化	コンピューティングのクラスターとインスタンス
Ev3	メモリ最適化	コンピューティングのクラスターとインスタンス
ESv3	メモリ最適化	コンピューティングのクラスターとインスタンス
FSv2	コンピューティング最適化	コンピューティングのクラスターとインスタンス
FX	コンピューティング最適化	コンピューティングクラスター
H	ハイパフォーマンスコンピューティング	コンピューティングのクラスターとインスタンス
HB	ハイパフォーマンスコンピューティング	コンピューティングのクラスターとインスタンス
HBv2	ハイパフォーマンスコンピューティング	コンピューティングのクラスターとインスタンス
HBv3	ハイパフォーマンスコンピューティング	コンピューティングのクラスターとインスタンス
HC	ハイパフォーマンスコンピューティング	コンピューティングのクラスターとインスタンス
LSv2	ストレージ最適化	コンピューティングのクラスターとインスタンス
M	メモリ最適化	コンピューティングのクラスターとインスタンス
NC	GPU	コンピューティングのクラスターとインスタンス
NC Promo	GPU	コンピューティングのクラスターとインスタンス
NCv2	GPU	コンピューティングのクラスターとインスタンス
NCv3	GPU	コンピューティングのクラスターとインスタンス
ND	GPU	コンピューティングのクラスターとインスタンス
NDv2	GPU	コンピューティングのクラスターとインスタンス
NV	GPU	コンピューティングのクラスターとインスタンス
NVv3	GPU	コンピューティングのクラスターとインスタンス
NCasT4_v3	GPU	コンピューティングのクラスターとインスタンス
NDasrA100_v4	GPU	コンピューティングのクラスターとインスタンス

これらの VM シリーズは Azure Machine Learning でサポートされていますが、すべての Azure リージョンで使用できるとは限りません。 VM シリーズが使用可能かどうかを確認するには、「リージョン別の利用可能な製品」を参照してください。

注意

Azure Machine Learning は、Azure Compute がサポートするすべての VM サイズをサポートしているわけではありません。使用可能な VM サイズを一覧表示するには、次の方法を使用します。

REST API

Note

Azure Machine Learning は、Azure Compute がサポートするすべての VM サイズをサポートしているわけではありません。使用可能な VM サイズを一覧表示するには、次のいずれかのメソッドを使用します。

REST API
機械学習用の Azure CLI 拡張機能 2.0 コマンド、az ml compute list-sizes。

GPU 対応のコンピューティング先を使用する場合は、トレーニング環境に適切な CUDA ドライバーがインストールされていることを確認することが重要です。次の表を使用して、使用する適切な CUDA バージョンを決定します。

GPU アーキテクチャ	Azure VM シリーズ	サポートされている CUDA のバージョン
Ampere	NDA100_v4	11.0+
Turing	NCT4_v3	10.0 以降
Volta	NCv3、NDv2	9.0 以上
Pascal	NCv2、ND	9.0 以上
Maxwell	NV、NVv3	9.0 以上
Kepler	NC、NC Promo	9.0 以上

CUDA のバージョンとハードウェアに互換性があることを確認するだけでなく、CUDA のバージョンが、使用している機械学習フレームワークのバージョンと互換性があることを確認します。

PyTorch の場合は、Pytorch の以前のバージョンのページにアクセスして互換性を確認できます。
Tensorflow の場合は、ソースからの Tensorflow のビルドのページにアクセスして互換性を確認できます。

コンピューティングの分離

Azure Machine Learning コンピューティングにより、特定のハードウェアの種類に分離される、単一顧客専用の VM サイズが提供されます。分離された VM サイズは、コンプライアンスや規制上の要件を満たすなどの理由で、他の顧客のワークロードからの高いレベルの分離を必要とするワークロードに最適です。分離されたサイズを利用すると、お使いの VM がその特定のサーバーインスタンス上で実行されている唯一の VM であることが保証されます。

現在の分離された VM のプランには、以下が含まれます。

Standard_M128ms
Standard_F72s_v2
Standard_NC24s_v3
Standard_NC24rs_v3 (RDMA 対応)

分離の詳細については、「Azure パブリッククラウドでの分離」を参照してください。

アンマネージドコンピューティング

"アンマネージド" コンピューティング先は、Azure Machine Learning によって管理されません。この種類のコンピューティングターゲットは、Azure Machine Learning の外部で作成してからワークスペースに接続します。アンマネージドコンピューティングリソースでは、機械学習ワークロードのパフォーマンスを維持または向上するために追加の手順が必要になる場合があります。

Azure Machine Learning は、次の種類のアンマネージドコンピューティングをサポートしています。