Linux および Windows 用の Azure Data Science Virtual Machine とは

[アーティクル]
05/03/2024

Data Science Virtual Machine (DSVM) は、Azure クラウドプラットフォームで利用できる、データサイエンス処理の機能を備えたカスタマイズ済みの VM イメージです。多くのよく使われるデータサイエンスツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。

DSVM を利用できる OS:

Windows Server 2019
Windows Server 2022
Ubuntu 20.04 LTS

さらに、当社は Ubuntu 20.04 イメージの Azure DSVM for PyTorch も Azure Marketplace で提供しています。これは大規模な分散型ディープラーニングワークロードに最適化されたイメージです。このプレインストールされた DSVM は最新の PyTorch バージョンを使用してあらかじめ検証されているため、セットアップコストを抑えて短期間で価値を実現できます。この製品は、以下の豊富な最適化機能を含めてパッケージ化されています。

ONNX Runtime
DeepSpeed
MSCCL
ORTMoE
Fairscale
Nvidia Apex
Ubuntu、Python、PyTorch、CUDA の最新の互換バージョンを搭載した最新スタック

Azure Machine Learning との比較

DSVM はデータサイエンス用にカスタマイズされた VM イメージであるのに対し、Azure Machine Learning は、以下の内容をカバーするエンドツーエンドのプラットフォームです。

フルマネージドのコンピューティング
- コンピューティングインスタンス
- 分散 ML タスク用のコンピューティングクラスター
- リアルタイムスコアリング用の推論クラスター
データストア (例: Blob、ADLS Gen2、SQL DB)
実験の追跡
モデル管理
ノートブック
環境 (Conda と R の依存関係の管理)
ラベル付け
パイプライン (エンドツーエンドのデータサイエンスワークフローの自動化)

Azure Machine Learning コンピューティングインスタンスとの比較

Azure Machine Learning コンピューティングインスタンスは完全な構成済みのマネージド VM イメージです。一方、DSVM はアンマネージド VM です。

DSVM と Azure Machine Learning コンピューティングインスタンスの主な違い:

特徴量	データサイエンス VM	Azure Machine Learning コンピューティングインスタンス
フルマネージド	いいえ	はい
言語サポート	Python、R、Julia、SQL、C#、 Java、Node.js、F#	Python と R
オペレーティングシステム	Ubuntu Windows	Ubuntu
事前構成済みの GPU オプション	はい	はい
スケールアップオプション	はい	はい
SSH アクセス	はい	はい
RDP アクセス	はい	いいえ
組み込みホストノートブック	いいえ (別途構成が必要)	はい
組み込み SSO	なし (別途構成が必要)	はい
組み込みコラボレーション	いいえ	はい
事前インストール済みのツール	Jupyter(lab), VS Code, Visual Studio、PyCharm、Juno、 Power BI Desktop、SSMS、 Microsoft Office 365、Apache Drill	Jupyter(lab)

DSVM のお客様におけるユースケースの例

短期的な実験と評価

DSVM は、新しいデータサイエンスツールの評価や学習に使用できます。当社が公開しているサンプルとチュートリアルをお試しください。

GPU を使用したディープラーニング

DSVM は、GPU (グラフィックス処理装置) ベースのハードウェア上で、お使いのトレーニングモデルによるディープラーニングアルゴリズムの実行に使用できます。 Azure プラットフォームの VM スケーリング機能を利用すると、DSVM は、クラウド上で稼働する GPU ベースのハードウェアをニーズに応じて活用するのに役立ちます。大規模なモデルのトレーニングを実施するときや、OS ディスクを変更せずに高速コンピューティングを実行する必要が生じたとき、GPU ベースの VM に切り替えることができます。 DSVM では、目的に応じた N シリーズ GPU 対応仮想マシン SKU をどれでも選択できます。 Azure 無料アカウントでは、GPU 対応の仮想マシン SKU がサポートされません。

Windows エディションの DSVM には、GPU ドライバー、フレームワークと、GPU 版のディープラーニングフレームワークがプレインストールされています。 Linux エディションでは、GPU のディープラーニングは、Ubuntu の DSVM で有効になります。

また、GPU ベースではない Azure 仮想マシンに Ubuntu または Windows の DSVM エディションをデプロイすることもできます。その場合、すべてのディープラーニングフレームワークの動作は CPU モードにフォールバックします。

使用可能なディープラーニングと AI のフレームワークの詳細について学習してください。

データサイエンスのトレーニングと教育

データサイエンスのクラスを教える企業のトレーナーや教育担当者は、通常、仮想マシンイメージを提供します。このイメージを利用すると、学生に統一的な環境を提供し、サンプルを想定どおり確実に動作させることができます。

DSVM を利用すると、統一的にセットアップされた環境をオンデマンドで作成でき、サポートの負担や非互換性の問題が軽減されます。このような環境を頻繁に構築する必要がある場合 (特に短期間のトレーニングクラスの場合)、非常にメリットがあります。

DSVM には何が含まれていますか?

詳細については、DSVM で利用できるすべてのツールの一覧 (Windows、Linux の両方を含む) を参照してください。

次のステップ

詳細については、以下のリソースを参照してください。

Linux および Windows 用の Azure Data Science Virtual Machine とは

Azure Machine Learning との比較

Azure Machine Learning コンピューティング インスタンスとの比較

DSVM のお客様におけるユース ケースの例