Azure Machine Learning (SDK v1) を使用して scikit-learn モデルを大規模にトレーニングする

[アーティクル]
06/03/2023

この記事では、Azure Machine Learning を使用して scikit-learn トレーニングスクリプトを実行する方法について説明します。

この記事のサンプルスクリプトを使用し、アイリスの花の画像を分類して、scikit-learn のアイリスデータセットに基づく機械学習モデルを構築します。

scikit-learn の機械学習モデルを一からトレーニングする場合でも、既存のモデルをクラウドに持ち込む場合でも、Azure Machine Learning のエラスティッククラウドコンピューティングリソースを使用して、オープンソースのトレーニングジョブをスケールアウトできます。 Azure Machine Learning を使用して、運用レベルのモデルをビルド、デプロイ、バージョン管理、および監視することができます。

前提条件

このコードは、Azure Machine Learning コンピューティングインスタンスまたは独自の Jupyter Notebook のいずれかで実行できます。

Azure Machine Learning コンピューティングインスタンス
- Azure Machine Learning の利用開始に関するクイックスタートを参照して、コンピューティングインスタンスを作成します。すべてのコンピューティングインスタンスには、SDK と notebook サンプルリポジトリにあらかじめ読み込まれている専用の notebook サーバーが含まれています。
- Azure Machine Learning スタジオの [notebook] タブを選択します。サンプルのトレーニング用フォルダーで、how-to-use-azureml > ml-frameworks > scikit-learn > train-hyperparameter-tune-deploy-with-sklearn フォルダーの順に選択してこのディレクトリに移動し、完了済みで展開済みのノートブックを見つけます。
- サンプルのトレーニング用フォルダーの事前設定されたコードを使用すると、このチュートリアルを完了できます。
Jupyter Notebook サーバーを作成し、次のセクションのコードを実行します。
- Azure Machine Learning SDK (1.13.0 以降) をインストールします。
- ワークスペース構成ファイルを作成します。

実験を設定する

このセクションでは、必要な Python パッケージを読み込み、ワークスペースを初期化し、トレーニング環境を定義し、トレーニングスクリプトを準備することで、トレーニング実験を設定します。

ワークスペースを初期化する

Azure Machine Learning ワークスペースは、サービス用の最上位のリソースです。作成されるすべての成果物を操作できる一元的な場所が用意されています。 Python SDK では、workspace オブジェクトを作成することでワークスペースの成果物にアクセスできます。

config.jsonで作成した config.json ファイルからワークスペースオブジェクトを作成します。

from azureml.core import Workspace

ws = Workspace.from_config()

スクリプトを準備する

このチュートリアルでは、トレーニングスクリプトの train_iris.py は既に用意されています。実際には、コードを変更しなくても、あらゆるカスタムトレーニングスクリプトをそのまま Azure Machine Learning で実行できるはずです。

Note

提供されているトレーニングスクリプトは、スクリプト内の Run オブジェクトを使用して Azure Machine Learning 実行にいくつかのメトリックをログ記録する方法を示しています。
指定されたトレーニングスクリプトでは、iris = datasets.load_iris() 関数のサンプルデータを使用します。独自のデータを使用してデータにアクセスするには、データセットを使用したトレーニング方法を参照して、トレーニング中にデータを使用できるようにしてください。

環境を定義する

トレーニングスクリプトの依存関係をカプセル化する Azure Machine Learning 環境を定義するには、カスタム環境を定義するか、Azure Machine Learning のキュレーションされた環境を使用します。

選別された環境を使用する

独自のイメージを作成しない場合には、必要に応じて、事前に構築され、キュレーションされた環境が Azure Machine Learning によって提供されます。

キュレーションが行われた環境を使用する場合は、代わりに次のコマンドを実行できます。

from azureml.core import Environment

sklearn_env = Environment.get(workspace=ws, name='AzureML-Tutorial')

カスタム環境を作成する

独自のカスタム環境を作成することもできます。 YAML ファイルで conda の依存関係を定義します。この例では、ファイルの名前は conda_dependencies.yml です。

dependencies:
  - python=3.7
  - scikit-learn
  - numpy
  - pip:
    - azureml-defaults

この Conda 環境仕様から Azure Machine Learning 環境を作成します。環境は、実行時に Docker コンテナーにパッケージ化されます。

from azureml.core import Environment

sklearn_env = Environment.from_conda_specification(name='sklearn-env', file_path='conda_dependencies.yml')

環境の作成と使用の詳細については、「Azure Machine Learning でソフトウェア環境を作成して使用する」をご覧ください。

トレーニングの実行を構成して送信する

ScriptRunConfig を作成する

ScriptRunConfig オブジェクトを作成して、トレーニングスクリプト、使用する環境、実行するコンピューティング先など、トレーニングジョブの構成の詳細を指定します。 arguments パラメーターで指定されている場合、トレーニングスクリプトへの引数はすべてコマンドラインを使用して渡されます。

次のコードは、ローカルコンピューターで実行するジョブを送信するように ScriptRunConfig オブジェクトを構成します。

from azureml.core import ScriptRunConfig

src = ScriptRunConfig(source_directory='.',
                      script='train_iris.py',
                      arguments=['--kernel', 'linear', '--penalty', 1.0],
                      environment=sklearn_env)

代わりにリモートクラスターでジョブを実行する場合は、目的のコンピューティング先を ScriptRunConfig の compute_target パラメーターに指定できます。

from azureml.core import ScriptRunConfig

compute_target = ws.compute_targets['<my-cluster-name>']
src = ScriptRunConfig(source_directory='.',
                      script='train_iris.py',
                      arguments=['--kernel', 'linear', '--penalty', 1.0],
                      compute_target=compute_target,
                      environment=sklearn_env)

実行を送信する

from azureml.core import Experiment

run = Experiment(ws,'Tutorial-TrainIRIS').submit(src)
run.wait_for_completion(show_output=True)

警告

Azure Machine Learning では、ソースディレクトリ全体をコピーすることで、トレーニングスクリプトが実行されます。アップロードしたくない機密データがある場合は、.ignore ファイルを使用するか、ソースディレクトリに含めないようにします。代わりに、Azure Machine Learning データセットを使用してデータにアクセスします。

実行実施中の動作

実行は、以下の段階を経て実施されます。

準備:Docker イメージは、定義されている環境に従って作成されます。イメージはワークスペースのコンテナーレジストリにアップロードされ、後で実行するためにキャッシュされます。ログは実行履歴にもストリーミングされ、進行状況を監視するために表示することができます。代わりに、キュレーションされた環境が指定されている場合は、そのキュレーションされた環境を補足するキャッシュ済みのイメージが使用されます。
拡大縮小:Batch AI クラスターでの実行に現在使用可能な数より多くのノードが必要な場合、クラスターはスケールアップを試みます。
実行中: スクリプトフォルダー内のすべてのスクリプトがコンピューティング先にアップロードされ、データストアがマウントまたはコピーされて、が実行されます。 stdout からの出力と ./logs フォルダーが実行履歴にストリーミングされるので、実行の監視のために使用できます。
後処理:実行の ./outputs フォルダーが実行履歴にコピーされます。

モデルを保存して登録する

モデルのトレーニングが終わったら、それをワークスペースに保存して登録できます。モデルの登録を使用すると、モデルをワークスペースに格納し、バージョン管理して、モデルの管理とデプロイを簡単にすることができます。

モデルを保存するには、トレーニングスクリプト train_iris.py に次のコードを追加します。

import joblib

joblib.dump(svm_model_linear, 'model.joblib')

次のコードでワークスペースにモデルを登録します。パラメーター model_framework、model_framework_version、および resource_configuration を指定することによって、コードなしのモデルデプロイが使用可能になります。コードなしのモデルデプロイを使用すると、登録済みのモデルからモデルを Web サービスとして直接デプロイできるようになり、ResourceConfiguration オブジェクトによって、Web サービスのコンピューティングリソースが定義されます。

from azureml.core import Model
from azureml.core.resource_configuration import ResourceConfiguration

model = run.register_model(model_name='sklearn-iris', 
                           model_path='outputs/model.joblib',
                           model_framework=Model.Framework.SCIKITLEARN,
                           model_framework_version='0.19.1',
                           resource_configuration=ResourceConfiguration(cpu=1, memory_in_gb=0.5))

デプロイ

先ほど登録したモデルは、Azure Machine Learning に登録されている他のモデルとまったく同じ方法でデプロイできます。デプロイ方法にはモデルの登録に関するセクションが含まれていますが、登録済みのモデルが既にあるため、デプロイのためにコンピューティング先の作成に直接スキップできます。

(プレビュー) コードなしのモデルデプロイ

重要

現在、この機能はパブリックプレビュー段階にあります。このプレビューバージョンはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。特定の機能はサポート対象ではなく、機能が制限されることがあります。

詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

従来のデプロイルートの代わりに、scikit-learn でコードなしのデプロイ機能 (プレビュー) を使用することもできます。コードなしのモデルデプロイは、すべての組み込みの scikit-learn モデルの種類に対してサポートされています。 model_framework、model_framework_version、および resource_configuration パラメーターを使用して前に示したようにモデルを登録することにより、単純に deploy() 静的関数を使用してモデルをデプロイできます。

web_service = Model.deploy(ws, "scikit-learn-service", [model])