コンピューティングリソースを効率的に使用できるインスタンスの種類を作成して管理する

[アーティクル]
01/09/2024

インスタンスの種類とは、トレーニングワークロードと推論ワークロード用に特定の種類の計算ノードをターゲットにできる、Azure Machine Learning の概念です。たとえば、Azure 仮想マシンでは、インスタンスの種類は STANDARD_D2_V3 です。この記事では、評価要件に合わせてインスタンスの種類を作成および管理する方法について説明します。

Kubernetes クラスターの場合、インスタンスの種類は、Azure Machine Learning 拡張機能と共にインストールされるカスタムリソース定義 (CRD) で表されます。 Azure Machine Learning 拡張機能の 2 つの要素は、インスタンスの種類を表します。

nodeSelector を使用して、ポッドを実行するノードを指定します。ノードには、対応するラベルが必要です。
リソースセクションでは、ポッドのコンピューティングリソース (CPU、メモリ、NVIDIA GPU) を設定できます。

Azure Machine Learning 拡張機能のデプロイ時に nodeSelector を指定する場合、nodeSelector フィールドはすべてのインスタンスの種類に適用されます。これは、次のことを意味します。

作成するインスタンスの種類ごとに、指定する nodeSelector フィールドを、拡張機能で指定した nodeSelector フィールドのサブセットにする必要があります。
nodeSelector ありのインスタンスの種類を使用すると、拡張機能で指定した nodeSelector フィールドとインスタンスの種類で指定した nodeSelector フィールドの両方に一致する任意のノードでワークロードが実行されます。
nodeSelector フィールドなしのインスタンスの種類を使用すると、拡張機能で指定した nodeSelector フィールドに一致する任意のノードでワークロードが実行されます。

既定のインスタンスの種類を作成する

既定では、Kubernetes クラスターを Azure Machine Learning ワークスペースにアタッチすると、defaultinstancetype という名前のインスタンスの種類が作成されます。定義を次に示します。

resources:
  requests:
    cpu: "100m"
    memory: "2Gi"
  limits:
    cpu: "2"
    memory: "2Gi"
    nvidia.com/gpu: null

nodeSelector フィールドを適用しない場合は、ポッドを任意のノードでスケジュールできます。要求に対して、0.1 CPU コア、2 GB のメモリ、0 GPU という既定のリソースがワークロードのポッドに割り当てられます。ワークロードのポッドが使用するリソースは、2 CPU コアと 8 GB メモリに制限されます。

既定のインスタンスの種類では、意図的にリソースがほとんど使用されません。すべての機械学習ワークロードに適切なリソース (たとえば GPU リソース) が割り当てられるように、カスタムインスタンスの種類を作成することを強くお勧めします。

既定のインスタンスの種類について、以下の点に注意してください。

コマンド kubectl get instancetype を実行しても、defaultinstancetype はクラスター内で InstanceType カスタムリソースとして表示されませんが、すべてのクライアント (UI、Azure CLI、SDK) に表示されます。
defaultinstancetype は、同じ名前のカスタムインスタンスの種類の定義でオーバーライドすることができます。

カスタムインスタンスの種類を作成する

新しいインスタンスの種類を作成するには、CRD というインスタンスの種類の新しいカスタムリソースを作成します。次に例を示します。

kubectl apply -f my_instance_type.yaml

my_instance_type.yaml の内容は次のとおりです。

apiVersion: amlarc.azureml.com/v1alpha1
kind: InstanceType
metadata:
  name: myinstancetypename
spec:
  nodeSelector:
    mylabel: mylabelvalue
  resources:
    limits:
      cpu: "1"
      nvidia.com/gpu: 1
      memory: "2Gi"
    requests:
      cpu: "700m"
      memory: "1500Mi"

上記のコードで、ラベルが付けられた動作のインスタンスの種類が作成されます。

ポッドは、ラベル mylabel: mylabelvalue が付いたノードでのみスケジュールされます。
ポッドには、700m 個の CPU と 1500Mi のメモリのリソース要求が割り当てられます。
ポッドに、1 個の CPU、2Gi のメモリ、1 個の NVIDIA GPU のリソース制限が割り当てられます。

カスタムインスタンスの種類の作成は、次のパラメーターと定義規則を満たす必要があります。そうしないと、失敗します。

パラメーター	必須または省略可能	説明
`name`	必須	文字列値。クラスター内で一意にする必要があります。
`CPU request`	必須	文字列値。0 や空にすることはできません。 CPU はミリコア単位で、たとえば `100m` のように指定できます。完全数として指定することもできます。たとえば、`"1"` は、`1000m` と同じです。
`Memory request`	必須	文字列値。0 や空にすることはできません。メモリは完全数 + サフィックスとして指定できます。たとえば、1024 メビバイト (MiB) の場合は `1024Mi` です。
`CPU limit`	必須	文字列値。0 や空にすることはできません。 CPU はミリコア単位で、たとえば `100m` のように指定できます。完全数として指定することもできます。たとえば、`"1"` は、`1000m` と同じです。
`Memory limit`	必須	文字列値。0 や空にすることはできません。メモリは完全数 + サフィックスとして指定できます。たとえば、1024 MiB の場合は `1024Mi` です。
`GPU`	省略可能	整数値。`limits` セクションでのみ指定できます。詳細については、Kubernetes のドキュメントを参照してください。
`nodeSelector`	省略可能	文字列のキーと値のマップ。

複数のインスタンス型を一度に作成することもできます。

kubectl apply -f my_instance_type_list.yaml

my_instance_type_list.yaml の内容は次のとおりです。

apiVersion: amlarc.azureml.com/v1alpha1
kind: InstanceTypeList
items:
  - metadata:
      name: cpusmall
    spec:
      resources:
        requests:
          cpu: "100m"
          memory: "100Mi"
        limits:
          cpu: "1"
          nvidia.com/gpu: 0
          memory: "1Gi"

  - metadata:
      name: defaultinstancetype
    spec:
      resources:
        requests:
          cpu: "1"
          memory: "1Gi" 
        limits:
          cpu: "1"
          nvidia.com/gpu: 0
          memory: "1Gi"

上記の例では、2 つのインスタンスの種類 cpusmall と defaultinstancetype が作成されます。この defaultinstancetype の定義を使うと、Kubernetes クラスターを Azure Machine Learning ワークスペースにアタッチしたときに作成された defaultinstancetype の定義がオーバーライドされます。

インスタンスの種類を指定せずにトレーニングまたは推論のワークロードを送信すると、defaultinstancetype が使用されます。 Kubernetes クラスターに既定のインスタンスの種類を指定するには、名前が defaultinstancetype というインスタンスの種類を作成します。これは自動的に既定値として認識されます。

Azure CLI (v2) を使ってトレーニングジョブに対するインスタンスの種類を選ぶには、ジョブ YAML の resources プロパティセクションの一部としてその名前を指定します。次に例を示します。

command: python -c "print('Hello world!')"
environment:
  image: library/python:latest
compute: azureml:<Kubernetes-compute_target_name>
resources:
  instance_type: <instance type name>

SDK (v2) を使ってトレーニングジョブに対するインスタンスの種類を選ぶには、command クラスの instance_type プロパティにその名前を指定します。次に例を示します。

from azure.ai.ml import command

# define the command
command_job = command(
    command="python -c "print('Hello world!')"",
    environment="AzureML-lightgbm-3.2-ubuntu18.04-py37-cpu@latest",
    compute="<Kubernetes-compute_target_name>",
    instance_type="<instance type name>"
)

上記の例では、<Kubernetes-compute_target_name> を Kubernetes コンピューティング先の名前に置き換えます。 <instance type name> は、選択したいインスタンスの種類の名前に置き換えます。 instance_type プロパティを指定しない場合、システムは defaultinstancetype を使用してジョブを送信します。

インスタンスの種類を選んでモデルをデプロイする

Azure CLI
Python SDK

Azure CLI (v2) を使ってモデルデプロイに使うインスタンスの種類を選ぶには、デプロイ YAML の instance_type プロパティにその名前を指定します。次に例を示します。

name: blue
app_insights_enabled: true
endpoint_name: <endpoint name>
model: 
  path: ./model/sklearn_mnist_model.pkl
code_configuration:
  code: ./script/
  scoring_script: score.py
instance_type: <instance type name>
environment: 
  conda_file: file:./model/conda.yml
  image: mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04:latest

SDK (v2) を使ってモデルデプロイに使うインスタンスの種類を選ぶには、KubernetesOnlineDeployment クラスの instance_type プロパティにその名前を指定します。次に例を示します。

from azure.ai.ml import KubernetesOnlineDeployment,Model,Environment,CodeConfiguration

model = Model(path="./model/sklearn_mnist_model.pkl")
env = Environment(
    conda_file="./model/conda.yml",
    image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04:latest",
)

# define the deployment
blue_deployment = KubernetesOnlineDeployment(
    name="blue",
    endpoint_name="<endpoint name>",
    model=model,
    environment=env,
    code_configuration=CodeConfiguration(
        code="./script/", scoring_script="score.py"
    ),
    instance_count=1,
    instance_type="<instance type name>",
)

上記の例では、<instance type name> を選択したいインスタンスの種類の名前に置き換えます。 instance_type プロパティを指定しない場合、システムは defaultinstancetype を使用してモデルをデプロイします。

重要

MLflow モデルをデプロイする場合、リソース要求には少なくとも 2 CPU コアと 4 GB のメモリが必要です。そうしない場合は、展開が失敗します。

リソースセクションの検証

resources セクションを使用して、モデルデプロイのリソース要求と制限を定義できます。次に例を示します。

Azure CLI
Python SDK

name: blue
app_insights_enabled: true
endpoint_name: <endpoint name>
model: 
  path: ./model/sklearn_mnist_model.pkl
code_configuration:
  code: ./script/
  scoring_script: score.py
environment: 
  conda_file: file:./model/conda.yml
  image: mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04:latest
resources:
  requests:
    cpu: "0.1"
    memory: "0.2Gi"
  limits:
    cpu: "0.2"
    #nvidia.com/gpu: 0
    memory: "0.5Gi"
instance_type: <instance type name>

from azure.ai.ml import (
    KubernetesOnlineDeployment,
    Model,
    Environment,
    CodeConfiguration,
    ResourceSettings,
    ResourceRequirementsSettings
)

model = Model(path="./model/sklearn_mnist_model.pkl")
env = Environment(
    conda_file="./model/conda.yml",
    image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04:latest",
)

requests = ResourceSettings(cpu="0.1", memory="0.2G")
limits = ResourceSettings(cpu="0.2", memory="0.5G", nvidia_gpu="1")
resources = ResourceRequirementsSettings(requests=requests, limits=limits)

# define the deployment
blue_deployment = KubernetesOnlineDeployment(
    name="blue",
    endpoint_name="<endpoint name>",
    model=model,
    environment=env,
    code_configuration=CodeConfiguration(
        code="./script/", scoring_script="score.py"
    ),
    resources=resources,
    instance_count=1,
    instance_type="<instance type name>",
)

resources セクションを使用する場合は、有効なリソース定義が次の規則を満たしている必要があります。リソース定義が無効な場合、モデルデプロイは失敗します。

パラメーター	必須または省略可能	説明
`requests:` `cpu:`	必須	文字列値。0 や空にすることはできません。 CPU はミリコア単位で、たとえば `100m` のように指定できます。完全数で指定することもできます。たとえば、`"1"` は、`1000m` と同じです。
`requests:` `memory:`	必須	文字列値。0 や空にすることはできません。メモリは完全数 + サフィックスとして指定できます。たとえば、1024 MiB の場合は `1024Mi` です。メモリは 1 MB 未満にすることはできません。
`limits:` `cpu:`	省略可能 (GPU が必要な場合にのみ必要)	文字列値。0 や空にすることはできません。 CPU はミリコア単位で、たとえば `100m` のように指定できます。完全数で指定することもできます。たとえば、`"1"` は、`1000m` と同じです。
`limits:` `memory:`	省略可能 (GPU が必要な場合にのみ必要)	文字列値。0 や空にすることはできません。メモリは完全数 + サフィックスとして指定できます。たとえば、1,024 MiB の場合は `1024Mi` です。
`limits:` `nvidia.com/gpu:`	省略可能 (GPU が必要な場合にのみ必要)	整数値。空にすることはできません。`limits` セクションでのみ指定できます。詳細については、Kubernetes のドキュメントを参照してください。 CPU のみを必要とする場合は、`limits` セクション全体を省略できます。

インスタンスの種類は、モデルデプロイに必須です。 resources セクションを定義し、それがインスタンスの種類に照らして検証される場合、規則は次のようになります。

有効な resource セクションの定義では、リソースの制限がインスタンスの種類の制限を下回る必要があります。正しいサブネットを選択しないと、展開に失敗します。
インスタンスタイプを定義しない場合、システムは resources セクションでの検証に defaultinstancetype を使用します。
resources セクションを定義しない場合、システムはインスタンスの種類を使用してデプロイを作成します。

コンピューティングリソースを効率的に使用できるインスタンスの種類を作成して管理する

既定のインスタンスの種類を作成する

カスタムインスタンスの種類を作成する

インスタンスの種類を選んでトレーニングジョブを送信する

インスタンスの種類を選んでモデルをデプロイする

リソースセクションの検証

次のステップ

その他のリソース

コンピューティング リソースを効率的に使用できるインスタンスの種類を作成して管理する

既定のインスタンスの種類を作成する

カスタム インスタンスの種類を作成する

インスタンスの種類を選んでトレーニング ジョブを送信する

インスタンスの種類を選んでモデルをデプロイする

リソース セクションの検証

次のステップ

その他のリソース

コンピューティングリソースを効率的に使用できるインスタンスの種類を作成して管理する

カスタムインスタンスの種類を作成する

インスタンスの種類を選んでトレーニングジョブを送信する

リソースセクションの検証