Azure Machine Learning 用に Kubernetes クラスターを構成するためのリファレンス

[アーティクル]
06/21/2023

この記事には、Azure Machine Learning を使用した Kubernetes の構成に関する参考情報が含まれています。

サポートされている Kubernetes のバージョンとリージョン

Azure Machine Learning 拡張機能をインストールする Kubernetes クラスターには、Azure Kubernetes Service (AKS) バージョンのサポートポリシーに沿った "N-2" のバージョンサポートウィンドウが含まれます。ここで "N" は、Azure Kubernetes Service の最新 GA マイナーバージョンを示します。
- たとえば、AKS の 1.20.a が今日導入される場合、サポートされるバージョンは、1.20.a、1.20.b、1.19.c、1.19.d、1.18.e、1.18.f になります。
- お客様がサポートされていない Kubernetes バージョンを実行している場合は、クラスターのサポートを要求したときにアップグレードするよう求められます。サポートされていない Kubernetes リリースを実行しているクラスターは、Azure Machine Learning 拡張機能サポートポリシーの対象ではありません。
Azure Machine Learning 拡張機能が利用可能なリージョン
- Azure Machine Learning 拡張機能は、Azure Arc 対応 Kubernetes リージョンサポートに記載されているサポートされているリージョンの AKS または Azure Arc 対応 Kubernetes にデプロイできます。

推奨されるリソース計画

Azure Machine Learning 拡張機能をデプロイすると、Azure Machine Learning のためにいくつかの関連サービスが Kubernetes クラスターにデプロイされます。次の表は、クラスター内の関連サービスとそのリソースの使用状況を示します。

デプロイ/デーモンセット	レプリカ数	トレーニング	推論	CPU 要求 (m)	CPU 制限 (m)	メモリ要求 (Mi)	メモリ制限 (Mi)
metrics-controller-manager	1	✓	✓	10	100	20	300
prometheus-operator	1	✓	✓	100	400	128	512
prometheus	1	✓	✓	100	1000	512	4096
kube-state-metrics	1	✓	✓	10	100	32	256
gateway	1	✓	✓	50	500	256	2048
fluent-bit	ノードあたり 1	✓	✓	10	200	100	300
inference-operator-controller-manager	1	✓	該当なし	100	1000	128	1024
amlarc-identity-controller	1	✓	該当なし	200	1000	200	1024
amlarc-identity-proxy	1	✓	該当なし	200	1000	200	1024
azureml-ingress-nginx-controller	1	✓	該当なし	100	1000	64	512
azureml-fe-v2	1 (テスト目的の場合) または 3 (運用目的の場合)	✓	該当なし	900	2000	800	1200
online-deployment	デプロイあたり 1	ユーザーが作成	該当なし	<user-define>	<user-define>	<user-define>	<user-define>
online-deployment/identity-sidecar	デプロイあたり 1	✓	該当なし	10	50	100	100
aml-operator	1	該当なし	✓	20	1020	124	2168
volcano-admission	1	該当なし	✓	10	100	64	256
volcano-controller	1	該当なし	✓	50	500	128	512
volcano-schedular	1	該当なし	✓	50	500	128	512

独自のデプロイ/ポッドを除き、システムリソースの最小要件の合計は次のとおりです。

シナリオ	推論が有効	トレーニングが有効	CPU 要求 (m)	CPU 制限 (m)	メモリ要求 (Mi)	メモリ制限 (Mi)	ノード数	推奨の最小 VM サイズ	対応する AKS VM SKU
テスト用	✓	該当なし	1780	8300	2440	12296	1 ノード	vCPU × 2、7 GiB メモリ、6400 IOPS、1500 Mbps BW	DS2v2
テスト用	該当なし	✓	410	4420	1492	10960	1 ノード	vCPU × 2、7 GiB メモリ、6400 IOPS、1500 Mbps BW	DS2v2
テスト用	✓	✓	1910	10420	2884	15744	1 ノード	vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW	DS3v2
実稼動用	✓	該当なし	3600	12700	4240	15296	3 ノード	vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW	DS3v2
実稼動用	該当なし	✓	410	4420	1492	10960	1 ノード	vCPU × 8、28 GiB メモリ、25600 IOPS、6000 Mbps BW	DS4v2
実稼動用	✓	✓	3730	14820	4684	18744	3 ノード	vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW	DS4v2

Note

テスト目的の場合は、リソース要求を参照する必要があります。
運用目的の場合は、リソース制限を参照する必要があります。

重要

他のいくつかの考慮事項を次に示します。

ネットワーク帯域幅を広げ、ディスク I/O パフォーマンスを向上させるには、SKU を大きくすることをお勧めします。
- DV2/DSv2 を例にとると、大きな SKU を使用することでイメージを引き出す時間が減り、ネットワーク/ストレージのパフォーマンスが向上します。
- AKS 予約の詳細については、AKS の予約に関するページを参照してください。
AKS クラスターを使用している場合は、AKS のコンテナーイメージのサイズ制限について検討するとよいでしょう。詳細については、「AKS コンテナーイメージのサイズ制限」を参照してください。

ARO または OCP クラスターの前提条件

セキュリティ強化 Linux (SELinux) が無効

SELinux が有効になっているマシンでは、Azure Machine Learning データセット (Azure Machine Learning トレーニングジョブで使用される SDK v1 の機能) はサポートされていません。したがって、Azure Machine Learning データセットを使用するには、すべての worker で selinux を無効にする必要があります。

ARO と OCP の特権設定

ARO または OCP クラスターでの Azure Machine Learning 拡張機能のデプロイの場合は、Azure Machine Learning サービスアカウントへの特権アクセスを付与し、oc edit scc privileged コマンドを実行して、"users:" の下に次のサービスアカウントを追加します。

system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
system:serviceaccount:azureml:prom-admission
system:serviceaccount:azureml:default
system:serviceaccount:azureml:prom-operator
system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
system:serviceaccount:azureml:azureml-fe-v2
system:serviceaccount:azureml:prom-prometheus
system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
system:serviceaccount:azureml:azureml-ingress-nginx
system:serviceaccount:azureml:azureml-ingress-nginx-admission

注意

{EXTENSION-NAME}: az k8s-extension create --name CLI コマンドで指定された拡張機能名。
{KUBERNETES-COMPUTE-NAMESPACE}: コンピューティングを Azure Machine Learning ワークスペースにアタッチする際に指定される Kubernetes コンピューティングの名前空間。 KUBERNETES-COMPUTE-NAMESPACE が default の場合は、system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default の構成をスキップします。

収集されたログの詳細

クラスター内の Azure Machine Learning ワークロードに関して、拡張機能コンポーネント経由でいくつかのログ (状態、メトリック、ライフサイクルなど) が収集されます。収集されたすべてのログの詳細 (収集されたログの種類と、ログの送信先または保存場所を含む) を次の一覧に示します。

Pod	リソースの説明	詳細ログ情報
amlarc-identity-controller	マネージド ID を介して、Azure BLOB または Azure Container Registry トークンの要求と更新を行います。	拡張機能をインストールするときに `enableInference=true` が設定されたときにのみ使用されます。 Azure Machine Learning service で認証するエンドポイントの ID を取得するときの状態のトレースログが含まれています。
amlarc-identity-proxy	マネージド ID を介して、Azure BLOB または Azure Container Registry トークンの要求と更新を行います。	拡張機能をインストールするときに `enableInference=true` が設定されたときにのみ使用されます。 Azure Machine Learning service で認証するクラスターの ID を取得するときの状態のトレースログが含まれています。
aml-operator	トレーニングジョブのライフサイクルを管理します。	ログには、クラスター内の Azure Machine Learning トレーニングジョブポッドの状態が含まれています。
azureml-fe-v2	受信した推論要求を、デプロイされたサービスにルーティングするフロントエンドコンポーネント。	要求 ID、開始時刻、応答コード、エラーの詳細、要求待機時間の長さなどの、要求レベルのアクセスログ。サービスメタデータの変更、正常な状態を実行しているサービスなどのデバッグ目的のトレースログ。
gateway	ゲートウェイは、データの通信と送受信を行うために使用されます。	Azure Machine Learning service からクラスターへの要求に関するトレースログ。
healthcheck	--	ログには、拡張機能が機能しない原因を診断するための `azureml` 名前空間リソース (Azure Machine Learning 拡張機能) の状態が含まれます。
inference-operator-controller-manager	推論エンドポイントのライフサイクルを管理します。	ログには、クラスター内の Azure Machine Learning 推論エンドポイントとデプロイポッドの状態が含まれています。
metrics-controller-manager	Prometheus の構成を管理します。	CPU 使用率とメモリ使用率に関するトレーニングジョブと推論デプロイメトリックのアップロード状態のトレースログ。
relay server	リレーサーバーが必要となるのは Arc 接続クラスターだけであり、AKS クラスターにはインストールされません。	リレーサーバーは、Azure Relay と連携してクラウドサービスと通信します。ログには、Azure Relay からの要求レベル情報が含まれます。

Azure Machine Learning ジョブがカスタムデータストレージに接続する

永続ボリューム (PV) と永続ボリューム要求 (PVC) は Kubernetes の概念であり、ユーザーはさまざまなストレージリソースを提供して使用できます。

PV を作成し、例として NFS を使用します。

apiVersion: v1
kind: PersistentVolume
metadata:
  name: nfs-pv 
spec:
  capacity:
    storage: 1Gi 
  accessModes:
    - ReadWriteMany 
  persistentVolumeReclaimPolicy: Retain
  storageClassName: ""
  nfs: 
    path: /share/nfs
    server: 20.98.110.84 
    readOnly: false

ML ワークロードを使用して、同じ Kubernetes 名前空間に PVC を作成します。 metadata では、Azure Machine Learning が認識するように ml.azure.com/pvc: "true" ラベルを追加し、マウントパスが設定されるように ml.azure.com/mountpath: <mount path> 注釈を追加する必要があります。

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: nfs-pvc  
  namespace: default
  labels:
    ml.azure.com/pvc: "true"
  annotations:
    ml.azure.com/mountpath: "/mnt/nfs"
spec:
  storageClassName: ""
  accessModes:
  - ReadWriteMany      
  resources:
     requests:
       storage: 1Gi

重要

PVC からのカスタムデータストレージをサポートするのは、コマンドジョブまたはコンポーネント、ハイパードライブジョブまたはコンポーネント、バッチデプロイのみです。 > * リアルタイムオンラインエンドポイント、AutoML ジョブ、PRS ジョブは、PVC からのカスタムデータストレージをサポートしていません。
また、PVC と同じ Kubernetes 名前空間内のポッドのみがボリュームにマウントされます。データサイエンティストは、ジョブの PVC 注釈で指定された mount path にアクセスできます。 AutoML ジョブと Prs ジョブは PVC にアクセスできません。

サポートされている Azure Machine Learning のテイントと容認

テイントと容認は、ポッドが不適切なノードにスケジュールされないように連携する Kubernetes の概念です。

Azure Machine Learning と統合された Kubernetes クラスター (AKS および Arc Kubernetes クラスターを含む) で特定の Azure Machine Learning テイントと容認がサポートされるようになりました。これにより、ユーザーは Azure Machine Learning 専用ノードに特定の Azure Machine Learning テイントを追加して、Azure Machine Learning 以外のワークロードがこれらの専用ノードにスケジュールされないようにすることができます。

ノードに置くことができる amlarc 固有のテイントは、次のように定義されています。

テイント	キー	値	効果	説明
amlarc overall	ml.azure.com/amlarc	true	`NoSchedule`、`NoExecute` または `PreferNoSchedule`	拡張機能システムサービスポッドや機械学習ワークロードポッドを含むすべての Azure Machine Learning ワークロードでは、この `amlarc overall` テイントが許容されます。
amlarc system	ml.azure.com/amlarc-system	true	`NoSchedule`、`NoExecute` または `PreferNoSchedule`	この `amlarc system` テイントを許容するのは、Azure Machine Learning 拡張機能システムサービスポッドだけです。
amlarc workload	ml.azure.com/amlarc-workload	true	`NoSchedule`、`NoExecute` または `PreferNoSchedule`	この `amlarc workload` テイントを許容するのは、機械学習ワークロードポッドだけです。
amlarc resource group	ml.azure.com/resource-group	<リソースグループ名>	`NoSchedule`、`NoExecute` または `PreferNoSchedule`	特定のリソースグループから作成された機械学習ワークロードポッドだけが、この `amlarc resource group` テイントを許容します。
amlarc workspace	ml.azure.com/workspace	<ワークスペース名>	`NoSchedule`、`NoExecute` または `PreferNoSchedule`	特定のワークスペースから作成された機械学習ワークロードポッドだけが、この `amlarc workspace` テイントを許容します。
amlarc compute	ml.azure.com/compute	<コンピューティング名>	`NoSchedule`、`NoExecute` または `PreferNoSchedule`	特定のコンピューティング先で作成された機械学習ワークロードポッドだけが、この `amlarc compute` テイントを許容します。

ヒント

Azure Kubernetes Service (AKS) の場合は、「Azure Kubernetes Service (AKS) の高度なスケジューラ機能のベストプラクティス」の例に従って、テイントをノードプールに適用できます。
オンプレミス Kubernetes クラスターなどの Arc Kubernetes クラスターの場合は、kubectl taint コマンドを使用してノードにテイントを追加できます。その他の例については、Kubernetes のドキュメントを参照してください。

ベストプラクティス

Azure Machine Learning 専用ノードのスケジューリング要件に従って、 複数の amlarc 固有のテイントを追加して、ノードで実行できる Azure Machine Learning ワークロードを制限できます。 amlarc テイントを使用する際のベストプラクティスを示します。

Azure Machine Learning 以外のワークロードが Azure Machine Learning 専用ノード/ノードプールで実行されないようにするには、aml overall テイントをこれらのノードに追加するだけです。
system 以外のポッドが Azure Machine Learning 専用ノード/ノードプールで実行されないようにするには、以下のテイントを追加する必要があります。
- amlarc overall テイント
- amlarc system テイント
ml 以外のワークロードが Azure Machine Learning 専用ノード/ノードプールで実行されないようにするには、以下のテイントを追加する必要があります。
- amlarc overall テイント
- amlarc workloads テイント
"ワークスペース X" から作成されていないワークロードが Azure Machine Learning 専用ノード/ノードプールで実行されないようにするには、以下のテイントを追加する必要があります。
- amlarc overall テイント
- amlarc resource group (has this <workspace X>) テイント
- amlarc <workspace X> テイント
"コンピューティング先 X" によって作成されていないワークロードが Azure Machine Learning 専用ノード/ノードプールで実行されないようにするには、以下のテイントを追加する必要があります。
- amlarc overall テイント
- amlarc resource group (has this <workspace X>) テイント
- amlarc workspace (has this <compute X>) テイント
- amlarc <compute X> テイント

HTTP または HTTPS 経由で他のイングレスコントローラーを Azure Machine Learning 拡張機能と統合する

既定の Azure Machine Learning 推論ロードバランサー azureml-fe に加えて、HTTP または HTTPS 経由で他のロードバランサーを Azure Machine Learning 拡張機能と統合することもできます。

このチュートリアルでは、Nginx イングレスコントローラーまたは Azure Application Gateway を統合する方法について説明します。

前提条件

inferenceRouterServiceType=ClusterIP と allowInsecureConnections=True を指定して Azure Machine Learning 拡張機能をデプロイし、サービスが HTTPS 経由で公開されるときに、Nginx イングレスコントローラーが azureml-fe に引き渡す代わりに、それ自体で TLS 終端を処理できるようにします。
Nginx イングレスコントローラーと統合するには、Nginx イングレスコントローラーを使用した Kubernetes クラスターのセットアップが必要です。
- 基本的なコントローラーの作成: 最初から始める場合は、こちらの手順を参照してください。
Azure Application Gateway との統合には、Azure Application Gateway イングレスコントローラーを使用した Kubernetes クラスターのセットアップが必要です。
- グリーンフィールドデプロイ: 最初から始める場合は、こちらの手順を参照してください。
- ブラウンフィールドデプロイ: 既存の AKS クラスターと Application Gateway がある場合は、こちらの手順を参照してください。
このアプリケーションで HTTPS を使用する場合は、x509 証明書とその秘密キーが必要になります。

HTTP 経由でサービスを公開する

azureml-fe を公開するには、次のイングレスリソースを使用します。

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

このイングレスでは、azureml-fe サービスおよび選択したデプロイが Nginx イングレスコントローラーの既定のバックエンドとして公開されます。

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

このイングレスでは、azureml-fe サービスおよび選択したデプロイが Application Gateway の既定のバックエンドとして公開されます。

上記のイングレスリソースを ing-azureml-fe.yaml として保存します。

次を実行して、ing-azureml-fe.yaml をデプロイします。
```
kubectl apply -f ing-azureml-fe.yaml
```
イングレスコントローラーのログ上でデプロイの状態を確認します。
これで、azureml-fe アプリケーションが使用可能になりました。次にアクセスすると確認できます。
- Nginx イングレスコントローラー: Nginx イングレスコントローラーのパブリック LoadBalancer アドレス
- Azure Application Gateway: Application Gateway のパブリックアドレス
推論ジョブを作成し、呼び出します。

注意

呼び出す前に、scoring_uri の IP を Nginx イングレスコントローラーのパブリック LoadBalancer アドレスに置き換えます。

HTTPS 経由でサービスを公開する

イングレスをデプロイする前に、kubernetes シークレットを作成して、証明書と秘密キーをホストする必要があります。次を実行して、Kubernetes シークレットを作成できます
```
kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
```

次のイングレスを定義します。イングレス内で、secretName セクションにシークレットの名前を指定します。

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  tls:
  - hosts:
    - <domain>
    secretName: <ingress-secret-name>
  rules:
  - host: <domain>
    http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  tls:
  - hosts:
    - <domain>
    secretName: <ingress-secret-name>
  rules:
  - host: <domain>
    http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Note

上記のイングレスリソースの <domain>、および <ingress-secret-name> を、Nginx イングレスコントローラー/Application Gateway の LoadBalancer を指すドメイン、およびシークレットの名前に置き換えます。ファイル名 ing-azureml-fe-tls.yaml に上記のイングレスリソースを保存します。

次を実行して、ing-guestbook-tls.yaml をデプロイします
```
kubectl apply -f ing-azureml-fe-tls.yaml
```
イングレスコントローラーのログ上でデプロイの状態を確認します。
これで、HTTPS で azureml-fe アプリケーションが使用可能になります。これは、Nginx イングレスコントローラーのパブリック LoadBalancer アドレスにアクセスすることで確認できます。
推論ジョブを作成し、呼び出します。

注意

呼び出す前に、scoring_uri のプロトコルと IP を、Nginx イングレスコントローラーまたは Application Gateway の LoadBalancer を指す https とドメインに置き換えます。

ARM テンプレートを使用して拡張機能をデプロイする

マネージドクラスター上の拡張機能は、ARM テンプレートを使用してデプロイできます。サンプルテンプレートは、デモパラメーターファイル deployextension.parameters.json とともに deployextension.json から入手できます

サンプルデプロイテンプレートを使用するには、正しい値を使用してパラメーターファイルを編集し、次のコマンドを実行します。

az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json

ARM テンプレートの使用方法の詳細については、ARM テンプレートのドキュメントを参照してください

AzureML 拡張機能のリリースノート

Note

新機能は、隔週でリリースされます。

Date	バージョン	バージョンの説明
2023 年 11 月 21 日	1.1.39	脆弱性を修正しました。絞り込まれたエラーメッセージ。 Relayserver API の安定性が向上しました。
2023 年 11 月 1 日	1.1.37	データプレーンの使用バージョンを更新します。
2023 年 10 月 11 日	1.1.35	脆弱性のあるイメージの修正。バグが修正されました。
2023 年 8 月 25 日	1.1.34	脆弱性のあるイメージの修正。より詳細な ID エラーを返します。バグが修正されました。
2023 年 7 月 18 日	1.1.29	新しい ID オペレーターのエラーを追加します。バグが修正されました。
2023 年 6 月 4 日	1.1.28	複数のノードプールを処理するように自動スケーラーを改善します。バグが修正されました。
2023 年 4 月 18 日	1.1.26	バグ修正と脆弱性の修正。
2023 年 5 月 27 日	1.1.25	Azure Machine Learning ジョブのスロットルを追加します。 SSH セットアップに失敗したときのトレーニングジョブの早い失敗。 Prometheus のスクレイピング間隔を 30 秒に削減。推論用のエラーメッセージの改善。脆弱性のあるイメージの修正。
2023 年 5 月 7 日	1.1.23	既定のインスタンスの種類を変更して、2Gi メモリを使用します。 15s の scrape_interval を追加する scoring-fe のメトリック構成を更新します。 mdc サイドカーのリソース仕様を追加します。脆弱性のあるイメージの修正。バグ修正。
2023 年 2 月 14 日	1.1.21	バグが修正されました。
2023 年 2 月 7 日	1.1.19	推論用のエラー応答メッセージを改善します。既定のインスタンスの種類を更新して、2Gi メモリ制限を使用します。ポッドの正常性、リソースクォータ、Kubernetes のバージョン、拡張機能のバージョンについてクラスターの正常性チェックを行います。バグの修正
2022 年 12 月 27 日	1.1.17	Fluent ビットを DaemonSet からサイドカーに移動。 MDC のサポートの追加。エラーメッセージの改良。クラスターモード (Windows、Linux) ジョブのサポート。バグの修正
2022 年 11 月 29 日	1.1.16	新しい CRD によるインスタンスの種類の検証の追加。許容範囲のサポート。 SVC 名の短縮。ワークロードコア時間。複数のバグの修正と機能強化。
2022 年 9 月 13 日	1.1.10	バグ修正。
2022 年 8 月 29 日	1.1.9	正常性チェックロジックが改善されました。バグ修正。
2022 年 6 月 23 日	1.1.6	バグ修正。
2022 年 6 月 15 日	1.1.5	新しい共通ランタイムを使用してジョブを実行するようにトレーニングが更新されました。 AKS 拡張機能の Azure Relay の使用を削除しました。 Service Bus の使用状況を拡張機能から削除しました。セキュリティコンテキストの使用状況が更新されました。推論 azureml-fe を v2 に更新。 Volcano をトレーニングジョブスケジューラとして使用するよう更新されました。バグ修正。
2021 年 10 月 14 日	1.0.37	AMLArc トレーニングジョブでの PV/PVC ボリュームマウントのサポート。
2021 年 9 月 16 日	1.0.29	新しいリージョンとして WestUS、CentralUS、NorthCentralUS、KoreaCentral が利用可能になりました。ジョブキューの拡張性。 Azure Machine Learning ワークスペーススタジオでジョブキューの詳細を参照してください。自動強制終了ポリシー。 ScriptRunConfig での max_run_duration_seconds のサポート。設定値よりも時間がかかった場合、システムによって自動的に実行のキャンセルが試みられます。クラスターの自動スケーリングのサポートに関するパフォーマンスの向上。オンプレミスのコンテナーレジストリからの Arc エージェントと ML 拡張機能のデプロイ。
2021 年 8 月 24 日	1.0.28	コンピューティングインスタンスの種類がジョブ YAML でサポートされています。 AMLArc コンピューティングにマネージド ID を割り当てます。
2021 年 8 月 10 日	1.0.20	新しい Kubernetes ディストリビューションのサポート、K3S - Lightweight Kubernetes。 Azure Machine Learning 拡張機能を AKS クラスターに、Azure Arc 経由で接続することなくデプロイします。Python SDK を介した自動機械学習 (AutoML)。 2.0 CLI を使用して、Kubernetes クラスターを Azure Machine Learning ワークスペースにアタッチします。 Azure Machine Learning 拡張機能コンポーネントの CPU/メモリリソース使用率を最適化します。
2021 年 7 月 2 日	1.0.13	新しい Kubernetes ディストリビューションでは、OpenShift Kubernetes と GKE (Google Kubernetes エンジン) がサポートされます。自動スケールがサポートされます。ユーザー管理 Kubernetes クラスターで自動スケールが有効になっている場合、クラスターはアクティブな実行とデプロイの量に応じて自動的にスケールアウトまたはスケールインされます。ジョブランチャーのパフォーマンス向上により、ジョブの実行時間が大幅に短縮されました。

Azure Machine Learning 用に Kubernetes クラスターを構成するためのリファレンス

サポートされている Kubernetes のバージョンとリージョン

推奨されるリソース計画

ARO または OCP クラスターの前提条件

セキュリティ強化 Linux (SELinux) が無効

ARO と OCP の特権設定

収集されたログの詳細

Azure Machine Learning ジョブがカスタム データ ストレージに接続する

サポートされている Azure Machine Learning のテイントと容認

ベスト プラクティス

HTTP または HTTPS 経由で他のイングレス コントローラーを Azure Machine Learning 拡張機能と統合する

前提条件

HTTP 経由でサービスを公開する

HTTPS 経由でサービスを公開する

ARM テンプレートを使用して拡張機能をデプロイする

AzureML 拡張機能のリリース ノート

その他のリソース

Azure Machine Learning ジョブがカスタムデータストレージに接続する

ベストプラクティス

HTTP または HTTPS 経由で他のイングレスコントローラーを Azure Machine Learning 拡張機能と統合する

AzureML 拡張機能のリリースノート