Azure Machine Learning 用に Kubernetes クラスターを構成するためのリファレンス

この記事には、Azure Machine Learning を使用した Kubernetes の構成に関する参考情報が含まれています。

サポートされている Kubernetes のバージョンとリージョン

  • Azure Machine Learning 拡張機能をインストールする Kubernetes クラスターには、Azure Kubernetes Service (AKS) バージョンのサポート ポリシーに沿った "N-2" のバージョン サポート ウィンドウが含まれます。ここで "N" は、Azure Kubernetes Service の最新 GA マイナー バージョンを示します。

    • たとえば、AKS の 1.20.a が今日導入される場合、サポートされるバージョンは、1.20.a、1.20.b、1.19.c、1.19.d、1.18.e、1.18.f になります。

    • お客様がサポートされていない Kubernetes バージョンを実行している場合は、クラスターのサポートを要求したときにアップグレードするよう求められます。 サポートされていない Kubernetes リリースを実行しているクラスターは、Azure Machine Learning 拡張機能サポート ポリシーの対象ではありません。

  • Azure Machine Learning 拡張機能が利用可能なリージョン

Azure Machine Learning 拡張機能をデプロイすると、Azure Machine Learning のためにいくつかの関連サービスが Kubernetes クラスターにデプロイされます。 次の表は、クラスター内の関連サービスとそのリソースの使用状況を示します。

デプロイ/デーモンセット レプリカ数 トレーニング 推論 CPU 要求 (m) CPU 制限 (m) メモリ要求 (Mi) メモリ制限 (Mi)
metrics-controller-manager 1 10 100 20 300
prometheus-operator 1 100 400 128 512
prometheus 1 100 1000 512 4096
kube-state-metrics 1 10 100 32 256
gateway 1 50 500 256 2048
fluent-bit ノードあたり 1 10 200 100 300
inference-operator-controller-manager 1 該当なし 100 1000 128 1024
amlarc-identity-controller 1 該当なし 200 1000 200 1024
amlarc-identity-proxy 1 該当なし 200 1000 200 1024
azureml-ingress-nginx-controller 1 該当なし 100 1000 64 512
azureml-fe-v2 1 (テスト目的の場合)
または
3 (運用目的の場合)
該当なし 900 2000 800 1200
online-deployment デプロイあたり 1 ユーザーが作成 該当なし <user-define> <user-define> <user-define> <user-define>
online-deployment/identity-sidecar デプロイあたり 1 該当なし 10 50 100 100
aml-operator 1 該当なし 20 1020 124 2168
volcano-admission 1 該当なし 10 100 64 256
volcano-controller 1 該当なし 50 500 128 512
volcano-schedular 1 該当なし 50 500 128 512

独自のデプロイ/ポッドを除き、システム リソースの最小要件の合計は次のとおりです。

シナリオ 推論が有効 トレーニングが有効 CPU 要求 (m) CPU 制限 (m) メモリ要求 (Mi) メモリ制限 (Mi) ノード数 推奨の最小 VM サイズ 対応する AKS VM SKU
テスト用 該当なし 1780 8300 2440 12296 1 ノード vCPU × 2、7 GiB メモリ、6400 IOPS、1500 Mbps BW DS2v2
テスト用 該当なし 410 4420 1492 10960 1 ノード vCPU × 2、7 GiB メモリ、6400 IOPS、1500 Mbps BW DS2v2
テスト用 1910 10420 2884 15744 1 ノード vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW DS3v2
実稼動用 該当なし 3600 12700 4240 15296 3 ノード vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW DS3v2
実稼動用 該当なし 410 4420 1492 10960 1 ノード vCPU × 8、28 GiB メモリ、25600 IOPS、6000 Mbps BW DS4v2
実稼動用 3730 14820 4684 18744 3 ノード vCPU × 4、14 GiB メモリ、12800 IOPS、1500 Mbps BW DS4v2

Note

  • テスト目的の場合は、リソース要求を参照する必要があります。
  • 運用目的の場合は、リソース制限を参照する必要があります。

重要

他のいくつかの考慮事項を次に示します。

  • ネットワーク帯域幅を広げ、ディスク I/O パフォーマンスを向上させるには、SKU を大きくすることをお勧めします。
    • DV2/DSv2 を例にとると、大きな SKU を使用することでイメージを引き出す時間が減り、ネットワーク/ストレージのパフォーマンスが向上します。
    • AKS 予約の詳細については、AKS の予約に関するページを参照してください。
  • AKS クラスターを使用している場合は、AKS のコンテナー イメージのサイズ制限について検討するとよいでしょう。詳細については、「AKS コンテナー イメージのサイズ制限」を参照してください。

ARO または OCP クラスターの前提条件

セキュリティ強化 Linux (SELinux) が無効

SELinux が有効になっているマシンでは、Azure Machine Learning データセット (Azure Machine Learning トレーニング ジョブで使用される SDK v1 の機能) はサポートされていません。 したがって、Azure Machine Learning データセットを使用するには、すべての worker で selinux を無効にする必要があります。

ARO と OCP の特権設定

ARO または OCP クラスターでの Azure Machine Learning 拡張機能のデプロイの場合は、Azure Machine Learning サービス アカウントへの特権アクセスを付与し、oc edit scc privileged コマンドを実行して、"users:" の下に次のサービス アカウントを追加します。

  • system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
  • system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
  • system:serviceaccount:azureml:prom-admission
  • system:serviceaccount:azureml:default
  • system:serviceaccount:azureml:prom-operator
  • system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
  • system:serviceaccount:azureml:azureml-fe-v2
  • system:serviceaccount:azureml:prom-prometheus
  • system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
  • system:serviceaccount:azureml:azureml-ingress-nginx
  • system:serviceaccount:azureml:azureml-ingress-nginx-admission

注意

  • {EXTENSION-NAME}: az k8s-extension create --name CLI コマンドで指定された拡張機能名。
  • {KUBERNETES-COMPUTE-NAMESPACE}: コンピューティングを Azure Machine Learning ワークスペースにアタッチする際に指定される Kubernetes コンピューティングの名前空間。 KUBERNETES-COMPUTE-NAMESPACEdefault の場合は、system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default の構成をスキップします。

収集されたログの詳細

クラスター内の Azure Machine Learning ワークロードに関して、拡張機能コンポーネント経由でいくつかのログ (状態、メトリック、ライフ サイクルなど) が収集されます。収集されたすべてのログの詳細 (収集されたログの種類と、ログの送信先または保存場所を含む) を次の一覧に示します。

Pod リソースの説明 詳細ログ情報
amlarc-identity-controller マネージド ID を介して、Azure BLOB または Azure Container Registry トークンの要求と更新を行います。 拡張機能をインストールするときに enableInference=true が設定されたときにのみ使用されます。 Azure Machine Learning service で認証するエンドポイントの ID を取得するときの状態のトレース ログが含まれています。
amlarc-identity-proxy マネージド ID を介して、Azure BLOB または Azure Container Registry トークンの要求と更新を行います。 拡張機能をインストールするときに enableInference=true が設定されたときにのみ使用されます。 Azure Machine Learning service で認証するクラスターの ID を取得するときの状態のトレース ログが含まれています。
aml-operator トレーニングジョブのライフサイクルを管理します。 ログには、クラスター内の Azure Machine Learning トレーニング ジョブ ポッドの状態が含まれています。
azureml-fe-v2 受信した推論要求を、デプロイされたサービスにルーティングするフロントエンドコンポーネント。 要求 ID、開始時刻、応答コード、エラーの詳細、要求待機時間の長さなどの、要求レベルのアクセス ログ。 サービス メタデータの変更、正常な状態を実行しているサービスなどのデバッグ目的のトレース ログ。
gateway ゲートウェイは、データの通信と送受信を行うために使用されます。 Azure Machine Learning service からクラスターへの要求に関するトレース ログ。
healthcheck -- ログには、拡張機能が機能しない原因を診断するための azureml 名前空間リソース (Azure Machine Learning 拡張機能) の状態が含まれます。
inference-operator-controller-manager 推論エンドポイントのライフサイクルを管理します。 ログには、クラスター内の Azure Machine Learning 推論エンドポイントとデプロイ ポッドの状態が含まれています。
metrics-controller-manager Prometheus の構成を管理します。 CPU 使用率とメモリ使用率に関するトレーニング ジョブと推論デプロイ メトリックのアップロード状態のトレース ログ。
relay server リレー サーバーが必要となるのは Arc 接続クラスターだけであり、AKS クラスターにはインストールされません。 リレー サーバーは、Azure Relay と連携してクラウド サービスと通信します。 ログには、Azure Relay からの要求レベル情報が含まれます。

Azure Machine Learning ジョブがカスタム データ ストレージに接続する

永続ボリューム (PV) と永続ボリューム要求 (PVC) は Kubernetes の概念であり、ユーザーはさまざまなストレージ リソースを提供して使用できます。

  1. PV を作成し、例として NFS を使用します。
apiVersion: v1
kind: PersistentVolume
metadata:
  name: nfs-pv 
spec:
  capacity:
    storage: 1Gi 
  accessModes:
    - ReadWriteMany 
  persistentVolumeReclaimPolicy: Retain
  storageClassName: ""
  nfs: 
    path: /share/nfs
    server: 20.98.110.84 
    readOnly: false
  1. ML ワークロードを使用して、同じ Kubernetes 名前空間に PVC を作成します。 metadata では、Azure Machine Learning が認識するように ml.azure.com/pvc: "true" ラベルを追加し、マウント パスが設定されるように ml.azure.com/mountpath: <mount path> 注釈を追加する必要があります
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: nfs-pvc  
  namespace: default
  labels:
    ml.azure.com/pvc: "true"
  annotations:
    ml.azure.com/mountpath: "/mnt/nfs"
spec:
  storageClassName: ""
  accessModes:
  - ReadWriteMany      
  resources:
     requests:
       storage: 1Gi

重要

  • PVC からのカスタム データ ストレージをサポートするのは、コマンド ジョブまたはコンポーネント、ハイパードライブ ジョブまたはコンポーネント、バッチデプロイのみです。 > * リアルタイム オンライン エンドポイント、AutoML ジョブ、PRS ジョブは、PVC からのカスタム データ ストレージをサポートしていません。
  • また、PVC と同じ Kubernetes 名前空間内のポッドのみがボリュームにマウントされます。 データ サイエンティストは、ジョブの PVC 注釈で指定された mount path にアクセスできます。 AutoML ジョブと Prs ジョブは PVC にアクセスできません。

サポートされている Azure Machine Learning のテイントと容認

テイントと容認は、ポッドが不適切なノードにスケジュールされないように連携する Kubernetes の概念です。

Azure Machine Learning と統合された Kubernetes クラスター (AKS および Arc Kubernetes クラスターを含む) で特定の Azure Machine Learning テイントと容認がサポートされるようになりました。これにより、ユーザーは Azure Machine Learning 専用ノードに特定の Azure Machine Learning テイントを追加して、Azure Machine Learning 以外のワークロードがこれらの専用ノードにスケジュールされないようにすることができます。

ノードに置くことができる amlarc 固有のテイントは、次のように定義されています。

テイント キー 効果 説明
amlarc overall ml.azure.com/amlarc true NoScheduleNoExecute または PreferNoSchedule 拡張機能システム サービス ポッドや機械学習ワークロード ポッドを含むすべての Azure Machine Learning ワークロードでは、この amlarc overall テイントが許容されます。
amlarc system ml.azure.com/amlarc-system true NoScheduleNoExecute または PreferNoSchedule この amlarc system テイントを許容するのは、Azure Machine Learning 拡張機能システム サービス ポッドだけです。
amlarc workload ml.azure.com/amlarc-workload true NoScheduleNoExecute または PreferNoSchedule この amlarc workload テイントを許容するのは、機械学習ワークロード ポッドだけです。
amlarc resource group ml.azure.com/resource-group <リソース グループ名> NoScheduleNoExecute または PreferNoSchedule 特定のリソース グループから作成された機械学習ワークロード ポッドだけが、この amlarc resource group テイントを許容します。
amlarc workspace ml.azure.com/workspace <ワークスペース名> NoScheduleNoExecute または PreferNoSchedule 特定のワークスペースから作成された機械学習ワークロード ポッドだけが、この amlarc workspace テイントを許容します。
amlarc compute ml.azure.com/compute <コンピューティング名> NoScheduleNoExecute または PreferNoSchedule 特定のコンピューティング先で作成された機械学習ワークロード ポッドだけが、この amlarc compute テイントを許容します。

ヒント

  1. Azure Kubernetes Service (AKS) の場合は、「Azure Kubernetes Service (AKS) の高度なスケジューラ機能のベスト プラクティス」の例に従って、テイントをノード プールに適用できます。
  2. オンプレミス Kubernetes クラスターなどの Arc Kubernetes クラスターの場合は、kubectl taint コマンドを使用してノードにテイントを追加できます。 その他の例については、Kubernetes のドキュメントを参照してください。

ベスト プラクティス

Azure Machine Learning 専用ノードのスケジューリング要件に従って、 複数の amlarc 固有のテイントを追加して、ノードで実行できる Azure Machine Learning ワークロードを制限できます。 amlarc テイントを使用する際のベスト プラクティスを示します。

  • Azure Machine Learning 以外のワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするにはaml overall テイントをこれらのノードに追加するだけです。
  • system 以外のポッドが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
    • amlarc overall テイント
    • amlarc system テイント
  • ml 以外のワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
    • amlarc overall テイント
    • amlarc workloads テイント
  • "ワークスペース X" から作成されていないワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
    • amlarc overall テイント
    • amlarc resource group (has this <workspace X>) テイント
    • amlarc <workspace X> テイント
  • "コンピューティング先 X" によって作成されていないワークロードが Azure Machine Learning 専用ノード/ノード プールで実行されないようにするには、以下のテイントを追加する必要があります。
    • amlarc overall テイント
    • amlarc resource group (has this <workspace X>) テイント
    • amlarc workspace (has this <compute X>) テイント
    • amlarc <compute X> テイント

HTTP または HTTPS 経由で他のイングレス コントローラーを Azure Machine Learning 拡張機能と統合する

既定の Azure Machine Learning 推論ロード バランサー azureml-fe に加えて、HTTP または HTTPS 経由で他のロード バランサーを Azure Machine Learning 拡張機能と統合することもできます。

このチュートリアルでは、Nginx イングレス コントローラーまたは Azure Application Gateway を統合する方法について説明します。

前提条件

  • inferenceRouterServiceType=ClusterIPallowInsecureConnections=True を指定して Azure Machine Learning 拡張機能をデプロイし、サービスが HTTPS 経由で公開されるときに、Nginx イングレス コントローラーが azureml-fe に引き渡す代わりに、それ自体で TLS 終端を処理できるようにします。
  • Nginx イングレス コントローラーと統合するには、Nginx イングレス コントローラーを使用した Kubernetes クラスターのセットアップが必要です。
  • Azure Application Gateway との統合には、Azure Application Gateway イングレス コントローラーを使用した Kubernetes クラスターのセットアップが必要です。
  • このアプリケーションで HTTPS を使用する場合は、x509 証明書とその秘密キーが必要になります。

HTTP 経由でサービスを公開する

azureml-fe を公開するには、次のイングレス リソースを使用します。

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

このイングレスでは、azureml-fe サービスおよび選択したデプロイが Nginx イングレス コントローラーの既定のバックエンドとして公開されます。

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

このイングレスでは、azureml-fe サービスおよび選択したデプロイが Application Gateway の既定のバックエンドとして公開されます。

上記のイングレス リソースを ing-azureml-fe.yaml として保存します。

  1. 次を実行して、ing-azureml-fe.yaml をデプロイします。

    kubectl apply -f ing-azureml-fe.yaml
    
  2. イングレス コントローラーのログ上でデプロイの状態を確認します。

  3. これで、azureml-fe アプリケーションが使用可能になりました。 次にアクセスすると確認できます。

    • Nginx イングレス コントローラー: Nginx イングレス コントローラーのパブリック LoadBalancer アドレス
    • Azure Application Gateway: Application Gateway のパブリック アドレス
  4. 推論ジョブを作成し、呼び出します

    注意

    呼び出す前に、scoring_uri の IP を Nginx イングレス コントローラーのパブリック LoadBalancer アドレスに置き換えます。

HTTPS 経由でサービスを公開する

  1. イングレスをデプロイする前に、kubernetes シークレットを作成して、証明書と秘密キーをホストする必要があります。 次を実行して、Kubernetes シークレットを作成できます

    kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
    
  2. 次のイングレスを定義します。 イングレス内で、secretName セクションにシークレットの名前を指定します。

    # Nginx Ingress Controller example
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: azureml-fe
      namespace: azureml
    spec:
      ingressClassName: nginx
      tls:
      - hosts:
        - <domain>
        secretName: <ingress-secret-name>
      rules:
      - host: <domain>
        http:
          paths:
          - path: /
            backend:
              service:
                name: azureml-fe
                port:
                  number: 80
            pathType: Prefix
    
    # Azure Application Gateway example
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: azureml-fe
      namespace: azureml
    spec:
      ingressClassName: azure-application-gateway
      tls:
      - hosts:
        - <domain>
        secretName: <ingress-secret-name>
      rules:
      - host: <domain>
        http:
          paths:
          - path: /
            backend:
              service:
                name: azureml-fe
                port:
                  number: 80
            pathType: Prefix
    

    Note

    上記のイングレス リソースの <domain>、および <ingress-secret-name> を、Nginx イングレス コントローラー/Application Gateway の LoadBalancer を指すドメイン、およびシークレットの名前に置き換えます。 ファイル名 ing-azureml-fe-tls.yaml に上記のイングレス リソースを保存します。

  3. 次を実行して、ing-guestbook-tls.yaml をデプロイします

    kubectl apply -f ing-azureml-fe-tls.yaml
    
  4. イングレス コントローラーのログ上でデプロイの状態を確認します。

  5. これで、HTTPS で azureml-fe アプリケーションが使用可能になります。 これは、Nginx イングレス コントローラーのパブリック LoadBalancer アドレスにアクセスすることで確認できます。

  6. 推論ジョブを作成し、呼び出します

    注意

    呼び出す前に、scoring_uri のプロトコルと IP を、Nginx イングレス コントローラーまたは Application Gateway の LoadBalancer を指す https とドメインに置き換えます。

ARM テンプレートを使用して拡張機能をデプロイする

マネージド クラスター上の拡張機能は、ARM テンプレートを使用してデプロイできます。 サンプル テンプレートは、デモ パラメーター ファイル deployextension.parameters.json とともに deployextension.json から入手できます

サンプル デプロイ テンプレートを使用するには、正しい値を使用してパラメーター ファイルを編集し、次のコマンドを実行します。

az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json

ARM テンプレートの使用方法の詳細については、ARM テンプレートのドキュメントを参照してください

AzureML 拡張機能のリリース ノート

Note

新機能は、隔週でリリースされます。

Date バージョン バージョンの説明
2023 年 11 月 21 日 1.1.39 脆弱性を修正しました。 絞り込まれたエラー メッセージ。 Relayserver API の安定性が向上しました。
2023 年 11 月 1 日 1.1.37 データ プレーンの使用バージョンを更新します。
2023 年 10 月 11 日 1.1.35 脆弱性のあるイメージの修正。 バグが修正されました。
2023 年 8 月 25 日 1.1.34 脆弱性のあるイメージの修正。 より詳細な ID エラーを返します。 バグが修正されました。
2023 年 7 月 18 日 1.1.29 新しい ID オペレーターのエラーを追加します。 バグが修正されました。
2023 年 6 月 4 日 1.1.28 複数のノード プールを処理するように自動スケーラーを改善します。 バグが修正されました。
2023 年 4 月 18 日 1.1.26 バグ修正と脆弱性の修正。
2023 年 5 月 27 日 1.1.25 Azure Machine Learning ジョブのスロットルを追加します。 SSH セットアップに失敗したときのトレーニング ジョブの早い失敗。 Prometheus のスクレイピング間隔を 30 秒に削減。 推論用のエラー メッセージの改善。 脆弱性のあるイメージの修正。
2023 年 5 月 7 日 1.1.23 既定のインスタンスの種類を変更して、2Gi メモリを使用します。 15s の scrape_interval を追加する scoring-fe のメトリック構成を更新します。 mdc サイドカーのリソース仕様を追加します。 脆弱性のあるイメージの修正。 バグ修正。
2023 年 2 月 14 日 1.1.21 バグが修正されました。
2023 年 2 月 7 日 1.1.19 推論用のエラー応答メッセージを改善します。 既定のインスタンスの種類を更新して、2Gi メモリ制限を使用します。 ポッドの正常性、リソース クォータ、Kubernetes のバージョン、拡張機能のバージョンについてクラスターの正常性チェックを行います。 バグの修正
2022 年 12 月 27 日 1.1.17 Fluent ビットを DaemonSet からサイドカーに移動。 MDC のサポートの追加。 エラー メッセージの改良。 クラスター モード (Windows、Linux) ジョブのサポート。 バグの修正
2022 年 11 月 29 日 1.1.16 新しい CRD によるインスタンスの種類の検証の追加。 許容範囲のサポート。 SVC 名の短縮。 ワークロード コア時間。 複数のバグの修正と機能強化。
2022 年 9 月 13 日 1.1.10 バグ修正。
2022 年 8 月 29 日 1.1.9 正常性チェック ロジックが改善されました。 バグ修正。
2022 年 6 月 23 日 1.1.6 バグ修正。
2022 年 6 月 15 日 1.1.5 新しい共通ランタイムを使用してジョブを実行するようにトレーニングが更新されました。 AKS 拡張機能の Azure Relay の使用を削除しました。 Service Bus の使用状況を拡張機能から削除しました。 セキュリティ コンテキストの使用状況が更新されました。 推論 azureml-fe を v2 に更新。 Volcano をトレーニング ジョブ スケジューラとして使用するよう更新されました。 バグ修正。
2021 年 10 月 14 日 1.0.37 AMLArc トレーニング ジョブでの PV/PVC ボリューム マウントのサポート。
2021 年 9 月 16 日 1.0.29 新しいリージョンとして WestUS、CentralUS、NorthCentralUS、KoreaCentral が利用可能になりました。 ジョブ キューの拡張性。 Azure Machine Learning ワークスペース スタジオでジョブ キューの詳細を参照してください。 自動強制終了ポリシー。 ScriptRunConfig での max_run_duration_seconds のサポート。 設定値よりも時間がかかった場合、システムによって自動的に実行のキャンセルが試みられます。 クラスターの自動スケーリングのサポートに関するパフォーマンスの向上。 オンプレミスのコンテナー レジストリからの Arc エージェントと ML 拡張機能のデプロイ。
2021 年 8 月 24 日 1.0.28 コンピューティング インスタンスの種類がジョブ YAML でサポートされています。 AMLArc コンピューティングにマネージド ID を割り当てます。
2021 年 8 月 10 日 1.0.20 新しい Kubernetes ディストリビューションのサポート、K3S - Lightweight Kubernetes。 Azure Machine Learning 拡張機能を AKS クラスターに、Azure Arc 経由で接続することなくデプロイします。Python SDK を介した自動機械学習 (AutoML)。 2.0 CLI を使用して、Kubernetes クラスターを Azure Machine Learning ワークスペースにアタッチします。 Azure Machine Learning 拡張機能コンポーネントの CPU/メモリ リソース使用率を最適化します。
2021 年 7 月 2 日 1.0.13 新しい Kubernetes ディストリビューションでは、OpenShift Kubernetes と GKE (Google Kubernetes エンジン) がサポートされます。 自動スケールがサポートされます。 ユーザー管理 Kubernetes クラスターで自動スケールが有効になっている場合、クラスターはアクティブな実行とデプロイの量に応じて自動的にスケールアウトまたはスケールインされます。 ジョブ ランチャーのパフォーマンス向上により、ジョブの実行時間が大幅に短縮されました。