Referensi dalam mengonfigurasi kluster Kubernetes bagi Azure Machine Learning

Artikel ini berisi informasi referensi untuk mengonfigurasi Kubernetes dengan Azure Pembelajaran Mesin.

Versi serta wilayah Kubernetes yang didukung

  • Kluster Kubernetes yang menginstal ekstensi Azure Pembelajaran Mesin memiliki jendela dukungan versi "N-2", yang selaras dengan kebijakan dukungan versi Azure Kubernetes Service (AKS), di mana 'N' adalah versi minor GA terbaru dari Azure Kubernetes Service.

    • Misalnya, jika Azure Kubernetes Service memperkenalkan 1.20.a hari ini, versi 1.20.a, 1.20.b, 1.19.c, 1.19.d, 1.18.e, serta 1.18.f akan didukung.

    • Jika pelanggan menjalankan versi Kubernetes yang tidak didukung, mereka diminta untuk meningkatkan saat meminta dukungan untuk kluster. Kluster yang menjalankan rilis Kubernetes yang tidak didukung tidak tercakup oleh kebijakan dukungan ekstensi Azure Pembelajaran Mesin.

  • Ketersediaan wilayah ekstensi Azure Pembelajaran Mesin:

    • Ekstensi Azure Pembelajaran Mesin dapat disebarkan ke AKS atau Kubernetes dengan dukungan Azure Arc di wilayah yang didukung yang tercantum dalam dukungan wilayah Kubernetes dengan dukungan Azure Arc.

Saat Anda menyebarkan ekstensi Azure Pembelajaran Mesin, beberapa layanan terkait disebarkan ke kluster Kubernetes untuk Azure Pembelajaran Mesin. Tabel berikut mencantumkan Layanan Terkait dan penggunaan sumber dayanya di kluster:

Deploy/Daemonset Replika # Pelatihan Inferensi Permintaan CPU(m) Batas CPU(m) Permintaan Memori(Mi) Batas Memori(Mi)
metrics-controller-manager 1 10 100 20 300
prometheus-operator 1 100 400 128 512
Prometheus 1 100 1000 512 4096
kube-state-metrics 1 10 100 32 256
gateway 1 50 500 256 2048
fluent-bit 1 per Simpul 10 200 100 300
inference-operator-controller-manager 1 T/A 100 1000 128 1024
amlarc-identity-controller 1 T/A 200 1000 200 1024
amlarc-identity-proxy 1 T/A 200 1000 200 1024
azureml-ingress-nginx-controller 1 T/A 100 1000 64 512
azureml-fe-v2 1 (untuk tujuan Pengujian)
atau
3 (untuk tujuan Produksi)
T/A 900 2000 800 1200
penyebaran online 1 per Penyebaran Dibuat pengguna T/A <definisi pengguna> <definisi pengguna> <definisi pengguna> <definisi pengguna>
penyebaran online/sidecar identitas 1 per Penyebaran T/A 10 50 100 100
aml-operator 1 T/A 20 1020 124 2168
masuk gunung berapi 1 T/A 10 100 64 256
pengontrol gunung berapi 1 T/A 50 500 128 512
volcano-schedular 1 T/A 50 500 128 512

Tidak termasuk penyebaran/pod Anda sendiri, total persyaratan sumber daya sistem minimum adalah sebagai berikut:

Skenario Inferensi yang Diaktifkan Pelatihan yang Diaktifkan Permintaan CPU(m) Batas CPU(m) Permintaan Memori(Mi) Batas Memori(Mi) Jumlah simpul Ukuran VM minimum yang direkomendasikan SKU VM AKS yang sesuai
Untuk Pengujian T/A 1780 8300 2440 12296 1 Simpul 2 vCPU, Memori 7 GiB, 6400 IOPS, 1500Mbps BW DS2v2
Untuk Pengujian T/A 410 4420 1492 10960 1 Simpul 2 vCPU, Memori 7 GiB, 6400 IOPS, 1500Mbps BW DS2v2
Untuk Pengujian 1910 10420 2884 15744 1 Simpul 4 vCPU, Memori 14 GiB, 12800 IOPS, 1500Mbps BW DS3v2
Untuk Produksi T/A 3600 12700 4240 15296 3 Simpul 4 vCPU, Memori 14 GiB, 12800 IOPS, 1500Mbps BW DS3v2
Untuk Produksi T/A 410 4420 1.492 10960 1 Simpul 8 vCPU, Memroy 28GiB, 25600 IOP, 6000Mbps BW DS4v2
Untuk Produksi 3730 14820 4684 18744 3 Simpul 4 vCPU, Memori 14 GiB, 12800 IOPS, 1500Mbps BW DS4v2

Catatan

  • Untuk tujuan pengujian, Anda harus merujuk tp permintaan sumber daya.
  • Untuk tujuan produksi, Anda harus merujuk ke batas sumber daya.

Penting

Berikut adalah beberapa pertimbangan lain untuk referensi:

  • Untuk bandwidth jaringan yang lebih tinggi dan performa I/O disk yang lebih baik, kami merekomendasikan SKU yang lebih besar.
    • Ambil DV2/DSv2 sebagai contoh, menggunakan SKU besar dapat mengurangi waktu penarikan gambar untuk performa jaringan/penyimpanan yang lebih baik.
    • Informasi selengkapnya tentang reservasi AKS dapat ditemukan di reservasi AKS.
  • Jika Anda menggunakan kluster AKS, Anda mungkin perlu mempertimbangkan tentang batas ukuran pada gambar kontainer di AKS, informasi lebih lanjut yang dapat Anda temukan di batas ukuran gambar kontainer AKS.

Prasyarat bagi kluster ARO atau OCP

Nonaktifkan Keamanan Linux yang Ditingkatkan (SELinux)

Himpunan data Azure Pembelajaran Mesin (fitur SDK v1 yang digunakan dalam pekerjaan pelatihan Azure Pembelajaran Mesin) tidak didukung pada komputer dengan SELinux diaktifkan. Oleh karena itu, Anda perlu menonaktifkan selinux semua pekerja untuk menggunakan himpunan data Azure Pembelajaran Mesin.

Penyiapan istimewa bagi ARO dan OCP

Untuk penyebaran ekstensi Azure Pembelajaran Mesin pada kluster ARO atau OCP, berikan akses istimewa ke akun layanan Azure Pembelajaran Mesin, jalankan oc edit scc privileged perintah, dan tambahkan akun layanan berikut di bawah "pengguna:":

  • system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
  • system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
  • system:serviceaccount:azureml:prom-admission
  • system:serviceaccount:azureml:default
  • system:serviceaccount:azureml:prom-operator
  • system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
  • system:serviceaccount:azureml:azureml-fe-v2
  • system:serviceaccount:azureml:prom-prometheus
  • system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
  • system:serviceaccount:azureml:azureml-ingress-nginx
  • system:serviceaccount:azureml:azureml-ingress-nginx-admission

Catatan

  • {EXTENSION-NAME} merupakan nama ekstensi yang ditentukan dengan perintah CLI az k8s-extension create --name.
  • {KUBERNETES-COMPUTE-NAMESPACE}: merupakan namespace layanan komputasi Kubernetes yang disebutkan saat menyertakan perhitungan pada ruang kerja Azure Machine Learning. Lewati konfigurasi system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default jika KUBERNETES-COMPUTE-NAMESPACE adalah default.

Detail log yang dikumpulkan

Beberapa log tentang beban kerja Azure Pembelajaran Mesin dalam kluster akan dikumpulkan melalui komponen ekstensi, seperti status, metrik, siklus hidup, dll. Daftar berikut menunjukkan semua detail log yang dikumpulkan, termasuk jenis log yang dikumpulkan dan tempat log dikirim atau disimpan.

Pod Deskripsi sumber daya Info pengelogan detail
amlarc-identity-controller Minta dan perbarui token Azure Blob/Azure Container Registry melalui identitas terkelola. Hanya digunakan saat enableInference=true diatur saat menginstal ekstensi. Ini memiliki log jejak untuk status mendapatkan identitas untuk titik akhir untuk diautentikasi dengan layanan Azure Pembelajaran Mesin.
amlarc-identity-proxy Minta dan perbarui token Azure Blob/Azure Container Registry melalui identitas terkelola. Hanya digunakan saat enableInference=true diatur saat menginstal ekstensi. Ini memiliki log jejak untuk status mendapatkan identitas kluster untuk diautentikasi dengan layanan Azure Pembelajaran Mesin.
aml-operator Kelola siklus hidup pekerjaan pelatihan. Log berisi status pod pekerjaan pelatihan Azure Pembelajaran Mesin di kluster.
azureml-fe-v2 Komponen front-end yang merutekan permintaan inferensi masuk ke layanan yang disebarkan. Akses log pada tingkat permintaan, termasuk ID permintaan, waktu mulai, kode respons, detail kesalahan, dan durasi untuk latensi permintaan. Lacak log untuk perubahan metadata layanan, layanan yang menjalankan status sehat, dll. untuk tujuan penelusuran kesalahan.
gateway Gateway digunakan untuk berkomunikasi serta mengirim data bolak-balik. Lacak log pada permintaan dari layanan Azure Pembelajaran Mesin ke kluster.
pemeriksaan kesehatan -- Log berisi azureml status sumber daya namespace (ekstensi Azure Pembelajaran Mesin) untuk mendiagnosis apa yang membuat ekstensi tidak berfungsi.
inference-operator-controller-manager Kelola siklus hidup titik akhir inferensi. Log berisi titik akhir inferensi Azure Pembelajaran Mesin dan status pod penyebaran di kluster.
metrics-controller-manager Mengelola konfigurasi untuk Prometheus. Lacak log untuk status mengunggah pekerjaan pelatihan dan metrik penyebaran inferensi pada pemanfaatan CPU dan pemanfaatan memori.
server relai server relai hanya diperlukan dalam kluster yang terhubung dengan busur dan tidak akan diinstal di kluster AKS. Server relai bekerja dengan Azure Relay untuk berkomunikasi dengan layanan cloud. Log berisi info tingkat permintaan dari relai Azure.

Pekerjaan Azure Pembelajaran Mesin terhubung dengan penyimpanan data kustom

Persistent Volume (PV) dan Persistent Volume Claim (PVC) adalah konsep Kubernetes yang memungkinkan pengguna untuk menyediakan dan mengonsumsi berbagai sumber daya penyimpanan.

  1. Buat PV, dan ambil NFS sebagai contoh,
apiVersion: v1
kind: PersistentVolume
metadata:
  name: nfs-pv 
spec:
  capacity:
    storage: 1Gi 
  accessModes:
    - ReadWriteMany 
  persistentVolumeReclaimPolicy: Retain
  storageClassName: ""
  nfs: 
    path: /share/nfs
    server: 20.98.110.84 
    readOnly: false
  1. Buat PVC pada namespace Layanan Kubernetes yang sama dengan beban kerja ML. Di metadata, Anda harus menambahkan label ml.azure.com/pvc: "true" untuk dikenali oleh Azure Pembelajaran Mesin, dan menambahkan anotasi ml.azure.com/mountpath: <mount path> untuk mengatur jalur pemasangan.
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: nfs-pvc  
  namespace: default
  labels:
    ml.azure.com/pvc: "true"
  annotations:
    ml.azure.com/mountpath: "/mnt/nfs"
spec:
  storageClassName: ""
  accessModes:
  - ReadWriteMany      
  resources:
     requests:
       storage: 1Gi

Penting

  • Hanya pekerjaan/komponen perintah, pekerjaan/komponen hyperdrive, dan penyebaran batch yang mendukung penyimpanan data kustom dari PVC. > * Titik akhir online real time, pekerjaan AutoML dan pekerjaan PRS tidak mendukung penyimpanan data kustom dari PVC.
  • Selain itu, hanya pod di namespace Layanan Kubernetes yang sama dengan PVC yang akan dipasang volumenya. Ahli data dapat mengakses mount path yang disebutkan pada anotasi PVC dalam pekerjaan. Pekerjaan AutoML dan pekerjaan Prs tidak akan memiliki akses ke PVC.

Taint dan toleransi Azure Machine Learning yang didukung

Taint dan Toleration adalah konsep Kubernetes yang bekerja sama untuk memastikan bahwa pod tidak dijadwalkan ke simpul yang tidak pantas.

Kluster Kubernetes yang terintegrasi dengan Azure Pembelajaran Mesin (termasuk kluster AKS dan Arc Kubernetes) sekarang mendukung taint dan toleransi Azure Pembelajaran Mesin tertentu, memungkinkan pengguna untuk menambahkan taint azure Pembelajaran Mesin tertentu di Azure Pembelajaran Mesin-node khusus, untuk mencegah beban kerja non-Azure Pembelajaran Mesin dijadwalkan ke simpul khusus ini.

Kami hanya mendukung penempatan taint khusus amlarc pada simpul Anda, yang didefinisikan sebagai berikut:

Noda Tombol Nilai Efek Deskripsi
amlarc keseluruhan ml.azure.com/amlarc benar NoSchedule, NoExecute atau PreferNoSchedule Semua beban kerja Azure Pembelajaran Mesin, termasuk pod layanan sistem ekstensi dan pod beban kerja pembelajaran mesin akan mentolerir taint iniamlarc overall.
sistem amlarc ml.azure.com/amlarc-system benar NoSchedule, NoExecute atau PreferNoSchedule Hanya pod layanan sistem ekstensi Azure Pembelajaran Mesin yang akan mentolerir taint iniamlarc system.
beban kerja amlarc ml.azure.com/amlarc-workload benar NoSchedule, NoExecute atau PreferNoSchedule Hanya pod beban kerja pembelajaran mesin yang akan mentolerir taint ini amlarc workload .
grup sumber daya amlarc ml.azure.com/resource-group <nama grup sumber daya> NoSchedule, NoExecute atau PreferNoSchedule Hanya pod beban kerja pembelajaran mesin yang dibuat dari grup sumber daya tertentu yang akan mentolerir taint ini amlarc resource group .
ruang kerja amlarc ml.azure.com/workspace <nama ruang kerja> NoSchedule, NoExecute atau PreferNoSchedule Hanya pod beban kerja pembelajaran mesin yang dibuat dari ruang kerja tertentu yang akan mentolerir taint ini amlarc workspace .
komputasi amlarc ml.azure.com/compute <nama komputasi> NoSchedule, NoExecute atau PreferNoSchedule Hanya pod beban kerja pembelajaran mesin yang dibuat dengan target komputasi tertentu yang akan mentolerir taint ini amlarc compute .

Tip

  1. Untuk Azure Kubernetes Service (AKS), Anda dapat mengikuti contoh dalam Praktik terbaik untuk fitur penjadwal tingkat lanjut di Azure Kubernetes Service (AKS) untuk menerapkan taint ke kumpulan simpul.
  2. Untuk kluster Arc Kubernetes, seperti kluster Kubernetes lokal, Anda dapat menggunakan kubectl taint perintah untuk menambahkan taint ke simpul. Untuk contoh lainnya, lihat Dokumentasi Kubernetes.

Praktik Terbaik

Sesuai dengan persyaratan penjadwalan simpul khusus Azure Pembelajaran Mesin, Anda dapat menambahkan beberapa taint khusus amlarc untuk membatasi beban kerja Azure Pembelajaran Mesin apa yang dapat berjalan pada simpul. Kami mencantumkan praktik terbaik untuk menggunakan taint amlarc:

  • Untuk mencegah beban kerja Pembelajaran Mesin non-Azure berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda cukup menambahkan aml overall taint ke simpul ini.
  • Untuk mencegah pod non-sistem berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
    • amlarc overall Noda
    • amlarc system Noda
  • Untuk mencegah beban kerja non-ml berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
    • amlarc overall Noda
    • amlarc workloads Noda
  • Untuk mencegah beban kerja yang tidak dibuat dari ruang kerja X agar tidak berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
    • amlarc overall Noda
    • amlarc resource group (has this <workspace X>) Noda
    • amlarc <workspace X> Noda
  • Untuk mencegah beban kerja yang tidak dibuat oleh target komputasi X agar tidak berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
    • amlarc overall Noda
    • amlarc resource group (has this <workspace X>) Noda
    • amlarc workspace (has this <compute X>) Noda
    • amlarc <compute X> Noda

Mengintegrasikan pengontrol ingress lain dengan ekstensi Azure Pembelajaran Mesin melalui HTTP atau HTTPS

Selain azure Pembelajaran Mesin load balancer inferensi default azureml-fe, Anda juga dapat mengintegrasikan load balancer lain dengan ekstensi Azure Pembelajaran Mesin melalui HTTP atau HTTPS.

Tutorial ini membantu mengilustrasikan cara mengintegrasikan Pengontrol Ingress Nginx atau Azure Application Gateway.

Prasyarat

  • Sebarkan ekstensi Azure Pembelajaran Mesin dengan inferenceRouterServiceType=ClusterIP dan allowInsecureConnections=True, sehingga Pengontrol Ingress Nginx dapat menangani penghentian TLS dengan sendirinya alih-alih menyerahkannya ke azureml-fe ketika layanan diekspos melalui HTTPS.
  • Untuk mengintegrasikan dengan Nginx Ingress Controller, Anda memerlukan penyiapan kluster Kubernetes dengan Nginx Ingress Controller.
  • Untuk mengintegrasikan dengan Azure Application Gateway, Anda memerlukan penyiapan kluster Kubernetes dengan Pengontrol Ingress Azure Application Gateway.
    • Penyebaran Greenfield: Jika Anda memulai dari awal, lihat instruksi ini.
    • Penyebaran Brownfield: Jika Anda memiliki kluster AKS dan Application Gateway yang ada, lihat instruksi ini.
  • Jika Anda ingin menggunakan HTTPS pada aplikasi ini, Anda memerlukan sertifikat x509 dan kunci privatnya.

Mengekspos layanan melalui HTTP

Untuk mengekspos azureml-fe, kita akan menggunakan sumber daya masuk berikut:

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Ingress ini mengekspos azureml-fe layanan dan penyebaran yang dipilih sebagai backend default dari Pengontrol Ingress Nginx.

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Ingress ini mengekspos azureml-fe layanan dan penyebaran yang dipilih sebagai backend default Application Gateway.

Simpan sumber daya ingress di atas sebagai ing-azureml-fe.yaml.

  1. Sebarkan ing-azureml-fe.yaml dengan menjalankan:

    kubectl apply -f ing-azureml-fe.yaml
    
  2. Periksa log pengontrol ingress untuk status penyebaran.

  3. Sekarang aplikasi azureml-fe sudah tersedia. Anda dapat memeriksa dengan mengunjungi:

    • Pengontrol Ingress Nginx: alamat LoadBalancer publik pengontrol Nginx Ingress
    • Azure Application Gateway: alamat publik Application Gateway.
  4. Buat pekerjaan inferensi dan panggil.

    Catatan

    Ganti ip di scoring_uri dengan alamat LoadBalancer publik pengontrol Ingress Nginx sebelum memanggil.

Mengekspos layanan melalui HTTPS

  1. Sebelum menyebarkan ingress, Anda perlu membuat rahasia kubernetes untuk hosting sertifikat dan kunci privat. Anda bisa membuat rahasia kubernetes dengan menjalankan

    kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
    
  2. Tentukan ingress berikut. Di ingress, tentukan nama rahasia di bagian secretName.

    # Nginx Ingress Controller example
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: azureml-fe
      namespace: azureml
    spec:
      ingressClassName: nginx
      tls:
      - hosts:
        - <domain>
        secretName: <ingress-secret-name>
      rules:
      - host: <domain>
        http:
          paths:
          - path: /
            backend:
              service:
                name: azureml-fe
                port:
                  number: 80
            pathType: Prefix
    
    # Azure Application Gateway example
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: azureml-fe
      namespace: azureml
    spec:
      ingressClassName: azure-application-gateway
      tls:
      - hosts:
        - <domain>
        secretName: <ingress-secret-name>
      rules:
      - host: <domain>
        http:
          paths:
          - path: /
            backend:
              service:
                name: azureml-fe
                port:
                  number: 80
            pathType: Prefix
    

    Catatan

    Ganti <domain> dan <ingress-secret-name> di Sumber Daya Ingress di atas dengan domain yang menunjuk ke LoadBalancer dari pengontrol ingress Nginx/Application Gateway dan nama rahasia Anda. Simpan Sumber Daya Ingress di atas dalam nama file ing-azureml-fe-tls.yaml.

  3. Menyebarkan ing-azureml-fe-tls.yaml dengan menjalankan

    kubectl apply -f ing-azureml-fe-tls.yaml
    
  4. Periksa log pengontrol ingress untuk status penyebaran.

  5. azureml-fe Sekarang aplikasi tersedia di HTTPS. Anda dapat memeriksanya dengan mengunjungi alamat LoadBalancer publik pengontrol Nginx Ingress.

  6. Buat pekerjaan inferensi dan panggil.

    Catatan

    Ganti protokol dan IP di scoring_uri dengan https dan domain yang menunjuk ke LoadBalancer dari Pengontrol Ingress Nginx atau Application Gateway sebelum memanggil.

Menggunakan Templat ARM untuk Menyebarkan Ekstensi

Ekstensi pada kluster terkelola dapat disebarkan dengan templat ARM. Templat sampel dapat ditemukan dari deployextension.json, dengan file parameter demo deployextension.parameters.json

Untuk menggunakan templat penyebaran sampel, edit file parameter dengan nilai yang benar, lalu jalankan perintah berikut:

az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json

Informasi selengkapnya tentang cara menggunakan templat ARM dapat ditemukan dari dokumen templat ARM

Catatan rilis ekstensi AzuremML

Catatan

Fitur baru dirilis pada kalender dua mingguan.

Tanggal Versi Deskripsi versi
21 Nov 2023 1.1.39 Memperbaiki kerentanan. Pesan kesalahan yang disempurnakan. Peningkatan stabilitas untuk API relayserver.
1 Nov 2023 1.1.37 Memperbarui versi utusan sarana data.
Okt 11, 2023 1.1.35 Perbaiki gambar yang rentan. Perbaikan bug.
25 Agustus 2023 1.1.34 Perbaiki gambar yang rentan. Mengembalikan kesalahan identitas yang lebih rinci. Perbaikan bug.
18 Juli 2023 1.1.29 Tambahkan kesalahan operator identitas baru. Perbaikan bug.
4 Juni 2023 1.1.28 Tingkatkan penskala otomatis untuk menangani beberapa kumpulan simpul. Perbaikan bug.
Apr 18 , 2023 1.1.26 Perbaikan bug dan perbaikan kerentanan.
27 Maret 2023 1.1.25 Tambahkan pembatasan pekerjaan Azure Pembelajaran Mesin. Gagal cepat untuk pekerjaan pelatihan ketika penyiapan SSH gagal. Kurangi interval scrape Prometheus menjadi 30 detik. Meningkatkan pesan kesalahan untuk inferensi. Perbaiki gambar yang rentan.
7 Maret 2023 1.1.23 Ubah jenis instans default untuk menggunakan memori 2Gi. Perbarui konfigurasi metrik untuk penilaian-fe yang menambahkan scrape_interval 15s. Tambahkan spesifikasi sumber daya untuk sidecar mdc. Perbaiki gambar yang rentan. Perbaikan bug.
14 Feb 2023 1.1.21 Perbaikan bug.
7 Feb 2023 1.1.19 Meningkatkan pesan pengembalian kesalahan untuk inferensi. Perbarui jenis instans default untuk menggunakan batas memori 2Gi. Lakukan pemeriksaan kesehatan kluster untuk kesehatan pod, kuota sumber daya, versi Kubernetes, dan versi ekstensi. Perbaikan bug
27 Des 2022 1.1.17 Pindahkan Fluent-bit dari DaemonSet ke sespan. Tambahkan dukungan MDC. Menyempurnakan pesan kesalahan. Mendukung pekerjaan mode kluster (windows, linux). Perbaikan bug
29 Nov 2022 1.1.16 Tambahkan validasi jenis instans oleh CRD baru. Toleransi Dukungan. Mempersingkat Nama SVC. Jam inti beban kerja. Beberapa perbaikan dan peningkatan Bug.
13 Sep 2022 1.1.10 Perbaikan bug.
29 Agustus 2022 1.1.9 Logika pemeriksaan kesehatan yang ditingkatkan. Perbaikan bug.
Jun 23, 2022 1.1.6 Perbaikan bug.
15 Jun 2022 1.1.5 Pelatihan yang diperbarui untuk menggunakan runtime umum baru untuk menjalankan pekerjaan. Menghapus penggunaan Azure Relay untuk ekstensi AKS. Menghapus penggunaan bus layanan dari ekstensi. Penggunaan konteks keamanan yang diperbarui. Inferensi azureml-fe yang diperbarui ke v2. Diperbarui untuk menggunakan Volcano sebagai penjadwal pekerjaan pelatihan. Perbaikan bug.
Okt 14, 2021 1.0.37 Dukungan pemasangan volume PV/PVC dalam pekerjaan pelatihan AMLArc.
16 September 2021 1.0.29 Wilayah baru tersedia, WestUS, CentralUS, NorthCentralUS, KoreaCentral. Perluasan antrean pekerjaan. Lihat detail antrean pekerjaan di Azure Pembelajaran Mesin Workspace Studio. Kebijakan pembunuhan otomatis. Mendukung max_run_duration_seconds di ScriptRunConfig. Sistem mencoba untuk membatalkan eksekusi secara otomatis jika membutuhkan waktu lebih lama dari nilai pengaturan. Peningkatan performa pada dukungan penskalakan otomatis kluster. Penyebaran agen Arc dan ekstensi ML dari registri kontainer lokal.
24 Agustus 2021 1.0.28 Jenis instans komputasi didukung dalam YAML pekerjaan. Tetapkan Identitas Terkelola ke komputasi AMLArc.
10 Agustus 2021 1.0.20 Dukungan distribusi Kubernetes baru, K3S - Kubernetes Ringan. Sebarkan ekstensi Azure Pembelajaran Mesin ke kluster AKS Anda tanpa menyambungkan melalui Azure Arc. Automated Pembelajaran Mesin (AutoML) melalui Python SDK. Gunakan CLI 2.0 untuk melampirkan kluster Kubernetes ke Azure Pembelajaran Mesin Workspace. Optimalkan pemanfaatan sumber daya CPU/memori komponen ekstensi Azure Pembelajaran Mesin.
2 Juli 2021 1.0.13 Distribusi Kubernetes baru mendukung, OpenShift Kubernetes dan GKE (Google Kubernetes Engine). Dukungan skala otomatis. Jika kluster Kubernetes yang dikelola pengguna memungkinkan skala otomatis, kluster secara otomatis diskalakan atau diskalakan sesuai dengan volume eksekusi aktif dan penyebaran. Peningkatan performa pada peluncur pekerjaan, yang mempersingkat waktu eksekusi pekerjaan menjadi banyak.