Referensi dalam mengonfigurasi kluster Kubernetes bagi Azure Machine Learning

Artikel
10/27/2023

Artikel ini berisi informasi referensi untuk mengonfigurasi Kubernetes dengan Azure Pembelajaran Mesin.

Versi serta wilayah Kubernetes yang didukung

Kluster Kubernetes yang menginstal ekstensi Azure Pembelajaran Mesin memiliki jendela dukungan versi "N-2", yang selaras dengan kebijakan dukungan versi Azure Kubernetes Service (AKS), di mana 'N' adalah versi minor GA terbaru dari Azure Kubernetes Service.
- Misalnya, jika Azure Kubernetes Service memperkenalkan 1.20.a hari ini, versi 1.20.a, 1.20.b, 1.19.c, 1.19.d, 1.18.e, serta 1.18.f akan didukung.
- Jika pelanggan menjalankan versi Kubernetes yang tidak didukung, mereka diminta untuk meningkatkan saat meminta dukungan untuk kluster. Kluster yang menjalankan rilis Kubernetes yang tidak didukung tidak tercakup oleh kebijakan dukungan ekstensi Azure Pembelajaran Mesin.
Ketersediaan wilayah ekstensi Azure Pembelajaran Mesin:
- Ekstensi Azure Pembelajaran Mesin dapat disebarkan ke AKS atau Kubernetes dengan dukungan Azure Arc di wilayah yang didukung yang tercantum dalam dukungan wilayah Kubernetes dengan dukungan Azure Arc.

Perencanaan sumber daya yang direkomendasikan

Saat Anda menyebarkan ekstensi Azure Pembelajaran Mesin, beberapa layanan terkait disebarkan ke kluster Kubernetes untuk Azure Pembelajaran Mesin. Tabel berikut mencantumkan Layanan Terkait dan penggunaan sumber dayanya di kluster:

Deploy/Daemonset	Replika #	Pelatihan	Inferensi	Permintaan CPU(m)	Batas CPU(m)	Permintaan Memori(Mi)	Batas Memori(Mi)
metrics-controller-manager	1	✓	✓	10	100	20	300
prometheus-operator	1	✓	✓	100	400	128	512
Prometheus	1	✓	✓	100	1000	512	4096
kube-state-metrics	1	✓	✓	10	100	32	256
gateway	1	✓	✓	50	500	256	2048
fluent-bit	1 per Simpul	✓	✓	10	200	100	300
inference-operator-controller-manager	1	✓	T/A	100	1000	128	1024
amlarc-identity-controller	1	✓	T/A	200	1000	200	1024
amlarc-identity-proxy	1	✓	T/A	200	1000	200	1024
azureml-ingress-nginx-controller	1	✓	T/A	100	1000	64	512
azureml-fe-v2	1 (untuk tujuan Pengujian) atau 3 (untuk tujuan Produksi)	✓	T/A	900	2000	800	1200
penyebaran online	1 per Penyebaran	Dibuat pengguna	T/A	<definisi pengguna>	<definisi pengguna>	<definisi pengguna>	<definisi pengguna>
penyebaran online/sidecar identitas	1 per Penyebaran	✓	T/A	10	50	100	100
aml-operator	1	T/A	✓	20	1020	124	2168
masuk gunung berapi	1	T/A	✓	10	100	64	256
pengontrol gunung berapi	1	T/A	✓	50	500	128	512
volcano-schedular	1	T/A	✓	50	500	128	512

Tidak termasuk penyebaran/pod Anda sendiri, total persyaratan sumber daya sistem minimum adalah sebagai berikut:

Skenario	Inferensi yang Diaktifkan	Pelatihan yang Diaktifkan	Permintaan CPU(m)	Batas CPU(m)	Permintaan Memori(Mi)	Batas Memori(Mi)	Jumlah simpul	Ukuran VM minimum yang direkomendasikan	SKU VM AKS yang sesuai
Untuk Pengujian	✓	T/A	1780	8300	2440	12296	1 Simpul	2 vCPU, Memori 7 GiB, 6400 IOPS, 1500Mbps BW	DS2v2
Untuk Pengujian	T/A	✓	410	4420	1492	10960	1 Simpul	2 vCPU, Memori 7 GiB, 6400 IOPS, 1500Mbps BW	DS2v2
Untuk Pengujian	✓	✓	1910	10420	2884	15744	1 Simpul	4 vCPU, Memori 14 GiB, 12800 IOPS, 1500Mbps BW	DS3v2
Untuk Produksi	✓	T/A	3600	12700	4240	15296	3 Simpul	4 vCPU, Memori 14 GiB, 12800 IOPS, 1500Mbps BW	DS3v2
Untuk Produksi	T/A	✓	410	4420	1.492	10960	1 Simpul	8 vCPU, Memroy 28GiB, 25600 IOP, 6000Mbps BW	DS4v2
Untuk Produksi	✓	✓	3730	14820	4684	18744	3 Simpul	4 vCPU, Memori 14 GiB, 12800 IOPS, 1500Mbps BW	DS4v2

Catatan

Untuk tujuan pengujian, Anda harus merujuk tp permintaan sumber daya.
Untuk tujuan produksi, Anda harus merujuk ke batas sumber daya.

Penting

Berikut adalah beberapa pertimbangan lain untuk referensi:

Untuk bandwidth jaringan yang lebih tinggi dan performa I/O disk yang lebih baik, kami merekomendasikan SKU yang lebih besar.
- Ambil DV2/DSv2 sebagai contoh, menggunakan SKU besar dapat mengurangi waktu penarikan gambar untuk performa jaringan/penyimpanan yang lebih baik.
- Informasi selengkapnya tentang reservasi AKS dapat ditemukan di reservasi AKS.
Jika Anda menggunakan kluster AKS, Anda mungkin perlu mempertimbangkan tentang batas ukuran pada gambar kontainer di AKS, informasi lebih lanjut yang dapat Anda temukan di batas ukuran gambar kontainer AKS.

Prasyarat bagi kluster ARO atau OCP

Nonaktifkan Keamanan Linux yang Ditingkatkan (SELinux)

Himpunan data Azure Pembelajaran Mesin (fitur SDK v1 yang digunakan dalam pekerjaan pelatihan Azure Pembelajaran Mesin) tidak didukung pada komputer dengan SELinux diaktifkan. Oleh karena itu, Anda perlu menonaktifkan selinux semua pekerja untuk menggunakan himpunan data Azure Pembelajaran Mesin.

Penyiapan istimewa bagi ARO dan OCP

Untuk penyebaran ekstensi Azure Pembelajaran Mesin pada kluster ARO atau OCP, berikan akses istimewa ke akun layanan Azure Pembelajaran Mesin, jalankan oc edit scc privileged perintah, dan tambahkan akun layanan berikut di bawah "pengguna:":

system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
system:serviceaccount:azureml:prom-admission
system:serviceaccount:azureml:default
system:serviceaccount:azureml:prom-operator
system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
system:serviceaccount:azureml:azureml-fe-v2
system:serviceaccount:azureml:prom-prometheus
system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
system:serviceaccount:azureml:azureml-ingress-nginx
system:serviceaccount:azureml:azureml-ingress-nginx-admission

Catatan

{EXTENSION-NAME} merupakan nama ekstensi yang ditentukan dengan perintah CLI az k8s-extension create --name.
{KUBERNETES-COMPUTE-NAMESPACE}: merupakan namespace layanan komputasi Kubernetes yang disebutkan saat menyertakan perhitungan pada ruang kerja Azure Machine Learning. Lewati konfigurasi system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default jika KUBERNETES-COMPUTE-NAMESPACE adalah default.

Detail log yang dikumpulkan

Beberapa log tentang beban kerja Azure Pembelajaran Mesin dalam kluster akan dikumpulkan melalui komponen ekstensi, seperti status, metrik, siklus hidup, dll. Daftar berikut menunjukkan semua detail log yang dikumpulkan, termasuk jenis log yang dikumpulkan dan tempat log dikirim atau disimpan.

Pod	Deskripsi sumber daya	Info pengelogan detail
amlarc-identity-controller	Minta dan perbarui token Azure Blob/Azure Container Registry melalui identitas terkelola.	Hanya digunakan saat `enableInference=true` diatur saat menginstal ekstensi. Ini memiliki log jejak untuk status mendapatkan identitas untuk titik akhir untuk diautentikasi dengan layanan Azure Pembelajaran Mesin.
amlarc-identity-proxy	Minta dan perbarui token Azure Blob/Azure Container Registry melalui identitas terkelola.	Hanya digunakan saat `enableInference=true` diatur saat menginstal ekstensi. Ini memiliki log jejak untuk status mendapatkan identitas kluster untuk diautentikasi dengan layanan Azure Pembelajaran Mesin.
aml-operator	Kelola siklus hidup pekerjaan pelatihan.	Log berisi status pod pekerjaan pelatihan Azure Pembelajaran Mesin di kluster.
azureml-fe-v2	Komponen front-end yang merutekan permintaan inferensi masuk ke layanan yang disebarkan.	Akses log pada tingkat permintaan, termasuk ID permintaan, waktu mulai, kode respons, detail kesalahan, dan durasi untuk latensi permintaan. Lacak log untuk perubahan metadata layanan, layanan yang menjalankan status sehat, dll. untuk tujuan penelusuran kesalahan.
gateway	Gateway digunakan untuk berkomunikasi serta mengirim data bolak-balik.	Lacak log pada permintaan dari layanan Azure Pembelajaran Mesin ke kluster.
pemeriksaan kesehatan	--	Log berisi `azureml` status sumber daya namespace (ekstensi Azure Pembelajaran Mesin) untuk mendiagnosis apa yang membuat ekstensi tidak berfungsi.
inference-operator-controller-manager	Kelola siklus hidup titik akhir inferensi.	Log berisi titik akhir inferensi Azure Pembelajaran Mesin dan status pod penyebaran di kluster.
metrics-controller-manager	Mengelola konfigurasi untuk Prometheus.	Lacak log untuk status mengunggah pekerjaan pelatihan dan metrik penyebaran inferensi pada pemanfaatan CPU dan pemanfaatan memori.
server relai	server relai hanya diperlukan dalam kluster yang terhubung dengan busur dan tidak akan diinstal di kluster AKS.	Server relai bekerja dengan Azure Relay untuk berkomunikasi dengan layanan cloud. Log berisi info tingkat permintaan dari relai Azure.

Pekerjaan Azure Pembelajaran Mesin terhubung dengan penyimpanan data kustom

Persistent Volume (PV) dan Persistent Volume Claim (PVC) adalah konsep Kubernetes yang memungkinkan pengguna untuk menyediakan dan mengonsumsi berbagai sumber daya penyimpanan.

Buat PV, dan ambil NFS sebagai contoh,

apiVersion: v1
kind: PersistentVolume
metadata:
  name: nfs-pv 
spec:
  capacity:
    storage: 1Gi 
  accessModes:
    - ReadWriteMany 
  persistentVolumeReclaimPolicy: Retain
  storageClassName: ""
  nfs: 
    path: /share/nfs
    server: 20.98.110.84 
    readOnly: false

Buat PVC pada namespace Layanan Kubernetes yang sama dengan beban kerja ML. Di metadata, Anda harus menambahkan label ml.azure.com/pvc: "true" untuk dikenali oleh Azure Pembelajaran Mesin, dan menambahkan anotasi ml.azure.com/mountpath: <mount path> untuk mengatur jalur pemasangan.

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: nfs-pvc  
  namespace: default
  labels:
    ml.azure.com/pvc: "true"
  annotations:
    ml.azure.com/mountpath: "/mnt/nfs"
spec:
  storageClassName: ""
  accessModes:
  - ReadWriteMany      
  resources:
     requests:
       storage: 1Gi

Penting

Hanya pekerjaan/komponen perintah, pekerjaan/komponen hyperdrive, dan penyebaran batch yang mendukung penyimpanan data kustom dari PVC. > * Titik akhir online real time, pekerjaan AutoML dan pekerjaan PRS tidak mendukung penyimpanan data kustom dari PVC.
Selain itu, hanya pod di namespace Layanan Kubernetes yang sama dengan PVC yang akan dipasang volumenya. Ahli data dapat mengakses mount path yang disebutkan pada anotasi PVC dalam pekerjaan. Pekerjaan AutoML dan pekerjaan Prs tidak akan memiliki akses ke PVC.

Taint dan toleransi Azure Machine Learning yang didukung

Taint dan Toleration adalah konsep Kubernetes yang bekerja sama untuk memastikan bahwa pod tidak dijadwalkan ke simpul yang tidak pantas.

Kluster Kubernetes yang terintegrasi dengan Azure Pembelajaran Mesin (termasuk kluster AKS dan Arc Kubernetes) sekarang mendukung taint dan toleransi Azure Pembelajaran Mesin tertentu, memungkinkan pengguna untuk menambahkan taint azure Pembelajaran Mesin tertentu di Azure Pembelajaran Mesin-node khusus, untuk mencegah beban kerja non-Azure Pembelajaran Mesin dijadwalkan ke simpul khusus ini.

Kami hanya mendukung penempatan taint khusus amlarc pada simpul Anda, yang didefinisikan sebagai berikut:

Noda	Tombol	Nilai	Efek	Deskripsi
amlarc keseluruhan	ml.azure.com/amlarc	benar	`NoSchedule`, `NoExecute` atau `PreferNoSchedule`	Semua beban kerja Azure Pembelajaran Mesin, termasuk pod layanan sistem ekstensi dan pod beban kerja pembelajaran mesin akan mentolerir taint ini`amlarc overall`.
sistem amlarc	ml.azure.com/amlarc-system	benar	`NoSchedule`, `NoExecute` atau `PreferNoSchedule`	Hanya pod layanan sistem ekstensi Azure Pembelajaran Mesin yang akan mentolerir taint ini`amlarc system`.
beban kerja amlarc	ml.azure.com/amlarc-workload	benar	`NoSchedule`, `NoExecute` atau `PreferNoSchedule`	Hanya pod beban kerja pembelajaran mesin yang akan mentolerir taint ini `amlarc workload` .
grup sumber daya amlarc	ml.azure.com/resource-group	<nama grup sumber daya>	`NoSchedule`, `NoExecute` atau `PreferNoSchedule`	Hanya pod beban kerja pembelajaran mesin yang dibuat dari grup sumber daya tertentu yang akan mentolerir taint ini `amlarc resource group` .
ruang kerja amlarc	ml.azure.com/workspace	<nama ruang kerja>	`NoSchedule`, `NoExecute` atau `PreferNoSchedule`	Hanya pod beban kerja pembelajaran mesin yang dibuat dari ruang kerja tertentu yang akan mentolerir taint ini `amlarc workspace` .
komputasi amlarc	ml.azure.com/compute	<nama komputasi>	`NoSchedule`, `NoExecute` atau `PreferNoSchedule`	Hanya pod beban kerja pembelajaran mesin yang dibuat dengan target komputasi tertentu yang akan mentolerir taint ini `amlarc compute` .

Tip

Untuk Azure Kubernetes Service (AKS), Anda dapat mengikuti contoh dalam Praktik terbaik untuk fitur penjadwal tingkat lanjut di Azure Kubernetes Service (AKS) untuk menerapkan taint ke kumpulan simpul.
Untuk kluster Arc Kubernetes, seperti kluster Kubernetes lokal, Anda dapat menggunakan kubectl taint perintah untuk menambahkan taint ke simpul. Untuk contoh lainnya, lihat Dokumentasi Kubernetes.

Praktik Terbaik

Sesuai dengan persyaratan penjadwalan simpul khusus Azure Pembelajaran Mesin, Anda dapat menambahkan beberapa taint khusus amlarc untuk membatasi beban kerja Azure Pembelajaran Mesin apa yang dapat berjalan pada simpul. Kami mencantumkan praktik terbaik untuk menggunakan taint amlarc:

Untuk mencegah beban kerja Pembelajaran Mesin non-Azure berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda cukup menambahkan aml overall taint ke simpul ini.
Untuk mencegah pod non-sistem berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
- amlarc overall Noda
- amlarc system Noda
Untuk mencegah beban kerja non-ml berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
- amlarc overall Noda
- amlarc workloads Noda
Untuk mencegah beban kerja yang tidak dibuat dari ruang kerja X agar tidak berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
- amlarc overall Noda
- amlarc resource group (has this <workspace X>) Noda
- amlarc <workspace X> Noda
Untuk mencegah beban kerja yang tidak dibuat oleh target komputasi X agar tidak berjalan di kumpulan simpul/simpul khusus Azure Pembelajaran Mesin, Anda harus menambahkan taint berikut:
- amlarc overall Noda
- amlarc resource group (has this <workspace X>) Noda
- amlarc workspace (has this <compute X>) Noda
- amlarc <compute X> Noda

Mengintegrasikan pengontrol ingress lain dengan ekstensi Azure Pembelajaran Mesin melalui HTTP atau HTTPS

Selain azure Pembelajaran Mesin load balancer inferensi default azureml-fe, Anda juga dapat mengintegrasikan load balancer lain dengan ekstensi Azure Pembelajaran Mesin melalui HTTP atau HTTPS.

Tutorial ini membantu mengilustrasikan cara mengintegrasikan Pengontrol Ingress Nginx atau Azure Application Gateway.

Prasyarat

Sebarkan ekstensi Azure Pembelajaran Mesin dengan inferenceRouterServiceType=ClusterIP dan allowInsecureConnections=True, sehingga Pengontrol Ingress Nginx dapat menangani penghentian TLS dengan sendirinya alih-alih menyerahkannya ke azureml-fe ketika layanan diekspos melalui HTTPS.
Untuk mengintegrasikan dengan Nginx Ingress Controller, Anda memerlukan penyiapan kluster Kubernetes dengan Nginx Ingress Controller.
- Buat pengontrol dasar: Jika Anda memulai dari awal, lihat instruksi ini.
Untuk mengintegrasikan dengan Azure Application Gateway, Anda memerlukan penyiapan kluster Kubernetes dengan Pengontrol Ingress Azure Application Gateway.
- Penyebaran Greenfield: Jika Anda memulai dari awal, lihat instruksi ini.
- Penyebaran Brownfield: Jika Anda memiliki kluster AKS dan Application Gateway yang ada, lihat instruksi ini.
Jika Anda ingin menggunakan HTTPS pada aplikasi ini, Anda memerlukan sertifikat x509 dan kunci privatnya.

Mengekspos layanan melalui HTTP

Untuk mengekspos azureml-fe, kita akan menggunakan sumber daya masuk berikut:

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Ingress ini mengekspos azureml-fe layanan dan penyebaran yang dipilih sebagai backend default dari Pengontrol Ingress Nginx.

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Ingress ini mengekspos azureml-fe layanan dan penyebaran yang dipilih sebagai backend default Application Gateway.

Simpan sumber daya ingress di atas sebagai ing-azureml-fe.yaml.

Sebarkan ing-azureml-fe.yaml dengan menjalankan:
```
kubectl apply -f ing-azureml-fe.yaml
```
Periksa log pengontrol ingress untuk status penyebaran.
Sekarang aplikasi azureml-fe sudah tersedia. Anda dapat memeriksa dengan mengunjungi:
- Pengontrol Ingress Nginx: alamat LoadBalancer publik pengontrol Nginx Ingress
- Azure Application Gateway: alamat publik Application Gateway.
Buat pekerjaan inferensi dan panggil.

Catatan

Ganti ip di scoring_uri dengan alamat LoadBalancer publik pengontrol Ingress Nginx sebelum memanggil.

Mengekspos layanan melalui HTTPS

Sebelum menyebarkan ingress, Anda perlu membuat rahasia kubernetes untuk hosting sertifikat dan kunci privat. Anda bisa membuat rahasia kubernetes dengan menjalankan
```
kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
```

Tentukan ingress berikut. Di ingress, tentukan nama rahasia di bagian secretName.

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  tls:
  - hosts:
    - <domain>
    secretName: <ingress-secret-name>
  rules:
  - host: <domain>
    http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  tls:
  - hosts:
    - <domain>
    secretName: <ingress-secret-name>
  rules:
  - host: <domain>
    http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Catatan

Ganti <domain> dan <ingress-secret-name> di Sumber Daya Ingress di atas dengan domain yang menunjuk ke LoadBalancer dari pengontrol ingress Nginx/Application Gateway dan nama rahasia Anda. Simpan Sumber Daya Ingress di atas dalam nama file ing-azureml-fe-tls.yaml.

Menyebarkan ing-azureml-fe-tls.yaml dengan menjalankan
```
kubectl apply -f ing-azureml-fe-tls.yaml
```
Periksa log pengontrol ingress untuk status penyebaran.
azureml-fe Sekarang aplikasi tersedia di HTTPS. Anda dapat memeriksanya dengan mengunjungi alamat LoadBalancer publik pengontrol Nginx Ingress.
Buat pekerjaan inferensi dan panggil.

Catatan

Ganti protokol dan IP di scoring_uri dengan https dan domain yang menunjuk ke LoadBalancer dari Pengontrol Ingress Nginx atau Application Gateway sebelum memanggil.

Menggunakan Templat ARM untuk Menyebarkan Ekstensi

Ekstensi pada kluster terkelola dapat disebarkan dengan templat ARM. Templat sampel dapat ditemukan dari deployextension.json, dengan file parameter demo deployextension.parameters.json

Untuk menggunakan templat penyebaran sampel, edit file parameter dengan nilai yang benar, lalu jalankan perintah berikut:

az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json

Informasi selengkapnya tentang cara menggunakan templat ARM dapat ditemukan dari dokumen templat ARM

Catatan rilis ekstensi AzuremML

Catatan

Fitur baru dirilis pada kalender dua mingguan.

Tanggal	Versi	Deskripsi versi
21 Nov 2023	1.1.39	Memperbaiki kerentanan. Pesan kesalahan yang disempurnakan. Peningkatan stabilitas untuk API relayserver.
1 Nov 2023	1.1.37	Memperbarui versi utusan sarana data.
Okt 11, 2023	1.1.35	Perbaiki gambar yang rentan. Perbaikan bug.
25 Agustus 2023	1.1.34	Perbaiki gambar yang rentan. Mengembalikan kesalahan identitas yang lebih rinci. Perbaikan bug.
18 Juli 2023	1.1.29	Tambahkan kesalahan operator identitas baru. Perbaikan bug.
4 Juni 2023	1.1.28	Tingkatkan penskala otomatis untuk menangani beberapa kumpulan simpul. Perbaikan bug.
Apr 18 , 2023	1.1.26	Perbaikan bug dan perbaikan kerentanan.
27 Maret 2023	1.1.25	Tambahkan pembatasan pekerjaan Azure Pembelajaran Mesin. Gagal cepat untuk pekerjaan pelatihan ketika penyiapan SSH gagal. Kurangi interval scrape Prometheus menjadi 30 detik. Meningkatkan pesan kesalahan untuk inferensi. Perbaiki gambar yang rentan.
7 Maret 2023	1.1.23	Ubah jenis instans default untuk menggunakan memori 2Gi. Perbarui konfigurasi metrik untuk penilaian-fe yang menambahkan scrape_interval 15s. Tambahkan spesifikasi sumber daya untuk sidecar mdc. Perbaiki gambar yang rentan. Perbaikan bug.
14 Feb 2023	1.1.21	Perbaikan bug.
7 Feb 2023	1.1.19	Meningkatkan pesan pengembalian kesalahan untuk inferensi. Perbarui jenis instans default untuk menggunakan batas memori 2Gi. Lakukan pemeriksaan kesehatan kluster untuk kesehatan pod, kuota sumber daya, versi Kubernetes, dan versi ekstensi. Perbaikan bug
27 Des 2022	1.1.17	Pindahkan Fluent-bit dari DaemonSet ke sespan. Tambahkan dukungan MDC. Menyempurnakan pesan kesalahan. Mendukung pekerjaan mode kluster (windows, linux). Perbaikan bug
29 Nov 2022	1.1.16	Tambahkan validasi jenis instans oleh CRD baru. Toleransi Dukungan. Mempersingkat Nama SVC. Jam inti beban kerja. Beberapa perbaikan dan peningkatan Bug.
13 Sep 2022	1.1.10	Perbaikan bug.
29 Agustus 2022	1.1.9	Logika pemeriksaan kesehatan yang ditingkatkan. Perbaikan bug.
Jun 23, 2022	1.1.6	Perbaikan bug.
15 Jun 2022	1.1.5	Pelatihan yang diperbarui untuk menggunakan runtime umum baru untuk menjalankan pekerjaan. Menghapus penggunaan Azure Relay untuk ekstensi AKS. Menghapus penggunaan bus layanan dari ekstensi. Penggunaan konteks keamanan yang diperbarui. Inferensi azureml-fe yang diperbarui ke v2. Diperbarui untuk menggunakan Volcano sebagai penjadwal pekerjaan pelatihan. Perbaikan bug.
Okt 14, 2021	1.0.37	Dukungan pemasangan volume PV/PVC dalam pekerjaan pelatihan AMLArc.
16 September 2021	1.0.29	Wilayah baru tersedia, WestUS, CentralUS, NorthCentralUS, KoreaCentral. Perluasan antrean pekerjaan. Lihat detail antrean pekerjaan di Azure Pembelajaran Mesin Workspace Studio. Kebijakan pembunuhan otomatis. Mendukung max_run_duration_seconds di ScriptRunConfig. Sistem mencoba untuk membatalkan eksekusi secara otomatis jika membutuhkan waktu lebih lama dari nilai pengaturan. Peningkatan performa pada dukungan penskalakan otomatis kluster. Penyebaran agen Arc dan ekstensi ML dari registri kontainer lokal.
24 Agustus 2021	1.0.28	Jenis instans komputasi didukung dalam YAML pekerjaan. Tetapkan Identitas Terkelola ke komputasi AMLArc.
10 Agustus 2021	1.0.20	Dukungan distribusi Kubernetes baru, K3S - Kubernetes Ringan. Sebarkan ekstensi Azure Pembelajaran Mesin ke kluster AKS Anda tanpa menyambungkan melalui Azure Arc. Automated Pembelajaran Mesin (AutoML) melalui Python SDK. Gunakan CLI 2.0 untuk melampirkan kluster Kubernetes ke Azure Pembelajaran Mesin Workspace. Optimalkan pemanfaatan sumber daya CPU/memori komponen ekstensi Azure Pembelajaran Mesin.
2 Juli 2021	1.0.13	Distribusi Kubernetes baru mendukung, OpenShift Kubernetes dan GKE (Google Kubernetes Engine). Dukungan skala otomatis. Jika kluster Kubernetes yang dikelola pengguna memungkinkan skala otomatis, kluster secara otomatis diskalakan atau diskalakan sesuai dengan volume eksekusi aktif dan penyebaran. Peningkatan performa pada peluncur pekerjaan, yang mempersingkat waktu eksekusi pekerjaan menjadi banyak.

Share via

Referensi dalam mengonfigurasi kluster Kubernetes bagi Azure Machine Learning

Versi serta wilayah Kubernetes yang didukung

Perencanaan sumber daya yang direkomendasikan

Prasyarat bagi kluster ARO atau OCP

Nonaktifkan Keamanan Linux yang Ditingkatkan (SELinux)

Penyiapan istimewa bagi ARO dan OCP

Detail log yang dikumpulkan

Pekerjaan Azure Pembelajaran Mesin terhubung dengan penyimpanan data kustom

Taint dan toleransi Azure Machine Learning yang didukung

Praktik Terbaik

Mengintegrasikan pengontrol ingress lain dengan ekstensi Azure Pembelajaran Mesin melalui HTTP atau HTTPS

Prasyarat

Mengekspos layanan melalui HTTP

Mengekspos layanan melalui HTTPS

Menggunakan Templat ARM untuk Menyebarkan Ekstensi

Catatan rilis ekstensi AzuremML

Sumber Daya Tambahan: