Mengonfigurasi pemantauan GPU dengan wawasan Kontainer

Artikel
08/09/2023

Dimulai dengan versi agen ciprod03022019, agen terintegrasi wawasan Kontainer sekarang mendukung pemantauan penggunaan unit pemrosesan grafis (GPU) pada node kluster Kubernetes yang sadar GPU dan memantau pod atau kontainer yang meminta dan menggunakan sumber daya GPU.

Catatan

Sesuai pengumuman upstream Kube, Kubernetes menghentikan metrik GPU yang sedang dilaporkan oleh kubelet, untuk Kubernetes versi 1.20+. Akibatnya, wawasan Kontainer tidak akan lagi dapat mengumpulkan metrik berikut di luar kotak:

containerGpuDutyCycle
containerGpumemoryTotalBytes
containerGpumemoryUsedBytes

Untuk terus mengumpulkan metrik GPU melalui wawasan Kontainer, migrasikan ke pengekspor metrik khusus vendor GPU Anda sebelum 31 Desember 2022. Konfigurasikan pengikisan Prometheus untuk mengikis metrik dari pengekspor khusus vendor yang disebarkan.

Vendor GPU yang didukung

Wawasan kontainer mendukung pemantauan kluster GPU dari vendor GPU berikut:

NVIDIA
AMD

Wawasan kontainer secara otomatis mulai memantau penggunaan GPU pada simpul dan GPU yang meminta pod dan beban kerja dengan mengumpulkan metrik berikut pada interval 60 detik dan menyimpannya dalam tabel InsightMetrics .

Catatan

Setelah Anda memprovisikan kluster dengan simpul GPU, pastikan driver GPU diinstal sesuai kebutuhan Azure Kubernetes Service (AKS) untuk menjalankan beban kerja GPU. Wawasan kontainer mengumpulkan metrik GPU melalui pod driver GPU yang berjalan di simpul.

Nama metrik	Dimensi metrik (tag)	Deskripsi
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Persentase waktu selama periode sampel sebelumnya (60 detik) di mana GPU sibuk/aktif memproses kontainer. Siklus tugas berupa angka antara 1 dan 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Setiap kontainer dapat menentukan batas sebagai satu GPU atau lebih. Tidak dimungkinkan untuk meminta atau membatasi sebagian kecil dari GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Setiap kontainer dapat meminta satu GPU atau lebih. Tidak dimungkinkan untuk meminta atau membatasi sebagian kecil dari GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Jumlah memori GPU dalam byte yang tersedia untuk digunakan untuk kontainer tertentu.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Jumlah memori GPU dalam byte yang digunakan oleh kontainer tertentu.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Jumlah GPU dalam suatu simpul yang dapat digunakan oleh Kube.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Jumlah total GPU dalam simpul.

* Berdasarkan perubahan upstream Kubernetes, metrik ini tidak lagi dikumpulkan di luar kotak. Sebagai perbaikan sementara, untuk AKS, tingkatkan kumpulan simpul GPU Anda ke versi terbaru atau *-2022.06.08 atau yang lebih tinggi. Untuk Kubernetes dengan dukungan Azure Arc, aktifkan gerbang DisableAcceleratorUsageMetrics=false fitur dalam konfigurasi kubelet simpul dan mulai ulang kubelet. Setelah perubahan upstram mencapai ketersediaan umum, perbaikan ini tidak akan lagi berfungsi. Buat rencana untuk bermigrasi menggunakan pengekspor metrik khusus vendor GPU Anda sebelum 31 Desember 2022.

Bagan performa GPU

Wawasan kontainer mencakup bagan yang telah dikonfigurasi sebelumnya untuk metrik yang tercantum sebelumnya dalam tabel sebagai buku kerja GPU untuk setiap kluster. Untuk deskripsi buku kerja yang tersedia untuk wawasan Container, lihat Buku kerja di Wawasan kontainer.

Langkah berikutnya

Lihat Menggunakan GPU untuk beban kerja intensif komputasi pada Azure Kubernetes Service untuk mempelajari cara menyebarkan kluster AKS yang menyertakan simpul berkemampuan GPU.
Pelajari selengkapnya tentang SKU VM yang dioptimalkan GPU di Azure.
Tinjau dukungan GPU di Kube untuk mempelajari lebih lanjut tentang dukungan eksperimental Kube untuk mengelola GPU di satu atau beberapa simpul dalam sebuah kluster.

Mengonfigurasi pemantauan GPU dengan wawasan Kontainer

Vendor GPU yang didukung

Bagan performa GPU

Langkah berikutnya

Sumber Daya Tambahan: