Mengonfigurasi pemantauan GPU dengan wawasan Kontainer

Dimulai dengan versi agen ciprod03022019, agen terintegrasi wawasan Kontainer sekarang mendukung pemantauan penggunaan unit pemrosesan grafis (GPU) pada node kluster Kubernetes yang sadar GPU dan memantau pod atau kontainer yang meminta dan menggunakan sumber daya GPU.

Catatan

Sesuai pengumuman upstream Kube, Kubernetes menghentikan metrik GPU yang sedang dilaporkan oleh kubelet, untuk Kubernetes versi 1.20+. Akibatnya, wawasan Kontainer tidak akan lagi dapat mengumpulkan metrik berikut di luar kotak:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Untuk terus mengumpulkan metrik GPU melalui wawasan Kontainer, migrasikan ke pengekspor metrik khusus vendor GPU Anda sebelum 31 Desember 2022. Konfigurasikan pengikisan Prometheus untuk mengikis metrik dari pengekspor khusus vendor yang disebarkan.

Vendor GPU yang didukung

Wawasan kontainer mendukung pemantauan kluster GPU dari vendor GPU berikut:

Wawasan kontainer secara otomatis mulai memantau penggunaan GPU pada simpul dan GPU yang meminta pod dan beban kerja dengan mengumpulkan metrik berikut pada interval 60 detik dan menyimpannya dalam tabel InsightMetrics .

Catatan

Setelah Anda memprovisikan kluster dengan simpul GPU, pastikan driver GPU diinstal sesuai kebutuhan Azure Kubernetes Service (AKS) untuk menjalankan beban kerja GPU. Wawasan kontainer mengumpulkan metrik GPU melalui pod driver GPU yang berjalan di simpul.

Nama metrik Dimensi metrik (tag) Deskripsi
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Persentase waktu selama periode sampel sebelumnya (60 detik) di mana GPU sibuk/aktif memproses kontainer. Siklus tugas berupa angka antara 1 dan 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Setiap kontainer dapat menentukan batas sebagai satu GPU atau lebih. Tidak dimungkinkan untuk meminta atau membatasi sebagian kecil dari GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Setiap kontainer dapat meminta satu GPU atau lebih. Tidak dimungkinkan untuk meminta atau membatasi sebagian kecil dari GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Jumlah memori GPU dalam byte yang tersedia untuk digunakan untuk kontainer tertentu.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Jumlah memori GPU dalam byte yang digunakan oleh kontainer tertentu.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Jumlah GPU dalam suatu simpul yang dapat digunakan oleh Kube.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Jumlah total GPU dalam simpul.

* Berdasarkan perubahan upstream Kubernetes, metrik ini tidak lagi dikumpulkan di luar kotak. Sebagai perbaikan sementara, untuk AKS, tingkatkan kumpulan simpul GPU Anda ke versi terbaru atau *-2022.06.08 atau yang lebih tinggi. Untuk Kubernetes dengan dukungan Azure Arc, aktifkan gerbang DisableAcceleratorUsageMetrics=false fitur dalam konfigurasi kubelet simpul dan mulai ulang kubelet. Setelah perubahan upstram mencapai ketersediaan umum, perbaikan ini tidak akan lagi berfungsi. Buat rencana untuk bermigrasi menggunakan pengekspor metrik khusus vendor GPU Anda sebelum 31 Desember 2022.

Bagan performa GPU

Wawasan kontainer mencakup bagan yang telah dikonfigurasi sebelumnya untuk metrik yang tercantum sebelumnya dalam tabel sebagai buku kerja GPU untuk setiap kluster. Untuk deskripsi buku kerja yang tersedia untuk wawasan Container, lihat Buku kerja di Wawasan kontainer.

Langkah berikutnya