Mengonfigurasi pemantauan GPU dengan wawasan Kontainer
Dimulai dengan versi agen ciprod03022019, agen terintegrasi wawasan Kontainer sekarang mendukung pemantauan penggunaan unit pemrosesan grafis (GPU) pada node kluster Kubernetes yang sadar GPU dan memantau pod atau kontainer yang meminta dan menggunakan sumber daya GPU.
Catatan
Sesuai pengumuman upstream Kube, Kubernetes menghentikan metrik GPU yang sedang dilaporkan oleh kubelet, untuk Kubernetes versi 1.20+. Akibatnya, wawasan Kontainer tidak akan lagi dapat mengumpulkan metrik berikut di luar kotak:
- containerGpuDutyCycle
- containerGpumemoryTotalBytes
- containerGpumemoryUsedBytes
Untuk terus mengumpulkan metrik GPU melalui wawasan Kontainer, migrasikan ke pengekspor metrik khusus vendor GPU Anda sebelum 31 Desember 2022. Konfigurasikan pengikisan Prometheus untuk mengikis metrik dari pengekspor khusus vendor yang disebarkan.
Vendor GPU yang didukung
Wawasan kontainer mendukung pemantauan kluster GPU dari vendor GPU berikut:
Wawasan kontainer secara otomatis mulai memantau penggunaan GPU pada simpul dan GPU yang meminta pod dan beban kerja dengan mengumpulkan metrik berikut pada interval 60 detik dan menyimpannya dalam tabel InsightMetrics .
Catatan
Setelah Anda memprovisikan kluster dengan simpul GPU, pastikan driver GPU diinstal sesuai kebutuhan Azure Kubernetes Service (AKS) untuk menjalankan beban kerja GPU. Wawasan kontainer mengumpulkan metrik GPU melalui pod driver GPU yang berjalan di simpul.
Nama metrik | Dimensi metrik (tag) | Deskripsi |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Persentase waktu selama periode sampel sebelumnya (60 detik) di mana GPU sibuk/aktif memproses kontainer. Siklus tugas berupa angka antara 1 dan 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Setiap kontainer dapat menentukan batas sebagai satu GPU atau lebih. Tidak dimungkinkan untuk meminta atau membatasi sebagian kecil dari GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Setiap kontainer dapat meminta satu GPU atau lebih. Tidak dimungkinkan untuk meminta atau membatasi sebagian kecil dari GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Jumlah memori GPU dalam byte yang tersedia untuk digunakan untuk kontainer tertentu. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Jumlah memori GPU dalam byte yang digunakan oleh kontainer tertentu. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Jumlah GPU dalam suatu simpul yang dapat digunakan oleh Kube. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Jumlah total GPU dalam simpul. |
* Berdasarkan perubahan upstream Kubernetes, metrik ini tidak lagi dikumpulkan di luar kotak. Sebagai perbaikan sementara, untuk AKS, tingkatkan kumpulan simpul GPU Anda ke versi terbaru atau *-2022.06.08 atau yang lebih tinggi. Untuk Kubernetes dengan dukungan Azure Arc, aktifkan gerbang DisableAcceleratorUsageMetrics=false
fitur dalam konfigurasi kubelet simpul dan mulai ulang kubelet. Setelah perubahan upstram mencapai ketersediaan umum, perbaikan ini tidak akan lagi berfungsi. Buat rencana untuk bermigrasi menggunakan pengekspor metrik khusus vendor GPU Anda sebelum 31 Desember 2022.
Bagan performa GPU
Wawasan kontainer mencakup bagan yang telah dikonfigurasi sebelumnya untuk metrik yang tercantum sebelumnya dalam tabel sebagai buku kerja GPU untuk setiap kluster. Untuk deskripsi buku kerja yang tersedia untuk wawasan Container, lihat Buku kerja di Wawasan kontainer.
Langkah berikutnya
- Lihat Menggunakan GPU untuk beban kerja intensif komputasi pada Azure Kubernetes Service untuk mempelajari cara menyebarkan kluster AKS yang menyertakan simpul berkemampuan GPU.
- Pelajari selengkapnya tentang SKU VM yang dioptimalkan GPU di Azure.
- Tinjau dukungan GPU di Kube untuk mempelajari lebih lanjut tentang dukungan eksperimental Kube untuk mengelola GPU di satu atau beberapa simpul dalam sebuah kluster.