Configurare il monitoraggio della GPU con Informazioni dettagliate sui contenitori

Articolo
08/09/2023

A partire dalla versione dell'agente ciprod03022019, l'agente integrato Informazioni dettagliate contenitore supporta ora il monitoraggio dell'utilizzo dell'unità di elaborazione grafica (GPU) nei nodi del cluster Kubernetes compatibile con GPU e monitora i pod o i contenitori che richiedono e usano risorse GPU.

Nota

In base all'annuncio upstream di Kubernetes, Kubernetes deprecato le metriche GPU segnalate dal kubelet, per Kubernetes versione 1.20+. Di conseguenza, Le informazioni dettagliate sui contenitori non saranno più in grado di raccogliere le metriche seguenti predefinite:

containerGpuDutyCycle
containerGpumemoryTotalBytes
containerGpumemoryUsedBytes

Per continuare a raccogliere le metriche GPU tramite Informazioni dettagliate sui contenitori, eseguire la migrazione all'utilità di esportazione specifica del fornitore della GPU entro il 31 dicembre 2022. Configurare lo scraping di Prometheus per eliminare le metriche dall'utilità di esportazione specifica del fornitore distribuita.

Fornitori di GPU supportati

Informazioni dettagliate sui contenitori supporta il monitoraggio dei cluster GPU dai fornitori di GPU seguenti:

NVIDIA
AMD

Le informazioni dettagliate sui contenitori avviano automaticamente il monitoraggio dell'utilizzo della GPU nei nodi e nella GPU che richiedono pod e carichi di lavoro raccogliendo le metriche seguenti a intervalli di 60 secondi e archiviandole nella tabella InsightMetrics .

Nota

Dopo aver effettuato il provisioning dei cluster con nodi GPU, assicurarsi che il driver GPU sia installato come richiesto da servizio Azure Kubernetes (servizio Azure Kubernetes) per eseguire carichi di lavoro GPU. Informazioni dettagliate sui contenitori raccolgono le metriche GPU tramite pod driver GPU in esecuzione nel nodo.

Nome metrica	Dimensione metrica (tag)	Descrizione
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Percentuale di tempo nell'ultimo periodo di campionamento (60 secondi) durante il quale la GPU è stata occupata/attivamente l'elaborazione per un contenitore. Il ciclo di servizio è un numero compreso tra 1 e 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Ogni contenitore può specificare limiti come una o più GPU. Non è possibile richiedere o limitare una frazione di una GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Ogni contenitore può richiedere una o più GPU. Non è possibile richiedere o limitare una frazione di una GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Quantità di memoria GPU in byte disponibili per l'uso per un contenitore specifico.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Quantità di memoria GPU in byte usati da un contenitore specifico.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Numero di GPU in un nodo che può essere usato da Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Numero totale di GPU in un nodo.

* In base alle modifiche upstream di Kubernetes, queste metriche non vengono più raccolte predefinite. Come hotfix temporaneo, per il servizio Azure Kubernetes aggiornare il pool di nodi GPU alla versione più recente o a *-2022.06.08 o versione successiva. Per Kubernetes abilitato per Azure Arc, abilitare il controllo DisableAcceleratorUsageMetrics=false delle funzionalità nella configurazione kubelet del nodo e riavviare kubelet. Dopo che le modifiche upstream raggiungono la disponibilità generale, questa correzione non funzionerà più. Pianifica la migrazione all'uso dell'utilità di esportazione specifica del fornitore della GPU entro il 31 dicembre 2022.

Grafici delle prestazioni gpu

Informazioni dettagliate sui contenitori include grafici preconfigurati per le metriche elencate in precedenza nella tabella come cartella di lavoro GPU per ogni cluster. Per una descrizione delle cartelle di lavoro disponibili per Informazioni dettagliate sui contenitori, vedere Cartelle di lavoro in Informazioni dettagliate sui contenitori.

Passaggi successivi

Vedere Usare GPU per carichi di lavoro a elevato utilizzo di calcolo in servizio Azure Kubernetes per informazioni su come distribuire un cluster del servizio Azure Kubernetes che include nodi abilitati per GPU.
Altre informazioni sugli SKU di VM ottimizzati per GPU in Azure.
Esaminare il supporto gpu in Kubernetes per altre informazioni sul supporto sperimentale di Kubernetes per la gestione di GPU in uno o più nodi in un cluster.

Configurare il monitoraggio della GPU con Informazioni dettagliate sui contenitori

Fornitori di GPU supportati

Grafici delle prestazioni gpu

Passaggi successivi

Risorse aggiuntive