GPU-bewaking configureren met Container Insights

Artikel
08/09/2023

Vanaf de agentversie ciprod03022019 ondersteunt de geïntegreerde agent van Container Insights nu bewaking van gpu-gebruik (Graphical Processing Unit) op GPU-compatibele Kubernetes-clusterknooppunten en bewaakt pods of containers die GPU-resources aanvragen en gebruiken.

Notitie

Volgens de upstreamaankondiging van Kubernetes worden gpu-metrische gegevens die door de kubelet worden gerapporteerd, afgeschaft voor Kubernetes versie 1.20+. Als gevolg hiervan kan Container Insights de volgende metrische gegevens niet meer standaard verzamelen:

containerGpuDutyCycle
containerGpumemoryTotalBytes
containerGpumemoryUsedBytes

Als u wilt doorgaan met het verzamelen van GPU-metrische gegevens via Container Insights, migreert u voor 31 december 2022 naar de leverancierspecifieke export van metrische gegevens van uw GPU. Configureer Prometheus-scraping om metrische gegevens van de geïmplementeerde leverancierspecifieke exporteur te scrapen.

Ondersteunde GPU-leveranciers

Container Insights ondersteunt het bewaken van GPU-clusters van de volgende GPU-leveranciers:

NVIDIA
AMD

Container Insights begint automatisch met het bewaken van GPU-gebruik op knooppunten en GPU-aanvragen voor pods en workloads door de volgende metrische gegevens met intervallen van 60 seconden te verzamelen en op te slaan in de tabel InsightMetrics .

Notitie

Nadat u clusters met GPU-knooppunten hebt ingericht, moet u ervoor zorgen dat het GPU-stuurprogramma is geïnstalleerd zoals vereist door Azure Kubernetes Service (AKS) om GPU-workloads uit te voeren. Container insights verzamelen GPU-metrische gegevens via GPU-stuurprogrammapods die worden uitgevoerd in het knooppunt.

Naam van metrische gegevens	Metrische dimensie (tags)	Description
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Percentage tijd gedurende de afgelopen voorbeeldperiode (60 seconden) waarin de GPU bezig was/actief was met verwerken voor een container. De taakcyclus is een getal tussen 1 en 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Elke container kan limieten opgeven als een of meer GPU's. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Elke container kan een of meer GPU's aanvragen. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	De hoeveelheid GPU-geheugen in bytes die beschikbaar is voor gebruik voor een specifieke container.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	De hoeveelheid GPU-geheugen in bytes die door een specifieke container wordt gebruikt.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Het aantal GPU's in een knooppunt dat door Kubernetes kan worden gebruikt.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Totaal aantal GPU's in een knooppunt.

* Op basis van upstream-wijzigingen in Kubernetes worden deze metrische gegevens niet meer uit de doos verzameld. Als tijdelijke hotfix kunt u voor AKS uw GPU-knooppuntgroep upgraden naar de nieuwste versie of *-2022.06.08 of hoger. Voor Kubernetes met Azure Arc schakelt u de functiepoort DisableAcceleratorUsageMetrics=false in de kubelet-configuratie van het knooppunt in en start u de kubelet opnieuw op. Nadat de upstream-wijzigingen algemeen beschikbaar zijn, werkt deze oplossing niet meer. Maak plannen om te migreren naar met behulp van uw GPU-leverancierspecifieke export van metrische gegevens uiterlijk op 31 december 2022.

GPU-prestatiegrafieken

Container insights bevat vooraf geconfigureerde grafieken voor de metrische gegevens die eerder in de tabel zijn vermeld als een GPU-werkmap voor elk cluster. Zie Workbooks in Container Insights voor een beschrijving van de werkmappen die beschikbaar zijn voor Container Insights.

Volgende stappen

Zie GPU's gebruiken voor rekenintensieve workloads op Azure Kubernetes Service voor meer informatie over het implementeren van een AKS-cluster met GPU-knooppunten.
Meer informatie over voor GPU geoptimaliseerde VM-SKU's in Azure.
Raadpleeg GPU-ondersteuning in Kubernetes voor meer informatie over experimentele ondersteuning voor Kubernetes voor het beheren van GPU's op een of meer knooppunten in een cluster.

Share via

GPU-bewaking configureren met Container Insights

Ondersteunde GPU-leveranciers

GPU-prestatiegrafieken

Volgende stappen

Aanvullende resources