Share via


GPU-bewaking configureren met Container Insights

Vanaf de agentversie ciprod03022019 ondersteunt de geïntegreerde agent van Container Insights nu bewaking van gpu-gebruik (Graphical Processing Unit) op GPU-compatibele Kubernetes-clusterknooppunten en bewaakt pods of containers die GPU-resources aanvragen en gebruiken.

Notitie

Volgens de upstreamaankondiging van Kubernetes worden gpu-metrische gegevens die door de kubelet worden gerapporteerd, afgeschaft voor Kubernetes versie 1.20+. Als gevolg hiervan kan Container Insights de volgende metrische gegevens niet meer standaard verzamelen:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Als u wilt doorgaan met het verzamelen van GPU-metrische gegevens via Container Insights, migreert u voor 31 december 2022 naar de leverancierspecifieke export van metrische gegevens van uw GPU. Configureer Prometheus-scraping om metrische gegevens van de geïmplementeerde leverancierspecifieke exporteur te scrapen.

Ondersteunde GPU-leveranciers

Container Insights ondersteunt het bewaken van GPU-clusters van de volgende GPU-leveranciers:

Container Insights begint automatisch met het bewaken van GPU-gebruik op knooppunten en GPU-aanvragen voor pods en workloads door de volgende metrische gegevens met intervallen van 60 seconden te verzamelen en op te slaan in de tabel InsightMetrics .

Notitie

Nadat u clusters met GPU-knooppunten hebt ingericht, moet u ervoor zorgen dat het GPU-stuurprogramma is geïnstalleerd zoals vereist door Azure Kubernetes Service (AKS) om GPU-workloads uit te voeren. Container insights verzamelen GPU-metrische gegevens via GPU-stuurprogrammapods die worden uitgevoerd in het knooppunt.

Naam van metrische gegevens Metrische dimensie (tags) Description
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Percentage tijd gedurende de afgelopen voorbeeldperiode (60 seconden) waarin de GPU bezig was/actief was met verwerken voor een container. De taakcyclus is een getal tussen 1 en 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Elke container kan limieten opgeven als een of meer GPU's. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Elke container kan een of meer GPU's aanvragen. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor De hoeveelheid GPU-geheugen in bytes die beschikbaar is voor gebruik voor een specifieke container.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor De hoeveelheid GPU-geheugen in bytes die door een specifieke container wordt gebruikt.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Het aantal GPU's in een knooppunt dat door Kubernetes kan worden gebruikt.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Totaal aantal GPU's in een knooppunt.

* Op basis van upstream-wijzigingen in Kubernetes worden deze metrische gegevens niet meer uit de doos verzameld. Als tijdelijke hotfix kunt u voor AKS uw GPU-knooppuntgroep upgraden naar de nieuwste versie of *-2022.06.08 of hoger. Voor Kubernetes met Azure Arc schakelt u de functiepoort DisableAcceleratorUsageMetrics=false in de kubelet-configuratie van het knooppunt in en start u de kubelet opnieuw op. Nadat de upstream-wijzigingen algemeen beschikbaar zijn, werkt deze oplossing niet meer. Maak plannen om te migreren naar met behulp van uw GPU-leverancierspecifieke export van metrische gegevens uiterlijk op 31 december 2022.

GPU-prestatiegrafieken

Container insights bevat vooraf geconfigureerde grafieken voor de metrische gegevens die eerder in de tabel zijn vermeld als een GPU-werkmap voor elk cluster. Zie Workbooks in Container Insights voor een beschrijving van de werkmappen die beschikbaar zijn voor Container Insights.

Volgende stappen