GPU-bewaking configureren met Container Insights
Vanaf de agentversie ciprod03022019 ondersteunt de geïntegreerde agent van Container Insights nu bewaking van gpu-gebruik (Graphical Processing Unit) op GPU-compatibele Kubernetes-clusterknooppunten en bewaakt pods of containers die GPU-resources aanvragen en gebruiken.
Notitie
Volgens de upstreamaankondiging van Kubernetes worden gpu-metrische gegevens die door de kubelet worden gerapporteerd, afgeschaft voor Kubernetes versie 1.20+. Als gevolg hiervan kan Container Insights de volgende metrische gegevens niet meer standaard verzamelen:
- containerGpuDutyCycle
- containerGpumemoryTotalBytes
- containerGpumemoryUsedBytes
Als u wilt doorgaan met het verzamelen van GPU-metrische gegevens via Container Insights, migreert u voor 31 december 2022 naar de leverancierspecifieke export van metrische gegevens van uw GPU. Configureer Prometheus-scraping om metrische gegevens van de geïmplementeerde leverancierspecifieke exporteur te scrapen.
Ondersteunde GPU-leveranciers
Container Insights ondersteunt het bewaken van GPU-clusters van de volgende GPU-leveranciers:
Container Insights begint automatisch met het bewaken van GPU-gebruik op knooppunten en GPU-aanvragen voor pods en workloads door de volgende metrische gegevens met intervallen van 60 seconden te verzamelen en op te slaan in de tabel InsightMetrics .
Notitie
Nadat u clusters met GPU-knooppunten hebt ingericht, moet u ervoor zorgen dat het GPU-stuurprogramma is geïnstalleerd zoals vereist door Azure Kubernetes Service (AKS) om GPU-workloads uit te voeren. Container insights verzamelen GPU-metrische gegevens via GPU-stuurprogrammapods die worden uitgevoerd in het knooppunt.
Naam van metrische gegevens | Metrische dimensie (tags) | Description |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Percentage tijd gedurende de afgelopen voorbeeldperiode (60 seconden) waarin de GPU bezig was/actief was met verwerken voor een container. De taakcyclus is een getal tussen 1 en 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Elke container kan limieten opgeven als een of meer GPU's. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Elke container kan een of meer GPU's aanvragen. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | De hoeveelheid GPU-geheugen in bytes die beschikbaar is voor gebruik voor een specifieke container. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | De hoeveelheid GPU-geheugen in bytes die door een specifieke container wordt gebruikt. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Het aantal GPU's in een knooppunt dat door Kubernetes kan worden gebruikt. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Totaal aantal GPU's in een knooppunt. |
* Op basis van upstream-wijzigingen in Kubernetes worden deze metrische gegevens niet meer uit de doos verzameld. Als tijdelijke hotfix kunt u voor AKS uw GPU-knooppuntgroep upgraden naar de nieuwste versie of *-2022.06.08 of hoger. Voor Kubernetes met Azure Arc schakelt u de functiepoort DisableAcceleratorUsageMetrics=false
in de kubelet-configuratie van het knooppunt in en start u de kubelet opnieuw op. Nadat de upstream-wijzigingen algemeen beschikbaar zijn, werkt deze oplossing niet meer. Maak plannen om te migreren naar met behulp van uw GPU-leverancierspecifieke export van metrische gegevens uiterlijk op 31 december 2022.
GPU-prestatiegrafieken
Container insights bevat vooraf geconfigureerde grafieken voor de metrische gegevens die eerder in de tabel zijn vermeld als een GPU-werkmap voor elk cluster. Zie Workbooks in Container Insights voor een beschrijving van de werkmappen die beschikbaar zijn voor Container Insights.
Volgende stappen
- Zie GPU's gebruiken voor rekenintensieve workloads op Azure Kubernetes Service voor meer informatie over het implementeren van een AKS-cluster met GPU-knooppunten.
- Meer informatie over voor GPU geoptimaliseerde VM-SKU's in Azure.
- Raadpleeg GPU-ondersteuning in Kubernetes voor meer informatie over experimentele ondersteuning voor Kubernetes voor het beheren van GPU's op een of meer knooppunten in een cluster.