Teilen über


Konfigurieren der GPU-Überwachung mit Container Insights

Ab der Agent-Version ciprod03022019 unterstützt der integrierte Agent von Container Insights das Überwachen der GPU-Nutzung (Graphical Processing Unit) auf GPU-fähigen Kubernetes-Clusterknoten sowie das Überwachen von Pods oder Containern, die GPU-Ressourcen anfordern und verwenden.

Hinweis

Gemäß der Vorankündigung von Kubernetes stellt Kubernetes die vom Kubelet gemeldeten GPU-Metriken für Kubernetes-Versionen ab 1.20 ein. Das bedeutet, dass Container Insights nicht mehr in der Lage ist, die folgenden Metriken standardmäßig zu erfassen:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Um weiterhin GPU-Metriken über Container Insights zu sammeln, migrieren Sie bis zum 31. Dezember 2022 zum spezifischen Exportprogramm für Metriken von Ihrem GPU-Hersteller. Konfigurieren Sie die Prometheus-Erfassung, um Metriken vom bereitgestellten herstellerspezifischen Exportprogramm zu sammeln.

Unterstützte GPU-Anbieter

Container Insights unterstützt die Überwachung von GPU-Clustern der folgenden GPU-Anbieter:

Container Insights beginnt automatisch mit der Überwachung der GPU-Nutzung auf Knoten sowie GPUs anfordernden Pods und Workloads, indem die folgenden Metriken in 60-Sekunden-Intervallen gesammelt und in der Tabelle InsightMetrics gespeichert werden.

Hinweis

Nachdem Sie Cluster mit GPU-Knoten bereitgestellt haben, stellen Sie sicher, dass der GPU-Treiber gemäß Azure Kubernetes Service (AKS) installiert ist, um GPU-Workloads auszuführen. Container Insights sammelt GPU-Metriken über GPU-Treiberpods, die auf dem Knoten ausgeführt werden.

Metrikname Metrikdimension (Tags) Beschreibung
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Der Prozentsatz der Zeit im Verlauf des letzten Beispielzeitraums (60 Sekunden), während dessen die GPU ausgelastet war/aktiv die Verarbeitung für einen Container ausgeführt hat. Der Arbeitszyklus ist eine Zahl zwischen 1 und 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName In jedem Container können Grenzwerte als eine oder mehrere GPUs angegeben werden. Es ist nicht möglich, einen Bruchteil einer GPU anzufordern oder einzuschränken.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Jeder Container kann einen oder mehrere GPUs anfordern. Es ist nicht möglich, einen Bruchteil einer GPU anzufordern oder einzuschränken.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Menge an GPU-Arbeitsspeicher in Byte, die für einen bestimmten Container verwendet werden kann
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Menge an GPU-Arbeitsspeicher in Byte, die für einen bestimmten Container verwendet wird
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Anzahl von GPUs in einem Knoten, die von Kubernetes verwendet werden können.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Gesamtanzahl der GPUs auf einem Knoten

* Basierend auf Kubernetes-Upstreamänderungen werden diese Metriken nicht mehr sofort erfasst. Aktualisieren Sie als temporären Hotfix für AKS Ihren GPU-Knotenpool auf die neueste Version oder auf eine höhere Version als *-2022.06.08. Aktivieren Sie für Kubernetes mit Azure Arc-Unterstützung das Featuregate DisableAcceleratorUsageMetrics=false in der Kubelet-Konfiguration des Knotens, und starten Sie das Kubelet neu. Nachdem die Upstreamänderungen die allgemeine Verfügbarkeit erreicht haben, funktioniert dieser Fix nicht mehr. Planen Sie bis zum 31. Dezember 2022 die Migration zum Exportprogramm für Metriken Ihres GPU-Herstellers.

GPU-Leistungsdiagramme

Container Insights enthält vorkonfigurierte Diagramme für die Metriken, die weiter oben in der Tabelle als GPU-Arbeitsmappe für jeden Cluster aufgeführt sind. Unter Arbeitsmappen in Container Insights finden Sie eine Beschreibung der für Container Insights verfügbaren Arbeitsmappen.

Nächste Schritte