Automatisches Reparieren von AKS-Knoten (Azure Kubernetes Service)

AKS überwacht den Integritätszustand von Workerknoten kontinuierlich und führt im Falle eines fehlerhaften Zustands automatisch eine Knotenreparatur durch. Von der Azure-VM-Plattform werden Wartungsmaßnahmen für virtuelle Computer durchgeführt, auf denen Probleme auftreten.

AKS und virtuelle Azure-Computer arbeiten zusammen, um Dienstunterbrechungen für Cluster zu minimieren.

Dieses Dokument enthält Informationen zum Verhalten der automatischen Knotenreparatur für Windows- und Linux-Knoten.

Überprüfung auf fehlerhafte Knoten durch AKS

Von AKS wird anhand der folgenden Regeln ermittelt, ob ein Knoten fehlerhaft ist und repariert werden muss:

  • Der Knoten meldet bei aufeinanderfolgenden Überprüfungen innerhalb eines Zeitraums von zehn Minuten den Status NotReady.
  • Der Knoten meldet innerhalb von zehn Minuten keinen Status.

Sie können den Integritätszustand Ihrer Knoten mit kubectl manuell überprüfen.

kubectl get nodes

Funktionsweise der automatischen Reparatur

Hinweis

AKS initiiert Reparaturvorgänge mit dem Benutzerkonto aks-remediator.

Wenn von AKS ein fehlerhafter Knoten identifiziert wird und dieser Knoten zehn Minuten lang fehlerhaft ist, werden folgende Aktionen ausgeführt:

  1. Neustarten des Knotens
  2. Durchführen eines Reimagings, falls der Neustart nicht erfolgreich war

Sollte die automatische Reparatur nicht erfolgreich sein, werden von AKS-Technikern alternative Abhilfemaßnahmen geprüft.

Sind bei einer Integritätsüberprüfung mehrere Knoten fehlerhaft, werden die Knoten einzeln nacheinander repariert.

Einschränkungen

In vielen Fällen kann AKS ermitteln, ob ein Knoten fehlerhaft ist, und das Problem zu beheben versuchen. Es gibt jedoch Fälle, in denen AKS das Problem entweder nicht beheben kann oder nicht erkennt, dass ein Problem vorliegt. AKS kann beispielsweise keine Probleme erkennen, wenn aufgrund eines Fehlers in der Netzwerkkonfiguration kein Knotenstatus gemeldet wird.

Nächste Schritte

Verwenden Sie Verfügbarkeitszonen, um die Hochverfügbarkeit Ihrer AKS-Clusterworkloads zu erhöhen.