Reparación automática de nodos de Azure Kubernetes Service (AKS)Azure Kubernetes Service (AKS) node auto-repair

AKS comprueba de forma continua el estado de mantenimiento de los nodos de trabajo y, si son incorrectos, los repara automáticamente.AKS continuously checks the health state of worker nodes and performs automatic repair of the nodes if they become unhealthy. Este documento informa a los operadores sobre cómo se comporta la funcionalidad de reparación automática del nodo para nodos Windows y Linux.This document informs operators about how automatic node repair functionality behaves for both Windows and Linux nodes. Además de las reparaciones de AKS, la plataforma de VM de Azure realiza el mantenimiento en máquinas virtuales que también experimentan problemas.In addition to AKS repairs, the Azure VM platform performs maintenance on Virtual Machines that experience issues as well. AKS y las VM de Azure trabajan de forma conjunta para minimizar las interrupciones del servicio de los clústeres.AKS and Azure VMs work together to minimize service disruptions for clusters.

Comprobaciones de nodos en mal estado en AKSHow AKS checks for unhealthy nodes

AKS usa reglas para determinar si un nodo es incorrecto y necesita reparación.AKS uses rules to determine if a node is unhealthy and needs repair. AKS usa las reglas siguientes para determinar si es necesaria la reparación automática.AKS uses the following rules to determine if automatic repair is needed.

  • El nodo notifica el estado de NotReady de las comprobaciones consecutivas en un período de 10 minutos.The node reports status of NotReady on consecutive checks within a 10-minute timeframe
  • El nodo no notifica un estado en 10 minutos.The node doesn't report a status within 10 minutes

Puede comprobar manualmente el estado de mantenimiento de los nodos con kubectl.You can manually check the health state of your nodes with kubectl.

kubectl get nodes

Funcionamiento de la reparación automáticaHow automatic repair works

Nota

AKS inicia las operaciones de reparación con la cuenta de usuario aks-remediator.AKS initiates repair operations with the user account aks-remediator.

Si un nodo es incorrecto de acuerdo con las reglas anteriores y se mantiene en este estado durante 10 minutos consecutivos, se realizan las siguientes acciones.If a node is unhealthy based on the rules above and remains unhealthy for 10 consecutive minutes, the following actions are taken.

  1. Reinicio del nodoReboot the node
  2. Si el reinicio no se realiza correctamente, restablezca la imagen inicial del nodo.If the reboot is unsuccessful, reimage the node
  3. Si la nueva imagen no se ha realizado correctamente, cree y vuelva a restablecer la imagen de un nuevo nodo.If the reimage is unsuccessful, create and reimage a new node

Si ninguna de las acciones se realiza correctamente, los ingenieros de AKS investigarán las correcciones adicionales.If none of the actions are successful, additional remediations are investigated by AKS engineers. Si hay varios nodos incorrectos durante una comprobación de estado, cada nodo se repara individualmente antes de que comience otra reparación.If multiple nodes are unhealthy during a health check, each node is repaired individually before another repair begins.

Pasos siguientesNext steps

Use Availability Zones para aumentar la alta disponibilidad con las cargas de trabajo del clúster de AKS.Use Availability Zones to increase high availability with your AKS cluster workloads.