Serviço Azure Kubernetes (AKS) autorreparação do nóAzure Kubernetes Service (AKS) node auto-repair

A AKS monitoriza continuamente o estado de saúde dos nós dos trabalhadores e executa a reparação automática do nó se não for saudável.AKS continuously monitors the health state of worker nodes and performs automatic node repair if they become unhealthy. A plataforma Azure virtual machine (VM) realiza manutenção em VMs com problemas.The Azure virtual machine (VM) platform performs maintenance on VMs experiencing issues.

Os VMs AKS e Azure trabalham em conjunto para minimizar as perturbações de serviço para clusters.AKS and Azure VMs work together to minimize service disruptions for clusters.

Neste documento, irá aprender como a funcionalidade de reparação automática de nós se comporta tanto para os nós Windows como para o Linux.In this document, you'll learn how automatic node repair functionality behaves for both Windows and Linux nodes.

Como a AKS verifica os nódoas não saudáveisHow AKS checks for unhealthy nodes

A AKS utiliza as seguintes regras para determinar se um nó não é saudável e precisa de ser reparado:AKS uses the following rules to determine if a node is unhealthy and needs repair:

  • O nó informa o estado do NotReady em verificações consecutivas dentro de um prazo de 10 minutos.The node reports NotReady status on consecutive checks within a 10-minute timeframe.
  • O nó não reporta nenhum estado em 10 minutos.The node doesn't report any status within 10 minutes.

Pode verificar manualmente o estado de saúde dos seus nós com kubectl.You can manually check the health state of your nodes with kubectl.

kubectl get nodes

Como funciona a reparação automáticaHow automatic repair works

Nota

A AKS inicia operações de reparação com o aks-correcttor de conta de utilizador .AKS initiates repair operations with the user account aks-remediator.

Se a AKS identificar um nó pouco saudável que permanece insalubre durante 10 minutos, a AKS toma as seguintes ações:If AKS identifies an unhealthy node that remains unhealthy for 10 minutes, AKS takes the following actions:

  1. Reinicie o nó.Reboot the node.
  2. Se o reboot não for bem sucedido, reimagem o nó.If the reboot is unsuccessful, reimage the node.
  3. Se a reimagem não for bem sucedida, crie e reimagem um novo nó.If the reimage is unsuccessful, create and reimage a new node.

As reparações alternativas são investigadas por engenheiros da AKS se a reparação automática não for bem sucedida.Alternative remediations are investigated by AKS engineers if auto-repair is unsuccessful.

Se a AKS encontrar múltiplos nós insalubres durante uma verificação de saúde, cada nó é reparado individualmente antes de começar outra reparação.If AKS finds multiple unhealthy nodes during a health check, each node is repaired individually before another repair begins.

Passos seguintesNext steps

Utilize Zonas de disponibilidade para aumentar a disponibilidade com as cargas de trabalho do cluster AKS.Use Availability Zones to increase high availability with your AKS cluster workloads.