AKS (Azure Kubernetes Service) 노드 자동 복구Azure Kubernetes Service (AKS) node auto-repair

AKS는 작업자 노드의 상태를 지속적으로 확인 하 고 비정상 상태가 되 면 노드의 자동 복구를 수행 합니다.AKS continuously checks the health state of worker nodes and performs automatic repair of the nodes if they become unhealthy. 이 문서에서는 Windows 및 Linux 노드 모두에서 자동 노드 복구 기능이 작동 하는 방식에 대해 운영자에 게 알립니다.This document informs operators about how automatic node repair functionality behaves for both Windows and Linux nodes. AKS 복구 외에도 Azure VM 플랫폼은 문제를 경험 하는 Virtual Machines에 대 한 유지 관리를 수행 합니다.In addition to AKS repairs, the Azure VM platform performs maintenance on Virtual Machines that experience issues as well. AKS와 Azure Vm은 함께 작동 하 여 클러스터에 대 한 서비스 중단을 최소화 합니다.AKS and Azure VMs work together to minimize service disruptions for clusters.

AKS에서 비정상 노드를 확인 하는 방법How AKS checks for unhealthy nodes

AKS는 규칙을 사용 하 여 노드가 비정상 이며 복구 해야 하는지 여부를 확인 합니다.AKS uses rules to determine if a node is unhealthy and needs repair. AKS는 다음 규칙을 사용 하 여 자동 복구가 필요한 지 여부를 결정 합니다.AKS uses the following rules to determine if automatic repair is needed.

  • 노드가 10 분 기간 내에 연속 검사에 대해 Notready 상태를 보고 합니다.The node reports status of NotReady on consecutive checks within a 10-minute timeframe
  • 노드가 10 분 내에 상태를 보고 하지 않습니다.The node doesn't report a status within 10 minutes

Kubectl를 사용 하 여 노드의 상태를 수동으로 확인할 수 있습니다.You can manually check the health state of your nodes with kubectl.

kubectl get nodes

자동 복구 작동 방법How automatic repair works

참고

AKS 사용자 계정 AKS-remediator 를 사용 하 여 복구 작업을 시작 합니다.AKS initiates repair operations with the user account aks-remediator.

위의 규칙을 기반으로 비정상 상태이 고 연속으로 10 분 동안 비정상 상태로 유지 되는 노드는 다음 작업이 수행 됩니다.If a node is unhealthy based on the rules above and remains unhealthy for 10 consecutive minutes, the following actions are taken.

  1. 노드 다시 부팅Reboot the node
  2. 다시 부팅할 수 없는 경우 노드를 이미지로 다시 설치 합니다.If the reboot is unsuccessful, reimage the node
  3. 이미지로 다시 설치 하는 작업이 실패 하면 새 노드를 만들고 이미지로 다시 설치 합니다.If the reimage is unsuccessful, create and reimage a new node

모든 작업이 성공 하지 못한 경우에는 AKS 엔지니어가 추가 재구성 조사 됩니다.If none of the actions are successful, additional remediations are investigated by AKS engineers. 상태 검사 중에 여러 노드가 비정상 상태인 경우에는 다른 복구가 시작 되기 전에 각 노드가 개별적으로 복구 됩니다.If multiple nodes are unhealthy during a health check, each node is repaired individually before another repair begins.

다음 단계Next steps

가용성 영역을 사용하여 AKS 클러스터 워크로드를 통해 고가용성을 개선합니다.Use Availability Zones to increase high availability with your AKS cluster workloads.