Share via


Az Azure Kubernetes Service (AKS) csomópont automatikus javítása

Azure Kubernetes Service (AKS) continuously monitors the health state of worker nodes and performs automatic node repair if they become unhealthy. Az Azure-beli virtuálisgép-platform karbantartást végez a problémákat tapasztaló virtuális gépeken . AKS and Azure VMs work together to minimize service disruptions for clusters.

Ebből a cikkből megtudhatja, hogyan működik az automatikus csomópont-javítási funkció a Windows- és Linux-csomópontok esetében.

Hogyan ellenőrzi az AKS a NotReady-csomópontokat?

Az AKS a következő szabályokkal állapítja meg, hogy egy csomópont nem megfelelő-e, és javításra van szükség:

A parancs segítségével kubectl get nodes manuálisan ellenőrizheti a csomópontok állapotát.

Az automatikus javítás működése

Megjegyzés:

Az AKS az aks-remediator felhasználói fiókkal kezdeményezi a javítási műveleteket.

Ha az AKS azonosít egy öt percig nem kifogástalan állapotú csomópontot, az AKS a következő műveleteket hajtja végre:

  1. Megpróbálja újraindítani a csomópontot.
  2. Ha a csomópont újraindítása sikertelen, az AKS újrakonimálja a csomópontot.
  3. Ha az újratelepítés sikertelen, és linuxos csomópont, az AKS újra üzembe helyezi a csomópontot.

Az AKS mérnökei alternatív szervizeléseket vizsgálnak, ha az automatikus javítás sikertelen.

Megjegyzés:

Az automatikus javítás nem aktiválódik, ha a csomóponton a következő fertőzöttek találhatók: node.cloudprovider.kubernetes.io/shutdownToBeDeletedByClusterAutoscaler .

Az automatikus javítás teljes folyamata akár egy órát is igénybe vehet. Az AKS minden lépéshez legfeljebb 3 alkalommal próbálkozik újra.

Csomópont automatikus ürítése

Ütemezett események bármelyik csomópontkészlet mögöttes virtuális gépein előfordulhatnak. A kihasználatlan csomópontkészletek esetében az ütemezett események a csomópont előzetes csomóponteseményét okozhatják. Bizonyos csomópontesemények, például a preempt, az AKS-csomópont automatikus kiürítését okozzák az érintett csomópont kordonjának és ürítésének megkísérléséhez. Ez a folyamat lehetővé teszi a csomóponton lévő érintett számítási feladatok átütemezését. Észreveheti, hogy a csomópont a következő miatt kap fertőzöttet"remediator.kubernetes.azure.com/unschedulable""kubernetes.azure.com/scalesetpriority: spot": .

Az alábbi táblázat az AKS-csomópont automatikus kiürítéséhez kapcsolódó csomóponteseményeket és műveleteket mutatja be:

Esemény Leírás Művelet
Fázik A virtuális gép az ütemezés szerint néhány másodpercig szünetel. Előfordulhat, hogy a processzor- és a hálózati kapcsolat fel van függesztve, de nincs hatással a memóriára vagy a fájlok megnyitására. Nincs művelet.
Újraindítás A virtuális gép újraindításra van ütemezve. A virtuális gép nem állandó memóriája elveszik. Nincs művelet.
Redeploy A virtuális gép egy másik csomópontra való áthelyezésre van ütemezve. A virtuális gép rövid élettartamú lemezei elvesznek. Kordon és lefolyó.
Előzetes A kihasználatlan virtuális gép törlése folyamatban van. A virtuális gép rövid élettartamú lemezei elvesznek. Kordon és lefolyó
Leállítás A virtuális gép törlésre van ütemezve. Kordon és lefolyó.

Korlátozások

Az AKS sok esetben meg tudja állapítani, hogy egy csomópont nem megfelelő-e, és megpróbálja-e kijavítani a problémát. Vannak azonban olyan esetek, amikor az AKS vagy nem tudja kijavítani a problémát, vagy észleli a probléma meglétét. Az AKS például nem képes problémákat észlelni a következő példaforgatókönyvekben:

  • A hálózati konfiguráció hibája miatt a csomópont állapota nem jelenik meg.
  • Egy csomópont kezdetben nem tudott kifogástalan állapotú csomópontként regisztrálni.

A Node Autodrain egy legjobb munkamennyiség-szolgáltatás, és nem garantálható, hogy minden esetben tökéletesen működjön

Következő lépések

A rendelkezésre állási zónák használatával növelheti a magas rendelkezésre állást az AKS-fürt számítási feladataival.