Az Azure Kubernetes Service (AKS) csomópont automatikus javítása

Cikk
10/24/2023

Azure Kubernetes Service (AKS) continuously monitors the health state of worker nodes and performs automatic node repair if they become unhealthy. Az Azure-beli virtuálisgép-platform karbantartást végez a problémákat tapasztaló virtuális gépeken . AKS and Azure VMs work together to minimize service disruptions for clusters.

Ebből a cikkből megtudhatja, hogyan működik az automatikus csomópont-javítási funkció a Windows- és Linux-csomópontok esetében.

Hogyan ellenőrzi az AKS a NotReady-csomópontokat?

Az AKS a következő szabályokkal állapítja meg, hogy egy csomópont nem megfelelő-e, és javításra van szükség:

A csomópont 10 perces időkereten belül jelenti az egymást követő ellenőrzések NotReady-állapotát.
A csomópont 10 percen belül nem jelent állapotot.

A parancs segítségével kubectl get nodes manuálisan ellenőrizheti a csomópontok állapotát.

Az automatikus javítás működése

Megjegyzés:

Az AKS az aks-remediator felhasználói fiókkal kezdeményezi a javítási műveleteket.

Ha az AKS azonosít egy öt percig nem kifogástalan állapotú csomópontot, az AKS a következő műveleteket hajtja végre:

Megpróbálja újraindítani a csomópontot.
Ha a csomópont újraindítása sikertelen, az AKS újrakonimálja a csomópontot.
Ha az újratelepítés sikertelen, és linuxos csomópont, az AKS újra üzembe helyezi a csomópontot.

Az AKS mérnökei alternatív szervizeléseket vizsgálnak, ha az automatikus javítás sikertelen.

Megjegyzés:

Az automatikus javítás nem aktiválódik, ha a csomóponton a következő fertőzöttek találhatók: node.cloudprovider.kubernetes.io/shutdownToBeDeletedByClusterAutoscaler .

Az automatikus javítás teljes folyamata akár egy órát is igénybe vehet. Az AKS minden lépéshez legfeljebb 3 alkalommal próbálkozik újra.

Csomópont automatikus ürítése

Ütemezett események bármelyik csomópontkészlet mögöttes virtuális gépein előfordulhatnak. A kihasználatlan csomópontkészletek esetében az ütemezett események a csomópont előzetes csomóponteseményét okozhatják. Bizonyos csomópontesemények, például a preempt, az AKS-csomópont automatikus kiürítését okozzák az érintett csomópont kordonjának és ürítésének megkísérléséhez. Ez a folyamat lehetővé teszi a csomóponton lévő érintett számítási feladatok átütemezését. Észreveheti, hogy a csomópont a következő miatt kap fertőzöttet"remediator.kubernetes.azure.com/unschedulable""kubernetes.azure.com/scalesetpriority: spot": .

Az alábbi táblázat az AKS-csomópont automatikus kiürítéséhez kapcsolódó csomóponteseményeket és műveleteket mutatja be:

Esemény	Leírás	Művelet
Fázik	A virtuális gép az ütemezés szerint néhány másodpercig szünetel. Előfordulhat, hogy a processzor- és a hálózati kapcsolat fel van függesztve, de nincs hatással a memóriára vagy a fájlok megnyitására.	Nincs művelet.
Újraindítás	A virtuális gép újraindításra van ütemezve. A virtuális gép nem állandó memóriája elveszik.	Nincs művelet.
Redeploy	A virtuális gép egy másik csomópontra való áthelyezésre van ütemezve. A virtuális gép rövid élettartamú lemezei elvesznek.	Kordon és lefolyó.
Előzetes	A kihasználatlan virtuális gép törlése folyamatban van. A virtuális gép rövid élettartamú lemezei elvesznek.	Kordon és lefolyó
Leállítás	A virtuális gép törlésre van ütemezve.	Kordon és lefolyó.

Korlátozások

Az AKS sok esetben meg tudja állapítani, hogy egy csomópont nem megfelelő-e, és megpróbálja-e kijavítani a problémát. Vannak azonban olyan esetek, amikor az AKS vagy nem tudja kijavítani a problémát, vagy észleli a probléma meglétét. Az AKS például nem képes problémákat észlelni a következő példaforgatókönyvekben:

A hálózati konfiguráció hibája miatt a csomópont állapota nem jelenik meg.
Egy csomópont kezdetben nem tudott kifogástalan állapotú csomópontként regisztrálni.

A Node Autodrain egy legjobb munkamennyiség-szolgáltatás, és nem garantálható, hogy minden esetben tökéletesen működjön

Következő lépések

A rendelkezésre állási zónák használatával növelheti a magas rendelkezésre állást az AKS-fürt számítási feladataival.