Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályok
Az Azure Monitor riasztásai proaktívan azonosítják az Azure-erőforrások állapotával és teljesítményével kapcsolatos problémákat. Ez a cikk bemutatja, hogyan engedélyezheti és szerkesztheti a Kubernetes-fürtökhöz előre definiált ajánlott metrikariasztási szabályokat.
Riasztási szabályok típusai
A Kubernetes-fürtökhöz kétféle metrikariasztási szabály használható.
Riasztási szabály típusa | Leírás |
---|---|
Prometheus-metrikariasztási szabályok | A Kubernetes-fürtből gyűjtött metrikaadatok használata a Prometheushoz készült Azure Monitor által felügyelt szolgáltatásban. Ezek a szabályok megkövetelik , hogy a Prometheus engedélyezve legyen a fürtön , és egy Prometheus-szabálycsoportban legyenek tárolva. |
Platformmetrika riasztási szabályai | Olyan metrikákat használjon, amelyeket a rendszer automatikusan gyűjt az AKS-fürtből, és Azure Monitor-riasztási szabályokként vannak tárolva. |
Ajánlott riasztási szabályok engedélyezése
A fürthöz ajánlott riasztási szabályok engedélyezéséhez használja az alábbi módszerek egyikét. Engedélyezheti ugyanahhoz a fürthöz a Prometheus és a platformmetrika riasztási szabályait is.
Az Azure Portal használatával a Prometheus szabálycsoport ugyanabban a régióban jön létre, mint a fürt.
A fürt Riasztások menüjében válassza a Javaslatok beállítása lehetőséget.
Az elérhető Prometheus- és platformriasztási szabályok pod-, fürt- és csomópontszint szerint rendezett Prometheus-szabályokkal jelennek meg. Állítsa be a Prometheus-szabályok egy csoportját az adott szabálykészlet engedélyezéséhez. Bontsa ki a csoportot az egyes szabályok megtekintéséhez. Meghagyhatja az alapértelmezett beállításokat, vagy letilthatja az egyes szabályokat, és szerkesztheti a nevüket és súlyosságukat.
Platformmetrikaszabály váltása a szabály engedélyezéséhez. A szabályt kibontva módosíthatja annak részleteit, például a nevet, a súlyosságot és a küszöbértéket.
Válasszon ki egy vagy több értesítési módszert egy új műveletcsoport létrehozásához, vagy válasszon ki egy meglévő műveletcsoportot a riasztási szabályok értesítési adataival.
Kattintson a Mentés gombra a szabálycsoport mentéséhez.
Ajánlott riasztási szabályok szerkesztése
A szabálycsoport létrehozása után nem szerkesztheti a szabályokat a portál ugyanazon lapján. A Prometheus-metrikák esetében a szabálycsoportot szerkesztenie kell a benne lévő szabályok módosításához, beleértve a még nem engedélyezett szabályok engedélyezését is. Platformmetrikák esetén szerkesztheti az egyes riasztási szabályokat.
A fürt Riasztások menüjében válassza a Javaslatok beállítása lehetőséget. A már létrehozott szabályok és szabálycsoportok már létrehozottként lesznek megjelölve.
Bontsa ki a szabályt vagy szabálycsoportot. Kattintson a Prometheus szabálycsoportjának megtekintésére és a platformmetrikák riasztási szabályának megtekintésére.
Prometheus-szabálycsoportok esetén:
válassza a Szabályok lehetőséget a csoport riasztási szabályainak megtekintéséhez.
Kattintson a módosítani kívánt szabály melletti Szerkesztés ikonra. A szabály módosításához használja a riasztási szabály létrehozása című útmutatót.
Ha befejezte a szabályok szerkesztését a csoportban, kattintson a Mentés gombra a szabálycsoport mentéséhez.
Platformmetrikák esetén:
Kattintson a Szerkesztés gombra a riasztási szabály részleteinek megnyitásához. A szabály módosításához használja a riasztási szabály létrehozása című útmutatót.
Riasztási szabálycsoport letiltása
Tiltsa le a szabálycsoportot, hogy ne kapjon riasztásokat a benne lévő szabályoktól.
Tekintse meg a Prometheus riasztási szabálycsoportját vagy platformmetrikai riasztási szabályát az ajánlott riasztási szabályok szerkesztésében leírtak szerint.
Az Áttekintés menüben válassza a Letiltás lehetőséget.
Ajánlott riasztási szabály részletei
Az alábbi táblázatok az egyes ajánlott riasztási szabályok részleteit sorolják fel. Mindegyik forráskód elérhető a GitHubon a Prometheus-közösség hibaelhárítási útmutatóival együtt.
A Prometheus közösségi riasztási szabályai
Fürtszintű riasztások
Riasztás neve | Leírás | Alapértelmezett küszöbérték | Időkeret (perc) |
---|---|---|---|
KubeCPUQuotaOvercommit | A névterekhez lefoglalt CPU-erőforráskvóta az elmúlt 5 percben több mint 50%-kal meghaladja a fürt csomópontjaikon elérhető CPU-erőforrásokat. | >1.5 | 5 |
KubeMemoryQuotaOvercommit | A névterekhez lefoglalt memóriaerőforrás-kvóta az elmúlt 5 percben több mint 50%-kal meghaladja a fürt csomópontjaiban rendelkezésre álló memóriaerőforrásokat. | >1.5 | 5 |
Az OOM által törölt tárolók száma 0-nál nagyobb | A podokon belüli egy vagy több tárolót az elmúlt 5 perc memóriahiányos (OOM) eseményei ölték meg. | >0 | 5 |
KubeClientErrors | A Kubernetes API-kérelmekben az ügyfélhibák (5xx-től kezdődő HTTP-állapotkódok) aránya meghaladja az elmúlt 15 percben az API-kérések teljes arányának 1%-át. | >0.01 | 15 |
KubePersistentVolumeFillingUp | Az állandó kötet megtelik, és várhatóan elfogy a rendelkezésre álló terület aránya, a felhasznált terület és a rendelkezésre álló terület lineáris trendje az elmúlt 6 órában. Ezeket a feltételeket a rendszer az elmúlt 60 percben értékeli ki. | n/a | 60 |
KubePersistentVolumeInodesFillingUp | Az állandó köteten belüli inódok kevesebb mint 3%-a érhető el az elmúlt 15 percben. | <0.03 | 15 |
KubePersistentVolumeErrors | Egy vagy több állandó kötet az elmúlt 5 percben sikertelen vagy függőben lévő fázisban van. | >0 | 5 |
KubeContainerWaiting | A Kubernetes-podokon belüli egy vagy több tároló várakozási állapotban van az elmúlt 60 percben. | >0 | 60 |
KubeDaemonSetNotScheduled | Egy vagy több pod nincs ütemezve egyetlen csomóponton sem az elmúlt 15 percben. | >0 | 15 |
KubeDaemonSetMisScheduled | Egy vagy több pod helytelenül van ütemezve a fürtben az elmúlt 15 percben. | >0 | 15 |
KubeQuotaAlmostFull | A Kubernetes-erőforráskvóták kihasználtsága az elmúlt 15 perc kemény korlátainak 90%-a és 100%-a között van. | >0,9 <1 | 15 |
Csomópontszintű riasztások
Riasztás neve | Leírás | Alapértelmezett küszöbérték | Időkeret (perc) |
---|---|---|---|
KubeNodeUnreachable | Egy csomópont az elmúlt 15 percben nem érhető el. | 0 | 15 |
KubeNodeReadinessFlapping | A csomópontok készültségi állapota az elmúlt 15 percben több mint 2 alkalommal módosult. | 2 | 15 |
Podszintű riasztások
Riasztás neve | Leírás | Alapértelmezett küszöbérték | Időkeret (perc) |
---|---|---|---|
Az átlagos PV-használat nagyobb, mint 80% | Az állandó kötetek (PV-k) átlagos kihasználtsága a podon meghaladja a 80%-ot az elmúlt 15 percben. | >0.8 | 15 |
KubeDeploymentReplicasMismatch | A replikák kívánt száma és az elmúlt 10 percben elérhető replikák száma között eltérés van. | n/a | 10 |
KubeStatefulSetReplicasMismatch | A StatefulSet kész replikáinak száma nem egyezik meg a StatefulSetben az elmúlt 15 perc replikáinak teljes számával. | n/a | 15 |
KubeHpaReplicasMismatch | A fürt vízszintes podméretezője nem egyezett meg az elmúlt 15 perc replikáinak kívánt számával. | n/a | 15 |
KubeHpaMaxedOut | A fürt vízszintes podméretezője (HPA) az elmúlt 15 percben a maximális replikákon futott. | n/a | 15 |
KubePodCrashLooping | Egy vagy több pod CrashLoopBackOff állapotban van, ahol a pod az indítás után folyamatosan összeomlik, és az elmúlt 15 percben sikertelenül helyreáll. | >=1 | 15 |
KubeJobStale | Az elmúlt 6 órában legalább egy feladatpéldány nem fejeződött be sikeresen. | >0 | 360 |
Podtároló az elmúlt 1 órában újraindult | A Kubernetes-fürt podjain belül legalább egyszer újraindult egy vagy több tároló az elmúlt egy órában. | >0 | 15 |
A podok kész állapota kevesebb, mint 80% | A kész állapotú podok százalékos aránya 80% alá csökken a Kubernetes-fürtben az elmúlt 5 percben végzett üzembe helyezés vagy démonkészlet esetében. | <0.8 | 5 |
A sikertelen állapotú podok száma 0-nál nagyobb. | Egy vagy több pod meghibásodott állapotban van az elmúlt 5 percben. | >0 | 5 |
KubePodNotReadyByController | Egy vagy több pod nem áll készen állapotban (azaz a "Függőben" vagy az "Ismeretlen" fázisban) az elmúlt 15 percben. | >0 | 15 |
KubeStatefulSetGenerationMismatch | A Kubernetes StatefulSet megfigyelt generációja nem egyezik meg a metaadat-generációjával az elmúlt 15 percben. | n/a | 15 |
KubeJobFailed | Egy vagy több Kubernetes-feladat meghiúsult az elmúlt 15 percben. | >0 | 15 |
Tárolónkénti átlagos processzorhasználat nagyobb, mint 95% | Az átlagos processzorhasználat tárolónként meghaladja a 95%-ot az elmúlt 5 percben. | >0.95 | 5 |
Tárolónkénti átlagos memóriahasználat nagyobb, mint 95% | A tárolónkénti átlagos memóriahasználat az elmúlt 5 percben meghaladja a 95%-ot. | >0.95 | 10 |
KubeletPodStartUpLatencyHigh | A pod indítási késésének 99. percentilise az elmúlt 10 percben meghaladja a 60 másodpercet. | >60 | 10 |
Platformmetrika riasztási szabályai
Riasztás neve | Leírás | Alapértelmezett küszöbérték | Időkeret (perc) |
---|---|---|---|
A csomópont processzorhasználati aránya nagyobb, mint 95% | A csomópont processzorhasználati aránya nagyobb, mint 95% az elmúlt 5 percben. | 95 | 5 |
A csomópont memória-munkakészletének százalékos aránya nagyobb, mint 100% | A csomópont memória-munkakészletének százalékos aránya nagyobb, mint 95% az elmúlt 5 percben. | 100 | 5 |
Örökölt Container Insights-metrikariasztások (előzetes verzió)
A Container Insights metrikaszabályai 2024. május 31-én megszűnnek (ezt korábban 2026. március 14-én jelentették be). Ezek a szabályok 2023. augusztus 15. óta nem érhetők el a portál használatával történő létrehozáshoz. Ezek a szabályok nyilvános előzetes verzióban voltak, de az általános rendelkezésre állás elérése nélkül lesznek kivonva, mivel a cikkben ismertetett új ajánlott metrikariasztások már elérhetők.
Ha már engedélyezte ezeket az örökölt riasztási szabályokat, tiltsa le őket, és engedélyezze az új felületet.
Metrikariasztási szabályok letiltása
- A fürt Elemzések menüjében válassza az Ajánlott riasztások (előzetes verzió) lehetőséget.
- Módosítsa az egyes riasztási szabályok állapotát letiltottra.
Következő lépések
- Az Azure Monitor különböző riasztási szabálytípusairól olvashat.
- További információ a Szabálycsoportok riasztásáról a Prometheushoz készült Azure Monitor felügyelt szolgáltatásban.