Javaslatok megbízható monitorozási és riasztási stratégia kialakításához

Az Azure Well-Architected Framework megbízhatósági ellenőrzőlistájára vonatkozó javaslatra vonatkozik:

RE:10 Mérje és tegye közzé a megoldás állapotmutatóit. Folyamatosan rögzíti az üzemidőt és az egyéb megbízhatósági adatokat a számítási feladatokból, valamint az egyes összetevőkből és kulcsfolyamatokból.

Ez az útmutató a megbízható figyelési és riasztási stratégia kialakítására vonatkozó javaslatokat ismerteti. Ennek a stratégiának a végrehajtásával az üzemeltetési csapatok folyamatosan tájékoztatva lesznek a környezet állapotáról, és gondoskodhatnak arról, hogy megfeleljenek a számítási feladathoz meghatározott megbízhatósági céloknak.

Definíciók

Időszak Definíció
Mérőszámok Rendszeres időközönként gyűjtött numerikus értékek. A metrikák a rendszer bizonyos aspektusait írják le egy adott időpontban.
Erőforrásnaplók A rendszer által generált adatok. Információt nyújt a rendszer állapotáról.
Hívásláncok Adatok, amelyek információt nyújtanak arról az útvonalról, amelyet a kérések a szolgáltatásokon és összetevőken keresztül haladnak át.

Kulcsfontosságú tervezési stratégiák

A monitorozási és riasztási stratégia létrehozása előtt végezze el a következő feladatokat a számítási feladathoz a megbízhatósági tervezés részeként:

Hozzon létre egy monitorozási és riasztási stratégiát, amely biztosítja, hogy a számítási feladatok megbízhatóan működjenek. A figyelési és riasztási stratégia tudatot ad az üzemeltetési csapatoknak, így értesítést kapnak a számítási feladat állapotának változásairól, és gyorsan megoldhatják a problémákat. Robusztus és megbízható monitorozási stratégiát hozhat létre egy állapotmodell létrehozásával a kritikus folyamatokhoz és az ezekhez a kritikus folyamatokhoz tartozó összetevőkhöz. Az állapotmodell egészséges, csökkentett teljesítményű és nem kifogástalan állapotokat határoz meg. Úgy tervezheti meg a működési állapotát, hogy azonnal észrevehesse a változásokat ezekben az állapotokban. Ha az állapot kifogástalan állapotról csökkentett vagy nem kifogástalan állapotra változik, a riasztási mechanizmusok aktiválják az automatikus korrekciós intézkedéseket , és értesítik a megfelelő csapatokat.

Az alábbi javaslatok végrehajtásával olyan figyelési és riasztási stratégiát tervezhet, amely megfelel a vállalat követelményeinek.

Általános útmutatás

  • Ismerje meg a metrikák, naplók és nyomkövetések közötti különbséget.

  • Engedélyezze a naplózást az összes felhőerőforráshoz. Az üzembe helyezések automatizálását és szabályozását használva engedélyezheti a diagnosztikai naplózást az egész környezetben.

  • Az összes diagnosztikai naplót továbbíthatja egy központosított adatfoglalónak és elemzési platformnak, például egy Log Analytics-munkaterületnek. Ha regionális adatelkülönségre vonatkozó követelményekkel rendelkezik, akkor helyi adatfogalókat kell használnia azokban a régiókban, amelyekre ezek a követelmények vonatkoznak.

Kompromisszum: A naplók tárolásának és lekérdezésének költségvonzatai vannak. Figyelje meg, hogy a naplóelemzés és a megőrzés hogyan befolyásolja a költségvetést, és határozza meg a legjobb kihasználtságegyensúlyt a követelményeknek megfelelően. További információ: Ajánlott eljárások a költségoptimalizáláshoz.

  • Ha a számítási feladatokra egy vagy több megfelelőségi keretrendszer vonatkozik, a bizalmas adatokat kezelő egyes összetevőnaplókra is ezek a keretrendszerek vonatkoznak. Küldje el a megfelelő összetevőnaplókat egy biztonsági információs és eseménykezelő (SIEM) rendszernek, például a Microsoft Sentinelnek.

  • Hozzon létre egy naplómegőrzési szabályzatot , amely hosszú távú adatmegőrzési követelményeket tartalmaz, amelyeket a megfelelőségi keretrendszerek a számítási feladatra írnak elő.

  • A naplóadatok lekérdezésének optimalizálásához használjon strukturált naplózást az összes naplóüzenethez.

  • Riasztásokat konfigurálhat úgy, hogy aktiválódjanak, ha az értékek olyan kritikus küszöbértékeket lépnek át, amelyek egy állapotmodell állapotának változásával kapcsolatosak, például zöldről sárgara vagy pirosra.

    A küszöbérték-konfigurálás a folyamatos fejlesztés gyakorlata. A számítási feladat fejlődésével a megadott küszöbértékek változhatnak. Bizonyos esetekben a dinamikus küszöbértékek jó választásnak bizonyulnak a monitorozási stratégiához.

  • Érdemes lehet riasztásokat használni, ha javulnak az állapotok, például pirosról sárga vagy pirosról zöldre, hogy az üzemeltetési csapatok nyomon követhesse ezeket az eseményeket későbbi referenciaként.

  • A környezet valós idejű állapotának megjelenítése.

  • Az incidensek során gyűjtött adatok használatával folyamatosan fejlesztheti az állapotmodelleket, valamint a monitorozási és riasztási stratégiát.

  • Felhőplatform-figyelési és riasztási szolgáltatások beépítése, beleértve a következőket:

  • A felhőszolgáltató által kínált speciális monitorozási és elemzési funkciók, például az Azure Monitor-elemzési eszközök beépítése.

  • Biztonsági mentési és helyreállítási monitorozás implementálása a rögzítéshez:

    • Az adatreplikációs állapot, amely biztosítja, hogy a számítási feladat a cél helyreállítási pont célkitűzésén (RPO) belül elérje a helyreállítást.

    • Sikeres és sikertelen biztonsági mentések és helyreállítások.

    • A vészhelyreállítás megtervezésének tájékoztatására vonatkozó helyreállítási időtartam.

Alkalmazások figyelése

  • Hozzon létre állapotteszteket, vagy ellenőrizze a függvényeket , és futtassa őket rendszeresen az alkalmazáson kívülről. Győződjön meg arról, hogy több olyan helyről is tesztel, amely földrajzilag közel van az ügyfelekhez.

  • Naplózza az adatokat, amíg az alkalmazás éles környezetben fut. Az éles állapotban előforduló problémák okának diagnosztizálásához elegendő információra van szüksége.

  • Naplózza a szolgáltatáshatárokon történő eseményeket. Használjon korrelációs azonosítót, amely átnyúlik a szolgáltatáshatárokon. Ha egy tranzakció több szolgáltatáson halad keresztül, és az egyik sikertelen, a korrelációs azonosító segít nyomon követni a kéréseket az alkalmazáson belül, és megállapítani, hogy miért hiúsult meg a tranzakció.

  • Használjon aszinkron naplózást. A szinkron naplózási műveletek néha blokkolják az alkalmazás kódját, ami miatt a kérések biztonsági mentést végeznek a naplók írása során. Aszinkron naplózással megőrizze a rendelkezésre állást az alkalmazásnaplózás során.

  • Különítse el az alkalmazásnaplózást a naplózástól. A naplózási nyilvántartásokat általában megfelelőségi vagy szabályozási követelmények alapján kezelik, és teljesnek kell lenniük. Az elvetett tranzakciók elkerülése érdekében a diagnosztikai naplóktól elkülönítve tartsa karban az auditnaplókat.

  • Telemetria-korrelációval biztosíthatja, hogy a tranzakciókat a végpontok közötti alkalmazáson és a kritikus rendszerfolyamatokon keresztül képezheti le. Ez a folyamat létfontosságú a hibák kiváltó okának elemzéséhez (RCA). Platformszintű metrikákat és naplókat gyűjthet, például a processzorhasználat százalékos arányát, a hálózati terhelést, a hálózati ki- és lemezműveleteket másodpercenként az alkalmazásból az állapotmodell tájékoztatása, valamint a problémák észlelése és előrejelzése érdekében. Ez a megközelítés segíthet megkülönböztetni az átmeneti és a nem átmeneti hibákat.

  • A white box monitorozásával szemantikai naplókkal és metrikákkal alakíthatja ki az alkalmazást. Alkalmazásszintű metrikákat és naplókat, például memóriahasználatot vagy kéréskésést gyűjthet az alkalmazásból az állapotmodell tájékoztatása, valamint a problémák észlelése és előrejelzése érdekében.

  • A black box monitorozásával mérje a platformszolgáltatásokat és az ebből eredő felhasználói élményt. A Fekete doboz monitorozása a külsőleg látható alkalmazás viselkedését teszteli a rendszer belső elemeinek ismerete nélkül. Ez a megközelítés gyakori az ügyfélközpontú szolgáltatásiszint-mutatók (SLA-k), a szolgáltatásiszint-célkitűzések (SLO-k) és a szolgáltatói szerződések (SLA-k) méréséhez.

Megjegyzés

További információ az alkalmazásfigyelésről: Állapotvégpont-monitorozási minta.

Adatok és tárolás monitorozása

  • A tárolók rendelkezésre állási metrikáinak monitorozása. Ha ez a metrika 100 százalék alá csökken, az sikertelen írásokat jelez. A rendelkezésre állás átmeneti csökkenése akkor fordulhat elő, ha a felhőszolgáltató kezeli a terhelést. Kövesse nyomon a rendelkezésre állási trendeket, és állapítsa meg, hogy van-e probléma a számítási feladattal.

    Bizonyos esetekben a tároló rendelkezésre állási metrikáinak csökkenése a tárolóhoz társított számítási réteg szűk keresztmetszetét jelzi.

  • Számos metrikát kell figyelni az adatbázisokhoz. A megbízhatóság kontextusában a monitorozni kívánt fontos metrikák a következők:

    • Lekérdezés időtartama

    • Időtúllépések

    • Várakozási idők

    • Memóriaterhelés

    • Zárolások

Azure-beli segítségnyújtás

  • Az Azure Monitor egy átfogó monitorozási megoldás, amely a felhőből és a helyszíni környezetekből származó monitorozási adatok gyűjtésére, elemzésére és megválaszolására szolgál.

  • A Log Analytics egy olyan eszköz a Azure Portal, amely naplókérdezések szerkesztésére és futtatására szolgál a Log Analytics-munkaterületen lévő adatokon.

  • Az Application Insights az Azure Monitor bővítménye. Alkalmazásteljesítmény-monitorozási (APM) funkciókat biztosít.

  • Az Azure Monitor Insights olyan fejlett elemzési eszközök, amelyek segítenek monitorozni az Azure-szolgáltatásokat, például a virtuális gépeket, az alkalmazásszolgáltatásokat és a tárolókat. Az elemzések az Azure Monitorra és a Log Analyticsre épülnek.

  • Az Azure Monitor for SAP solutions egy Azure-natív monitorozási termék az Azure-on futó SAP-környezetekhez.

  • Azure Policy segít a szervezeti szabványok betartatásában és a megfelelőség nagy léptékű értékelésében.

  • Azure üzleti folytonossági központ betekintést nyújt az üzletmenet-folytonossági tulajdonába. Az üzletmenet-folytonossági és vészhelyreállítási (BCDR) megközelítések alkalmazása során a Azure üzleti folytonossági központ használatával központosíthatja az üzletmenet-folytonossági védelem felügyeletét az Azure-ban és a hibrid számítási feladatokban. Azure üzleti folytonossági központ rögzíti azokat az erőforrásokat, amelyek nem rendelkeznek megfelelő védelemmel (biztonsági mentéssel vagy vészhelyreállítással), és korrekciós műveleteket hajt végre. Az eszköz megkönnyíti az egységes monitorozást, és lehetővé teszi a szabályozás és a naplózás megfelelőségének kialakítását Azure Policy, amelyek mindegyike kényelmesen elérhető egy helyen.

  • A több munkaterületre vonatkozó ajánlott eljárásokért lásd: Log Analytics-munkaterület architektúrájának megtervezése.

Példa

Valós monitorozási megoldások példáiért lásd: Webalkalmazások monitorozása az Azure-ban és alapkonfigurációs architektúra egy Azure Kubernetes Service-fürtön.

Megbízhatósági ellenőrzőlista

Tekintse meg a javaslatok teljes készletét.