Cloudbewaking en -reactie

Dit artikel maakt deel uit van een reeks in de handleiding voor cloudbewaking.

Reactie is het resultaat van het definiëren van een of meer acties op basis van gegevensgestuurde beslissingen van bewaking waarmee servicegebruikers:

  • Maak deze actie mogelijk: gebruik goed afgestemde bewakingsconfiguraties om bruikbare signalen te maken.
  • Continu bewaken: pas bewaking toe tijdens het incident en probleemoplossingsactiviteiten om problemen verder te diagnosticeren.
  • Automatiseren: Configureer automatisch onderzoek, diagnose, oplossing, herstel en herstel op basis van geïdentificeerde signalen.

Het significantieprincipe is hier van toepassing. Dit helpt bij de processtroom of het beleid voor actie om waarschuwingen, meldingen en rapportsamenvatingen af te stemmen en te optimaliseren. Cloudbewaking is veel meer dan mensen waarschuwen dat er iets mis is. Het gaat ook om het leveren van signalen aan systemen en services om te reageren.

Bewaking speelt een cruciale rol in een breed scala aan scenario's:

  • Dynamisch servicegedrag inschakelen: systemen en services dynamisch beheren om te reageren op basis van bewakingsgegevens en incidenten automatisch elimineren.
  • Continu signalen evalueren: Voortdurend telemetrie informeren en bieden voor dynamische processen, naleving, automatisch schalen en visualisaties.
  • Organisatieacties: help de IT-organisatie om te reageren op wijzigingen en deze te beheren.

Waarschuwingen

Automatisering vervangt duurdere servicebeheerprocessen in het moderne cloudlandschap, waardoor meer incidenten worden geëlimineerd. Waarschuwingen spelen een cruciale rol in het bewustzijn, maar moeten actie ondernemen om waarschuwingsmoeheid of ruis te voorkomen.

Het definiëren van waarschuwingen helpt proactief ervoor te zorgen dat de services en systemen in orde, responsief, betrouwbaar en veilig blijven. Het garanderen van prestaties, het handhaven van Service Level Objectives (SLO), beschikbaarheid en privacy heeft een juiste waarschuwingsstrategie nodig. Het escaleren van waarschuwingen is niet van cruciaal belang voor waarneembaarheid, en tegenwoordig moet het niet worden beschouwd als de eerste verdedigingslinie. In plaats daarvan moet automatisering hier een cruciale rol spelen.

Normaal gesproken betekende bewaking het genereren van een waarschuwing waaraan iemand kon reageren, wat een volledig reactief proces impliceert. Deze benadering moet worden herzien volgens moderne procedures voor servicebeheer of cloudbewerkingen. Deze aanpak volgt het traditionele ITIL Incident Management-pad, dat niet overeenkomt met de doelstellingen van cloudefficiëntie door flexibiliteit, minimale kosten en optimalisatie.

Een moderne benadering kan een frequentie hebben van gedetecteerde voorwaarden die veel informatiever en geautomatiseerder zijn, bijvoorbeeld:

Gedetecteerde voorwaarde Primitieve actie Moderne actie
  • Metrische prestatiegegevens: hoog geheugengebruik.
  • Beveiligingsrisico: verdachte netwerkactiviteit gedetecteerd.
  • Beschikbaarheidsfout: Azure Blob Storage-aanvragen mislukken.
  • Waarschuwing en melding, webhook, pushmelding, playbook, automatisch schalen Querylogboeken om het offending-onderdeel te identificeren en automatisering te activeren om het probleem met het offending-onderdeel te verhelpen.

    Hier volgt een lijst met relevante resources voor waarschuwingen en automatiseringsmogelijkheden in Azure:

    Moderne cloudbewaking

    Vergeleken met bewakingsplatformen en gerelateerde hulpprogramma's die in het verleden beschikbaar waren, biedt cloud-computing:

    • Veel meer flexibiliteit om antwoordopties te bedenken.
    • Eenvoudigere manieren om geautomatiseerde antwoorden te ontwikkelen en in te schakelen.
    • Cloudprotocollen of API-methoden kunnen eenvoudiger worden geïntegreerd met werkbeheersystemen, waaronder DevOps.

    Houd rekening met de volgende modi voor het bereik van geautomatiseerde acties, of dat nu gaat om onderzoek, verrijking, routering, toewijzing, herstel, herstel of oplossing:

    Indelingsmethode Beschrijving
    Volledig geautomatiseerd Acties worden automatisch uitgevoerd. Volledige automatisering moet betrouwbaar, efficiënt en duurzaam worden bewezen, waar de bruikbaarheid ervan niet kort is en veilig is. Volledige automatisering maakt uw resources vrij, zodat ze zich meer kunnen richten op uw strategische initiatieven.
    Semi-geautomatiseerd Goedkeuring is vereist voor een herstelactie.
    Handmatig Een operator selecteert een automatiseringsvoorbeeld of playbook uit een gecureerde bibliotheek.

    Waarschuwingen zijn afhankelijk van de geïnstrueerde gegevens op basis van beveiligingsgebeurtenissen, metrische gegevens over prestaties, beschikbaarheidsinformatie en logboeken. Gegevensgestuurde acties zijn het resultaat van het analyseren van holistische, end-to-end perspectieven van elke bewaakte resource door verschillende verzamelde gegevenstypen te aggregeren en te verwerken om de impact te bepalen en welke responsieve actie moet worden ondernomen.

    Breid uw leesinformatie uit met deze resources voor meer informatie over automatisering op basis van metrische waarschuwingen en beveiligingsevenementen:

    Kostenefficiëntie

    Net als bij de andere waarneembaarheidsdisciplines moet het team de gevolgen van de kosten begrijpen en realiseren en hoe de typen antwoorden die zijn gedefinieerd ter ondersteuning van modern incidentbeheer helpen de kosten te beheersen. Hoewel het overkoepelende doel is om Mean Time to Recovery (MTTR) te verminderen door snel te reageren en een probleem op te lossen, moet u voortdurend de potentiële kosten en impact op de IT- of bedrijfsopbrengstenstroom evalueren.

    Elk gerapporteerd incident heeft een kosten. Stel dat de organisatie investeert in indeling om een antwoord te automatiseren. In dat geval moet u het kostenvoordeel en de impact van de kosten evalueren door het verbruik van de cloudservice te verhogen om deze services of functies te gebruiken die automatisering mogelijk maken.

    Automatisering

    Cloudautomatisering biedt aanzienlijke voordelen voor beveiliging en statuscontrole. Snelheid, flexibiliteit en precisie zijn drie archetypen die cloudautomatisering tot responsieve bewerkingen brengt. Dit wordt vaak indeling genoemd en de Microsoft-cloud biedt verschillende services.

    Voorbeeld:

    1. Er wordt een bedreiging op basis van identiteit gedetecteerd vanuit een of meer logboeken, waardoor een waarschuwing wordt weergegeven.
    2. Automatisering wordt onmiddellijk geactiveerd om meer informatie te verzamelen en meer logboeken te correleren om de waarschuwing te verrijken.
    3. Een operator onderneemt actie door de juiste automatisering in een bibliotheek te selecteren, zoals het uitschakelen van een gebruikersaccount.

    Het voorbeeld of de use-case kan volledig worden geautomatiseerd.

    De rol van automatisering biedt vervolgens een soort playbook dat de kosten verlaagt en tijd bespaart:

    • Er was geen beveiligingsincident nodig om een langdurig onderzoek, diagnose, oplossing en herstel te volgen.
    • De detectie-naar-correctiecyclus kan in seconden of minuten ten opzichte van uren zijn.

    Vervolgens moet uw team een lijst of bibliotheek met automatiseringsvoorbeelden bouwen die flexibel kunnen worden gebruikt, van grondstoffen op openbare websites of intern gecureerd en opgeslagen in een opslagplaats voor broncodebeheer.

    Hier volgt een lijst met voorgestelde leesbewerkingen voor meer automatisering op basis van identiteits- of beveiligingsgebeurtenissen:

    Geslaagde waarschuwingsstrategie

    Je kunt niet oplossen wat je niet weet is verbroken.

    Waarschuwen over wat belangrijk is, is essentieel. Het wordt ondersteund door het verzamelen en meten van de juiste metrische gegevens en logboeken. U hebt ook een bewakingsprogramma nodig waarmee een geautomatiseerd antwoord kan worden opgeslagen, samengevoegd, gevisualiseerd, geanalyseerd en geïnitialiseerd wanneer aan voorwaarden wordt voldaan. U kunt de waarneembaarheid van uw services en toepassingen alleen verbeteren als u de samenstelling ervan volledig begrijpt. U wijst die samenstelling toe aan een gedetailleerde bewakingsconfiguratie die moet worden toegepast door het bewakingsplatform. Deze configuratie omvat de voorspelbare foutstatussen (de symptomen, niet de oorzaak van de fout) die zinvol zijn om te waarschuwen.

    Informatieve waarschuwingen

    Onder bepaalde omstandigheden kunnen sommige waarschuwingen informatief zijn. We kunnen dit gebruiken om te leren hoe onze systemen zich gedragen. U kunt bijvoorbeeld deze informatieve waarschuwingen krijgen:

    • Er is een VM afgesloten: een VM is automatisch afgesloten om verspilling te minimaliseren en kosten te beheren op basis van een schema of een laag gebruik gedetecteerd.

      In dit voorbeeld is de indeling gebruikt op basis van een systeemeigen planningsfunctie en door het bewakingsplatform dat de gebruiksvoorwaarde detecteert. In plaats van de waarschuwing die wordt gewaarschuwd of escaleert als enige actie, wordt u geïnformeerd over de uitgevoerde actie en waarom.

    • Niet-actieve resources: IaaS- of PaaS-resources zijn gedurende een langere periode inactief of niet ingericht op basis van Azure Advisor-aanbevelingen.

      In dit voorbeeld kan indeling worden gebruikt om deze infrastructuurgerelateerde activiteiten te beheren op basis van bedrijfslogica of ITSM-proceswerkstroom. Veel snellere reacties en acties zijn vandaag nodig. Met de cloud is waarschuwingen minder voor mensen dan voor een geautomatiseerd antwoord of een doorlopende indeling als onderdeel van een geautomatiseerde waardestroom.

    Overwegingen voor waarschuwingsstrategie

    Houd er rekening mee dat leren van essentieel belang is en wanneer dit juist is ontworpen, kunnen informatieve waarschuwingen u veel inzicht geven in uw cloudecosysteem en -status.

    Houd rekening met de volgende principes om te bepalen of een symptoom een geschikte kandidaat is voor waarschuwingen:

    • Actie mogelijk: Is het probleem van belang? Komt dit overeen met een echt probleem in de status van uw toepassing? U kunt bijvoorbeeld een waarschuwing verzenden wanneer het CPU-gebruik gedurende een langere periode te hoog is voor een resource of een SQL-query consistent prestatieproblemen veroorzaakt, maar u wilt mogelijk geen waarschuwing verzenden wanneer de CPU-pieken gedurende een korte periode optreden. Maak dingen uitvoerbaar om fout-positieven te verminderen en waarschuwingsmoeheid te voorkomen.

    • Urgentie: Heeft het probleem dringend aandacht nodig? Zo ja, dan moet het verantwoordelijke team onmiddellijk op de hoogte worden gesteld.

    • Impact van de klant: Worden gebruikers van de service of toepassing beïnvloed door het probleem?

    • Impact op afhankelijke systemen: Zijn er waarschuwingen van onderling gerelateerde afhankelijkheden die kunnen worden gecorreleerd om te voorkomen dat verschillende teams allemaal aan hetzelfde probleem werken?

    Met deze eerste overwegingen kunt u beginnen met het ontwikkelen van uw bewakingsconfiguratie. U kunt de veronderstellingen in verschillende omgevingen testen en valideren. Evalueer deze overwegingen en vragen bijvoorbeeld continu in niet-productieomgevingen en productieomgevingen. Continue verbetering is essentieel voor een geslaagde reactie op bewakingssignalen.

    Wanneer u continu evalueert wat er werkt, kunt u overwegen om uzelf deze vragen te stellen om inzicht te krijgen in de effectiviteit van uw bewakingsreactie:

    • Waarschuwingsvolume: krijgt u een hoog waarschuwingsvolume? Zijn er veel niet-bruikbare waarschuwingen die kunnen worden vermeden?
    • Onopgemerkte problemen: krijgt u rapporten of tickets van gebruikers die problemen ondervinden die niet zijn gedetecteerd door de bewakingsconfiguratie?
    • Fout-positieven: krijgt u waarschuwingen of signalen die onjuist zijn gemarkeerd?
    • Waarschuwing of gebeurtenis: Moet u echt een waarschuwing verzenden of kunnen sommige van de gegenereerde waarschuwingen alleen gebeurtenissen zijn die in het systeem zijn gemarkeerd? Als de signalen worden weergegeven wanneer u er query's op uitvoert, in tegenstelling tot het verzenden van een waarschuwing, is dat voldoende om vermoeidheid van waarschuwingen en niet-bruikbare meldingen te voorkomen?

    Zie het overzicht van bewakingsplatformen in deze reeks artikelen voor een beter begrip van de mogelijkheden in de microsoft-bewakingsoplossingen.

    Volgende stappen