Herstel

Voltooid

Het verdelen van de levenscyclus van incidentrespons in vijf fasen zoals u in deze module hebt gezien, helpt u om het proces te begrijpen, maar de fasen zijn niet altijd zo uniek als ze in het diagram worden weergegeven. In het bijzonder begint de lijn tussen de reactie en het herstel te vervagen. Dit geldt met name wanneer acties die zijn bedoeld om de situatie te beperken of te verbeteren, het tegenovergestelde effect hebben. In dit geval overlappen reactie en herstel elkaar vaak of wordt er tussen de twee gewisseld.

Cycle diagram of circles labeled with incident responses phases. Circles are connected to next circle with arrows from phase to phase. Detections, Response, and Remediation are highlighted.

In deze les leert u meer over herstel en de stappen waaruit deze fase bestaat, evenals enkele nuttige tips en hulpprogramma's. Een belangrijk punt om op te merken: u moet de hier beschreven maatregelen niet nemen als een prescriptieve controlelijst.

Als u inderdaad al een controlelijst voor herstel hebt, is dit vaak een indicatie dat het tijd is om over automatisering na te denken. Wanneer u precies kunt beschrijven wat er moet gebeuren en in welke volgorde een probleem moet worden opgelost, is het de perfecte tijd om deze stappen aan een machine te leren, zodat het systeem dit voor u kan doen.

Waar te beginnen

U hebt geleerd over het belang van het verminderen van de tijd die nodig is om te reageren op een incident. We gaan nu een paar dingen bekijken die het proces van het oplossen van problemen kunnen versnellen of het probleem oplossen.

Verschillende teamleden kunnen verschillende mentale modellen hebben van hoe dingen werken en verschillende ideeën over wat de eerste stap moet zijn. U kunt eerst de logboeken bekijken, terwijl een andere eerst query's uitvoert en de metrische gegevens bekijkt. Er is geen gebaande weg naar succes.

Het helpt echter om mensen te voorzien van context en richtlijnen, waar ze naartoe moeten gaan en waarnaar ze moeten kijken.

Hoe en naar wie u wilt escaleren

Een belangrijke vraag om uw herstelpunt te formuleren is: "Wanneer ik niet verder kom, met wie bel ik dan om het probleem aan voor te leggen?" U zou moeten proberen meer verantwoordelijkheden te delegeren naar het team in het algemeen, niet alleen naar Bewerkingen of Sitebetrouwbaarheid. Het zou de verantwoordelijkheid van alle teamleden moeten zijn om de systemen actief te hebben en om te voldoen aan uw betrouwbaarheidsdoelen.

Welke resources zijn nuttig voor eerste reageerders?

De volgende overweging is om de dingen te bepalen die de eerste reageerder kunnen gebruiken om aan de slag te gaan met het proces. Dit kunnen relevante metrische gegevens, logboeken, query's, en meer omvatten. Indien mogelijk moeten deze moeten opgegeven in een Azure-workbook/gids voor probleemoplossingen. We praten er over.

Het is ook handig om eenvoudige koppelingen naar resources te bieden (vaak in een gids voor probleemoplossing). Als uw doel is om te reageren op het probleem en het probleem zo snel mogelijk te herstellen, wordt het proces versneld als mensen de antwoorden op vragen vinden zonder te hoeven zoek naar het juiste document of de juiste URL.

Belanghebbenden op de hoogte brengen

U kunt zich zo concentreren op het oplossen van het probleem dat u misschien vergeet dat er veel mensen zijn die niet rechtstreeks betrokken zijn bij het reageren op het incident, maar die willen en moeten weten wat er aan de hand is.

Het is belangrijk om te communiceren met andere interne teams en ze op de hoogte te houden van wat er gebeurt wanneer er een incident optreedt. Als u ze geen consistente updates geeft, komen ze waarschijnlijk om een statusupdate te vragen. Ze hebben het recht op deze informatie, maar u hebt een betere manier nodig om ze bewust te maken van het probleem en wat er aan wordt gedaan.

U moet duidelijk zijn in communicatie naar uw interne teams. Wees duidelijk bij het presenteren van wat u weet en wat er wordt gedaan en stel verwachtingen in termen van wanneer ze van u horen.

De formule voor uw communicatie met belanghebbenden is eenvoudig:

  • Dit is wat we weten.
  • Dit is wat we doen.
  • We komen in X tijd bij u terug.

Zo voorkomt u dat belanghebbenden naar u komen en u onderbreken wanneer u bezig bent met het oplossen van de problemen.

Eén manier om deze informatie te verspreiden, is door het gebruik van een eenvoudig bewerkbare statuspagina zoals de pagina die we in het vorige hoofdstuk hebben genoemd. In veel gevallen wilt u mogelijk een afzonderlijke, gedetailleerdere statuspagina hebben voor interne belanghebbenden en een externe pagina voor uw klanten. De voorgaande formule werkt voor beide gevallen.

Gebruik Azure Monitor-workbooks en gidsen voor probleemoplossing

Azure heeft twee nauw verwante functies die enorm nuttig kunnen zijn voor een team in de herstelfase: Azure Monitor Workbooks en Application Insights Troubleshooting Guides. Voor deze module zijn ze uitwisselbaar, met inbegrip van dezelfde gebruikersinterface. U vindt Azure Monitor-werkmappen in Azure Portal onder Azure Monitor. U vindt azure Insights Troubleshooting Guides in Azure Portal wanneer er een Applications Insight-exemplaar is geselecteerd.

U kunt werkmappen en handleidingen voor probleemoplossing beschouwen als 'livedocumenten' die u kunt maken met behulp van een interface voor het maken van pagina's. Wanneer u een nieuwe maakt, kunt u het volgende toevoegen aan de pagina:

  • Willekeurige tekst, zoals een lijst met items met opsommingstekens of andere nuttige informatie voor iemand die de pagina raadpleegt
  • Koppelingen naar andere systemen, bijvoorbeeld koppelingen naar andere dashboards of documentatie
  • Kusto Query Language-query's (KQL)

Het laatste item dat het document 'live' maakt. In een eerdere module in dit leertraject hebben we de KQL-querytaal verkend die is ingebouwd in Log Analytics en andere onderdelen van Azure Monitor. Met deze taal kunnen we onze eigen query's schrijven om diagnostische informatie te retourneren en te weergeven vanuit onze toepassing en Azure-infrastructuur. Wanneer een KQL-query wordt ingevoegd in een werkmap of gids voor probleemoplossing, worden de huidige resultaten van die query live weergegeven voor de lezers van het document. Dit betekent dat uw gids voor probleemoplossingen niet alleen "Zorg ervoor dat u het foutpercentage op de webserver controleert" zegt, maar naast de instructies ook een actueel grafiek kan laten zien voor dat foutpercentage. De gids kan een koppeling bevatten, bijvoorbeeld "hier is de documentatie voor het herstarten van de webserver", die de eerste reageerder doorstuurt naar de documentatie die diegene nodig heeft.

Azure biedt ook een aantal bestaande sjablonen om u aan de slag te helpen met het maken van uw eigen documenten. Dit is een schermafbeelding van een aantal vooraf gemaakte sjablonen die mogelijk worden aangeboden:

Screenshot of default example troubleshooting guides as found in the Azure portal.

Er is een geavanceerde editorfunctie voor werkmappen en handleidingen voor probleemoplossing waarmee u een JSON of een Azure Resource Manager-sjabloonweergave van dat document kunt openen en invoegen. Dit betekent dat het mogelijk is om deze documenten bij te houden en te distribueren met behulp van het broncodebeheersysteem van uw keuze. Hiermee kunt u ook het inrichten van werkmappen of handleidingen voor probleemoplossing automatiseren, wat handig is voor het inrichten van andere infrastructuur. Het maken van een set aangepaste documenten voor probleemoplossing om naar een nieuwe service te gaan op het moment dat de service wordt ingericht, wordt eenvoudig met behulp van deze aanbevolen procedure.

Overige nuttige tips en hulpprogramma's

In deze module hebt u geleerd over de verschillende hulpprogramma's en snelkoppelingen die u kunt gebruiken om de efficiëntie te verhogen en de reactietijd voor incidenten te verminderen. Tijdens het afronden van deze laatste les maken we een kort overzicht van enkele hulpprogramma's en technieken die nuttig zijn bij het diagnosticeren van problemen in uw systemen.

  • U kunt de koppeling Toepassingsdashboard in Application Insights gebruiken om automatisch een dashboard te genereren met de meeste belangrijke items die u als uitgangspunt nodig hebt. Houd er rekening mee dat azure Service Health niet is opgenomen. U moet dit dashboard vastmaken, zodat u kunt controleren of er problemen zijn met uw systemen of met de cloudservice zelf.
  • U kunt het toepassingsoverzicht in Application Insights gebruiken om in te zoomen op precies wat er aan de hand is om de problemen te veroorzaken. U kunt de broodkruimels volgen om de oorzaak van de fout op te sporen (bijvoorbeeld een verkeerd gevormde URL).
  • U kunt Log Analytics gebruiken om een query uit te voeren op elk deel van het systeem.

Alle voorgaande hulpprogramma's zijn waardevol bij het oplossen van problemen.

Kennis testen

1.

Wanneer u communiceert met belanghebbenden, welke van deze items is niet nodig in de formule die we hebben voorgesteld?

2.

Waarom worden werkmappen en handleidingen voor probleemoplossing beschouwd als live documenten in onze beschrijving?