Aanbevelingen voor het reageren op problemen met liveprestaties

Artikel
11/15/2023

Is van toepassing op deze aanbeveling voor de controlelijst voor prestatie-efficiëntie van Azure Well-Architected Framework:

PE:11

Reageren op problemen met liveprestaties. Plan hoe prestatieproblemen moeten worden aangepakt door duidelijke communicatielijnen en verantwoordelijkheden op te nemen. Wanneer zich een problematische situatie voordoet, gebruikt u wat u leert om preventieve maatregelen te identificeren en deze op te nemen in uw workload. Implementeer methoden om sneller terug te keren naar normale bewerkingen wanneer zich vergelijkbare situaties voordoen.

In deze handleiding worden de aanbevolen procedures beschreven voor het reageren op problemen met liveprestaties. Problemen met liveprestaties hebben betrekking op realtime uitdagingen en knelpunten die de optimale werking van een workload kunnen belemmeren. Door deze problemen snel op te lossen, wordt niet alleen de onmiddellijke detectie en correctie van prestatieproblemen vergemakkelijkt, maar wordt er ook voor gezorgd dat de workload consistent voldoet aan de prestatiebenchmarks. Als u deze problemen niet verhelpt, kan dit leiden tot complicaties, zoals vertragingen, crashes en het niet reageren van het systeem, en kan de gebruikerservaring verslechteren. Ze kunnen ook voorkomen dat gebruikers hun taken efficiënt uitvoeren en op hun beurt de reputatie van de organisatie schaden.

Definities

Termijn	Definitie
Gegevenscorrelatie	Logboeken, metrische gegevens en gebeurtenissen uit verschillende onderdelen van uw workload uitlijnen om onderliggende oorzaken aan te geven.
Hoofdoorzaakanalyse	Een proces voor het identificeren van de onderliggende factoren die verantwoordelijk zijn voor een probleem.
Zelfherstellend	De mogelijkheid om problemen automatisch te herstellen zonder menselijke tussenkomst.
Zelfpreventie	Implementaties binnen een workload om mogelijke problemen en fouten te voorkomen.

Belangrijke ontwerpstrategieën

Wanneer u een probleem met liveprestaties ondervindt, moet u zijn voorbereid met de juiste gegevens en een plan om op het probleem te reageren. Dit plan moet duidelijke communicatielijnen en verantwoordelijkheden bevatten. Het primaire doel is om oplossingen te implementeren die een snelle terugkeer naar normale bewerkingen mogelijk maken en inzichten uit het incident bieden. Het integreren van preventieve maatregelen in uw werkstroom is een cruciale strategie. Het doel is om te voorkomen dat hetzelfde probleem zich opnieuw voordoet of de effecten op de prestaties te verminderen als het niet te voorkomen is.

Voorbereiden op problemen

De ideale reactie op problemen met live-siteprestaties is nauwkeurig en snel. Precisie en snelheid in prestatieherstel vereisen voorbereiding. Als u effectief wilt reageren op problemen met liveprestaties, is het van cruciaal belang om belangrijke metrische prestatiegegevens te bewaken, de hoofdoorzaak van de problemen te identificeren en passende oplossingen of optimalisaties te implementeren. Als u deze stappen wilt uitvoeren, moet u mogelijk workloadlogboeken analyseren, prestatietests uitvoeren, code of configuraties optimaliseren en resources schalen. In de volgende voorbeelden worden enkele kritieke voorbereidingsgebieden beschreven:

Zorg voor nauwkeurige architectuurdiagrammen. Uw architectuurdiagrammen moeten alle onderdelen bevatten en laten zien hoe ze samenwerken. Visuele weergave kan helpen bij het identificeren van knelpunten en single points of failure die kunnen leiden tot prestatievermindering of onbeschikbaarheid. Idealiter kunt u deze problemen ondervangen en verwijderen voordat ze problemen veroorzaken, maar met een up-to-date diagram kunt u problemen in stressmomenten vaststellen.
Gegevenstoegang controleren. Gegevens en logboeken van bewakingsprocessen zijn essentieel voor het in realtime reageren op prestatieproblemen en het uitvoeren van hoofdoorzaakanalyses. Maar het is belangrijk om de integriteit en vertrouwelijkheid van de gegevens te behouden. Voor het reageren op problemen met live-siteprestaties is vaak toegang nodig tot onderliggende gegevens die mogelijk niet normaal toegankelijk zijn. U moet ervoor zorgen dat medewerkers toegang hebben tot de gegevens die ze nodig hebben wanneer zich problemen voordoen. Maar u moet alleen tijdgebonden, minimale toegangsrechten verlenen en u moet deze toegang beperken tot geautoriseerd personeel.
Automatische waarschuwingen instellen. Waarschuwingen kunnen u helpen bij het identificeren en oplossen van problemen zodra deze zich voordoen. Waarschuwingen moeten meldingen genereren wanneer de prestaties van workloads afwijken van prestatiebasislijnen. Na verloop van tijd moet u de waarschuwingsconfiguraties aanpassen om te voorkomen dat er te veel of te weinig meldingen worden gegenereerd. De bewakingsoplossingen die u gebruikt, moeten voldoende gegevens verzamelen om waarschuwingen te genereren. Deze waarschuwingen moeten worden afgestemd op prestatiedoelen en vastgestelde basislijnen. U moet voorkomen dat u waarschuwingen genereert over problemen die relevant zijn voor uw doelstellingen. Voorbeelden van waarschuwingen zijn verminderde CPU-gebruik, geheugen, reactietijden en databaseprestaties.

Een sorteringsplan maken

Het maken van een triageplan omvat het bedenken van een gestructureerde benadering voor het identificeren, escaleren, analyseren, prioriteren en communiceren van prestatieproblemen op de livesite. Een triageplan is een strategie voor het reageren op problemen met liveprestaties. Het zorgt ervoor dat prestatieonderbrekingen snel en effectief worden aangepakt, met duidelijke rollen en procedures. De meeste prestatieproblemen verdienen protocollen voor herstel na noodgevallen niet, maar ze kunnen van invloed zijn op de functionaliteit van de workload die voldoende is om triageplanning te vereisen. Een goed gedocumenteerd triageplan zorgt ervoor dat alle teamleden op elkaar zijn afgestemd en snel kunnen handelen, waardoor de impact op gebruikers en workloads wordt geminimaliseerd. Een triageplan moet de volgende onderdelen bevatten:

Identificatie en bewaking: Implementeer een systeem om prestatieproblemen in realtime te identificeren en te bewaken. U moet een lijst hebben met de contactgegevens van personen die beslissingen kunnen nemen of problemen naar een hoger niveau kunnen escaleren. In het plan moeten ook rollen en verantwoordelijkheden worden geïdentificeerd. Het moet vastleggen welke accounts toegang krijgen tot beveiligde informatie en voor hoe lang.
Escalatieproces: Definieer een duidelijk escalatieproces om ervoor te zorgen dat prestatieproblemen tijdig worden geëscaleerd naar de juiste teams of personen. De procesdefinitie moet contactgegevens en richtlijnen voor het escaleren van problemen bevatten.
Hoofdoorzaakanalyse: Ontwikkel een proces voor het uitvoeren van een hoofdoorzaakanalyse om de onderliggende oorzaak van elk prestatieprobleem te identificeren. Het proces moet bestaan uit het analyseren van logboeken en metrische prestatiegegevens en het uitvoeren van diagnostische tests om de oorzaak van elk probleem vast te stellen.
Prioriteitstelling: stel een prioriteringsframework in om de ernst van prestatieproblemen te bepalen en deze te prioriteren op basis van hun effect op de workload en gebruikers.
Communicatie: Maak een communicatieplan om belanghebbenden op de hoogte te houden van de status van prestatieproblemen en de voortgang van hun oplossing. Overweeg regelmatig updates, statusrapporten en duidelijke communicatiekanalen.
Documentatie: Documenteer het triageplan, inclusief alle stappen, processen en aanbevolen procedures. Deze documentatie moet gemakkelijk toegankelijk zijn voor de teamleden die betrokken zijn bij het reageren op prestatieproblemen.

Methoden ontwikkelen om problemen te identificeren en op te lossen

Het oplossen van problemen met liveprestaties omvat het identificeren en aanpakken van alle factoren die kunnen leiden tot prestatievermindering of inefficiëntie in een live workload. Gegevens die u tijdens de bewaking verzamelt, zijn van onschatbare waarde wanneer u prestatiegerelateerde incidenten onderzoekt en oplost. Deze gegevens bieden een historisch overzicht van metrische prestatiegegevens. Wanneer u bewakingsgegevens beschikbaar hebt, kunt u de hoofdoorzaken analyseren en bijdragende factoren identificeren. U moet alle relevante bewakingsgegevens gebruiken om elk prestatieprobleem te begrijpen en op te lossen.

Hoofdoorzaakanalyse gebruiken

Voor de analyse van de hoofdoorzaak zijn hypothesen getest. Nadat u de bewakingsgegevens hebt bekeken, moet u mogelijke oorzaken van het prestatieprobleem vermelden en deze testen. Als u een hoofdoorzaakanalyse wilt uitvoeren op een probleem met liveprestaties, kunt u deze stappen volgen:

Informatie verzamelen. Verzamel zoveel mogelijk informatie over het prestatieprobleem. Voorbeelden zijn foutberichten, logboeken, metrische prestatiegegevens en andere relevante gegevens.
Definieer het probleem. Definieer het probleem duidelijk door de symptomen en het effect van het probleem op de workload of gebruikers te identificeren.
Mogelijke oorzaken onderzoeken. Beperk het bereik van de analyse door het specifieke onderdeel of gebied van de workload te identificeren waar het prestatieprobleem zich voordoet. Identificeer mogelijke oorzaken van het prestatieprobleem op basis van de verzamelde informatie. Dit proces kan betrekking hebben op het analyseren van code, configuratie-instellingen, infrastructuur of externe afhankelijkheden.
Gegevens correleren. Ga dieper in op de verzamelde gegevens om patronen, afwijkingen of correlaties te identificeren die kunnen bijdragen aan het prestatieprobleem. Gegevenscorrelatie is essentieel voor het identificeren van prestatieproblemen en oorzaken. Het kan gaan om het controleren van logboeken, het analyseren van metrische prestatiegegevens en het uitvoeren van tests.
Testhypotheses. Formuleer hypothesen op basis van de mogelijke oorzaken die u identificeert. Voer tests uit om uw hypothesen te valideren of te weerleggen. U moet een testomgeving gebruiken om te zien of u de fout kunt repliceren.
Implementeer oplossingen. Zodra u een hoofdoorzaak hebt geïdentificeerd, kunt u oplossingen ontwikkelen en implementeren om het prestatieprobleem op te lossen.
Bewaken en valideren. Nadat u de oplossingen hebt geïmplementeerd, controleert u continu de workload om ervoor te zorgen dat het prestatieprobleem is opgelost. Valideer de effectiviteit van de oplossingen door metrische prestatiegegevens en feedback van gebruikers te controleren.

Afweging: De stappen van een hoofdoorzaakanalyse, zoals het identificeren van mogelijke oorzaken, het testen van hypothesen en het documenteren van de analyse, kunnen tijdrovend zijn. Als u prestatieproblemen wilt correleren, moet u ook gegevens verzamelen en opslaan. De benodigde tijd en infrastructuur kunnen aanzienlijk werk toevoegen aan de operationele teams en kosten voor de workload.

Risico: als u een hoofdoorzaakanalyse uitvoert zonder de juiste beveiligingsregels, bestaat het risico dat u gevoelige informatie beschikbaar maakt wanneer u toegang geeft tot logboeken en gegevens.

Ondersteuning van leveranciers inschakelen

Ondersteuning van leveranciers kan een essentiële stap zijn wanneer u te maken hebt met doorlopende prestatieproblemen. Leveranciers hebben de expertise, hulpprogramma's, resources en ervaring om problemen met hun producten op te lossen. Uw ondersteuningsovereenkomst met uw leverancier bepaalt het niveau van de ondersteuning die een leverancier biedt.

Het is vaak het beste om parallel met leveranciers te werken. U moet een plan maken om sommige teamleden samen te laten werken met de ondersteuning van de leverancier, terwijl anderen prestatieproblemen blijven sorteren en oplossen. Ondersteuningsteams van leveranciers kunnen ook suggesties doen voor het voorkomen en automatiseren van reacties op vergelijkbare gebeurtenissen.

U moet beschikken over contactgegevens voor uw personeel. Leveranciers hebben mogelijk ook toegang tot gegevens nodig om effectief problemen op te lossen. U moet een plan hebben voor het verifiëren en autoriseren van externe accounts of gastaccounts voor toegang tot bewakingsgegevens.

Leren van bevindingen

Nadat u een prestatieprobleem met livesites hebt opgelost, moet u controleren wat er is gebeurd. Het doel is om te leren van prestatieproblemen, niet alleen problemen te identificeren. De beste manier om te leren is via documentatie. Documenteer elk probleem en leg uit hoe u het kunt oplossen. Als een leverancier heeft geholpen, werkt u samen met de leverancier om uw documentatie te verbeteren, uw team te trainen en uw workload dienovereenkomstig aan te passen.

In de documentatie moet worden aangegeven hoe u kunt voorkomen dat elk probleem zich opnieuw voordoet. Een manier om terugkerende problemen te voorkomen, is door automatisering te introduceren om te reageren op veelvoorkomende problemen. Automatisering moet eigenschappen voor zelfherstel en zelfpreventie toevoegen aan een workload. Samen met de automatisering kunt u verfijnde waarschuwingen maken waarmee u vroegtijdig kunt reageren op indicatoren voor prestatieproblemen.

Azure-facilitering

Methoden ontwikkelen om problemen te identificeren en op te lossen: Azure biedt verschillende hulpprogramma's waarmee u kunt reageren op problemen met liveprestaties:

Azure Monitor is een uitgebreide bewakingsoplossing die inzicht biedt in de prestaties en status van uw toepassingen en infrastructuur. Monitor biedt functies zoals metrische gegevens, logboeken, waarschuwingen en dashboards waarmee u prestatieproblemen kunt bewaken en diagnosticeren.
Application Insights is een APM-service (Application Performance Management) waarmee ontwikkelaars en DevOps-professionals live-toepassingen kunnen bewaken. Het detecteert automatisch prestatieafwijkingen, verzamelt logboeken en gebeurtenissen op toepassingsniveau en biedt analysehulpprogramma's om problemen te diagnosticeren.
Log Analytics is een service waarmee logboekgegevens uit verschillende bronnen, waaronder toepassingen, virtuele machines en Azure-resources, worden verzameld en geanalyseerd. Wanneer u Log Analytics gebruikt, kunt u logboekgegevens opvragen en analyseren om inzicht te krijgen in de prestaties en het gedrag van uw toepassingen.

Aanbevelingen voor zelfherstel en zelfbehoud

Controlelijst voor efficiëntie van prestaties

Raadpleeg de volledige set aanbevelingen.

Controlelijst voor efficiëntie van prestaties

Share via

Aanbevelingen voor het reageren op problemen met liveprestaties

Belangrijke ontwerpstrategieën

Voorbereiden op problemen

Een sorteringsplan maken

Methoden ontwikkelen om problemen te identificeren en op te lossen

Hoofdoorzaakanalyse gebruiken

Ondersteuning van leveranciers inschakelen

Leren van bevindingen

Azure-facilitering

Controlelijst voor efficiëntie van prestaties

Feedback

Feedback

Aanvullende resources

Share via

Aanbevelingen voor het reageren op problemen met liveprestaties

Belangrijke ontwerpstrategieën

Voorbereiden op problemen

Een sorteringsplan maken

Methoden ontwikkelen om problemen te identificeren en op te lossen

Hoofdoorzaakanalyse gebruiken

Ondersteuning van leveranciers inschakelen

Leren van bevindingen

Azure-facilitering

Verwante koppelingen

Controlelijst voor efficiëntie van prestaties

Feedback

Feedback

Aanvullende resources