Molnövervakningsguide: Samla in rätt dataCloud monitoring guide: Collect the right data

I den här artikeln beskrivs några överväganden för att samla in övervakningsdata i ett molnprogram.This article describes some considerations for collecting monitoring data in a cloud application.

Om du vill se hälsotillståndet och tillgängligheten för din molnlösning måste du konfigurera övervakningsverktygen för att samla in en signalnivå som baseras på förutsägbara fel.To observe the health and availability of your cloud solution, you must configure the monitoring tools to collect a level of signals that are based on predictable failure states. Dessa signaler är symptom på felet, inte orsaken.These signals are the symptoms of the failure, not the cause. Övervakningsverktygen använder mått och loggar för avancerad diagnostik och rotorsaksanalys.The monitoring tools use metrics and, for advanced diagnostics and root cause analysis, logs.

Planera noggrant för övervakning och migrering.Plan for monitoring and migration carefully. Börja med att inkludera övervakningstjänstägaren, driftchefen och annan relaterad personal under planeringsfasen och fortsätt engagera dem under utvecklings- och lanseringscykeln.Start by including the monitoring service owner, the manager of operations, and other related personnel during the planning phase, and continue engaging them throughout the development and release cycle. Fokus ligger på att utveckla en övervakningskonfiguration som baseras på följande kriterier:Their focus will be to develop a monitoring configuration that's based on the following criteria:

  • Hur ser sammansättningen av tjänsten ut?What is the composition of the service? Övervakas dessa beroenden i dag?Are those dependencies monitored today? Finns det i så fall flera verktyg inblandade?If so, are there multiple tools involved? Finns det en möjlighet att konsolidera utan att införa risker?Is there an opportunity to consolidate, without introducing risks?
  • Vad är serviceavtalet och hur mäter och rapporterar jag det?What is the SLA of the service, and how will I measure and report it?
  • Hur ska instrumentpanelen för tjänsten se ut när en incident utlöses?What should the service dashboard look like when an incident is raised? Hur ska instrumentpanelen se ut för tjänstägaren och för teamet som stöder tjänsten?What should the dashboard look like for the service owner, and for the team that supports the service?
  • Vilka mått producerar resursen som jag behöver övervaka?What metrics does the resource produce that I need to monitor?
  • Hur söker tjänstägaren, supportteamen och annan personal igenom loggarna?How will the service owner, support teams, and other personnel be searching the logs?

Hur du besvarar dessa frågor och kriterierna för aviseringar avgör hur du ska använda övervakningsplattformen.How you answer those questions, and the criteria for alerting, determines how you'll use the monitoring platform. Om du migrerar från en befintlig övervakningsplattform eller en uppsättning övervakningsverktyg kan du använda migreringen som en möjlighet att omvärdera de signaler som du samlar in.If you're migrating from an existing monitoring platform or set of monitoring tools, use the migration as an opportunity to reevaluate the signals you collect. Detta gäller särskilt nu när det finns flera kostnadsfaktorer att tänka på när du migrerar eller integrerar med en molnbaserad övervakningsplattform som Azure Monitor.This is especially true now that there are several cost factors to consider when you migrate or integrate with a cloud-based monitoring platform like Azure Monitor. Kom ihåg att övervakningsdata måste kunna användas.Remember, monitoring data needs to be actionable. Du måste ha optimerade data som samlas in för att ge dig en "10 000 fot"-vy över den övergripande hälsan för tjänsten.You need to have optimized data collected to give you "a 10,000 foot view" of the overall health of the service. Instrumentationen som definieras för att identifiera verkliga incidenter bör vara så enkel, förutsägbar och tillförlitlig som möjligt.The instrumentation that's defined to identify real incidents should be as simple, predictable, and reliable as possible.

Utveckla en övervakningskonfigurationDevelop a monitoring configuration

Övervakningstjänstens ägare och team följer vanligtvis en gemensam uppsättning aktiviteter för att utveckla en övervakningskonfiguration.The monitoring service owner and team typically follow a common set of activities to develop a monitoring configuration. Dessa aktiviteter börjar i de första planeringsstegen, fortsätter genom testning och validering i en icke-produktionsmiljö och utökar till att distribuera till produktion.These activities start at the initial planning stages, continue through testing and validating in a nonproduction environment, and extend to deploying into production. Övervakningskonfigurationer härleds från kända fellägen, testresultat av simulerade fel och upplevelsen hos flera personer i organisationen (supportavdelningen, drift, tekniker och utvecklare).Monitoring configurations are derived from known failure modes, test results of simulated failures, and the experience of several people in the organization (the service desk, operations, engineers, and developers). Sådana konfigurationer förutsätter att tjänsten redan finns, att den migreras till molnet och att den inte har ändrats.Such configurations assume that the service already exists, it's being migrated to the cloud, and it hasn't been rearchitected.

För kvalitetsresultat på tjänstnivå bör du övervaka hälsotillståndet och tillgängligheten för dessa tjänster tidigt i utvecklingsprocessen.For service-level quality results, monitor the health and availability of these services early in the development process. Om du övervakar utformningen av tjänsten eller programmet som en eftertänkning blir resultatet inte lika lyckat.If you monitor the design of that service or application as an afterthought, your results won't be as successful.

Överväg följande rekommendationer för att få en snabbare lösning av incidenten:To drive quicker resolution of the incident, consider the following recommendations:

  • Definiera en instrumentpanel för varje tjänstkomponent.Define a dashboard for each service component.
  • Använd mått som hjälp för ytterligare diagnos och för att identifiera en lösning eller lösning av problemet om en rotorsak inte kan upptäckas.Use metrics to help guide further diagnosis and to identify a resolution or workaround of the issue if a root cause can't be uncovered.
  • Använd funktioner för att öka detaljgranskningen på instrumentpanelen eller stöd för att anpassa vyn för att förfina den.Use dashboard drill-down capabilities, or support customizing the view to refine it.
  • Om du behöver utförliga loggar bör mått ha hjälpt dig att rikta in dig på sökkriterierna.If you need verbose logs, metrics should have helped target the search criteria. Om måtten inte hjälpte kan du förbättra dem för nästa incident.If the metrics didn't help, improve them for the next incident.

Genom att använda den här vägledande uppsättningen principer kan du få insikter i nära realtid samt bättre hantering av din tjänst.Embracing this guiding set of principles can help give you near-real-time insights, as well as better management of your service.

Nästa stegNext steps