Die richtigen Überwachungsdaten sammeln

Wenn Sie die Integrität und Verfügbarkeit Ihrer Cloudlösung beobachten, können Sie die Signale verstehen, die Sie in Ihren Systemen erwarten, damit Sie bestimmen können, welche Daten Sie sammeln sollten.

Dieser Artikel ist Teil einer Reihe im Leitfaden zur Cloudüberwachung.

Überlegungen zur Datensammlung

Stellen Sie sich die folgenden Fragen, um Kriterien für eine Überwachungskonfiguration festzulegen:

  • Dienstzusammensetzung: Wie ist die Zusammensetzung der Dienste? Werden diese Abhängigkeiten aktuell überwacht? Wenn dies der Fall ist, sind mehrere Tools involviert und besteht die Möglichkeit zum Zusammenfügen ohne zusätzliche Risiken zu verursachen?

  • Definieren von vorhersehbaren Fehlzuständen: Diese Signale sind die Symptome des Fehlers, nicht der Ursache. Die Überwachungstools verwenden Metriken und Protokolle für erweiterte Diagnose und Grundursachenanalyse.

  • Service-SLA: Was ist die Vereinbarung zum Servicelevel (Service Level Agreement, SLA) des Diensts, und wie können Sie ihn messen und melden?

  • Service Dashboard Design: Wie sollte das Dienstdashboard bei der Überprüfung von Incidents aussehen? Wie sollte das Dienstdashboard für den Besitzer des Diensts und das Team, das den Dienst unterstützt, aussehen?

  • Ressourcenmetriken: Welche Ressourcenmetriken werden von der Lösung erstellt, die Sie überwachen müssen?

  • Protokollsuche: Wie werden der Besitzer des Diensts, Supportteams und andere Personen die Protokolle durchsuchen?

  • Einbeziehung der Stakeholder: Schließen Sie den Besitzer des Überwachungsdiensts, den Leiter des IT-Betriebs und andere Projektbeteiligte während der Planungsphase ein. Binden Sie diese während den gesamten Entwicklungs- und Releasezyklen Ihrer Überwachungslösungen ein.

  • Vertrauliche Daten: Welche sensiblen Daten sollte ich nicht für Anwendungen sammeln, die ich meinen Operatoren nicht zugänglich machen möchte?

Ihre Antworten auf diese Fragen bestimmen zusammen mit den Kriterien für die Warnungen, wie Sie die Überwachungsplattform nutzen werden.

Auswerten erforderlicher Überwachungssignale

Unabhängig davon, ob Sie neue Workloads mit einer neuen Überwachungslösung bereitstellen oder von einer vorhandenen Überwachungsplattform oder einer Reihe von Überwachungstools migrieren, ist die Auswertung der erforderlichen Überwachungssignale von entscheidender Bedeutung. Das sorgfältige Entwerfen der erforderlichen Signale trägt dazu bei, die erwarteten Ergebnisse zu steuern und Rauschen zu reduzieren.

Beachten Sie Folgendes:

  • Umsetzbar: Denken Sie daran, dass Überwachungsdaten umsetzbar sein müssen, um Rauschen und falsch positive Ergebnisse zu reduzieren.
  • Optimiert: Optimieren Sie die gesammelten Daten, um Ihnen einen ganzheitlichen Überblick über die Allgemeine Integrität des Diensts zu geben.
  • Incident Instrumentierung: Die zum Identifizieren tatsächlicher Vorfälle definierte Instrumentierung sollte so einfach, vorhersehbar und zuverlässig wie möglich sein.

Entwickeln einer Überwachungskonfiguration

In der Regel halten sich der Besitzer eines Überwachungsdiensts und sein Team an einen Standardsatz von Aktivitäten, um eine Überwachungskonfiguration zu erstellen. Diese Aktivitäten beginnen bei der ersten Planung und reichen über Tests und Validierungen in einer Nichtproduktionsumgebung bis hin zum Einsatz in der Produktionsumgebung.

Für die Entwicklung von Überwachungskonfigurationen nutzt das Team bekannte Fehlermodi, Testergebnisse aus simulierten Fehlern und die Erfahrung verschiedener Personen innerhalb der Organisation, z. B. Servicedesk, Betriebspersonal, Ingenieure und Entwickler.

Diese Konfigurationen werden unter der Annahme entworfen, dass der Dienst bereits vorhanden ist, eine Migration zur Cloud durchläuft und nicht neu strukturiert wurde. Um sicherzustellen, dass Qualitätsergebnisse auf Servicelevel erzielt werden, ist es unerlässlich, die Integrität und Verfügbarkeit dieser Dienste frühzeitig im Entwicklungsprozess zu überwachen. Wenn die Überwachung des Dienst- oder Anwendungsentwurfs nur als nachträglich betrachtet wird, sind die Ergebnisse wahrscheinlich weniger erfolgreich.

Um eine schnellere Lösung des Vorfalls zu erreichen, beachten Sie die folgenden Empfehlungen:

  • Dashboards für einzelne Komponenten: Definieren Sie eine Dashboard für jede Dienstkomponente, um bekannte Probleme in einem bestimmten Bereich Ihrer Anwendungen und Infrastruktur schnell zu identifizieren.

  • Verwenden von Metriken: Verwenden Sie die Metriksignale, die in die verschiedenen Komponenten integriert sind, um Lösungen oder Problemumgehungen zu diagnostizieren und zu identifizieren, wenn Sie keine Grundursache identifizieren können.

  • Aktivieren von Dashboard-Anpassungen: Entwerfen Sie Ihre Dashboards so, dass Sie problemlos einen Drilldown in die Daten aus den Überwachungsdashboards durchführen können. Stellen Sie sicher, dass Sie das dynamische Anpassen der Ansichten unterstützen, und damit die einfache Filterung und Problembehandlung ermöglichen.

Die Übernahme dieses Prinzipienleitfadens kann Ihnen zu Einblicken nahezu in Echtzeit und einem besseren Dienstmanagement verhelfen.

Nächste Schritte