Empfehlungen für die Entwicklung einer zuverlässigen Überwachungs- und Warnungsstrategie

Gilt für die folgende Prüfliste für die Zuverlässigkeit von Azure Well-Architected Framework:

RE:10 Messen und Veröffentlichen der Integritätsindikatoren der Lösung Erfassen Sie kontinuierlich Betriebszeit- und andere Zuverlässigkeitsdaten aus der gesamten Workload sowie aus einzelnen Komponenten und Schlüsselflüssen.

In diesem Leitfaden werden die Empfehlungen zum Entwerfen einer zuverlässigen Überwachungs- und Warnungsstrategie beschrieben. Implementieren Sie diese Strategie, um Ihre Betriebsteams über die integritätsbezogene status Ihrer Umgebung zu informieren und sicherzustellen, dass Sie die festgelegten Zuverlässigkeitsziele für Ihre Workload erreichen.

Definitionen

Begriff Definition
Metriken Numerische Werte, die in regelmäßigen Abständen gesammelt werden. Metriken beschreiben einige Aspekte eines Systems zu einem bestimmten Zeitpunkt.
Ressourcenprotokolle Daten, die ein System generiert. Sie stellt Informationen zum Zustand des Systems bereit.
Traces Daten, die Informationen über den Pfad liefern, den eine Anforderung durch Dienste und Komponenten durchläuft.

Wichtige Entwurfsstrategien

Führen Sie vor dem Erstellen einer Überwachungs- und Warnungsstrategie die folgenden Aufgaben für Ihre Workload im Rahmen Ihrer Zuverlässigkeitsplanung aus:

Erstellen Sie eine Überwachungs- und Warnungsstrategie, um sicherzustellen, dass Ihre Workload zuverlässig funktioniert. Eine Überwachungs- und Warnungsstrategie sorgt dafür, dass Ihre Betriebsteams über Änderungen am Zustand Ihrer Workload benachrichtigt werden und Probleme schnell beheben können. Erstellen Sie eine robuste und zuverlässige Überwachungsstrategie, indem Sie ein Integritätsmodell für Ihre kritischen Flows und die Komponenten erstellen, aus denen diese kritischen Flows bestehen. Das Integritätsmodell definiert fehlerfreie, beeinträchtigte und fehlerhafte Zustände. Entwerfen Sie Ihren Betriebsstatus so, dass Änderungen in diesen Zuständen sofort erfasst werden. Wenn sich der Integritätsstatus von fehlerfrei zu beeinträchtigt oder fehlerhaft ändert, lösen Warnungsmechanismen die automatischen Korrekturmaßnahmen aus und benachrichtigen die entsprechenden Teams.

Implementieren Sie die folgenden Empfehlungen, um eine Überwachungs- und Warnungsstrategie zu entwerfen, die den Anforderungen Ihres Unternehmens entspricht.

Allgemeine Hinweise

  • Verstehen des Unterschieds zwischen Metriken, Protokollen und Ablaufverfolgungen

  • Aktivieren Sie die Protokollierung für alle Cloudressourcen. Verwenden Sie Automatisierung und Governance in Ihren Bereitstellungen, um die Diagnoseprotokollierung in Ihrer gesamten Umgebung zu aktivieren.

  • Leiten Sie alle Diagnoseprotokolle an eine zentrale Datensenke und Analyseplattform wie einen Log Analytics-Arbeitsbereich weiter. Wenn Sie regionale Datenhoheitsanforderungen haben, müssen Sie lokale Datensenken in den Regionen verwenden, die diesen Anforderungen unterliegen.

Kompromiss: Es gibt Kostenauswirkungen für das Speichern und Abfragen von Protokollen. Beachten Sie, wie sich Ihre Protokollanalyse und -aufbewahrung auf Ihr Budget auswirkt, und ermitteln Sie das optimale Auslastungsgleichgewicht, um Ihre Anforderungen zu erfüllen. Weitere Informationen finden Sie unter Bewährte Methoden für die Kostenoptimierung.

  • Wenn Ihre Workloads einem oder mehreren Complianceframeworks unterliegen, unterliegen auch einige Komponentenprotokolle, die vertrauliche Informationen verarbeiten, diesen Frameworks. Senden Sie die relevanten Komponentenprotokolle an ein SIEM-System (Security Information and Event Management, Sicherheitsinformations- und Ereignisverwaltung), z. B. Microsoft Sentinel.

  • Erstellen Sie eine Protokollaufbewahrungsrichtlinie , die langfristige Aufbewahrungsanforderungen enthält, die die Complianceframeworks für Ihre Workload auferlegen.

  • Verwenden Sie die strukturierte Protokollierung für alle Protokollmeldungen, um die Abfrage der Protokolldaten zu optimieren.

  • Konfigurieren Sie Warnungen, die ausgelöst werden, wenn Werte kritische Schwellenwerte überschreiten, die mit einer Änderung des Zustands des Integritätsmodells korrelieren, z. B. grün, gelb oder rot.

    Die Schwellenwertkonfiguration ist eine Praxis der kontinuierlichen Verbesserung. Wenn sich Ihre Workload weiterentwickelt, können sich die von Ihnen definierten Schwellenwerte ändern. In einigen Fällen sind dynamische Schwellenwerte eine gute Option für Ihre Überwachungsstrategie.

  • Erwägen Sie, Warnungen zu verwenden, wenn sich die Zustände verbessern, z. B. rot bis gelb oder rot bis grün, damit die Betriebsteams diese Ereignisse für zukünftige Referenzdaten nachverfolgen können.

  • Visualisieren Sie die Echtzeitintegrität Ihrer Umgebung.

  • Verwenden Sie Daten, die bei Incidents erfasst werden, um Ihre Integritätsmodelle und Ihre Überwachungs- und Warnungsstrategie kontinuierlich zu verbessern.

  • Integrieren Von Cloudplattformüberwachungs- und Warnungsdiensten, einschließlich:

  • Integrieren Sie zweckorientierte erweiterte Überwachung und Analyse, die Ihr Cloudanbieter bietet, z. B. Azure Monitor-Einblickestools.

  • Implementieren Sie die Sicherungs- und Wiederherstellungsüberwachung, um Folgendes zu erfassen:

    • Die Datenreplikation status, um sicherzustellen, dass Ihre Workload die Wiederherstellung innerhalb des Zielwiederherstellungspunktziels (Target Recovery Point Objective, RPO) erreicht.

    • Erfolgreiche und fehlgeschlagene Sicherungen und Wiederherstellungen.

    • Die Wiederherstellungsdauer, um Ihre Notfallwiederherstellungsplanung zu informieren.

Überwachen von Anwendungen

  • Erstellen Sie Integritätstests oder Überprüfen von Funktionen , und führen Sie sie regelmäßig von außerhalb der Anwendung aus. Stellen Sie sicher, dass Sie von mehreren Standorten aus testen, die sich geografisch in der Nähe Ihrer Kunden befinden.

  • Protokollieren Sie Daten, während die Anwendung in der Produktionsumgebung ausgeführt wird. Sie benötigen ausreichende Informationen, um die Ursache von Problemen im Produktionszustand zu diagnostizieren.

  • Protokollieren Sie Ereignisse an den Dienstgrenzen. Binden Sie eine Korrelations-ID ein, die über Dienstgrenzen hinweg gilt. Wenn eine Transaktion mehrere Dienste durchläuft und einer dieser Dienste fehlschlägt, hilft Ihnen die Korrelations-ID, Anforderungen in Ihrer Gesamten Anwendung nachzuverfolgen und zu ermitteln, warum die Transaktion fehlgeschlagen ist.

  • Verwenden der asynchronen Protokollierung: Synchrone Protokollierungsvorgänge blockieren manchmal Ihren Anwendungscode, was dazu führt, dass Anforderungen beim Schreiben von Protokollen gesichert werden. Verwenden Sie die asynchrone Protokollierung, um die Verfügbarkeit während der Anwendungsprotokollierung aufrecht zu erhalten.

  • Trennen Sie die Anwendungsprotokollierung von der Überwachung. Überwachungsdatensätze werden üblicherweise aufgrund von Compliance- oder regulatorischen Anforderungen gepflegt und müssen vollständig sein. Um gelöschte Transaktionen zu vermeiden, verwalten Sie Überwachungsprotokolle getrennt von Diagnoseprotokollen.

  • Verwenden Sie telemetrische Korrelation , um sicherzustellen, dass Sie Transaktionen über die End-to-End-Anwendung und kritische Systemflows zuordnen können. Dieser Prozess ist für die Durchführung der Fehlerursachenanalyse (Root Cause Analysis, RCA) für Fehler von entscheidender Bedeutung. Sammeln Sie Metriken und Protokolle auf Plattformebene, z. B. CPU-Prozentsatz, Netzwerkeingang, Netzwerkausgänge und Datenträgervorgänge pro Sekunde, aus der Anwendung, um ein Integritätsmodell zu informieren und Probleme zu erkennen und vorherzusagen. Dieser Ansatz kann helfen, zwischen vorübergehenden und nichttransparenten Fehlern zu unterscheiden.

  • Mithilfe der Whiteboxüberwachung können Sie die Anwendung mit semantischen Protokollen und Metriken instrumentieren. Sammeln Sie Metriken und Protokolle auf Anwendungsebene, z. B. Arbeitsspeicherverbrauch oder Anforderungslatenz, von der Anwendung, um ein Integritätsmodell zu informieren und Probleme zu erkennen und vorherzusagen.

  • Verwenden Sie die Black Box-Überwachung, um Plattformdienste und die resultierende Kundenerfahrung zu messen. Die Blackboxüberwachung prüft das von außen sichtbare Verhalten der Anwendung ohne Berücksichtigung der internen Systemabläufe. Dieser Ansatz ist üblich für die Messung von kundenorientierten Leistungsindikatoren (Service Level Indicators, SLIs), Service Level Objectives (SLOs) und Vereinbarungen zum Servicelevel (Service Level Agreements, SLAs).

Hinweis

Weitere Informationen zur Anwendungsüberwachung finden Sie unter Muster zur Überwachung von Integritätsendpunkten.

Überwachen von Daten und Speicher

  • Überwachen Sie die Verfügbarkeitsmetriken Ihrer Speichercontainer. Wenn diese Metrik unter 100 Prozent fällt, deutet dies auf Fehler bei Schreibfehlern hin. Vorübergehende Verfügbarkeitsverluste können auftreten, wenn Ihr Cloudanbieter die Auslastung verwaltet. Verfolgen Sie die Verfügbarkeitstrends, um festzustellen, ob ein Problem mit Ihrer Workload vorliegt.

    In einigen Fällen weist ein Rückgang der Verfügbarkeitsmetriken für einen Speichercontainer auf einen Engpass in der Computeschicht hin, die dem Speichercontainer zugeordnet ist.

  • Es gibt viele Metriken, die für Datenbanken überwacht werden müssen. Im Kontext der Zuverlässigkeit sind folgende wichtige Metriken zu überwachen:

    • Abfragedauer

    • Zeitlimits

    • Wartezeiten

    • Hohe Arbeitsspeicherauslastung

    • Locks

Azure-Erleichterung

  • Azure Monitor ist eine umfassende Überwachungslösung, die zum Sammeln, Analysieren und Reagieren auf Überwachungsdaten aus Ihren Cloud- und lokalen Umgebungen verwendet wird.

  • Log Analytics ist ein Tool im Azure-Portal, das zum Bearbeiten und Ausführen von Protokollabfragen für Daten im Log Analytics-Arbeitsbereich verwendet wird.

  • Application Insights ist eine Erweiterung von Azure Monitor. Es bietet Funktionen zur Anwendungsleistungsüberwachung (Application Performance Monitoring, APM).

  • Azure Monitor Insights sind erweiterte Analysetools, mit denen Azure-Dienste wie virtuelle Computer, Anwendungsdienste und Container überwacht werden können. Erkenntnisse basieren auf Azure Monitor und Log Analytics.

  • Azure Monitor für SAP-Lösungen ist ein natives Azure-Produkt zur Überwachung von SAP-Landschaften, die in Azure ausgeführt werden.

  • Azure Policy hilft bei der Durchsetzung von Organisationsstandards und bei der Bewertung der Compliance im großen Stil.

  • Azure Business Continuity Center gibt Ihnen Einblicke in Ihre Geschäftskontinuität. Wenn Sie die ansätze für Business Continuity and Disaster Recovery (BCDR) anwenden, verwenden Sie Azure Business Continuity Center, um die Verwaltung des Geschäftskontinuitätsschutzes in Azure und Hybridworkloads zu zentralisieren. Azure Business Continuity Center legt Ressourcen fest, für die kein ordnungsgemäßer Schutz (durch Sicherung oder Notfallwiederherstellung) erforderlich ist, und ergreift Korrekturmaßnahmen. Das Tool ermöglicht eine einheitliche Überwachung und ermöglicht es Ihnen, Governance- und Überwachungskonformität über Azure Policy einzurichten, die bequem an einem Ort zugänglich sind.

  • Bewährte Methoden für mehrere Arbeitsbereiche finden Sie unter Entwerfen einer Log Analytics-Arbeitsbereichsarchitektur.

Beispiel

Beispiele für reale Überwachungslösungen finden Sie unter Webanwendungsüberwachung in Azure und Baselinearchitektur für einen Azure Kubernetes Service Cluster.

  • Azure Monitor-Baselinewarnungen (AMBA) ist ein zentrales Repository mit Warnungsdefinitionen, die Kunden und Partner verwenden können, um ihre Beobachtbarkeit durch die Einführung von Azure Monitor zu verbessern.

Prüfliste für zuverlässigkeit

Weitere Informationen finden Sie im vollständigen Satz von Empfehlungen.