BCP-Funktionsüberprüfung verstehen

Abgeschlossen

Die Funktionsüberprüfung ist ein integraler Bestandteil des ERCM-Lebenszyklus. Sie umfasst die Prüfung der Effektivität des Geschäftskontinuitätsplans (Business Continuity Plan, BCP) sowohl theoretisch als auch in der Praxis. Jedes Serviceteam testet seinen BCP regelmäßig, um die Planeffektivität und die Bereitschaft des Serviceteams zur Ausführung des Plans zu messen. Gemäß den Richtlinien des ERCM-Programms muss eine jährliche Überprüfung des BCP und der Funktionsüberprüfung innerhalb von 12 Monaten nach der letzten Überprüfung erfolgen und eine Überprüfung der unterstützenden Dokumentation wie BIA und DA enthalten.

Funktionsüberprüfungsphase: - Szenarien entwickeln, - Überprüfungen durchführen, - Ergebnisse dokumentieren, - Lücken und Verbesserungen identifizieren

Überprüfungsstufen

Um Resilienz- und Wiederherstellungsstrategien für eine Vielzahl von potenziellen Vorfällen zu validieren, definiert das ERCM-Programm mehrere Kategorien von Testszenarien, die sich auf Personen, Standorte und Technologien auswirken. Einzelne Serviceteams können ihre eigenen spezifischen Tests innerhalb der ERCM-Testszenariorichtlinien definieren.

Beispiele für Testszenarien:

  • Verlust eines Hauptgebäudes oder eines Campus-Clusters
  • Technologieunterbrechungen
  • Regionale Netzwerkausfälle
  • Kritische Unterbrechungen bei Drittanbietern
  • Arbeitsunterbrechungen
  • Große regionale Ereignisse
  • Verlust eines einzelnen Rechenzentrums
  • Cyberangriffe
  • Pandemie

Im Kontext eines jeden Testszenarios definiert Microsoft acht Überprüfungsstufen von 0, was bedeutet, dass die Funktion nicht getestet wurde, bis 7,was bedeutet, dass die Funktion während des Tests vollständig aktiviert war. Bei den Stufen 1 bis 4 werden Funktionen des Geschäftskontinuitätsplans getestet, die außerhalb der Produktionsumgebungen liegen. Bei den Stufen 5 bis 7 wird eine zunehmend strenge Überprüfung der Wiederherstellungsstrategien in den Produktionsumgebungen erforderlich, wobei Stufe 7 die Überprüfung des Wiederherstellungsplans für ein gesamtes Anwendungsökosystem, einschließlich aller Abhängigkeiten, erfordert. Die für jeden Dienst erforderliche Überprüfungsebene basiert auf dem Maß, in dem der Dienst kritisch ist, wobei kritischere Dienste einer strengeren Überprüfung unterzogen werden. Die Ergebnisse der Funktionsvalidierung für ausgewählte Microsoft Online Services werden Kunden über vierteljährliche Berichte im Service Trust Portal zur Verfügung gestellt.

Reagieren auf Vorfälle, die Dienste beeinträchtigen

Der Wert von Funktionsüberprüfungen und kontinuierlicher BCM-Verbesserung wird deutlich, wenn Microsoft Geschäftskontinuitätspläne ausführen muss, um auf Vorfälle zu reagieren, die Dienste beeinträchtigen. Als Hurrikan Harvey auf Texas traf, wobei Auswirkungen auf unser Rechenzentrum in San Antonio erwartet wurden, hat das Exchange Online-Team den Geschäftskontinuitätsplan aktiviert, um Datenverkehr proaktiv aus dem Rechenzentrum zu evakuieren und so Beeinträchtigungen unserer Kunden zu verhindern. Nachdem die Bedrohung vorbei war, kehrte das Rechenzentrum ohne einen Vorfall zum Normalbetrieb zurück, indem eindeutig definierte Wiederherstellungsprozesse durchgeführt wurden. Diese Prozesse waren eingerichtet, weil Exchange Online seinen Kontinuitätsplan auf Grundlage der aus vorhergehenden Naturkatastrophen gewonnenen Erkenntnisse aktualisiert und getestet hatte, um sicherzustellen, dass der Plan während eines echten Notfalls effektiv wäre.

Aus internen Vorfällen gewonnene Erkenntnisse unterstützen ebenfalls Verbesserungen an der Geschäftskontinuität. Als es im Microsoft-Unternehmensnetzwerk durch eine fehlerhafte Gruppenrichtlinienbereitstellung zu einem Ausfall des DNS kam, waren Kunden vor jeglichen Auswirkungen geschützt, da das Unternehmensnetzwerk in getrennten Fehlerzonen von unseren kommerziellen Diensten isoliert war. Die interne Kommunikation bei Microsoft war jedoch betroffen und erschwerte die Koordinierung der Behebung des Vorfalls. Dieser Vorfall führte zur Erstellung von Notfallprotokollen, um die Zusammenarbeit zwischen Teams bei Microsoft während Vorfällen zu ermöglichen, die die interne Kommunikation beeinträchtigen.

Weitere Informationen