Entwurf für die Wiederherstellung

15 Minuten

Die Workload muss in der Lage sein, die meisten Ausfälle jeder Größenordnung zu antizipieren und sich von ihnen zu erholen, und zwar bei minimaler Beeinträchtigung der Benutzererfahrung und der Geschäftsziele.

Selbst hoch belastbare Systeme benötigen Ansätze für die Notfallbereitschaft, sowohl beim Architekturdesign als auch bei den Workload-Vorgängen. Sie sollten auf der Datenebene über Strategien verfügen, die den Workload-Status reparieren können, wenn er beschädigt ist.

Beispielszenario

Contoso hostet derzeit eine große Menge an Daten in einer lokalen SQL Server-Datenbank und hat kürzlich seine Analyselösung für die Daten mit Azure-Diensten modernisiert.

Die neue Analyselösung nutzt Azure Analysis Services, Azure Data Factory, Azure Synapse Analytics, Power BI und Azure Virtual Machines. Alle Benutzer*innen der Lösung sind interne Mitarbeiter*innen. Nach Prüfung der Verfügbarkeitsanforderungen der Lösung beschließt das Team, die Lösung in einer einzigen Region zu implementieren.

Die Daten werden mit Azure Data Factory eingelesen und verarbeitet, bevor sie im Analysis Services-Speicher gespeichert werden. Ein Teil des Prozesses erfordert einen Legacy-Windows-Prozess, der in einer VM in der Cloud bereitgestellt wird.

Auf Katastrophen vorbereitet sein

Haben Sie strukturierte, getestete und dokumentierte Wiederherstellungspläne, die sich an den ausgehandelten Wiederherstellungszielen orientieren. Die Pläne müssen nicht nur das System als Ganzes abdecken, sondern auch alle Komponenten.

Ein gut definierter Prozess führt zu einer schnellen Wiederherstellung, die negative Auswirkungen auf die Finanzen und den Ruf Ihres Unternehmens verhindern kann. Die Durchführung regelmäßiger Wiederherstellungsübungen testet den Prozess der Wiederherstellung von Systemkomponenten, Daten und Failover- und Failback-Schritten, um Verwirrung zu vermeiden, da Zeit und Datenintegrität die wichtigsten Maßstäbe für den Erfolg sind.

Herausforderung von Contoso

Die Lösung wird nur intern verwendet und gilt nicht als unternehmenskritisch. Daher sind sich das Workload-Team und die Projektbeteiligten einig, dass die Wiederherstellung der Lösung in einer sekundären Region ein ausreichendes Wiederherstellungsmodell für den unwahrscheinlichen Fall ist, dass die Azure-Region, in der sie bereitgestellt wurde, ausfällt oder die gesamte Lösung aus einem anderen Grund nicht mehr verfügbar ist.
Das Workload-Team beschreibt in seinem Notfallwiederherstellungsplan, wie die Lösung in einer anderen Region aufgebaut wird, hatte aber noch keine Gelegenheit, eine vollständige Notfallwiederherstellungsübung durchzuführen.

Anwenden des Ansatzes und Umsetzen der Ergebnisse

Nach einem regionalen Ausfall ist das Notfallwiederherstellungsteam in der Lage, die Anweisungen des Notfallplans zu befolgen, um die Analyselösung in einer anderen Region wieder einzusetzen.
Das Team entdeckt Lücken in den Notfallwiederherstellungsplänen für einige der Vorgänge, die für die Bereitstellung der Lösung erforderlich sind, und der Plan wird aktualisiert, um die Wiederherstellung in Zukunft effizienter zu gestalten.
Das Workload-Team und die Projektbeteiligten vereinbaren, die geplanten Notfallwiederherstellungstests zu beschleunigen, um sicherzustellen, dass der aktualisierte Plan eine effizientere Wiederherstellung ermöglicht.

Adressieren zustandsbehafteter Daten

Stellen Sie sicher, dass Sie Daten aller zustandsbehafteten Komponenten innerhalb Ihrer Wiederherstellungsziele reparieren können.

Sicherungen sind unerlässlich, um das System über einen vertrauenswürdigen Wiederherstellungspunkt in einen funktionierenden Zustand zurückzuführen, z. B. den letzten bekannten guten Zustand.

Unveränderliche und transaktionskonsistente Sicherungen stellen sicher, dass die Daten nicht verändert werden können und dass die wiederhergestellten Daten nicht beschädigt sind.

Herausforderung von Contoso

Das Workload-Team beschließt, die SQL-Datenbanken nach Azure zu verlagern, um die Verarbeitungszeiten für die Analysen zu verkürzen. Eine der Datenbanken wird während des Analyseprozesses von den VMs intensiv genutzt, so dass das Team sicherstellen muss, dass der Datenbankstatus mit dem niedrigstmöglichen RPO wiederhergestellt werden kann.

Anwenden des Ansatzes und Umsetzen der Ergebnisse

Da die Datenbanken mit jeweils über 4 TB sehr groß sind, ist eine Migration zu Azure SQL-Datenbank kurzfristig nicht realisierbar. Daher migriert das Team zu Azure VMs, auf denen SQL Server 2022 ausgeführt wird.
Das Team beschließt, für alle Datenbanken, auch für die kritischen, wie die von den VMs verwendeten, die Funktion „Automatisierte Sicherung“ zu verwenden.
Für die kritischen Datenbanken plant das Team, die Funktion „Automatisierte Sicherung“ zusammen mit der Verknüpfungsfunktion „Verwaltete Instanz“ zu verwenden, um die Datenbanken aktiv auf eine verwaltete Azure SQL-Instanz zu replizieren.

Implementieren der automatisierten Selbstheilungsfunktionen in das Design

Selbstheilungsfunktionen sind Mechanismen, die es den Komponenten des Workloads ermöglichen, Probleme automatisch zu beheben, indem sie die betroffenen Komponenten wiederherstellen und bei Bedarf auf eine redundante Infrastruktur ausweichen. Verwenden Sie Entwurfsmuster, um Ihre Workloads durch Selbstheilungsmechanismen widerstandsfähiger zu machen.

Die selbstheilende Automatisierung trägt dazu bei, Risiken durch externe Faktoren wie menschliche Eingriffe zu verringern und den Fehlerbehebungszyklus zu verkürzen.

Herausforderung von Contoso

Der Windows-Prozess, der von Azure Data Factory beim Erfassen von Daten aufgerufen wird, wurde ursprünglich auf mehreren VMs bereitgestellt, um die Verfügbarkeit zu erhöhen.
Es gab einige Fälle, in denen der Windows Legacy-Prozess abgestürzt ist und einen Neustart der VM erzwang. Obwohl die Verarbeitungszeit insgesamt nur minimal beeinträchtigt wurde (aufgrund der Redundanz), würde das Team gerne eine Lösung implementieren, die die Erkennung des Ausfalls und die Wiederherstellung automatisiert.

Anwenden des Ansatzes und Umsetzen der Ergebnisse

Das Team beschließt, eine Azure VM-Skalierungsgruppe zu implementieren, die so konfiguriert ist, dass die Anwendungsintegritätserweiterung bereitgestellt wird, um den Zustand des VM-Prozesses kontinuierlich zu überwachen.
Bei aktivierter automatischer Instanzreparatur ist die Skalierungsgruppe nun in der Lage, die Komponente zu reparieren, indem sie die VM neu startet oder basierend auf demselben Images eine neue Instanz erstellt.

Überprüfen Sie Ihr Wissen

Weiter

Auf Katastrophen vorbereitet sein

Adressieren zustandsbehafteter Daten

Implementieren der automatisierten Selbstheilungsfunktionen in das Design

Überprüfen Sie Ihr Wissen

Feedback