Schutz und Wiederherstellung in der CloudverwaltungProtect and recover in cloud management

Nachdem sie die Anforderungen an Bestand und Transparenz und betriebsbezogene Compliance erfüllt haben, können die Cloudverwaltungsteams einen potenziellen Workloadausfall vorhersehen und sich darauf vorbereiten.After they've met the requirements for inventory and visibility and operational compliance, cloud management teams can anticipate and prepare for a potential workload outage. Beim Planen der Cloudverwaltung muss das Team mit der Annahme beginnen, dass etwas ausfällt.As they're planning for cloud management, the teams must start with an assumption that something will fail.

Keine technische Lösung kann konsistent eine SLA mit 100 Prozent Betriebszeit bieten.No technical solution can consistently offer a 100 percent uptime SLA. Lösungen mit Architekturen mit einem Höchstmaß an Redundanz nehmen für sich in Anspruch, Betriebszeiten mit „sechs Neunen“, also 99,9999 Prozent zu bieten.Solutions with the most redundant architectures claim to deliver on "six 9s" or 99.9999 percent uptime. Aber selbst eine Lösung mit „sechs Neunen“ fällt jedes Jahr durchschnittlich 31,6 Sekunden lang aus.But even a "six 9s" solution goes down for 31.6 seconds in any given year. Leider rechtfertigen Lösungen selten die umfangreichen, kontinuierlichen Investitionen, die vonnöten sind, um eine Betriebszeit mit „sechs Neunen“ zu erzielen.Sadly, it's rare for a solution to warrant a large, ongoing operational investment that's required to reach "six 9s" of uptime.

Wenn Teams sich auf Ausfälle vorbereiten, können sie Fehler schneller erkennen und den Betrieb in kürzerer Zeit wiederherstellen.Preparation for an outage allows the team to detect failures sooner and recover more quickly. In der vorliegenden Disziplin geht es um die Schritte, die sofort nach einem Systemausfall ausgeführt werden müssen.The focus of this discipline is on the steps that come immediately after a system fails. Wie schützen Sie Workloads, sodass sie nach einem Ausfall schnell wiederhergestellt werden können?How do you protect workloads, so that they can be recovered quickly when an outage occurs?

Übersetzen von Gesprächen zum Thema Schutz und WiederherstellungTranslate protection and recovery conversations

Die Workloads, auf denen der Geschäftsbetrieb basiert, bestehen aus Anwendungen, Daten, virtuellen Computern (VMs) und anderen Ressourcen.The workloads that power business operations consist of applications, data, virtual machines (VMs), and other assets. Möglicherweise erfordert jede dieser Ressource einen anderen Ansatz in Bezug auf Schutz und Wiederherstellung.Each of those assets might require a different approach to protection and recovery. Der wichtigste Aspekt dieser Disziplin ist es, konsistente Zusagen in Bezug auf die Verwaltungsbaseline zu treffen, um eine Ausgangsbasis für geschäftsbezogene Gespräche zu schaffen.The important aspect of this discipline is to establish a consistent commitment within the management baseline, which can provide a starting point during business discussions.

Als Mindestanforderung sollte für jede Ressource, die eine bestimmte Workload unterstützt, eine Baseline mit eindeutigen Zusagen in Bezug auf die Geschwindigkeit einer Wiederherstellung (Recovery Time Objective, RTO) oder das Risiko von Datenverlusten (Recovery Point Objective, RPO) festgelegt werden.At a minimum, each asset that supports any given workload should have a baseline approach with a clear commitment to speed of recovery (recovery time objectives, or RTO) and risk of data loss (recovery point objectives, or RPO).

Recovery Time Objective (RTO)Recovery time objectives (RTO)

Wenn der Ernstfall eintritt, ist die RTO (Recovery Time Objective) die Zeitspanne, die benötigt wird, um ein beliebiges System auf seinen Zustand vor dem Ausfall wiederherzustellen.When disaster strikes, a recovery time objective is the amount of time it should take to recovery any system to its state prior to the disaster. Dies umfasst für jede Workload die Zeit, die für die Wiederherstellung der Mindestfunktionalität für die VMs und Anwendungen notwendig ist.For each workload, that would include the time required to restore minimum necessary functionality for the VMs and applications. Dazu gehört auch die Zeit, die notwendig ist, um die von den Anwendungen benötigten Daten wiederherzustellen.It also includes the amount of time required to restore the data that's required by the applications.

Aus geschäftlicher Sicht stellt die RTO den Zeitraum dar, in dem der Geschäftsprozess außer Betrieb ist.In business terms, RTO represents the amount of time that the business process will be out of service. Bei unternehmenskritischen Workloads sollte diese Variable relativ niedrig sein, damit die Geschäftsprozesse schnell fortgesetzt werden können.For mission-critical workloads, this variable should be relatively low, allowing the business processes to resume quickly. Bei Workloads mit geringerer Priorität hat eine Standard-RTO möglicherweise keine nennenswerten Auswirkungen auf die Gesamtleistung des Unternehmens.For lower-priority workloads, a standard level of RTO might not have a noticeable impact on company performance.

Die Verwaltungsbaseline sollte eine Standard-RTO für nicht unternehmenskritische Workloads festlegen.The management baseline should establish a standard RTO for non-mission-critical workloads. Aus geschäftlicher Sicht kann diese Baseline dann dazu dienen, zusätzliche Investitionen in Wiederherstellungszeiten zu rechtfertigen.The business can then use that baseline as a way to justify additional investments in recovery times.

Recovery Point Objective (RPO)Recovery point objectives (RPO)

In den meisten Cloudverwaltungssystemen werden Daten durch irgendeine Form des Datenschutzes in regelmäßigen Abständen erfasst und gespeichert.In most cloud management systems, data is periodically captured and stored through some form of data protection. Der letzte Zeitpunkt, zu dem Daten erfasst wurden, wird als Wiederherstellungspunkt bezeichnet.The last time data was captured is referred to as a recovery point. Wenn ein System ausfällt, kann es nur auf den jüngsten Wiederherstellungspunkt wiederhergestellt werden.When a system fails, it can be restored only to the most recent recovery point.

Wenn für ein System eine RPO von mehreren Stunden oder sogar Tagen festgelegt wurde, würde ein Systemausfall dazu führen, dass alle Daten zwischen dem letzten Wiederherstellungspunkt und dem Ausfall verloren sind.If a system has a recovery point objective that's measured in hours or days, a system failure would result in the loss of data for those hours or days between the last recovery point and the outage. Eine RPO von einem Tag würde theoretisch zum Verlust sämtlicher Transaktionen an diesem Tag bis zum Ausfall führen.A one-day RPO would theoretically result in the loss of all transactions in the day leading up to the failure.

Bei unternehmenskritischen Systemen ist daher eine RPO in einer Größenordnung von einigen Minuten oder Sekunden wahrscheinlich besser geeignet, um Umsatzverluste zu vermeiden.For mission-critical systems, an RPO that's measured in minutes or seconds might be more appropriate to use to avoid a loss in revenue. Eine kürzere RPO führt im Allgemeinen aber auch zu einer Erhöhung der Verwaltungskosten insgesamt.But a shorter RPO generally results in an increase in overall management costs.

Eine Verwaltungsbaseline sollte sich nach der längsten akzeptablen RPO richten, um dabei zu helfen, die Kosten zu minimieren.To help minimize costs, a management baseline should focus on the longest acceptable RPO. Das Cloudverwaltungsteam kann die RPO dann für bestimmte Plattformen oder Workloads erhöhen, wofür weitere Investitionen gerechtfertigt wären.The cloud management team can then increase the RPO of specific platforms or workloads, which would warrant more investment.

Workloads für Schutz und WiederherstellungProtect and recover workloads

Die meisten Workloads in einer IT-Umgebung unterstützen nur einen bestimmten geschäftlichen oder technischen Prozess.Most of the workloads in an IT environment support a specific business or technical process. Systeme, die keine systemrelevanten Auswirkungen auf den Geschäftsbetrieb haben, rechtfertigen häufig nicht die höheren Investitionen, die erforderlich wären, um die Systeme schnell wiederherzustellen oder Datenverluste zu minimieren.Systems that don't have a systemic impact on business operations often don't warrant the increased investments required to recover quickly or minimize data loss. Durch Einrichtung einer Baseline lässt sich dem Geschäftsteam klar vermitteln, welches Maß an Wiederherstellungsunterstützung zu einem konsistenten, überschaubaren Preispunkt geboten werden kann.By establishing a baseline, the business can clearly understand what level of recovery support can be offered at a consistent, manageable price point. Dieses Verständnis hilft den Beteiligten auf geschäftlicher Seite den Wert einer höheren Investition in die Wiederherstellung zu bemessen.This understanding helps the business stakeholders evaluate the value of an increased investment in recovery.

Für die meisten Cloudverwaltungsteams bietet eine erweiterte Baseline mit spezifischen Zusagen in Bezug auf RPO und RTO für verschiedene Ressourcen den günstigsten Weg zu gegenseitigen Geschäftszusagen.For most cloud management teams, an enhanced baseline with specific RPO/RTO commitments for various assets yields the most favorable path to mutual business commitments. In den folgenden Abschnitten werden einige gängige erweiterte Baselines erläutert, die es den Geschäftsteams ermöglichen, Schutz- und Wiederherstellungsfunktionen problemlos über einen wiederholbaren Prozess hinzuzufügen.The following sections outline a few common enhanced baselines that empower the business to easily add protection and recovery functionality through a repeatable process.

Schutz und Wiederherstellung von DatenProtect and recover data

Daten sind die wohl wertvollste Ressource in der digitalen Wirtschaft.Data is arguably the most valuable asset in the digital economy. Die Fähigkeit, Daten effektiver zu schützen und wiederherzustellen, ist die häufigste erweiterte Baseline.The ability to protect and recover data more effectively is the most common enhanced baseline. Bei Daten, die für Produktionsworkloads unabdingbar sind, können Datenverluste mit Umsatz- oder Einnahmeverlusten gleichgesetzt werden.For the data that powers a production workload, loss of data can be directly equated to loss in revenue or loss of profitability. Im Allgemeinen empfehlen wir Cloudverwaltungsteams, dass sie eine erweiterte Verwaltungsbaseline anbieten, die gängige Datenplattformen unterstützt.We generally encourage cloud management teams to offer a level of enhanced management baseline that supports common data platforms.

Bevor Cloudverwaltungsteams Plattformvorgänge implementieren, unterstützen sie häufig verbesserte Vorgänge für PaaS-Datenplattformen (Platform-as-a-Service).Before cloud management teams implement platform operations, it's common for them to support improved operations for a platform as a service (PaaS) data platform. Es ist zum Beispiel für ein Cloudverwaltungsteam problemlos möglich, häufigere Sicherungsvorgänge oder regionsübergreifende Replikationsvorgänge für Azure SQL-Datenbank- oder Azure Cosmos DB-Lösungen durchzusetzen.For instance, it's easy for a cloud management team to enforce a higher frequency of backup or multiregion replication for Azure SQL Database or Azure Cosmos DB solutions. So kann das Entwicklungsteam die RPO einfach durch Modernisierung seiner Datenplattformen verbessern.Doing so allows the development team to easily improve RPO by modernizing their data platforms.

Weitere Informationen zu diesen Überlegungen finden Sie unter Disziplin „Plattformbetrieb“.To learn more about this thought process, see Platform operations discipline.

Schutz und Wiederherstellung von VMsProtect and recover VMs

Die meisten Workloads sind teilweise von virtuellen Computern abhängig, die verschiedene Aspekte der Lösung hosten.Most workloads have some dependency on virtual machines, which host various aspects of the solution. Damit eine Workload einen Geschäftsprozess nach einem Systemausfall wieder unterstützen kann, müssen einige virtuelle Computer schnell wiederhergestellt werden.For the workload to support a business process after a system failure, some virtual machines must be recovered quickly.

Jede Minute Ausfallzeit dieser virtuellen Computer kann Umsatzverlust oder eine geringere Rentabilität nach sich ziehen.Every minute of downtime on those virtual machines could cause lost revenue or reduced profitability. Wenn sich Ausfallzeiten von virtuellen Computern direkt auf das finanzielle Ergebnis des Geschäfts auswirken, ist die RTO sehr wichtig.When VM downtime has a direct impact on the fiscal performance of the business, RTO is very important. Durch Replikation zu einem sekundären Standort und automatisierte Wiederherstellungsprozesse lassen sich virtuelle Computer schneller wiederherstellen. Dieses Modell wird als „Hot/Warm-Wiederherstellungsmodell“ bezeichnet.Virtual machines can be recovered more quickly by using replication to a secondary site and automated recovery, a model that's referred to as a hot-warm recovery model. Virtuelle Computer mit dem höchsten Wiederherstellungsstatus können zu einem voll funktionsfähigen sekundären Standort repliziert werden.At the highest state of recovery, virtual machines can be replicated to a fully functional, secondary site. Dieser kostenintensivere Ansatz wird als Wiederherstellungsmodell mit hoher Verfügbarkeit oder „Hot/Hot-Wiederherstellungsmodell“ bezeichnet.This more expensive approach is referred to as a high-availability, or hot-hot, recovery model.

Jedes der eben genannten Modelle reduziert die RTO und sorgt dafür, dass Geschäftsprozessfunktionen schneller wiederhergestellt werden.Each of the preceding models reduces the RTO, resulting in a faster restoration of business process capabilities. Allerdings zieht jedes Modell auch deutlich höhere Cloudverwaltungskosten nach sich.However, each model also results in significantly increased cloud management costs.

Beachten Sie außerdem, dass, abgesehen von der Replikation für Hochverfügbarkeit, die Sicherungen für Szenarien wie „versehentliches Löschen“, „Datenbeschädigung“ und „Ransomwareangriffe“ aktiviert werden sollten.Also, please note that, apart from replication for high-availability, backup should be enabled for scenarios such as accidental delete, data corruption and ransomware attacks.

Weitere Informationen zu diesen Überlegungen finden Sie unter Disziplin „Workloadbetrieb“.For more information about this thought process, see Workload operations discipline.

Nächste SchritteNext steps

Sobald diese Komponente der Verwaltungsbaseline umgesetzt ist, kann sich das Team um die Vermeidung von Ausfällen beim Plattformbetrieb und beim Workloadbetrieb kümmern.After this management baseline component is met, the team can look ahead to avoid outages in its platform operations and workload operations.