Einrichten von Operations Management Prozessen

Artikel
07/11/2023

Wenn Ihr Unternehmen damit beginnt, Workloads in Azure auszuführen, besteht der nächste Schritt darin, einen Prozess für das operative Management und die Einsatztauglichkeit einzurichten. In diesem Prozess wird der Betriebszustand für diese Workloads aufgezählt, implementiert, iterativ überprüft und optimiert.

Ein Prozess zur Überprüfung der Einsatztauglichkeit stellt sicher, dass das gesamte Workload-Portfolio die Geschäftsverpflichtungen hinsichtlich Leistung, Zuverlässigkeit und Kosten erfüllt. Mit diesem Prozess werden die Bemühungen der zentralen IT, des Cloud Center of Excellence und der Workload-Teams aufeinander abgestimmt, um einen hervorragenden Betrieb im großen Maßstab zu gewährleisten.

Einrichten eines Kernprozesses für die Überprüfung der Einsatztauglichkeit

Erstellen Sie einen Prozess zur Überprüfung auf Einsatztauglichkeit, um vollständig zu verstehen, welche Probleme sich aus der Ausführung von Workloads in einer Produktionsumgebung ergeben, und wie diese Probleme behoben und gelöst werden können. Dieser Artikel beschreibt eine allgemeine Überprüfung der Einsatztauglichkeit, die Ihr Unternehmen nutzen kann, um dieses Ziel zu erreichen.

Einsatztauglichkeit bei Microsoft

Seit Beginn sind viele Teams von Microsoft an der Entwicklung der Azure-Plattform beteiligt gewesen. Es ist schwierig, die Qualität und Konsistenz für ein Projekt mit derartiger Größe und Komplexität sicherzustellen. Sie benötigen einen robusten Prozess, um grundlegende nicht funktionale Anforderungen in regelmäßigen Abständen aufzuzählen und zu implementieren.

Die von Microsoft verfolgten Prozesse bilden die Grundlage für die in diesem Artikel beschriebenen Prozesse.

Grundlegendes zu Rollen und Betriebsmodellen

Das Operations Management ist eine breit gefächerte Fachrichtung, die mehrere Rollen im gesamten Unternehmen umfasst. Abhängig vom Betriebsmodell der Organisationen können diese Rollen in einer strukturierten Umgebung mit einer Reihe von Hand-Offs zwischen zentralisierten und dezentralisierten Betriebsteams ausgeführt werden.

Zentrale IT/CCoE: Diese zentralisierte Technologiefunktion ist für die Konfiguration, die Vorgänge, die Governance und die Sicherheit aller Technologie-Assets im Technologieportfolio verantwortlich.
Cloudbetrieb: Eine Funktion innerhalb der zentralen Technologieorganisation, die den Zustand und den Betrieb des Technologieportfolios verwaltet. Es liegt in ihrer Verantwortung, sicherzustellen, dass der Prozess reibungslos abläuft, dass jede anschließende Rolle im Prozess über die benötigten Tools verfügt und dass jede der nachfolgenden Rollen für die Erwartungen dieses Prozesses verantwortlich gemacht wird.
Cloudstrategie: Stellt Kenntnisse über das Unternehmen bereit, um Verpflichtungen zur Aufrechterhaltung der betrieblichen Anforderungen verschiedener Workloads zu identifizieren und zu priorisieren. Diese Rolle vergleicht auch die Minderungskosten mit den Auswirkungen auf das Unternehmen und trifft die endgültige Entscheidung zur Korrektur.
Workload-Team: Verantwortlich für die Entwicklung und Vorgänge von einzelnen Workloads, die bestimmten unterstützenden Anwendungen, Diensten und Infrastrukturen zugeordnet sind, ob lokal oder in der Cloud. Die Rolle erfordert umfassende Kenntnisse der Workloadarchitektur.

Das Betriebsmodell jeder Organisation bestimmt die Verantwortlichkeit und die täglichen Aktivitäten der oben genannten Rollen:

Zentralisierte Vorgänge: Die zentrale IT hält die vollständige Verantwortlichkeit für den Betrieb aufrecht. Workload-Besitzer können zwar Einfluss auf Vorgänge und Konfiguration nehmen, aber sie haben keinen Zugriff auf Änderungen an Produktionsumgebungen. Nur die zentrale IT und der Cloudbetrieb können operative Änderungen zur Verbesserung der Einsatztauglichkeit liefern.
Dezentralisierte Vorgänge: Workload-Teams sind vollständig für den Vorgang verantwortlich, im Allgemeinen über eine ausgereifte CI/CD-Pipeline und DevOps-Automatisierung. In diesem Modell gibt es keine zentrale Unterstützung für Konfiguration, Vorgang, Governance oder Sicherheit. Dieser Ansatz für Vorgänge liegt nicht im Gültigkeitsbereich des Cloud Adoption Framework. Für dieses Betriebsmodell sollte das Azure Well-Architected Framework als Betriebsleitfaden verwendet werden.
Unternehmensvorgänge: Das Cloud Center of Excellence ist für die Vorgänge verantwortlich. Cloudbetriebs- und Workloadteams teilen sich jeweils die Verantwortung für bestimmte Aspekte der Einsatztauglichkeit.

Ziel der Überprüfung

Die Einsatztauglichkeit wird im gesamten Portfolio anhand von wenigen Metriken bewertet: Zuverlässigkeit, Leistung und Kosten. Zusammen ermöglichen diese Eigenschaften eine schnelle Auswertung des Zustands und der Tauglichkeit aller Assets im Portfolio. Diese Metriken werden für die drei Stufen des Operations Management ausgewertet.

Erhöhungen der Vorgänge

Betriebs-Baseline (oder verbesserte Baseline): Wertet die Einsatztauglichkeit aller bereitgestellten Assets, unabhängig von ihrer Funktion, aus. Diese umfassende Ansicht von Vorgängen ermöglicht umfassende Änderungen und große Auswirkungen, wird aber durch die fehlende Transparenz der Architektur einzelner Workloads eingeschränkt. Alle in der Cloud bereitgestellten Ressourcen sollten durch eine Betriebs-Baseline mit regelmäßigem Support des Cloudbetriebs abgedeckt werden. Einige Umgebungen erfordern möglicherweise ein höheres Maß an betrieblichem Support, um die Anforderungen der erweiterten Baseline zu erfüllen.
Plattformbetrieb: Bewertet die Einsatztauglichkeit zentralisierter Technologieplattformen. Diese Ansicht der Vorgänge wird weiter optimiert, denn sie berücksichtigt die Architektur der Plattform und wie sich Änderungen an der Lösung auf die Einsatztauglichkeit auswirken. Änderungen an zentralen Technologieplattformen können umfassende Downstream-Auswirkungen auf unterstützte Workloads haben. Alle unternehmenskritischen Plattformen sollten dedizierten Support von einem zentralen IT-Team erhalten.
Workloadbetrieb: Bewertet die Einsatztauglichkeit einer einzelnen Workload. Diese Ansicht der Vorgänge ist am ausgereiftesten und sollte berücksichtigt werden, wenn Verbesserungen der Einsatztauglichkeit Änderungen an der Architektur eines Workloads erfordern. Workloadbetrieb sollten den Prinzipien von Azure Well-Architected Framework entsprechen. Alle unternehmenskritischen Workloads mit einem aktiven DevOps-Zyklus sollten dedizierten Support von einem Workload-Team erhalten.

Das Ziel der Überprüfung der Einsatztauglichkeit besteht darin, die Einsatztauglichkeit auf allen Ebenen regelmäßig zu bewerten. Identifizierte Verbesserungen können dann auf der entsprechenden Ebene angewendet werden, um die Änderungen zu kommunizieren, die für die Verwaltung des gesamten Portfolios erforderlich sind.

Prozess zur Überprüfung der Einsatztauglichkeit

Der Schlüssel zur Aufrechterhaltung der Leistung und Kontinuität eines Unternehmens Portfolios liegt in der Implementierung eines Prozesses für die Überprüfung der Einsatztauglichkeit.

Übersicht über den Prozess zur Überprüfung der Einsatztauglichkeit

Der Prozess besteht allgemein aus zwei Phasen. In der Phase der Voraussetzungen werden die Anforderungen ermittelt und unterstützenden Diensten zugeordnet. Diese Phase tritt selten auf, vielleicht jährlich oder bei der Einführung neuer Vorgänge. Die Ausgabe der Phase der Voraussetzungen wird in der Flussphase verwendet. Die Flussphase tritt häufiger auf, z. B. monatlich.

Phase der Voraussetzungen

Die Schritte in dieser Phase erfassen die Anforderungen für die Durchführung einer regelmäßigen Überprüfung des Portfolios und aller unternehmenskritischen Workloads.

Identifizieren unternehmenskritischer Geschäftsvorgänge. Identifizieren Sie die geschäftskritischen Vorgänge des Unternehmens auf der Grundlage der vereinbarten Geschäftsverpflichtungen. Die Geschäftsvorgänge sind unabhängig von allen unterstützenden Dienstfunktionen. Mit anderen Worten: Geschäftsvorgänge stellen die tatsächlichen Aktivitäten dar, die das Unternehmen ausführen muss, und werden durch eine Reihe von IT-Diensten unterstützt.

Der Begriff unternehmenskritisch (oder geschäftskritisch) gibt an, dass es zu schwerwiegenden Auswirkung für das Unternehmen kommen kann, wenn der Vorgang behindert wird. So kann beispielsweise ein Onlinehändler einen Geschäftsvorgang wie „einem Kunden ermöglichen, einen Artikel in einen Warenkorb zu legen“ oder „eine Kreditkartenzahlung abwickeln“ haben. Wenn bei einem dieser beiden Vorgänge ein Fehler auftritt, kann ein Kunde die Transaktion nicht abschließen, und das Unternehmen kann keinen Umsatz erzielen.
Zuordnen der Vorgänge zu Diensten. Ordnen Sie die kritischen Geschäftsvorgänge den IT-Diensten (Baseline, Plattform oder Workloadbetrieb) zu, die sie unterstützen. Alle Technologieplattformen oder Workloads, die zur Unterstützung einer kritischen Geschäftsfunktion erforderlich sind, sollten ebenfalls identifiziert werden, um die Vorgänge und Dienste den verantwortlichen Teams zuzuordnen.
Analysieren der Dienstabhängigkeiten. Die meisten Geschäftsvorgänge erfordern eine Orchestrierung zwischen mehreren unterstützenden Workloads und Technologieplattformen. Es ist wichtig, die Abhängigkeiten zwischen jedem Set unterstützender Ressourcen und den Fluss geschäftskritischer Transaktionen durch diese Dienste zu verstehen.

Berücksichtigen Sie auch die Abhängigkeiten zwischen lokalen Diensten und Azure-Diensten. Im Beispiel des Warenkorbs kann der Inventarbestands Verwaltungsdienst lokal gehostet werden und Daten erfassen, die von Mitarbeitern in einem physischen Lager eingegeben werden. Es kann jedoch vorkommen, dass Daten nicht lokal in einem Azure-Dienst (z.B. Azure Storage) oder in einer Datenbank (z.B. Azure Cosmos DB) gespeichert werden.

Eine Output dieser Aktivitäten ist ein Set von Scorecard-Metriken für das Operations Management. Die Scorecard misst Kriterien wie Zuverlässigkeit, Leistung und Kosten. Scorecardmetriken drücken die operativen Kriterien aus, deren Erfüllung Sie vom Dienst erwarten.

Die Scorecard sollte in einfachen Begriffen ausgedrückt werden, um eine sinnvolle Kommunikation zwischen den Geschäftsinhabern, den Cloudbetriebs- und den Workload-Teams zu ermöglichen. Beispielsweise kann eine Scorecard-Metrik für die Zuverlässigkeit basierend auf der Einhaltung der vereinbarten SLAs farbcodiert werden. Grün bedeutet die Erfüllung der SLAs, Gelb bedeutet die Nichterfüllung der definierten Kriterien, aber dass aktiv eine geplante Abhilfemaßnahme durchgeführt wird, und Rot bedeutet die Nichterfüllung der definierten Kriterien ohne Plan oder Maßnahme.

Es ist wichtig hervorzuheben, dass diese Metriken die Geschäftsverpflichtungen direkt widerspiegeln sollten.

Phase der Dienstüberprüfung

Die Phase der Dienstüberprüfung ist der Kern des Prozesses der Überprüfung der Einsatztauglichkeit. Sie umfasst die folgenden Schritte:

Messen der Dienstmetriken. Verwenden Sie die Scorecard-Metriken, um die Leistung auf jeder Ebene des Operations Managements zu überwachen, um sicherzustellen, dass die Dienste die Geschäftsverpflichtungen erfüllen. Inventarisierungs- und Sichtbarkeitsdienste innerhalb der Betriebs-Baseline sind unerlässlich. Wenn Sie eine Reihe von Ressourcen in Bezug auf die Geschäftsverpflichtungen nicht überwachen können, sollten die entsprechenden Scorecard-Metriken als rot betrachtet werden. In diesem Fall ist der erste Schritt zur Korrektur die Implementierung einer entsprechenden Dienstüberwachung. Wenn das Unternehmen beispielsweise erwartet, dass ein Dienst mit einer Verfügbarkeit von 99,99 Prozent arbeitet, aber keine Produktionstelemetrie zur Messung der Verfügbarkeit vorhanden ist, gehen Sie davon aus, dass die Anforderung nicht erfüllt wird.
Planen der Korrekturmaßnahmen. Legen Sie für jede Geschäftsverpflichtungen, für die Metriken unter einen akzeptablen Schwellenwert fallen, das entsprechende Betriebsteam fest, um die erforderliche Korrektur durchzuführen. Das Team ist dafür verantwortlich, die Kosten für die Korrektur des Dienstes zu berechnen, um den Betrieb auf ein akzeptables Niveau zu bringen. Wenn die Kosten für die Korrektur des Problems höher sind als das Budget, das diesem Dienst zugeordnet ist, sollte die zentrale IT/CCoE dieses mit dem Cloudstrategieteam überprüfen, um die Zusatzinvestitionen zu bewerten.
Implementieren der Korrekturmaßnahmen. Nachdem das Cloudbetriebs- oder Workload-Team die Zustimmung zu einem Plan für die Korrektur erhalten hat, implementiert es ihn. Melden Sie den Status der Implementierung immer, wenn Sie Ihre Scorecardmetriken überprüfen.

Dieser Prozess ist iterativ. Das zentrale IT/CCoE-Team ist für das Management des Prozesses und die Berichterstattung über den Fortschritt an das Cloudstrategieteam verantwortlich. Dieses Team sollte sich regelmäßig treffen, um bestehende Korrekturprojekte zu überprüfen, die grundlegende Überprüfung neuer Workloads einzuleiten und die gesamte Scorecard des Unternehmens nachzuverfolgen. Das Team sollte auch die Befugnis haben, die Wartungsteams (Cloud- oder Workloadbetrieb) zur Verantwortung zu ziehen, wenn sie hinter dem Zeitplan zurückbleiben oder die Metriken nicht erfüllen.

Überprüfungsbesprechung

Wir empfehlen, Ihre Betriebstauglichkeit regelmäßig zu überprüfen. Die Anwesenheit des zentralen IT/CCoE- und Cloudbetriebsteams ist bei der Überprüfung erforderlich. Das Cloudstrategieteam und das Workloadbetriebsteam sollten teilnehmen, sind aber operative. Beispiel Kadenz: das Kernteam könnte sich monatlich treffen, um Pläne abzustimmen und die verschiedenen Betriebsteams zur Verantwortung zu ziehen. Vierteljährlich könnten die Cloudstrategieteams und alle Workload-Teams zusammenkommen, um Status und Metriken zu verstehen.

Passen Sie die Details des Prozesses und der Besprechung so an, dass sie Ihre spezifischen Bedürfnisse berücksichtigen. Wir empfehlen die folgenden Überlegungen als Ausgangspunkt:

Zentralisierte Vorgänge: Workload-Teams werden wahrscheinlich nicht aktiv am Prozess teilnehmen, aber sie sollten in alle Berichte für die Tranparenz einbezogen werden.
Dezentralisierte Vorgänge: Das Cloudbetriebsteam sollte bewährte Methoden zur Verbesserung der Vorgänge von Technologieplattformen mit den Workload-Teams teilen. Workload-Teams sollten Änderungen an ihren jeweiligen Workloads teilen, um Verbesserungen zu identifizieren, die auf Tech-Plattformen und die Betriebs-Baseline angewendet werden könnten.

Empfohlene Ressourcen

Azure Automanage. Azure Automanage überwacht automatisch die Einsatztauglichkeit über die Betriebs-Baseline und automatisiert die Anwendung verschiedener Korrekturstrategien im gesamten Portfolio.
Azure Advisor: Azure Advisor bietet personalisierte Empfehlungen basierend auf Ihrer Verwendung und Ihren Konfigurationen, um die Optimierung Ihrer Ressourcen zu unterstützen. Dieses Tool bietet standardmäßig Empfehlungen für ein Abonnement zur Verbesserung der Betriebs-Baseline. Es kann auch präziser verwendet werden, um Verbesserungen an Technologieplattformen oder einzelnen Workloads zu identifizieren.
Microsoft Azure Well-Architected Framework: Anleitung zur Verbesserung des Workloadbetriebs oder zur Steuerung dezentralisierter Vorgänge.