Architektur und Infrastruktur von Rechenzentren

Microsoft-Rechenzentren sind so konzipiert, dass sie eine Strategie der umfassenden Verteidigung implementieren und mehrere Schutzebenen verwenden, um unsere Cloudarchitektur zuverlässig zu schützen und die Infrastruktur zu unterstützen. Redundanz ist in alle Systeme auf mehreren Ebenen integriert, um die Verfügbarkeit von Rechenzentren zu unterstützen.

Microsoft verfügt über hoch gesicherte Rechenzentren weltweit und schafft eine verteilte Rechenzentrumsinfrastruktur, die Tausende von Onlinedienste unterstützt. Diese global verteilte Infrastruktur ist darauf ausgelegt, Anwendungen den Benutzern näher zu bringen, die Datenaufbewahrung zu erhalten und umfassende Compliance- und Resilienzoptionen für Kunden anzubieten.

Regionen sind Datasets, die über ein massives und robustes Netzwerk miteinander verbunden sind. Regionen sind in Regionen unterteilt, damit Kunden mit spezifischer Datenaufbewahrung und Compliance in der Lage sind, ihre Daten und Anwendungen nah zu halten. Die integrierte Fehlertoleranz ermöglicht es Regionen, vollständige Regionsausfälle durch ihre Verbindung mit der dedizierten Netzwerkinfrastruktur mit hoher Kapazität zu überstehen.

Physisch getrennte Standorte innerhalb einer Region werden als Verfügbarkeitszonen bezeichnet, die jeweils aus einem oder mehreren Rechenzentren bestehen, die mit unabhängiger Leistung, Kühlung und Netzwerk ausgestattet sind. Verfügbarkeitszonen ermöglichen die Ausführung unternehmenskritischer Anwendungen mit hoher Verfügbarkeit und Replikation mit geringer Latenz.

Die folgende Abbildung zeigt, wie die globale Infrastruktur Regionen und Verfügbarkeitszonen innerhalb derselben Datenaufbewahrungsgrenze für hohe Verfügbarkeit, Notfallwiederherstellung und Sicherung paart.

Datenaufbewahrungsgrenzen.

Geografisch verteilte Rechenzentren ermöglichen Es Microsoft, Dienste kundennäher zu gestalten, die Netzwerklatenz zu reduzieren und georedundante Sicherung und Failover zu ermöglichen.

Verfügbarkeit

Microsoft-Rechenzentren sind so entwickelt, dass sie 99,999 % Verfügbarkeit bereitstellen, um SLAs und Serviceanforderungen von Kunden zu erfüllen. Microsoft investiert erheblich in den globalen Betrieb, das Management, die Netzwerke und die Nachhaltigkeit von Einrichtungen, die Dienste von 24 x 7 x 365 bereitstellen.

Compliancestandards und -anforderungen

Microsoft hat über 15 Mrd. USD in den Aufbau unserer globalen Infrastruktur und über 9 Mrd. USD in Forschung und Entwicklung investiert, um die Effizienz zu steigern und Innovationen voranzutreiben. Infolgedessen entwickeln sich die Rechenzentren von Microsoft schneller als viele Einrichtungen in der Branche und entsprechen daher nicht den durch herkömmliche Rechenzentrumsstandards vorgegebenen Anforderungen. Zusätzlich zu der Fülle an betrieblichen Erkenntnissen, die mit der Ausführung eines der weltweit größten Rechenzentrumsportfolios geliefert werden, verwendet Microsoft IEEE Gold Book-Daten und Zuverlässigkeitssimulationssoftware von Drittanbietern, um unsere Designstandards für Rechenzentren kontinuierlich zu verbessern. Microsoft-Rechenzentren werden im Rahmen mehrerer behördlicher Prüfungen, wie im Compliance-Portfolio genannt, umfassend überwacht. Der Reifegrad in Microsoft-Rechenzentren kann durch das Compliance-Portfolio und insbesondere für die Resilienz der ISO 22301-Zertifizierung bewertet werden.

Während Microsoft Programme im Einklang mit dem Geist des ANSI/TIA-942 Telecommunications Infrastructure of Datacenters Standard betreibt, gelten Teile dieses Standards nicht für Microsoft oder stehen in Konflikt mit anderen gesetzlichen und/oder länderspezifischen Anforderungen. Darüber hinaus hat Sich Microsoft für einen leistungsorientierten Ansatz entschieden, um die Kundenanforderungen zu erfüllen.

Daten- und Netzwerkredundanz

Kritische Rechenzentrumseinrichtungen verwenden mehrere Ebenen redundanter Systeme, um Fehler zu beheben und Dienstunterbrechungen zu minimieren. Lokal redundanter Speicher auf Festplattenebene schützt Daten in einer Region, während georedundanter Speicher die regionsübergreifende Redundanz bereitstellt. Um eine zuverlässige Netzwerkkommunikation sicherzustellen, setzt Microsoft unterschiedliche Fibre-Routes und redundante Hardware ein, um wichtige Komponenten vor Fehlern oder Dienstunterbrechungen zu schützen.

Die Georeplikation wird verwendet, um Redundanz an alternativen geografischen Standorten bereitzustellen. Die Datenhaltbarkeit wird erreicht, indem Daten synchron über mehrere Datenbanken in verschiedenen Rechenzentren repliziert werden. Wiederherstellungstests werden für alle Sicherungsdaten durchgeführt, die sich im Besitz der Cloud befinden. Die Notfallwiederherstellung wird durch asynchrone Replikation in ein Rechenzentrum in einer anderen geografischen Region erreicht.

Kapazität

Cloud Operations ist ein dediziertes Kapazitätsteam, das zukünftige Anforderungen voraussagt, um sicherzustellen, dass die erforderliche Kapazität strukturiert und für den kunden- und internen Einsatz verfügbar ist. Systeme werden überwacht, um eine akzeptable Dienstleistung, Verfügbarkeit, Dienstauslastung, Speicherauslastung, Netzwerklatenz und Überwachungsprotokollkapazität sicherzustellen. Microsoft schützt Rechenzentren auch vor den Auswirkungen von Denial-of-Service-Angriffen auf Bandbreite, Transaktionskapazität und Speicherkapazität.

Alle Serviceteams umfassen die Kapazitätsplanung als ein wichtiges Feature ihrer Rechenzentrumsmodelle und Datenreplikationspläne, um sicherzustellen, dass die erforderliche Kapazität für informationsverarbeitung, Telekommunikation und Umweltunterstützung vorhanden ist.

Stromversorgung

Die Rechenzentren von Microsoft verfügen über dedizierte 24 x 7 unterbrechungsfreie Stromversorgungen (UPSs) und Notstromunterstützung, die Generatoren vor Ort umfasst, die Sicherungsleistung bereitstellen. Sowohl für die unterbrechungsfreien Stromversorgungen als auch für die Generatoren werden regelmäßige Wartungen und Tests durchgeführt, und die Teams haben Vertragsvereinbarungen mit lokalen Anbietern im Hinblick auf die Versorgung mit Notstrom. In Rechenzentren gibt es auch ein dediziertes Facility Operations Center zur Überwachung von Stromsystemen, einschließlich kritischer elektrischer Komponenten.

Microsoft-Rechenzentren sind mit Schutzräumen und entsprechenden Bezeichnungen für Kabel ausgestattet. Die Energieinfrastrukturausrüstung befindet sich in Umgebungen, die zum Schutz vor Umweltrisiken entwickelt wurden. Alle tragbaren Onlinedienste-Objekte müssen gesperrt oder befestigt werden, um Schutz vor Diebstahl oder Bewegungsschäden zu bieten. Stromkabel werden unter den Böden, über kopfüber in Kabeltrassen und in Schränken ausgeführt, um vor beweglichen Teilen und versehentlichen Beschädigungen zu schützen. Alle elektrischen Leerzeichen befinden sich je nach Bedarf hinter Kartenlesern oder zusätzlichen Tastenschlössern. Zugänge, Außeneingänge und Gerätehöfe werden alle per Videoüberwachung überwacht. Energiesysteme nutzen auch Redundanz als Eine Form des Schutzes, mit mehreren Strom-/Versorgungseingängen in die Anlage und Generatoren und UPS-Systeme.

Für das Informationssystem wird eine langfristige alternative Stromversorgung implementiert, die in der Lage ist, die Stromversorgung in einer minimal erforderlichen Betriebskapazität zu erhalten. Wenn die Energie ausfällt oder auf einen inakzeptablen Spannungspegel fällt, kommen USV-Systeme sofort ins Netz. Dies bietet genügend Energie für die Ausführung der Server, bis die Generatoren übernehmen können. Notstromgeneratoren bieten Back-up-Strom für längere Ausfälle, geplante Wartungen und können das Rechenzentrum mit Vor-Ort-Kraftstoffreserven betreiben, wenn eine Naturkatastrophe eintritt.

Microsoft-Rechenzentren (sowohl geleast als auch vollständig verwaltet) implementieren Notfallbeleuchtung in Form von Overhead-Notfallbeleuchtung auf dedizierten Schaltkreisen, die von UPS- und Generatorsystemen gesichert werden. Automatische Notbeleuchtung wird in Übereinstimmung mit dem Nationalen Feuer- und Schutzverband (NFPA) Life Safety Code oder dem anwendbaren lokalen Code/Gesetz implementiert. Wenn Versorgungsstrom verloren geht, wechselt die Notbeleuchtung automatisch auf den Strom, der von den UPS- und Generatorsystemen bereitgestellt wird. Die Notbeleuchtungssysteme innerhalb der Rechenzentren werden routinemäßig gewartet, um sicherzustellen, dass sie ordnungsgemäß funktionieren.

Wartung

Richtlinien und Verfahren für die Systemwartung sind gemäß dem Microsoft Online Services Physical and Environmental Security Standard eingerichtet. Alle Microsoft-Geräte und -Systeme werden regelmäßig gewartet, um die betriebliche Effizienz zu gewährleisten. Die Wartung von Geräten oder Anlagen muss gemäß den Empfehlungen des Herstellers erfolgen, von autorisiertem Personal durchgeführt und in einem Wartungsticket aufgezeichnet werden.

Es gibt zwei Ressourcenteams, die unterschiedliche Arten von Systemen verwalten:

  • Critical Environment (CE)- Team:

    • CE ist das Team, das das Facility Management für elektrische, mechanische und physische Systeme bereitstellt, die die Betriebsinfrastruktur der Anlage umfassen. Das CE-Team plant, führt aus, dokumentiert und überprüft alle Wartungsaktivitäten, die an CE-Komponenten ausgeführt werden. Microsoft-Rechenzentren basieren auf einem computerisierten System, um Wartungszeitpläne und Arbeitsaufträge zu verwalten.
    • Datacenter Management (DCM) ist für alle CE-Wartungen verantwortlich, die entweder vor Ort oder remote ausgeführt werden. Die CE-Wartung wird in erforderlichen Schritt-für-Schritt-Dokumenten vorgeschrieben, die als Methoden des Verfahrens (Methods of Procedure, MOP) bezeichnet werden. MOPs werden von der Rechenzentrumsverwaltung vor Beginn der Arbeit überprüft/genehmigt.
  • Websitedienste-Team :

    • Site Services ist das Team, das die Wartung von Microsoft-Onlinedienstressourcen im Microsoft-Rechenzentrum bereitstellt. Das DC Site Services-Team bietet einen intelligenten Hands/Break Fix-Dienst für Ressourcen, die zu Eigenschaften gehören, die Dienste aus dem Rechenzentrum bereitstellen. Ressourcen, für die physische Wartung erforderlich ist, können z. B. den Service mit intelligenten Händen vom DC Site Services-Team anfordern. Alle Websitedienste-Arbeiten an Microsoft-Ressourcen werden in Arbeitstickets innerhalb des Workflow-Ticketing-Tools geplant, ausgeführt, dokumentiert und überprüft, und ohne ein genehmigtes Arbeitsticket kann keine Arbeit erfolgen.
    • Der Technical Program Manager (TPM) und das DCM-Team sind für alle Site Services-Arbeiten verantwortlich, die im Rechenzentrum stattfinden, und für Alle Arbeiten, für die die Ressource außerhalb der Website übertragen werden muss. Die Wartung von Site Services erfolgt in Bereichen des Rechenzentrums, die durch physische Sicherheitsmechanismen gesteuert und geschützt werden.

Wenn CE-Komponenten aus der Anlage entfernt werden müssen, wird die Handhabung der Geräte von DCM genehmigt. In den meisten Fällen werden CE-Komponenten vor Ort gewartet und nicht aus der Einrichtung entfernt. Eigenschaftsobjekte (z. B. Netzwerkgeräte oder Server), die eine Externe Übertragung erfordern, müssen über eine explizite Genehmigung des Objektbesitzers verfügen.

Digitale Medien innerhalb der Cloud dürfen nicht aus dem Colocation-Raum transportiert werden, es sei denn, sie werden verschoben, um zerstört zu werden. Wenn diese Ressourcen zerstört werden sollen, werden sie in gesperrten Speichercontainern gespeichert, die unter CCTV-Kameraabdeckung sind. Wenn die Ressourcen für die Vernichtung bereit sind, müssen ein physischer Sicherheitsbeauftragter und ein Vollzeitmitarbeiter von Microsoft von Asset Management den gesperrten Container vom Colocation-Raum zu dem Ort begleiten, an dem die Shredderung vor Ort erfolgen soll. Da die Shredderung im Rechenzentrum und unter Microsoft-Aufsicht erfolgt, verlassen Microsoft-Ressourcen nicht die kontrollierten Bereiche des Rechenzentrums.

Alle Wartungsarbeiten müssen vor Beginn der Arbeit genehmigt werden, einschließlich des Zugriffs auf Systemwartungstools. Microsoft Infrastructure hat die Steuerung der Wartungstools implementiert, indem eine Zugriffsebene im Datacenter Access Tool (DCAT) erstellt wird. Jede Einrichtung enthält eine eingeschränkte physische Schlossbox oder einen zugangsgesteuerten Raum für die Lagerung von spezialisierten Wartungswerkzeugen. Der Zugriff auf die Sperrbox oder den Lagerraum wird im DCAT-Tool gesteuert, um den unbefugten Zugriff auf die Wartungstools zu verhindern. Dieses Programm stellt sicher, dass nur Mitarbeiter mit genehmigtem Zugriff auf die Tools zugreifen können. Das Websitedienste-Team führt routinemäßige Bestandsüberprüfungen durch, um den Status aller Tools zu überprüfen. Vierteljährlich führen das Rechenzentrumsverwaltungsteam und die physischen Sicherheitsteams Audits der DCAT-Zugriffsliste durch, um die Zugriffsliste des Wartungspersonals auf dem neuesten Stand zu halten. Personalentkündigungen oder -übertragungen werden sofort durch eine manuelle Aktualisierung der Zugriffsliste widergespiegelt. Der Zugriff auf die Sperrbox oder den Wartungsspeicherraum wird in den Zugriffssignalleseprotokollen nachverfolgt, die für alle Untersuchungen verfügbar sind.

Das Site Services-Team verwaltet eine Bestandsaufnahme der genehmigten Wartungstools für die Verwendung innerhalb des Rechenzentrums. Wartungspersonal wird angewiesen, die bereitgestellten Wartungstools zu verwenden. Die Genehmigung der Rechenzentrumsverwaltung (Datacenter Management, DCM) ist erforderlich, um Tools zu verwenden, die nicht vom Rechenzentrum bereitgestellt werden. Physische Handwerkzeuge sind von dieser Art von Kontrolle ausgenommen.

Microsoft-Rechenzentren unterhalten personalresidentes Wartungspersonal, um kritische Rechenzentrumsinfrastruktursysteme (das Critical Environment-Team) und den Betrieb von Rechenzentren (das Site Services-Team) zu unterstützen. Die Teams für kritische Umgebungen und Websitedienste haben wichtige Sicherheits- und Technologiesystemkomponenten identifiziert, die sie vor Ort warten. Wichtige Informationssystemdienste werden von mehreren Rechenzentren bereitgestellt, um eine Dienstunterbrechung aufgrund eines Vorfalls in einem der Rechenzentren zu verhindern.