Dokumentation zum Websitezuverlässigkeits-Engineering (Site Reliability Engineering, SRE)
Websitezuverlässigkeits-Engineering (Site Reliability Engineering, SRE) ist ein Engineeringbereich, bei dem es darum geht, Organisationen beim nachhaltigen Erzielen der geeigneten Zuverlässigkeitsebene für ihre Systeme, Dienste und Produkte zu unterstützen.
Verbessern der Zuverlässigkeit durch moderne Vorgehensweisen beim Betrieb
SRE in Azure
Dokumentation zu SRE
Aufbau
- Azure Architecture Framework
- Azure-Anwendungsarchitekturleitfaden
- Referenzarchitekturen
- Framework für die Einführung der Microsoft Cloud (Microsoft Cloud Adoption Framework)
- Beispielworkloads
- Erstellen von Microservices in Azure
- Azure-Datenarchitekturleitfaden
- Bewährte Methoden für die Cloud
- Entwerfen zuverlässiger Azure-Anwendungen
- Cloudentwurfsmuster
- Azure für AWS-Spezialisten
- Leistungsoptimierung
- Weitere Informationen im Azure Architecture Center
Bereitstellung und Lieferung
SRE-Vorträge von Microsoft
Kultur
- Entwicklung des Websitezuverlässigkeits-Engineerings (Site Reliability Engineering, SRE)
- SRE-Entwicklung: Kultureller Ansatz „von außen nach innen“
- Kulturelle Feinheiten und effektive Zusammenarbeit für multikulturelle Teams
- Entwicklung von SRE und steigender Bedarf an SRE-Katalysatoren
- Feedbackschleifen: SRE-Vorteile und Voraussetzungen zur Realisierung des Potenzials
- Besseres SRE durch Kenntnis der Geschäftsmetriken
- Die unendliche Geschichte der Websitezuverlässigkeit
- Beim Betrieb ist jeder Tag ein Montag
Reaktion auf Vorfälle und anschließende Überprüfung
Überwachung und Einblick
- Über 600 Millionen Mitglieder und Hunderte von Microservices: Mithalten per Skalierung des Überwachungssystems
- Neue Wege: Verlagern der Gewinnung von Einblicken von Ihrem Dienst auf Ihren Kunden
- „You Get What You Measure“: Wichtigkeit von Metriken
- Vorbereitung auf den Sturm: Rettung durch frühzeitige Warnungen
- Erfassen und Analysieren von Millionen von Abfragen ohne Mehraufwand
- Ereigniskorrelation: Ein neuer Ansatz zur MTTR-Reduzierung
- Hochverfügbarkeit für LinkedIn-Feed durch stabile Überwachung
- Reduzieren von MTTR und fehlerhaften Eskalationen: Ereigniskorrelation bei LinkedIn
Vorgehensweisen und Grundlagen
- Verfügbarkeit: Mehr als nur eine bestimmte Anzahl von Neunen
- Denkmodelle für SRE
- Vorrang für Vertrauenswürdigkeit beim Erstellen von Anwendungen
- Java hasst Linux. Finden Sie Lösungen.
- Charakterisieren und Verstehen der Phasen von SRE-Methoden
- Sicherheit und SRE: Multiplikatoren von Naturgewalten
- Überprüfung der Produktionsverbesserung: Verringern von Reparaturkosten
- Sicherstellen der Zuverlässigkeit von Hochleistungsanwendungen
- Score Card für Dienste: Gamifizierung des optimalen Betriebs
- Verbessern eines Diensts per „Roasting“
Teams und Verwaltung
- „Code Yellow“: Intelligentes Unterstützen von kopflastigen Betriebsteams
- Führen ohne Management: Technischer SRE-Leiter
- Unterschiede bei SRE-Implementierungen in Unternehmen
- 100 Teams, 100 Möglichkeiten für Fehler
- Starten eines SRE-Projekts: Warum/Was/Wie?
- Aufbauen und Leiten von SRE-Teams
- Vom Studenten zum SRE-Experten: Einstellen von Einsteigern
- LinkedIn-SRE: Vom Projektbeginn bis zur globalen Nutzung
- Zusammenführen von SRE-DNA-Sequenzen im weltweit größten Softwareunternehmen
- Ebene 1: Von der Raupe zum Schmetterling
Tools und Technologien
- Azure SREBot: Mehr als ein Chatbot: Intelligenter Bot zur Verkürzung der Lösungsdauer
- TrafficShift: Bedarfsgesteuertes Vermeiden von Notfällen
- Entwickeln eines verteilten Dateisystems
- TCP: Architektur, Erweiterungen und Optimierung
- BGP: Rückgrat des Internets
- Vorgänge beim serverlosen Ansatz
- Beschreibung der Verwendung von Kafka zum Skalieren der Datenbankinfrastruktur
- Netzwerke für SRE-Experten: Erforderliche Kenntnisse zur Problembehandlung für Anwendungen
- Ambry: LinkedIn-Speicher für verteilte unveränderliche Objekte
- BPerf: Bing.com-Cloudprofilerstellung in der Produktion
- DNS: Alte Lösung für moderne Probleme
- Steuern des Datenverkehrs per „Rum DNS @ LinkedIn“
Skalierung
- Infrastruktur für Datenverkehrsprognosen und Belastungstests
- Lernen im großen Stil ist schwierig! Analyse von Ausfallmustern und „Dirty Data“
- Skalieren eines verteilten zustandsbehafteten Systems: LinkedIn-Fallstudie
- Debuggen im großen Stil: Umstellung von der Einzelbox auf die Produktion
- Bedarfsgerechtes Entwickeln einer zentralen Infrastruktur für die Zwischenspeicherung
- Skalierbare Codierung: Ermitteln des Fehlers
- Verwalten der Kapazität bei LinkedIn
- InStream: Verteilung in großem Umfang per BitTorrent, Python, Salt und Kafka
- Vermeiden und Ausbrechen aus dem Kapazitätsgefängnis
- Entwicklung des Routings von globalem Datenverkehr und von Failovern