Wie sie sich sre

Einführung
Wie sie wie SRE ein kuratiertes Wissens-Repository von Best Practices, Tools, Techniken und Kultur, die von führenden Technologien oder technisch versierten Organisationen übernommen wurden, wie sie SRE (SRE) sind, ist ein kuratiertes Wissens-Repository.
Zahlreiche Organisationen teilen ihre Erkenntnisse und ihre Fachkenntnisse häufig mit Best Practices, Tools und Techniken, die ihre technische Kultur beeinflussen. Sie tun dies über verschiedene öffentliche Plattformen wie technische Blogs, Konferenzen und Meetups. Dieses Repository erstellt und präsentiert Inhalte, die aus diesen Quellen gesammelt wurden.
Themen
- Standortzuverlässigkeitstechnik
- SRE -Teams einstellen und bauen
- SRE -Kultur
- DevOps
- Überwachung und Beobachtbarkeit
- Alarmieren
- Vorfallreaktion & Post-Mortem
- Voran
- Tests in der Produktion
- Chaos Engineering
- Automatisierung
- Leistung
- Plattformtechnik
Organisationen
Leistungsträger
Blog -Beiträge
- Betreten Sie das Schlachthaut - Bau "à la carte" Gitops -Tooling
- Skalierung der Produktion weltweit-das Service-Mesh-Facelift (Teil-1)
- Skalierung der Produktion weltweit - Lösen von Beobachtbarkeitsproblemen für Entwickler (Teil -2)
- Lastprüfung Kubernetes: Erstellen eines Frameworks (Teil-1)
- Kubernetes laden: Engpässe auflösen und die Leistung verbessern (Teil-2)
Airbnb
Blog -Beiträge
- Automatisiertes Vorfallmanagement durch Slack
- Schwachstellen mit Vulnture erkennen
- Warnungsgerüst bei Airbnb alarmieren
- Wenn die Wolke dunkel wird - wie Amazon Airbnb ausgewirkt hat
- Intelligente Automatisierungsplattform: Stärkung der Konversations -KI und darüber hinaus bei Airbnb
- Produktionsgeheimnismanagement bei Airbnb
- Datenschutz automatisieren in Skala, Teil 1
- Datenschutz automatisieren in Skala, Teil 2
- Automatisieren von Datenschutz in Skala, Teil 3
- Dynamische Kubernetes -Cluster -Skalierung bei Airbnb
Algolie
Blog -Beiträge
- 30. Mai SSL Vorfall
- Eine Reise nach Sre
- CI/Cday 2024: Was macht eine gute CI/CD -Plattform aus?
Alibaba Cloud
Blog -Beiträge
- Warum wählen die Top -Internetunternehmen SRE gegenüber traditionellen O & M?
- Architektur und Praktiken der Echtzeitplattform von Bilibili
Asana
Blog -Beiträge
- Wie Asana Asana verwendet: Sicherheitsvorfälle Reaktion
- Wie Asana stabile Webanwendungen verschickt
- Analyse der jüngsten Ausfallzeiten und was wir tun, um zukünftige Vorfälle zu verhindern
- Entwicklerumgebung: Zuverlässigkeit erreichen, indem es schnell zurückgesetzt wird
- Drei Sicherheitstaktiken für jeden IT -Leiter, der diesen Herbst in Betracht ziehen sollte
Asos
Blog -Beiträge
- Das schuldlose Spiel spielen
- Ein Tag im Leben von… Katzen (Leiter der Zuverlässigkeitstechnik)
- Eine AKS Performance Journey: Teil 1 - Giben Sie alles auf
- Eine AKS Performance Journey: Teil 2 - Vernetzung
- Cyber Security @ Asos.com
- Sicherheitsvorgänge 24x7
- Die Fähigkeiten, nach denen wir in der Reaktion der Cyber Security -Vorfälle suchen,
Atlassian
Blog -Beiträge
- Best Practices für das Änderungsmanagement im Zeitalter der DevOps
- Automatisierte Tests: 5 Lektionen aus dem Kubernetes -Team von Atlassian zum Testen der Infrastruktur als Code
- So exportieren Sie Kubernetes -Ereignisse für Beobachtbarkeit und Alarmierung
- Ereignispostmortem -Vorlage
Rückmarkt
Blog -Beiträge
- Wie der Rückmarkt SREs für den Schwarzen Freitag vorbereitet hat
Baidu
Videos
- Anomalie -Erkennung bei goldenen Signalen
- Netradar: Überwachung des Datencenter -Netzwerks
- Lassen Sie das Chaos beginnen - Sre Chaos Engineering trifft die Cybersicherheit
Basiscamp
Blog -Beiträge
- In einem Code Red: Network Edition
- Drei Basisausfälle. Eine Woche. Was ist passiert?
- Basecamp 2 und Basecamp 3 Suchausfallbericht
- Reduzierung von Vorfällen Eskalationen im Basicamp
Bücher
Bloomberg
Videos
- Kapazitätsplanung und Leistungsverbesserung mit Seitenreferenzabtastung
- Warum SREs es sich nicht leisten können, Chaos Engineering nicht zu machen
- Verteilte verteilte Echtzeitsysteme verfolgen
- The Bloomberg Story: Bauen von SRE -Teams in einer "unermesslichen" Organisation
- Sichtbarkeit in Holzfäller (und andere Dienstleistungen mit niedrigem Niveau) - die Bäume aus dem Wald sehen
Booking.com
Blog -Beiträge
- Wie Zuverlässigkeits- und Produktteams bei Booking.com zusammenarbeiten
- Vorfälle, Korrekturen und den Tag danach
- Fehlerbehebung: Eine Reise ins Unbekannte
Videos
- SLOs für datenintensive Dienste
- Vorteile der weniger reisten Straße mit Container -Infrastruktur
Hauptstadt eins
Blog -Beiträge
- Automatisieren Sie die Anwendungsüberwachung mit Slack
- Automatisieren Sie die AWS -Infrastruktur mit Boto 3: AWS Health Check
- Active-Active Shared-Nothing-Datenbankarchitektur
- Die 3 Rs von SRES: Ausfallsicherheit, Wiederherstellung und Zuverlässigkeit
- 5 Schritte, um Ihr App -Chaos fertig zu machen
- 4 reale Szenarien, die wie Chaos Engineering Experimente lesen
- Umfassen Sie das Chaos… Engineering
- 3 Erkenntnisse aus der Implementierung von Chaos Engineering bei Enterprise
- Ein tiefes Eintauchen in die nahtlose blaue/grüne Bereitstellung mit AWS codEdePloy
- Sichere Docker -Container erfordern sichere Anwendungen
- 4 Schritte zum Kombinieren der Cloud und der DevOps, um die Widerstandsfähigkeit zu verbessern
- Container-Bereitschaftsanwendungen mit zwölf-Faktor-App und Microservices-Architektur
- Vertrauen einsetzen - das Risiko minimieren, die Widerstandsfähigkeit mit Kanarischen Bereitstellungen auf AWS maximieren
- Architektur für Widerstandsfähigkeit
- Kontinuierliches Chaos - Einführung von Chaos -Engineering in DevOps -Praktiken einführen
- Der Mon-IFESTO Teil 1: Metriken
Hauptvorfälle und Analyseberichte
- Informationen zum Capital One Cyber -Vorfall
- Eine Fallstudie des Kapital -One -Datenverstoßes
Videos
- Bankgeschäft auf kontinuierliche Lieferung - Kapital 1
- Kontinuierliches Chaos in DevOps - Hauptstadt 1
- DevOps bei Capital One: Konzentration auf Pipeline und Messung
- Automatisierung des Managements der operativen Gesundheit von Cloud -Konten im Maßstab
Coinbase
Blog -Beiträge
- Die sichere Bereitstellungspipeline von Open Sourcing Coinbase
Dazn
Blog -Beiträge
- Standortzuverlässigkeit bei Dazn
Dbs
Blog -Beiträge
- Präsentation auf Ithomes SRE -Konferenz: Unsere DBS SRE -Transformationsreise bisher
- Debunking die sieben beliebtesten Mythen für Zuverlässigkeitstechnik für Site Zuverlässigkeit
- Wie man Sre benutzt, um eine schuldlose Kultur am Arbeitsplatz zu kultivieren
- Site Zuverlässigkeitstechnik bei DBS Bank
- Automatisierung der Konfigurationsverwaltung im Maßstab
- Wie DBS die Mythen des Chaos Engineering zerstreut hat
- Doppelte, doppelte Mühe und Ärger
Videos
- SRECON -Gespräche Asien/Pazifik mit Koon Seng Lim, DBS
DeepSource
Blog -Beiträge
- Replikation von redis diskless: Was, wie, warum und die Vorbehalte
- So richten Sie Tresor mit Kubernetes ein
- Aufschlüsse keine Ausfallzeiten in Kubernetes abbauen
Tream11
Blog -Beiträge
- Bereitstellung in der Skala: Geschichte hinter Dream11's Inhouse Blue-Green Deployment-Plattform "OneClick".
- Verbesserung der Sicherheit und des Vertrauens mit AWS WAFV2
- Lektionen, die aus dem Ausführen von GraphQL im Maßstab gezogen wurden
- Schaltkreise brechen, Kong retten?
- Reihenfolge im Chaos finden: Wie wir die Leistungstests mit Drehmoment automatisiert haben
- Aufrechterhaltung von hyper-sonischen Veröffentlichungen bei Dream1111
- Um Skalieren oder Ausmaß zu skalieren? So skalieren wir bei Dream111111
- Aufbau skalierbarer Echtzeitanalysen, Alarmierungs- und Anomalie -Erkennungsarchitektur bei Dream1111111
Dropbox
Blog -Beiträge
- Dropbox Engineering Career Framework - Zuverlässigkeitsingenieur (SRE)
- Atlas: Unsere Reise von einem Python -Monolith zu einer verwalteten Plattform
- Überwachung von Serveranwendungen mit Vortex
- Athena: Unser automatisiertes System für das Gesundheitsmanagement von Build
- Möchten Sie Site -Zuverlässigkeitsingenieur werden?
Videos
- Service Discovery Challenges in Skala
eBay
Blog -Beiträge
- Resilienz und Katastrophenerholung mit Kafka
- SRE-Fallstudie: Ein nicht heap-JVM aus dem Speicherproblem
- SRE -Fallstudie: Mysteriöses Verkehrstudium
- Zero -Ausfallzeit, sofortige Bereitstellung und Rollback
- Wie die Benachrichtigungsplattform von eBay auf neue Weise Fehlerinjektion verwendete
Video
- Madaari: Bestellung für die Affen
Epische Spiele
Video
- AWS Re: Invent 2018: Epic Games verwendet AWS, um Fortnite an 200 Millionen Spieler zu liefern
Etsy
Blog -Beiträge
- Verbesserung der Einsatzerfahrung einer zehnjährigen Anwendung
- Wie Etsy im Jahr 2020 auf historische Volumina des Urlaubsverkehrs vorbereitet wurde
- Ihr Gehirn über den Fortschritt
- Etsys Nachbesprechungserleichterungshandbuch für schuldlose Postmortems
- Opsweekly: Messung der Bereitschaftserfahrung mit Alarmklassifizierung
- Entmystifizierung von Site -Ausfällen
- Schuldige Postmortems und eine gerechte Kultur
- Messen Sie alles, messen Sie alles
Videos
- Geschwindigkeit 09: John Allspaw und Paul Hammond, "10+ bereitet PE ein
- Migrieren eines Monolithen in die Wolke
Expedia
Blog -Beiträge
- Automatisierung der Leistungsstandards
- Fehlerbudget -Richtlinie - Teil 1 - Adoption bei Expedia Group
- Fehlerbudget -Richtlinie - Teil 2 - Praktiken bei Expedia Group
- Verwendung der Fehlerinjektion zur Verbesserung der Zuverlässigkeit unserer neuen Laufzeitplattform
- Lernen aus Vorfällen bei der Expedia Group
- Verbesserung der Ladeerfahrung von VRBO -Homepage
- Fehlerbehebung 502 Fehler: ECS -Checkliste
- Erste Schritte mit Elasticsearch
- Alles über Istio-Proxy 5xx-Probleme
- Autoscaling in Kubernetes: Warum funktioniert der horizontale Pod -Autoscaler nicht für mich?
- So halten Sie Ihre Kubernetes -Bereitstellungen in mehreren Zonen ausbalanciert
- Liegen Sie Ihre Dropwizard -Latenzmetriken in die Irre, die Sie in die Irre führen?
- Die Kosten für 100% Zuverlässigkeit
- Erstellen von Überwachung Dashboards
- Verwenden Sie Bash für DevOps
Schnell
Videos
- SRE & Produktmanagement: Wie Sie Ihr Team (und Ihre Karriere!) Steigern, indem Sie wie ein Produktmanager denken
- Resilience Engineering Mythbusting
G-Forschung
Blog -Beiträge
- Unsere SRE-Reise bei G-Forschung
- Die SRE -Reise geht weiter
- OpenSDDB-Meta-Cache-Kompromisse für die Leistung
Getaround
Blog -Beiträge
- Wie wir mit Vorfällen bei Getaround umgehen
- Entwicklung unseres kontinuierlichen Lieferprozesses
Github
Blog -Beiträge
- Wie wir die Verfügbarkeit durch iterative Vereinfachung verbessert haben
- Wie wir die Push -Verarbeitung auf Github verbessert haben
- Wie Github die Warteschlange verwendet, um jeden Tag Hunderte von Änderungen zu versenden
- Beheben von Sicherheitslücken mit KI
- Github's Engineering Fundamentals Program: Wie wir Verfügbarkeit, Sicherheit und Zugänglichkeit liefern
- Wie Github GitHub -Aktionen und -aktionen größere Läufer verwendet, um Github.com zu erstellen und zu testen
- Die Reise des Github Security Lab zur Offenlegung von 500 CVEs in Open Source -Projekten
- Das CODEQL -Team verwendet KI, um die Erkennung von Sicherheitsanfälligkeit im Code zu aktivieren
- Besprechen Sie die jüngsten Verfügbarkeitsprobleme von Github
- Aufbau organisatorischer Governance und Wiederverwendung für CI/CD und Automatisierung mit GitHub-Aktionen
- Aktivieren Sie Zweigbereitstellungen durch Ausgaben mit GitHub -Aktionen
- Verwenden von Chatops, um Aktionen voranliegen
- Partitionierung der relationalen Datenbanken von Github, um die Skala zu verarbeiten
- Erhöhung des Entwicklers Glück beim Scannen von Github -Code
- Warum (und wie) GitHub Opentelemetry übernimmt
- Verbesserung der großen Monorepo -Leistung auf GitHub
- Bereitstellungszuverlässigkeit bei GitHub
- Verbesserung der Art und Weise, wie wir Github bereitstellen
- Aufbau von Kultur in Github
- Reduzierende schuppige Builds um 18x
- Die sich entwickelnde Rolle von Operationen in DevOps
- Erste Schritte mit DevOps Automation
- MySQL Hohe Verfügbarkeit bei GitHub
Hauptvorfälle und Analyseberichte
- GitHub -Verfügbarkeitsbericht: August 2024
- GitHub -Verfügbarkeitsbericht: Juli 2024
- GitHub -Verfügbarkeitsbericht: Juni 2024
- GitHub -Verfügbarkeitsbericht: Mai 2024
- GitHub -Verfügbarkeitsbericht: April 2024
- GitHub -Verfügbarkeitsbericht: März 2024
- GitHub -Verfügbarkeitsbericht: Februar 2024
- GitHub -Verfügbarkeitsbericht: Januar 2024
- GitHub -Verfügbarkeitsbericht: Dezember 2023
- GitHub -Verfügbarkeitsbericht: November 2023
- GitHub -Verfügbarkeitsbericht: Oktober 2023
- GitHub -Verfügbarkeitsbericht: September 2023
- GitHub -Verfügbarkeitsbericht: August 2023
- GitHub -Verfügbarkeitsbericht: Juli 2023
- GitHub -Verfügbarkeitsbericht: Juni 2023
- GitHub -Verfügbarkeitsbericht: Mai 2023
- GitHub -Verfügbarkeitsbericht: April 2023
- GitHub -Verfügbarkeitsbericht: März 2023
- GitHub -Verfügbarkeitsbericht: Februar 2023
- GitHub -Verfügbarkeitsbericht: Januar 2023
- GitHub -Verfügbarkeitsbericht: Dezember 2022
- GitHub -Verfügbarkeitsbericht: November 2022
- GitHub -Verfügbarkeitsbericht: Oktober 2022
- GitHub -Verfügbarkeitsbericht: September 2022
- GitHub -Verfügbarkeitsbericht: August 2022
- GitHub -Verfügbarkeitsbericht: Juli 2022
- GitHub -Verfügbarkeitsbericht: Juni 2022
- GitHub -Verfügbarkeitsbericht: Mai 2022
- GitHub -Verfügbarkeitsbericht: April 2022
- GitHub -Verfügbarkeitsbericht: März 2022
- GitHub -Verfügbarkeitsbericht: Februar 2022
- GitHub -Verfügbarkeitsbericht: Januar 2022
- GitHub -Verfügbarkeitsbericht: Dezember 2021
- GitHub -Verfügbarkeitsbericht: November 2021
- GitHub -Verfügbarkeitsbericht: Oktober 2021
- GitHub -Verfügbarkeitsbericht: September 2021
- GitHub -Verfügbarkeitsbericht: August 2021
- GitHub -Verfügbarkeitsbericht: Juli 2021
- GitHub -Verfügbarkeitsbericht: Juni 2021
- GitHub -Verfügbarkeitsbericht: Mai 2021
- GitHub -Verfügbarkeitsbericht: April 2021
- GitHub -Verfügbarkeitsbericht: März 2021
- GitHub -Verfügbarkeitsbericht: Februar 2021
- GitHub -Verfügbarkeitsbericht: Januar 2021
- GitHub -Verfügbarkeitsbericht: Dezember 2020
- GitHub -Verfügbarkeitsbericht: November 2020
- GitHub -Verfügbarkeitsbericht: August 2020
- GitHub -Verfügbarkeitsbericht: Juli 2020
- Einführung des GitHub -Verfügbarkeitsberichts
- Februar-Service-Störungen nach der Analyse nach dem Incident
- 21. Oktober nach dem Incident Analyse
- 28. Februar DDOS Incident Report
- Incident Report: Unbeabsichtigte Offenlegung privater Repository
Videos
Gitlab
Blog -Beiträge
- Dieser SRE versuchte, eine Haproxy -Konfigurationsänderung auszuschließen. Sie werden nicht glauben, was als nächstes passiert ist ...
- Meine Woche beschattet einen Gitlab -Site -Zuverlässigkeitsingenieur
- Update: Elasticsearch -Lektionen, die für die erweiterte globale Suche gelernt wurden
- Lektionen in der Iteration eines neuen Teams in der Infrastruktur
- Wie wir die Infrastruktur in GitLab optimiert haben
- Wie wir die asynchronisierte Workload -Verarbeitung bei gitlab.com mit Sidekiq skaliert haben
- Innerhalb GitLab: Wie wir Software -Patches veröffentlichen
- Was für das fehlende TCP -Keepalives nachverfolgt wurde, hat mich Docker, Golang und Gitlab gelernt
- Wie wir eine verzögerte Replikation für die Katastrophenwiederherstellung mit PostgreSQL verwendet haben
Gernlos
Blog -Beiträge
- Bereitstellung von Software bei GoCardless: Open-Sourcing unser "Erste Start" -Tutorial
- Wie wir Pub/Sub -Nachrichten und mehr komprimieren, sparen wir eine Menge Geld
- Fear-Free PostgreSQL-Migrationen für Rails
- Beobachtbarkeit bei GoCardless: Eine Geschichte der API -Leistungsverbesserung
- Debuggen des PostgreSQL Query Planers
- Null -Down -Time -Postgres -Migrationen - die harten Teile
- Auf der Suche nach Leistung - wie wir 200 ms von jeder Postanfrage rasiert haben
Hauptvorfälle und Analyseberichte
- Incident Review: Serviceausfall am 25. Oktober 2020, Vault TLS -Ablauf
- Incident Review: API- und Dashboard -Ausfall am 10. Oktober 2017
GoDaddy
Blog -Beiträge
- Kubernetes Gated Deployments
- Kubernetes externe Geheimnisse
- Kubernetes - Eine praktische Einführung für Anwendungsentwickler
- Ein intuitiver Node.js -Client für die Kubernetes -API
Gojek
Blog -Beiträge
- Einführung von Skynet: Infrastruktur als Code für Gojek
- Skalierung unseres Geo-Such-Dienstes für 10-fache Last
- Warum wir am RCA schwören
- Wie wir Kubernetes auf GKE aktualisieren
- Wie wir Apache -Luftstrom in der Produktion überwachen
Goldman Sachs
Blog -Beiträge
- SECDB -Beobachtbarkeitsreise
- Chaos testen eine Anwendung auf AWS
- Vorhersage von Kapazitätsausfällen mithilfe von maschinellem Lernen, um die Anwendungsresilienz zu verbessern
- Bereitstellung von 99,9% Verfügbarkeit und Reaktionszeiten der Unter Sekunden
- Aufbau von Multi-Region-Resilienz mit Amazon RDS und Amazon Aurora
- Ermöglichen Sie hoch erhältliche Trino -Cluster bei Goldman Sachs
- Beobachtbarkeit im Maßstab
- Infrastruktur und das Befehlskettenmuster
- Mobile CICD mit EC2 MacOS
- Ankündigung von Catchit - Quellcode Secret Scanner
- Bauen von Plattformen für Datentechnik
Google
Blog -Beiträge
- Beschleunigung der Vorfallreaktion mit generativen KI
- Fallstricke und Muster im Microservice -Abhängigkeitsmanagement
- SRE -Praktiken und -prozesse
- Zuverlässigkeit von Google Site mit GO
- Drei Monate, 30-fache Nachfrage: Wie wir Google skaliert haben, treffen sich während Covid-19
- SRE Klassenzimmer: Verteilter Pubsub
- Wie SRE -Teams organisiert sind und wie man anfängt
Videos
- Was ist der Unterschied zwischen DevOps und SRE? Mit Seth Vargo und Liz Fong-Jones von Google
- Risiko- und Fehlerbudgets 'mit Seth Vargo und Liz Fong-Jones von Google
- Pragmatische Automatisierung 'mit Max Luebbe von GCP
- Muss zuschauen! - Google Sre YouTube Playlist
- Ziele der Squish Level: Wie SRE dazu beitragen kann
- Implementierung verteilter Konsens
- Der Sre, den ich sein möchte
- SRE Klassenzimmer oder wie man in 3 Stunden ein zuverlässiges verteiltes System entwirft
- Zero Touch Prod: In Richtung sicherer und sichererer Produktionsumgebungen
- Alle unsere ML -Ideen sind schlecht (und wir sollten uns schlecht fühlen)
- Die Karte ist nicht das Territorium: Wie SLO uns in die Irre führen und was wir dagegen tun können
- Bereitstellung von Best Practices für SRE -Schulungen in Produktion: Wie wir unser SRE -Bildungsprogramm bewirkten
- Bigtable: Eine Reise von Binär zum Dienst und die Unterrichtsstunden auf dem Weg
- Praktische Instrumentierung für Beobachtbarkeit
- Was ist ML OPS: Lösungen und Best Practices für DevOps of Production ML Services
- Einheitliche Berichterstattung über die Zuverlässigkeit der Dienstleistung
- Wie man die Serverauslastung und die Schwanzlatenz einleitet
- Das Gleichgewicht behalten: Innentimaler Lastbalancieren entmystifiziert
- Von Black Box zu einer bekannten Menge: So erstellen Sie vorhersehbare, zuverlässige ML-basierte Dienste
- Achtsamkeit in SRE: Überwachung und Alarmierung auf sich selbst
- Pragmatische Automatisierung
- Sublinear Skalierung in der Praxis: Das 1K SRE -Projekt
- Strategien zum Bearbeiten von Produktionsdaten
- Der Fluch der Sre -Autonomie und wie man es verwaltet
- Skalierung von SRE -Organisationen: Die Reise von 1 zu vielen Teams
- SRE Klassenzimmer - So entwerfen Sie ein verteiltes System in 3 Stunden
- Verwenden von PRDs und Benutzerreisen, um benutzerfreundliche Tools zu entwerfen
- Wie Google Sre und Entwickler zusammenarbeiten
- SRECON21 - Experimente für SRE
Greifen
Blog -Beiträge
- Unsere Reise zur kontinuierlichen Lieferung am Grab (Teil 1)
- Unsere Reise zur kontinuierlichen Lieferung bei Grab (Teil 2)
- Entwerfen von belastbaren Systemen: Leistungsschalter oder Wiederholungen? (Teil 1)
- Entwerfen von belastbaren Systemen: Leistungsschalter oder Wiederholungen? (Teil 2)
- Entwerfen von belastbaren Systemen jenseits von Wiederholungen (Teil 3): Architekturmuster und Chaos Engineering
- Orchestrieren Chaos mit der Experimentierplattform von Grab's Experimentation
- Wie wir den Quotas -Microservice entwickelt haben, um Ressourcenmissbrauch zu verhindern
- Wie wir unseren Cache skaliert haben und gut geschlafen haben
Grammatik
Blog -Beiträge
- Scaling AWS -Infrastruktur zur Unterstützung mehrerer Regionen
- Sicherheitsvorgänge in einer AWS -Umgebung
Gusto
Blog -Beiträge
- Die Ziele der Serviceebene für den Beruhigungsfrieden vor Ort
- Debugging Sidekiq Giftpillen
Halodoc
Blog -Beiträge
- Site Zuverlässigkeitstechnik für native mobile Apps
Heroku
Blog -Beiträge
- Die Abenteuer von Rendezvous in Herokus neuer Architektur
- Vorfallreaktion bei Heroku
IBM
Blog -Beiträge
- Was ist Site Zuverlässigkeitstechnik (SRE)?
- AIOPS -Werkzeuge und -Lösungen
In der Tat
Blog -Beiträge
- In der Tat SRE: Ein innerer Look
- Gerade zuverlässig genug sein
- Die Veröffentlichungsprozess von in der Tat automatisieren
- Sloth, ein Tool zur Induktion von Netzwerkfehlern 'mit Preetha Appan von tain.com
Videos
- Werden wir noch besser? Fortschritt in Richtung sicherer Operationen
In der Tat
Blog -Beiträge
- Sre Playbook - Praktischer Leitfaden
Khan Academy
Blog -Beiträge
- Wie die Khan Academy in einer Woche erfolgreich mit dem 2,5 -fach -Verkehr umging
- Entwicklung unserer Inhaltsinfrastruktur
LinkedIn
Blog -Beiträge
- Überdenken Sie die Kapazitätsprojektionen von Standortkapazitäten mit Kapazitätsanalysator
- Einblicke in ein Produkt SRE -Team bei LinkedIn
- SRES bei LinkedIn einstellen
- Open Source Update: School of Sre
- Behebung von Linux -Dateisystem -Leistungsregressionen
- Produktionstests mit dunklen Kanaren
- Smart Alerts in ThirdEye, LinkedIns Echtzeit-Überwachungsplattform
- Iris Mobile: Eine Open Source -Mobile -Schnittstelle für das Vorfallmanagement
- Linkedout: Ein Einspritzgerüst auf Anfragebereich auf Niveau
- Beseitigung der Mühe mit vollständig automatisierten Lasttests
- Die Zusammensetzung erfolgreicher geografisch verteilter SRE-Teams: Teil 1
- Die Zusammensetzung erfolgreicher geografisch verteilter SRE-Teams: Teil 2
- Project Star*: Stromlinien
- Automatisieren Sie Ihre Oncall: Open Sourcing Fossor und ASCII Rad
- Resilience Engineering bei LinkedIn mit Project WaterBear
- Einstellung von SRES bei LinkedIn, 2017
- Open Sourcing Iris und Oncall
- Aufbau der SRE -Kultur bei LinkedIn
- Der Fehler ist keine Option
- MTTD und MTTR sind der Schlüssel
- Was gemessen wird
Videos
- Wachstum des Site -Zuverlässigkeitsteams bei LinkedIn: Einstellung ist schwierig - Greg Leffler
- 9 Jahre des Scheiterns: Wie Rennen beschissene Autos mich zu einem besseren Sre machten
- Den Sturm überreden: Wie frühwarnungen die Farm retten
- Unkonferenz: ungelöste Probleme in SRE
- Führung ohne Management: Ein technischer Leiter von SRE zu werden
- Warum saugt (meine) Überwachung?
- Verkehrsprognose- und Stresstestinfrastruktur
- Kollektive Achtsamkeit für bessere Entscheidungen in Sre
- TCP - Architektur, Verbesserungen und Stimmen
- Über 600 Millionen Mitglieder und Hunderte von Micro -Diensten: Wie wir unser Überwachungssystem skaliert haben, um Schritt zu halten
- Das Verständnis von Geschäftsmetriken kann Sie zu einem besseren SRE machen
- Code-Yellow: Helfen Sie operativen hochwertigen Teams auf die kluge Art und Weise
- Unterschiede in den SRE -Implementierungen in Unternehmen
Werkzeuge
Loggi
Blog -Beiträge
- Das Release Manager -Modell
- SRE -Teams #8: Loggi
Loveholidays
Blog -Beiträge
- Dynamische Alarmrouting mit Prometheus und Alertmanager
- Loveholidays 18% schneller mit HTTP/3 machen
- Durchsetzung der Best Practice in Self-Service Infrastructure mit Terraform, Atlantis und Richtlinie als Code
- Die 5 Prinzipien, die dazu beitrugen, Loveholidays zu skalieren
- Echtzeit protokolliert sich schnell mit Grafana Loki für weniger als 1 US -Dollar pro Tag
Macquarie
Blog -Beiträge
- Unsere DevSecops -Reise mit Golang
- Pipeline -Konfiguration als Code mit Kotlin
- DevOps und Aufgaben Trennung
- Macquarie umfasst DevOps
- Skalierung einer Kubernetes -Plattform im gesamten Unternehmen
Materie
Blog -Beiträge
- Überwachung von Cloud -Umgebungen im Maßstab mit Prometheus und Thanos
- Wie wir Faultier verwenden, um die SLO -Überwachung durchzuführen und mit Prometheus zu alarmieren
Meituan (美团)
Blog -Beiträge
- Die Entwicklung und Praxis von SRE in der Cloud (云端的 Sre 发展与实践)
Mercari
Blog -Beiträge
- Wer beobachtet die Wächter? Aufgrund unserer Überwachungssysteme im Auge behalten
- Was das Microservices SRE -Team als Sre Evangelisten macht
- Wie es ist, als eingebettete Microservices SRE zu arbeiten
- Das Merpay SRE -Team: Vergangenheit und Zukunft
- Eingebettete Sre in Mercari
- Was das SRE -Team mit dem Entwicklungsteam erreichen möchte
- DevSecops: Was ist es und warum gewinnt es in der Branche an Dynamik?
- Wie teilen wir die Fähigkeiten zur Fehlerbehebung mit
- Datadog Dashboard im Maßstab mit Terraform
Meta
Blog -Beiträge
- Nutzung der KI für eine effiziente Reaktion der Vorfälle
- Verbesserung der SLO -Workflows von Meta mit Datenanmerkungen
- Slick: Übernahme von SLOs für eine verbesserte Zuverlässigkeit
- Weitere Details zum Ausfall vom 4. Oktober
- Update über den Ausfall am 4. Oktober
Videos
- Ein Kundendienstansatz für SRE
- Wie (nicht) ein Projekt skalieren: ein Post-Mortem
- Veröffentlichung des weltweit größten Python -Standorts alle 7 Minuten
- Verwenden von ML zur Automatisierung der dynamischen Fehlerkategorisierung
Microsoft
Videos
- SLI & Reliability Deep-Dive 'mit David N. Blank-Edelman von Microsoft
- Ironies der Automatisierung: Eine Komödie in drei Teilen mit Tanner Lund von Microsoft
- Nachhaltige Software -Engineering & SRES
- Studie über menschliche Faktoren und Teamkultur, um die Pagerermüdung zu verbessern
- Priorisierung des Vertrauens beim Erstellen von Anwendungen
- Resilienz aufbauen: Wie man mehr aus Vorfällen lernt
- Eine Geschichte von zwei Postmortems: eine menschliche Faktorenansicht
- Verfügbarkeit - Über 9s nachdenken
- Ironies der Automatisierung: Eine Komödie in drei Teilen
- Die OPs in serverlos
Miro
Blog -Beiträge
- Prometheus hohe Verfügbarkeits- und Fehlertoleranzstrategie, langfristige Speicherung mit Victoriametrics
- Verwalten von Hunderten von Servern zum Lasttest: Autoscaling, benutzerdefinierte Überwachung, DevOps -Kultur
- Zuverlässige Lasttests in Bezug auf unerwartete Nuancen
Monzo
Blog -Beiträge
- Autoscaling Monzo: Wie wir unsere Plattform so optimieren, dass sie genau die richtige Größe haben
- Wie wir uns in Monzo auf dem Laufenden haben
- Wie wir auf Vorfälle reagieren
- Wie wir Monzo überwachen
Videos
- Schließlich konsequente Service -Entdeckung
Werkzeuge
Netflix
Blog -Beiträge
- Beobachtbarkeit in asynchronen Workflows erreichen
- Aufbau von Netflixs verteilter Verfolgungsinfrastruktur
- Lektionen aus dem Aufbau von Observierbarkeitstools bei Netflix
- Edgar: Mysterien schneller mit Beobachtbarkeit lösen
- TellTale: Netflix -Anwendungsüberwachung vereinfacht vereinfacht
- Kunden streamen halten - die zentralisierte Praxis zur Zuverlässigkeit der Website bei Netflix
- Einführung des Versandes
- Anwenden von Netflix DevOps -Mustern auf Windows
- CHAP: Chaos -Automatisierungsplattform
- Die Lawine starten
- Netflix Chaos Monkey wurde verbessert
- Chaos Engineering verbessert
- Automatisierte Ausfalltests
- Vom Chaos zur Kontrolle - Testen der Ausfallsicherheit der Inhalts -Discovery -Plattform von Netflix
- Einführung in Atlas: Netflixs primäre Telemetrieplattform
- Passform: Ausfalleinspritzungstests
- Ankündigung von Sicherheitsmanteln - AWS -Sicherheitskonfiguration Überwachung und Analyse
- Lektionen Netflix lernten aus dem AWS -Ausfall
- Scryer: Netflix 'Predictive Auto Skaling Engine
Hauptvorfälle und Analyseberichte
- Post-Mortem vom 22. Oktober 2012 AWS-Abbau
Videos
- AWS RE: Invent 2019: Ein Tag im Leben eines Netflix -Ingenieurs (NFX202)
- Wenn /bin /sh Angriffe: Überarbeiten "Alle Dinge automatisieren"
- Wie lief die Dinge richtig? Mehr aus Vorfällen lernen
- Überwachung und Verfolgung @Netflix Streaming -Dateninfrastruktur
- Reale Benutzerleistung Überwachung bei Netflix Scale - Martin Spier
- AWS Re: Invent 2017 - Nora Jones beschreibt, warum wir mehr Chaos brauchen - Chaos Engineering, das heißt
- AWS RE: Invent 2017: Chaos bei Netflix Scale (Dev334) durchführen.
- Netflix: Multi-Regional Resiliency und Amazon Route 53
- Entwerfen von Dienstleistungen für Resilienz: Netflix -Lektionen
- South Bay Sre Meetup - Netflix Cloud Performance Team
- AWS RE: Invent 2017: Ein Tag im Leben eines Netflix Engineer III (ARC209)
- Wie Netflix Kinesis -Streams verwendet, um Anwendungen zu überwachen und Milliarden von Verkehrsströmen zu analysieren
- Mastering Chaos - eine Netflix -Handbuch für Microservices
- AWS Re: Erfind 2016: Von Resilienz zur Allgegenwart - #netflixeverywhere Global Architecture (ARC204)
- SRECON 2016 - Netflix: 190 Länder und 5 Kern -SRES
- Von Sys Admin bis Netflix Sre
- Anwendungsresilience Engineering und Operations bei Netflix mit Hytrix
- Injizieren von Fehlern bei Netflix
- LISA13 - Wie Netflix das Versäumnis beeinträchtigt, die Belastbarkeit zu verbessern und die Verfügbarkeit zu maximieren
- Incident Management bei Netflix Velocity
Podcasts
- Ryan -Küchen zum Lernen aus Vorfällen bei Netflix, der Rolle von SRE und soziotechnischen Systemen
Werkzeuge
Neues Relikt
Blog -Beiträge
- Definieren moderner Software -Rollen: SRES bei New Relic
- 10 Dinge, die jeder über Site Zuverlässigkeitstechnik (SRE) wissen muss
- Welche Tools verwenden Site -Zuverlässigkeitsingenieure?
- Ein Tag im Leben eines neuen Relic Sre
- 7 Gewohnheiten sehr erfolgreicher Site -Zuverlässigkeitsingenieure
- Übernahme der Praxis von Sre
- Verwenden der modernen Beobachtbarkeit, um eine datengesteuerte Kultur zu etablieren
Nubank
Blog -Beiträge
- Engineering Operational Excellence, ein Fall kontinuierlicher Verbesserung
- Wie wir mit technischen Vorfällen umgehen
- Wie wir bei Nubank auf den Abruf machen
- Wie wir unsere Datenplattform effizient und zuverlässig skalieren
- Warum wir unsere End-to-End-Testsuite getötet haben
- Automatische Umschulung für maschinelle Lernmodelle: Tipps und Lektionen gelernt
Openai
Blog -Beiträge
- 20. März Chatgpt -Ausfall: Hier ist was passiert ist
- Openai Sre und Scaling erklärten leicht.
- Skalierung Kubernetes auf 2.500 Knoten
- Skalierung Kubernetes auf 7.500 Knoten
- Skalierung der KI -Infrastruktur bei OpenAI
Paypal
Blog -Beiträge
- Ausgelöst: Vorfall Nr. 1234 (Incident -Prozess erfordert die Behebung)
- Implementierung der Beobachtbarkeit in einem Service -Netz
- PostgreSQL in Skala: Das Datenbankschema ändert sich ohne Ausfallzeiten
- Skalierung von GraphQL bei PayPal
Videos
- SRECON -Gespräche Asien/Pazifik mit Karthikeyan Selvaraj und Rajesh Ramachandran, Paypal
- Sre dann gegen SRE NO: Ein Balanceakt zwischen Reflexen und intuitiven Instinkten bei PayPal
- Erkennen von Dienstverschlechterungen und -fehlern im Maßstab durch verteilte Protokollverarbeitung
- Betrieb von Elasticsearch mit Leichtigkeit im Maßstab
- Gewährleistung der Zuverlässigkeit der Standort durch Sicherheitskontrollen
Picknick
Blog -Beiträge
- Mikrometer und der moderne Beobachtbarkeitsstapel
- Überwachung und Beobachtbarkeit beim Picknick
Pinterest
Blog -Beiträge
- Gewährleistung einer hohen Verfügbarkeit von Anzeigen -Echtzeit -Streaming -Diensten
- Verbesserung der Effizienz und Reduzierung der Laufzeit mithilfe der S3 -Leseoptimierung
- Skalierung Kubernetes mit Zusicherung bei Pinterest
- Was wir aus einer iOS -App gelernt haben, OMOM -Vorfälle
- Wie wir unser kontinuierliches Integrationssystem so gestaltet haben, dass es mehr als 50% schneller ist
- Vereinfachung von Webbereitstellungen
- Upgrade von Pinterest -Betriebsmetriken
- Verteilte Verfolgung bei Pinterest mit neuen Open Source -Tools
- Automatische Skalierung von Pinterest
Videos
- Aufbau umsetzbarer Code -Eigentümer
- Entwicklung von Beobachtbarkeitstools bei Pinterest
- Automatisierung von Betriebssystemen/Plattform -Upgrades für Dienstbesitzer
Briefträger
Blog -Beiträge
- Erfahren Sie, wie Ihre Kubernetes -Cluster mit Gremlin und Grafana auf Fehler reagieren
Prezi
Blog -Beiträge
- Wie man globalen Ausfällen vermeidet - nahtlos wandernden Daemonset -Etiketten migrieren
- Auf der Suche nach Geschwindigkeit - Debugging der Elasticsearch -Leistung
- Prometheus bei Prezi: Ersetzen von 10 Jahren Anti-Muster
Roter Hut
Blog -Beiträge
- Von OPS bis SRE: Entwicklung des openShift -engagierten Teams
- 5 agile Praktiken, die jedes SRE -Team übernehmen sollte
- 7 Best Practices für das Schreiben von Kubernetes -Betreibern: Eine SRE -Perspektive
Aufruhrspiele
Blog -Beiträge
- Die Legenden der Runeterra CI/CD -Pipeline
- Strategien für die Arbeit in unsicheren Systemen
- Verbesserung der Entwicklererfahrung für Betriebsdienste
- Skalierbarkeit und Lastprüfung für Valorant
- Nutzung von Golang für Spielentwicklung und -betrieb
- Kontrolliertes Chaos mit Fehlerinjektionstests
- Das Kaninchenloch der Leistungsüberwachung hinunter
- Profilerstellung: Der Fall der fehlenden Millisekunden
- Profilerstellung: Real World Performance in der Liga
- Profilerstellung: Optimierung
- Profilerstellung: Messung und Analyse
- Online -Dienste bei Riot: Teil I.
- Online -Dienste bei Riot: Teil II
- Online -Dienste bei Riot: Teil III ausführen
- Online -Dienste bei Riot: Teil III: Teil Deux
- Online -Dienste bei Riot: Teil IV ausführen
- Online -Dienste bei Riot: Teil V ausführen
- Die Entwicklung der Sicherheit bei Riot
- Ausführen einer automatisierten Testpipeline für das Liga -Client -Update
- Automatisierte Tests für League of Legends
Salesforce
Blog -Beiträge
- Betrachten Sie die Kubernetes-Steuerebene für Multi-Messen
- Optimierung des EKS -Netzwerks für die Skala
- Zero -Ausfallknoten in einem Kubernetes -Cluster Patching
- Wie, nicht warum: eine Alternative zu den fünf Whys für Post-Mortems
- Ein generischer Beispritzjäger für Kubernetes
- Implementierung einer Überwachungsstrategie für Produkte basierend auf Microservices
- 10 Schritte zur Entwicklung eines Vorfalls -Antwortplans, den Sie tatsächlich verwenden, werden Sie tatsächlich verwenden
- Unsere Reise zu einer nahezu perfekten Blockpipeline
- Die Leistung mit Webarbeitern optimieren
- Nehmen Sie sich einen Moment Zeit, um sich neu zu konzentrieren
Schibsted Media
Blog -Beiträge
- Zuverlässigkeitstechnik für einige der Top -10 -Standorte in Skandinavien
Scribd
Blog -Beiträge
- Lernen aus Vorfällen: Sidekiq bereitstellen, eine Milliarde Arbeitsplätze zu bedienen
- Ein Testimonial für die Verwendung von PagerDuty bei Scribd
- Zuweisen der Pager -Pflicht an Entwickler
Shopify
Blog -Beiträge
- Resilienzplanung für hochverträgliche Ereignisse
- Kapazitätsplanung im Maßstab
- Verwenden von DNS -Verkehrsmanagement, um den Services von Shopify Resilienz zu verleihen
- Vier Schritte zum Erstellen effektiver Spieltagstests
- Implementieren von Chatops in unser Vorfallverwaltungsverfahren
- Statsd bei Shopify
Videos
- Netzwerkmonitor: Eine Geschichte, eine Beobachtbarkeitslücke anzuerkennen
- Erwarten Sie das Unerwartete: Vorbereitung der SRE -Teams auf die Reaktion auf neuartige Fehler
- Erweiterte Serviettenmathematik: Schätzung der Systemleistung aus den ersten Prinzipien
Sky -Wetten und Spiele
Blog -Beiträge
- Es ist nur eine Überwachungsänderung
- "Was ist das Schlimmste, was passieren könnte?"
- Aus der Asche aufsteigen
- Absturz! Knall! Schlag! Übung macht perfekt
- Links nach rechts und in der Leistung
Locker
Blog -Beiträge
- Slacks Vorfall gegen 222-22
- Infrastrukturbeobachtbarkeit zur Änderung der Ausgabenkurve
- Slacks Ausfall am 4. Januar 2021
- Ein schrecklicher, schrecklicher, nicht guter, sehr schlechter Tag bei Slack
- Bereits bei Slack
- Katastrophe Theater: Slacks Prozess für zugängliches Chaos -Engineering
Videos
- Locker am Rande
- Was bricht unsere Systeme: Eine Taxonomie schwarzer Schwäne
Slalombau
Blog -Beiträge
- So implementieren Sie die Ziele der Serviceebene in New Relic APM
- Anfängerleitfaden für DevOps: Wie man es in die Branche schafft
- Github -Aktionen: Jenseits von CI/CD
- Warum werden nicht alle Testautomatisierung auf der Pipeline ausgeführt?
- Die vielen Formen der Site -Zuverlässigkeitstechnik
- So erstellen Sie standardmäßig ein sicheres Kubernetes -Cluster mit einer grundlegenden CI/CD -Pipeline auf AWS
- Geheimverwaltungsarchitekturen: das Gleichgewicht zwischen Sicherheit und Komplexität finden
- Erkennen bösartiger Anfragen mit Keras & Tensorflow
- DER LEGO MONOLITH - Ein Monolith Microservice Proof of Concept of Concept
- Verwalten von Geheimnissen mithashicorp Vault
- Verpackungsfeder -Boot -Anwendungen für die Bereitstellung auf Kubernetes
- Unveränderliche Infrastruktur und kontinuierliche Lieferung in der Cloud
Soundcloud
Blog -Beiträge
- Wie man Systeme erfolgreich übergeben
- Aufbau einer gesunden Kultur auf dem Bergang
- Auf SLOs wie Profis alarmieren
- Hands-Off-Bereitstellung mit Kanarien
- Prometheus ist erwachsen geworden-eine Reflexion über die Entwicklung eines Open-Source-Projekts
- Prometheus: Überwachung bei SoundCloud
- Was ich in einem Jahr als SRE -Auszubildende gelernt habe
- Tests unter der Lupe
Spotify
Blog -Beiträge
- Matt Clarke: Senior Backend Infrastructure Engineer
- Entwerfen eines besseren Kubernetes -Erlebnisses für Entwickler
- TechBytes: Was die Branche an Vorfällen vermisst und was Sie tun können
- Automatisierte Infrastruktur für Vorfälle in der Vorfallreaktion in GCP
Videos
- Verfolgung, schnell und langsam: In die Leistung Ihres Webdienstes graben und verbessern
Quadrat
Blog -Beiträge
- Unter der Motorhaube: Gewährleistung der Zuverlässigkeit der Site
Videos
- Durch Reibung drängen
- Wie man sre ist, wenn alles schon in Flammen steht
- Fallstudie: Implementierung von SLOs für einen neuen Service
- Creating a Code Review Culture
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
Videos
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
Streifen
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
Videos
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
Ziel
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Zunder
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Dämmerung
Blog Posts
- Twilio SRE Gameday Template
Twitter
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Uber
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
Videos
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
Videos
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
Videos
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Jaulen
Blog Posts
- The process: Implementing Yelp's failover strategy
Videos
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
Videos
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
Ressourcen
Bücher
- Neu! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
Ereignisse
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Andere Ressourcen
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
Newsletter
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
Credits
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
Mitwirkende
Beitragen
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
Lizenz
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.