howtheysre Download - howtheysre Source Code Download

Wie sie sich sre

Einführung

Wie sie wie SRE ein kuratiertes Wissens-Repository von Best Practices, Tools, Techniken und Kultur, die von führenden Technologien oder technisch versierten Organisationen übernommen wurden, wie sie SRE (SRE) sind, ist ein kuratiertes Wissens-Repository.

Zahlreiche Organisationen teilen ihre Erkenntnisse und ihre Fachkenntnisse häufig mit Best Practices, Tools und Techniken, die ihre technische Kultur beeinflussen. Sie tun dies über verschiedene öffentliche Plattformen wie technische Blogs, Konferenzen und Meetups. Dieses Repository erstellt und präsentiert Inhalte, die aus diesen Quellen gesammelt wurden.

Themen

Standortzuverlässigkeitstechnik
SRE -Teams einstellen und bauen
SRE -Kultur
DevOps
Überwachung und Beobachtbarkeit
Alarmieren
Vorfallreaktion & Post-Mortem
Voran
Tests in der Produktion
Chaos Engineering
Automatisierung
Leistung
Plattformtechnik

Organisationen

Leistungsträger

Blog -Beiträge

Betreten Sie das Schlachthaut - Bau "à la carte" Gitops -Tooling
Skalierung der Produktion weltweit-das Service-Mesh-Facelift (Teil-1)
Skalierung der Produktion weltweit - Lösen von Beobachtbarkeitsproblemen für Entwickler (Teil -2)
Lastprüfung Kubernetes: Erstellen eines Frameworks (Teil-1)
Kubernetes laden: Engpässe auflösen und die Leistung verbessern (Teil-2)

Airbnb

Blog -Beiträge

Automatisiertes Vorfallmanagement durch Slack
Schwachstellen mit Vulnture erkennen
Warnungsgerüst bei Airbnb alarmieren
Wenn die Wolke dunkel wird - wie Amazon Airbnb ausgewirkt hat
Intelligente Automatisierungsplattform: Stärkung der Konversations -KI und darüber hinaus bei Airbnb
Produktionsgeheimnismanagement bei Airbnb
Datenschutz automatisieren in Skala, Teil 1
Datenschutz automatisieren in Skala, Teil 2
Automatisieren von Datenschutz in Skala, Teil 3
Dynamische Kubernetes -Cluster -Skalierung bei Airbnb

Algolie

Blog -Beiträge

30. Mai SSL Vorfall
Eine Reise nach Sre
CI/Cday 2024: Was macht eine gute CI/CD -Plattform aus?

Alibaba Cloud

Blog -Beiträge

Warum wählen die Top -Internetunternehmen SRE gegenüber traditionellen O & M?
Architektur und Praktiken der Echtzeitplattform von Bilibili

Asana

Blog -Beiträge

Wie Asana Asana verwendet: Sicherheitsvorfälle Reaktion
Wie Asana stabile Webanwendungen verschickt
Analyse der jüngsten Ausfallzeiten und was wir tun, um zukünftige Vorfälle zu verhindern
Entwicklerumgebung: Zuverlässigkeit erreichen, indem es schnell zurückgesetzt wird
Drei Sicherheitstaktiken für jeden IT -Leiter, der diesen Herbst in Betracht ziehen sollte

Asos

Blog -Beiträge

Das schuldlose Spiel spielen
Ein Tag im Leben von… Katzen (Leiter der Zuverlässigkeitstechnik)
Eine AKS Performance Journey: Teil 1 - Giben Sie alles auf
Eine AKS Performance Journey: Teil 2 - Vernetzung
Cyber Security @ Asos.com
Sicherheitsvorgänge 24x7
Die Fähigkeiten, nach denen wir in der Reaktion der Cyber Security -Vorfälle suchen,

Atlassian

Blog -Beiträge

Best Practices für das Änderungsmanagement im Zeitalter der DevOps
Automatisierte Tests: 5 Lektionen aus dem Kubernetes -Team von Atlassian zum Testen der Infrastruktur als Code
So exportieren Sie Kubernetes -Ereignisse für Beobachtbarkeit und Alarmierung
Ereignispostmortem -Vorlage

Rückmarkt

Blog -Beiträge

Wie der Rückmarkt SREs für den Schwarzen Freitag vorbereitet hat

Baidu

Videos

Anomalie -Erkennung bei goldenen Signalen
Netradar: Überwachung des Datencenter -Netzwerks
Lassen Sie das Chaos beginnen - Sre Chaos Engineering trifft die Cybersicherheit

Basiscamp

Blog -Beiträge

In einem Code Red: Network Edition
Drei Basisausfälle. Eine Woche. Was ist passiert?
Basecamp 2 und Basecamp 3 Suchausfallbericht
Reduzierung von Vorfällen Eskalationen im Basicamp

Bücher

Gestalten

Bloomberg

Videos

Kapazitätsplanung und Leistungsverbesserung mit Seitenreferenzabtastung
Warum SREs es sich nicht leisten können, Chaos Engineering nicht zu machen
Verteilte verteilte Echtzeitsysteme verfolgen
The Bloomberg Story: Bauen von SRE -Teams in einer "unermesslichen" Organisation
Sichtbarkeit in Holzfäller (und andere Dienstleistungen mit niedrigem Niveau) - die Bäume aus dem Wald sehen

Booking.com

Blog -Beiträge

Wie Zuverlässigkeits- und Produktteams bei Booking.com zusammenarbeiten
Vorfälle, Korrekturen und den Tag danach
Fehlerbehebung: Eine Reise ins Unbekannte

Videos

SLOs für datenintensive Dienste
Vorteile der weniger reisten Straße mit Container -Infrastruktur

Hauptstadt eins

Blog -Beiträge

Automatisieren Sie die Anwendungsüberwachung mit Slack
Automatisieren Sie die AWS -Infrastruktur mit Boto 3: AWS Health Check
Active-Active Shared-Nothing-Datenbankarchitektur
Die 3 Rs von SRES: Ausfallsicherheit, Wiederherstellung und Zuverlässigkeit
5 Schritte, um Ihr App -Chaos fertig zu machen
4 reale Szenarien, die wie Chaos Engineering Experimente lesen
Umfassen Sie das Chaos… Engineering
3 Erkenntnisse aus der Implementierung von Chaos Engineering bei Enterprise
Ein tiefes Eintauchen in die nahtlose blaue/grüne Bereitstellung mit AWS codEdePloy
Sichere Docker -Container erfordern sichere Anwendungen
4 Schritte zum Kombinieren der Cloud und der DevOps, um die Widerstandsfähigkeit zu verbessern
Container-Bereitschaftsanwendungen mit zwölf-Faktor-App und Microservices-Architektur
Vertrauen einsetzen - das Risiko minimieren, die Widerstandsfähigkeit mit Kanarischen Bereitstellungen auf AWS maximieren
Architektur für Widerstandsfähigkeit
Kontinuierliches Chaos - Einführung von Chaos -Engineering in DevOps -Praktiken einführen
Der Mon-IFESTO Teil 1: Metriken

Hauptvorfälle und Analyseberichte

Informationen zum Capital One Cyber -Vorfall
Eine Fallstudie des Kapital -One -Datenverstoßes

Videos

Bankgeschäft auf kontinuierliche Lieferung - Kapital 1
Kontinuierliches Chaos in DevOps - Hauptstadt 1
DevOps bei Capital One: Konzentration auf Pipeline und Messung
Automatisierung des Managements der operativen Gesundheit von Cloud -Konten im Maßstab

Coinbase

Blog -Beiträge

Die sichere Bereitstellungspipeline von Open Sourcing Coinbase

Dazn

Blog -Beiträge

Standortzuverlässigkeit bei Dazn

Dbs

Blog -Beiträge

Präsentation auf Ithomes SRE -Konferenz: Unsere DBS SRE -Transformationsreise bisher
Debunking die sieben beliebtesten Mythen für Zuverlässigkeitstechnik für Site Zuverlässigkeit
Wie man Sre benutzt, um eine schuldlose Kultur am Arbeitsplatz zu kultivieren
Site Zuverlässigkeitstechnik bei DBS Bank
Automatisierung der Konfigurationsverwaltung im Maßstab
Wie DBS die Mythen des Chaos Engineering zerstreut hat
Doppelte, doppelte Mühe und Ärger

Videos

SRECON -Gespräche Asien/Pazifik mit Koon Seng Lim, DBS

DeepSource

Blog -Beiträge

Replikation von redis diskless: Was, wie, warum und die Vorbehalte
So richten Sie Tresor mit Kubernetes ein
Aufschlüsse keine Ausfallzeiten in Kubernetes abbauen

Tream11

Blog -Beiträge

Bereitstellung in der Skala: Geschichte hinter Dream11's Inhouse Blue-Green Deployment-Plattform "OneClick".
Verbesserung der Sicherheit und des Vertrauens mit AWS WAFV2
Lektionen, die aus dem Ausführen von GraphQL im Maßstab gezogen wurden
Schaltkreise brechen, Kong retten?
Reihenfolge im Chaos finden: Wie wir die Leistungstests mit Drehmoment automatisiert haben
Aufrechterhaltung von hyper-sonischen Veröffentlichungen bei Dream1111
Um Skalieren oder Ausmaß zu skalieren? So skalieren wir bei Dream111111
Aufbau skalierbarer Echtzeitanalysen, Alarmierungs- und Anomalie -Erkennungsarchitektur bei Dream1111111

Dropbox

Blog -Beiträge

Dropbox Engineering Career Framework - Zuverlässigkeitsingenieur (SRE)
Atlas: Unsere Reise von einem Python -Monolith zu einer verwalteten Plattform
Überwachung von Serveranwendungen mit Vortex
Athena: Unser automatisiertes System für das Gesundheitsmanagement von Build
Möchten Sie Site -Zuverlässigkeitsingenieur werden?

Videos

Service Discovery Challenges in Skala

eBay

Blog -Beiträge

Resilienz und Katastrophenerholung mit Kafka
SRE-Fallstudie: Ein nicht heap-JVM aus dem Speicherproblem
SRE -Fallstudie: Mysteriöses Verkehrstudium
Zero -Ausfallzeit, sofortige Bereitstellung und Rollback
Wie die Benachrichtigungsplattform von eBay auf neue Weise Fehlerinjektion verwendete

Video

Madaari: Bestellung für die Affen

Epische Spiele

Video

AWS Re: Invent 2018: Epic Games verwendet AWS, um Fortnite an 200 Millionen Spieler zu liefern

Etsy

Blog -Beiträge

Verbesserung der Einsatzerfahrung einer zehnjährigen Anwendung
Wie Etsy im Jahr 2020 auf historische Volumina des Urlaubsverkehrs vorbereitet wurde
Ihr Gehirn über den Fortschritt
Etsys Nachbesprechungserleichterungshandbuch für schuldlose Postmortems
Opsweekly: Messung der Bereitschaftserfahrung mit Alarmklassifizierung
Entmystifizierung von Site -Ausfällen
Schuldige Postmortems und eine gerechte Kultur
Messen Sie alles, messen Sie alles

Videos

Geschwindigkeit 09: John Allspaw und Paul Hammond, "10+ bereitet PE ein
Migrieren eines Monolithen in die Wolke

Expedia

Blog -Beiträge

Automatisierung der Leistungsstandards
Fehlerbudget -Richtlinie - Teil 1 - Adoption bei Expedia Group
Fehlerbudget -Richtlinie - Teil 2 - Praktiken bei Expedia Group
Verwendung der Fehlerinjektion zur Verbesserung der Zuverlässigkeit unserer neuen Laufzeitplattform
Lernen aus Vorfällen bei der Expedia Group
Verbesserung der Ladeerfahrung von VRBO -Homepage
Fehlerbehebung 502 Fehler: ECS -Checkliste
Erste Schritte mit Elasticsearch
Alles über Istio-Proxy 5xx-Probleme
Autoscaling in Kubernetes: Warum funktioniert der horizontale Pod -Autoscaler nicht für mich?
So halten Sie Ihre Kubernetes -Bereitstellungen in mehreren Zonen ausbalanciert
Liegen Sie Ihre Dropwizard -Latenzmetriken in die Irre, die Sie in die Irre führen?
Die Kosten für 100% Zuverlässigkeit
Erstellen von Überwachung Dashboards
Verwenden Sie Bash für DevOps

Schnell

Videos

SRE & Produktmanagement: Wie Sie Ihr Team (und Ihre Karriere!) Steigern, indem Sie wie ein Produktmanager denken
Resilience Engineering Mythbusting

G-Forschung

Blog -Beiträge

Unsere SRE-Reise bei G-Forschung
Die SRE -Reise geht weiter
OpenSDDB-Meta-Cache-Kompromisse für die Leistung

Getaround

Blog -Beiträge

Wie wir mit Vorfällen bei Getaround umgehen
Entwicklung unseres kontinuierlichen Lieferprozesses

Github

Blog -Beiträge

Wie wir die Verfügbarkeit durch iterative Vereinfachung verbessert haben
Wie wir die Push -Verarbeitung auf Github verbessert haben
Wie Github die Warteschlange verwendet, um jeden Tag Hunderte von Änderungen zu versenden
Beheben von Sicherheitslücken mit KI
Github's Engineering Fundamentals Program: Wie wir Verfügbarkeit, Sicherheit und Zugänglichkeit liefern
Wie Github GitHub -Aktionen und -aktionen größere Läufer verwendet, um Github.com zu erstellen und zu testen
Die Reise des Github Security Lab zur Offenlegung von 500 CVEs in Open Source -Projekten
Das CODEQL -Team verwendet KI, um die Erkennung von Sicherheitsanfälligkeit im Code zu aktivieren
Besprechen Sie die jüngsten Verfügbarkeitsprobleme von Github
Aufbau organisatorischer Governance und Wiederverwendung für CI/CD und Automatisierung mit GitHub-Aktionen
Aktivieren Sie Zweigbereitstellungen durch Ausgaben mit GitHub -Aktionen
Verwenden von Chatops, um Aktionen voranliegen
Partitionierung der relationalen Datenbanken von Github, um die Skala zu verarbeiten
Erhöhung des Entwicklers Glück beim Scannen von Github -Code
Warum (und wie) GitHub Opentelemetry übernimmt
Verbesserung der großen Monorepo -Leistung auf GitHub
Bereitstellungszuverlässigkeit bei GitHub
Verbesserung der Art und Weise, wie wir Github bereitstellen
Aufbau von Kultur in Github
Reduzierende schuppige Builds um 18x
Die sich entwickelnde Rolle von Operationen in DevOps
Erste Schritte mit DevOps Automation
MySQL Hohe Verfügbarkeit bei GitHub

Hauptvorfälle und Analyseberichte

GitHub -Verfügbarkeitsbericht: August 2024
GitHub -Verfügbarkeitsbericht: Juli 2024
GitHub -Verfügbarkeitsbericht: Juni 2024
GitHub -Verfügbarkeitsbericht: Mai 2024
GitHub -Verfügbarkeitsbericht: April 2024
GitHub -Verfügbarkeitsbericht: März 2024
GitHub -Verfügbarkeitsbericht: Februar 2024
GitHub -Verfügbarkeitsbericht: Januar 2024
GitHub -Verfügbarkeitsbericht: Dezember 2023
GitHub -Verfügbarkeitsbericht: November 2023
GitHub -Verfügbarkeitsbericht: Oktober 2023
GitHub -Verfügbarkeitsbericht: September 2023
GitHub -Verfügbarkeitsbericht: August 2023
GitHub -Verfügbarkeitsbericht: Juli 2023
GitHub -Verfügbarkeitsbericht: Juni 2023
GitHub -Verfügbarkeitsbericht: Mai 2023
GitHub -Verfügbarkeitsbericht: April 2023
GitHub -Verfügbarkeitsbericht: März 2023
GitHub -Verfügbarkeitsbericht: Februar 2023
GitHub -Verfügbarkeitsbericht: Januar 2023
GitHub -Verfügbarkeitsbericht: Dezember 2022
GitHub -Verfügbarkeitsbericht: November 2022
GitHub -Verfügbarkeitsbericht: Oktober 2022
GitHub -Verfügbarkeitsbericht: September 2022
GitHub -Verfügbarkeitsbericht: August 2022
GitHub -Verfügbarkeitsbericht: Juli 2022
GitHub -Verfügbarkeitsbericht: Juni 2022
GitHub -Verfügbarkeitsbericht: Mai 2022
GitHub -Verfügbarkeitsbericht: April 2022
GitHub -Verfügbarkeitsbericht: März 2022
GitHub -Verfügbarkeitsbericht: Februar 2022
GitHub -Verfügbarkeitsbericht: Januar 2022
GitHub -Verfügbarkeitsbericht: Dezember 2021
GitHub -Verfügbarkeitsbericht: November 2021
GitHub -Verfügbarkeitsbericht: Oktober 2021
GitHub -Verfügbarkeitsbericht: September 2021
GitHub -Verfügbarkeitsbericht: August 2021
GitHub -Verfügbarkeitsbericht: Juli 2021
GitHub -Verfügbarkeitsbericht: Juni 2021
GitHub -Verfügbarkeitsbericht: Mai 2021
GitHub -Verfügbarkeitsbericht: April 2021
GitHub -Verfügbarkeitsbericht: März 2021
GitHub -Verfügbarkeitsbericht: Februar 2021
GitHub -Verfügbarkeitsbericht: Januar 2021
GitHub -Verfügbarkeitsbericht: Dezember 2020
GitHub -Verfügbarkeitsbericht: November 2020
GitHub -Verfügbarkeitsbericht: August 2020
GitHub -Verfügbarkeitsbericht: Juli 2020
Einführung des GitHub -Verfügbarkeitsberichts
Februar-Service-Störungen nach der Analyse nach dem Incident
21. Oktober nach dem Incident Analyse
28. Februar DDOS Incident Report
Incident Report: Unbeabsichtigte Offenlegung privater Repository

Videos

Eins zu eins Sre

Gitlab

Blog -Beiträge

Dieser SRE versuchte, eine Haproxy -Konfigurationsänderung auszuschließen. Sie werden nicht glauben, was als nächstes passiert ist ...
Meine Woche beschattet einen Gitlab -Site -Zuverlässigkeitsingenieur
Update: Elasticsearch -Lektionen, die für die erweiterte globale Suche gelernt wurden
Lektionen in der Iteration eines neuen Teams in der Infrastruktur
Wie wir die Infrastruktur in GitLab optimiert haben
Wie wir die asynchronisierte Workload -Verarbeitung bei gitlab.com mit Sidekiq skaliert haben
Innerhalb GitLab: Wie wir Software -Patches veröffentlichen
Was für das fehlende TCP -Keepalives nachverfolgt wurde, hat mich Docker, Golang und Gitlab gelernt
Wie wir eine verzögerte Replikation für die Katastrophenwiederherstellung mit PostgreSQL verwendet haben

Gernlos

Blog -Beiträge

Bereitstellung von Software bei GoCardless: Open-Sourcing unser "Erste Start" -Tutorial
Wie wir Pub/Sub -Nachrichten und mehr komprimieren, sparen wir eine Menge Geld
Fear-Free PostgreSQL-Migrationen für Rails
Beobachtbarkeit bei GoCardless: Eine Geschichte der API -Leistungsverbesserung
Debuggen des PostgreSQL Query Planers
Null -Down -Time -Postgres -Migrationen - die harten Teile
Auf der Suche nach Leistung - wie wir 200 ms von jeder Postanfrage rasiert haben

Hauptvorfälle und Analyseberichte

Incident Review: Serviceausfall am 25. Oktober 2020, Vault TLS -Ablauf
Incident Review: API- und Dashboard -Ausfall am 10. Oktober 2017

GoDaddy

Blog -Beiträge

Kubernetes Gated Deployments
Kubernetes externe Geheimnisse
Kubernetes - Eine praktische Einführung für Anwendungsentwickler
Ein intuitiver Node.js -Client für die Kubernetes -API

Gojek

Blog -Beiträge

Einführung von Skynet: Infrastruktur als Code für Gojek
Skalierung unseres Geo-Such-Dienstes für 10-fache Last
Warum wir am RCA schwören
Wie wir Kubernetes auf GKE aktualisieren
Wie wir Apache -Luftstrom in der Produktion überwachen

Goldman Sachs

Blog -Beiträge

SECDB -Beobachtbarkeitsreise
Chaos testen eine Anwendung auf AWS
Vorhersage von Kapazitätsausfällen mithilfe von maschinellem Lernen, um die Anwendungsresilienz zu verbessern
Bereitstellung von 99,9% Verfügbarkeit und Reaktionszeiten der Unter Sekunden
Aufbau von Multi-Region-Resilienz mit Amazon RDS und Amazon Aurora
Ermöglichen Sie hoch erhältliche Trino -Cluster bei Goldman Sachs
Beobachtbarkeit im Maßstab
Infrastruktur und das Befehlskettenmuster
Mobile CICD mit EC2 MacOS
Ankündigung von Catchit - Quellcode Secret Scanner
Bauen von Plattformen für Datentechnik

Google

Blog -Beiträge

Beschleunigung der Vorfallreaktion mit generativen KI
Fallstricke und Muster im Microservice -Abhängigkeitsmanagement
SRE -Praktiken und -prozesse
Zuverlässigkeit von Google Site mit GO
Drei Monate, 30-fache Nachfrage: Wie wir Google skaliert haben, treffen sich während Covid-19
SRE Klassenzimmer: Verteilter Pubsub
Wie SRE -Teams organisiert sind und wie man anfängt

Videos

Was ist der Unterschied zwischen DevOps und SRE? Mit Seth Vargo und Liz Fong-Jones von Google
Risiko- und Fehlerbudgets 'mit Seth Vargo und Liz Fong-Jones von Google
Pragmatische Automatisierung 'mit Max Luebbe von GCP
Muss zuschauen! - Google Sre YouTube Playlist
Ziele der Squish Level: Wie SRE dazu beitragen kann
Implementierung verteilter Konsens
Der Sre, den ich sein möchte
SRE Klassenzimmer oder wie man in 3 Stunden ein zuverlässiges verteiltes System entwirft
Zero Touch Prod: In Richtung sicherer und sichererer Produktionsumgebungen
Alle unsere ML -Ideen sind schlecht (und wir sollten uns schlecht fühlen)
Die Karte ist nicht das Territorium: Wie SLO uns in die Irre führen und was wir dagegen tun können
Bereitstellung von Best Practices für SRE -Schulungen in Produktion: Wie wir unser SRE -Bildungsprogramm bewirkten
Bigtable: Eine Reise von Binär zum Dienst und die Unterrichtsstunden auf dem Weg
Praktische Instrumentierung für Beobachtbarkeit
Was ist ML OPS: Lösungen und Best Practices für DevOps of Production ML Services
Einheitliche Berichterstattung über die Zuverlässigkeit der Dienstleistung
Wie man die Serverauslastung und die Schwanzlatenz einleitet
Das Gleichgewicht behalten: Innentimaler Lastbalancieren entmystifiziert
Von Black Box zu einer bekannten Menge: So erstellen Sie vorhersehbare, zuverlässige ML-basierte Dienste
Achtsamkeit in SRE: Überwachung und Alarmierung auf sich selbst
Pragmatische Automatisierung
Sublinear Skalierung in der Praxis: Das 1K SRE -Projekt
Strategien zum Bearbeiten von Produktionsdaten
Der Fluch der Sre -Autonomie und wie man es verwaltet
Skalierung von SRE -Organisationen: Die Reise von 1 zu vielen Teams
SRE Klassenzimmer - So entwerfen Sie ein verteiltes System in 3 Stunden
Verwenden von PRDs und Benutzerreisen, um benutzerfreundliche Tools zu entwerfen
Wie Google Sre und Entwickler zusammenarbeiten
SRECON21 - Experimente für SRE

Greifen

Blog -Beiträge

Unsere Reise zur kontinuierlichen Lieferung am Grab (Teil 1)
Unsere Reise zur kontinuierlichen Lieferung bei Grab (Teil 2)
Entwerfen von belastbaren Systemen: Leistungsschalter oder Wiederholungen? (Teil 1)
Entwerfen von belastbaren Systemen: Leistungsschalter oder Wiederholungen? (Teil 2)
Entwerfen von belastbaren Systemen jenseits von Wiederholungen (Teil 3): Architekturmuster und Chaos Engineering
Orchestrieren Chaos mit der Experimentierplattform von Grab's Experimentation
Wie wir den Quotas -Microservice entwickelt haben, um Ressourcenmissbrauch zu verhindern
Wie wir unseren Cache skaliert haben und gut geschlafen haben

Grammatik

Blog -Beiträge

Scaling AWS -Infrastruktur zur Unterstützung mehrerer Regionen
Sicherheitsvorgänge in einer AWS -Umgebung

Gusto

Blog -Beiträge

Die Ziele der Serviceebene für den Beruhigungsfrieden vor Ort
Debugging Sidekiq Giftpillen

Halodoc

Blog -Beiträge

Site Zuverlässigkeitstechnik für native mobile Apps

Heroku

Blog -Beiträge

Die Abenteuer von Rendezvous in Herokus neuer Architektur
Vorfallreaktion bei Heroku

IBM

Blog -Beiträge

Was ist Site Zuverlässigkeitstechnik (SRE)?
AIOPS -Werkzeuge und -Lösungen

In der Tat

Blog -Beiträge

In der Tat SRE: Ein innerer Look
Gerade zuverlässig genug sein
Die Veröffentlichungsprozess von in der Tat automatisieren
Sloth, ein Tool zur Induktion von Netzwerkfehlern 'mit Preetha Appan von tain.com

Videos

Werden wir noch besser? Fortschritt in Richtung sicherer Operationen

In der Tat

Blog -Beiträge

Sre Playbook - Praktischer Leitfaden

Khan Academy

Blog -Beiträge

Wie die Khan Academy in einer Woche erfolgreich mit dem 2,5 -fach -Verkehr umging
Entwicklung unserer Inhaltsinfrastruktur

Blog -Beiträge

Überdenken Sie die Kapazitätsprojektionen von Standortkapazitäten mit Kapazitätsanalysator
Einblicke in ein Produkt SRE -Team bei LinkedIn
SRES bei LinkedIn einstellen
Open Source Update: School of Sre
Behebung von Linux -Dateisystem -Leistungsregressionen
Produktionstests mit dunklen Kanaren
Smart Alerts in ThirdEye, LinkedIns Echtzeit-Überwachungsplattform
Iris Mobile: Eine Open Source -Mobile -Schnittstelle für das Vorfallmanagement
Linkedout: Ein Einspritzgerüst auf Anfragebereich auf Niveau
Beseitigung der Mühe mit vollständig automatisierten Lasttests
Die Zusammensetzung erfolgreicher geografisch verteilter SRE-Teams: Teil 1
Die Zusammensetzung erfolgreicher geografisch verteilter SRE-Teams: Teil 2
Project Star*: Stromlinien
Automatisieren Sie Ihre Oncall: Open Sourcing Fossor und ASCII Rad
Resilience Engineering bei LinkedIn mit Project WaterBear
Einstellung von SRES bei LinkedIn, 2017
Open Sourcing Iris und Oncall
Aufbau der SRE -Kultur bei LinkedIn
Der Fehler ist keine Option
MTTD und MTTR sind der Schlüssel
Was gemessen wird

Videos

Wachstum des Site -Zuverlässigkeitsteams bei LinkedIn: Einstellung ist schwierig - Greg Leffler
9 Jahre des Scheiterns: Wie Rennen beschissene Autos mich zu einem besseren Sre machten
Den Sturm überreden: Wie frühwarnungen die Farm retten
Unkonferenz: ungelöste Probleme in SRE
Führung ohne Management: Ein technischer Leiter von SRE zu werden
Warum saugt (meine) Überwachung?
Verkehrsprognose- und Stresstestinfrastruktur
Kollektive Achtsamkeit für bessere Entscheidungen in Sre
TCP - Architektur, Verbesserungen und Stimmen
Über 600 Millionen Mitglieder und Hunderte von Micro -Diensten: Wie wir unser Überwachungssystem skaliert haben, um Schritt zu halten
Das Verständnis von Geschäftsmetriken kann Sie zu einem besseren SRE machen
Code-Yellow: Helfen Sie operativen hochwertigen Teams auf die kluge Art und Weise
Unterschiede in den SRE -Implementierungen in Unternehmen

Werkzeuge

Voran

Loggi

Blog -Beiträge

Das Release Manager -Modell
SRE -Teams #8: Loggi

Loveholidays

Blog -Beiträge

Dynamische Alarmrouting mit Prometheus und Alertmanager
Loveholidays 18% schneller mit HTTP/3 machen
Durchsetzung der Best Practice in Self-Service Infrastructure mit Terraform, Atlantis und Richtlinie als Code
Die 5 Prinzipien, die dazu beitrugen, Loveholidays zu skalieren
Echtzeit protokolliert sich schnell mit Grafana Loki für weniger als 1 US -Dollar pro Tag

Macquarie

Blog -Beiträge

Unsere DevSecops -Reise mit Golang
Pipeline -Konfiguration als Code mit Kotlin
DevOps und Aufgaben Trennung
Macquarie umfasst DevOps
Skalierung einer Kubernetes -Plattform im gesamten Unternehmen

Materie

Blog -Beiträge

Überwachung von Cloud -Umgebungen im Maßstab mit Prometheus und Thanos
Wie wir Faultier verwenden, um die SLO -Überwachung durchzuführen und mit Prometheus zu alarmieren

Meituan (美团)

Blog -Beiträge

Die Entwicklung und Praxis von SRE in der Cloud (云端的 Sre 发展与实践)

Mercari

Blog -Beiträge

Wer beobachtet die Wächter? Aufgrund unserer Überwachungssysteme im Auge behalten
Was das Microservices SRE -Team als Sre Evangelisten macht
Wie es ist, als eingebettete Microservices SRE zu arbeiten
Das Merpay SRE -Team: Vergangenheit und Zukunft
Eingebettete Sre in Mercari
Was das SRE -Team mit dem Entwicklungsteam erreichen möchte
DevSecops: Was ist es und warum gewinnt es in der Branche an Dynamik?
Wie teilen wir die Fähigkeiten zur Fehlerbehebung mit
Datadog Dashboard im Maßstab mit Terraform

Blog -Beiträge

Nutzung der KI für eine effiziente Reaktion der Vorfälle
Verbesserung der SLO -Workflows von Meta mit Datenanmerkungen
Slick: Übernahme von SLOs für eine verbesserte Zuverlässigkeit
Weitere Details zum Ausfall vom 4. Oktober
Update über den Ausfall am 4. Oktober

Videos

Ein Kundendienstansatz für SRE
Wie (nicht) ein Projekt skalieren: ein Post-Mortem
Veröffentlichung des weltweit größten Python -Standorts alle 7 Minuten
Verwenden von ML zur Automatisierung der dynamischen Fehlerkategorisierung

Microsoft

Videos

SLI & Reliability Deep-Dive 'mit David N. Blank-Edelman von Microsoft
Ironies der Automatisierung: Eine Komödie in drei Teilen mit Tanner Lund von Microsoft
Nachhaltige Software -Engineering & SRES
Studie über menschliche Faktoren und Teamkultur, um die Pagerermüdung zu verbessern
Priorisierung des Vertrauens beim Erstellen von Anwendungen
Resilienz aufbauen: Wie man mehr aus Vorfällen lernt
Eine Geschichte von zwei Postmortems: eine menschliche Faktorenansicht
Verfügbarkeit - Über 9s nachdenken
Ironies der Automatisierung: Eine Komödie in drei Teilen
Die OPs in serverlos

Miro

Blog -Beiträge

Prometheus hohe Verfügbarkeits- und Fehlertoleranzstrategie, langfristige Speicherung mit Victoriametrics
Verwalten von Hunderten von Servern zum Lasttest: Autoscaling, benutzerdefinierte Überwachung, DevOps -Kultur
Zuverlässige Lasttests in Bezug auf unerwartete Nuancen

Monzo

Blog -Beiträge

Autoscaling Monzo: Wie wir unsere Plattform so optimieren, dass sie genau die richtige Größe haben
Wie wir uns in Monzo auf dem Laufenden haben
Wie wir auf Vorfälle reagieren
Wie wir Monzo überwachen

Videos

Schließlich konsequente Service -Entdeckung

Werkzeuge

Antwort

Netflix

Blog -Beiträge

Beobachtbarkeit in asynchronen Workflows erreichen
Aufbau von Netflixs verteilter Verfolgungsinfrastruktur
Lektionen aus dem Aufbau von Observierbarkeitstools bei Netflix
Edgar: Mysterien schneller mit Beobachtbarkeit lösen
TellTale: Netflix -Anwendungsüberwachung vereinfacht vereinfacht
Kunden streamen halten - die zentralisierte Praxis zur Zuverlässigkeit der Website bei Netflix
Einführung des Versandes
Anwenden von Netflix DevOps -Mustern auf Windows
CHAP: Chaos -Automatisierungsplattform
Die Lawine starten
Netflix Chaos Monkey wurde verbessert
Chaos Engineering verbessert
Automatisierte Ausfalltests
Vom Chaos zur Kontrolle - Testen der Ausfallsicherheit der Inhalts -Discovery -Plattform von Netflix
Einführung in Atlas: Netflixs primäre Telemetrieplattform
Passform: Ausfalleinspritzungstests
Ankündigung von Sicherheitsmanteln - AWS -Sicherheitskonfiguration Überwachung und Analyse
Lektionen Netflix lernten aus dem AWS -Ausfall
Scryer: Netflix 'Predictive Auto Skaling Engine

Hauptvorfälle und Analyseberichte

Post-Mortem vom 22. Oktober 2012 AWS-Abbau

Videos

AWS RE: Invent 2019: Ein Tag im Leben eines Netflix -Ingenieurs (NFX202)
Wenn /bin /sh Angriffe: Überarbeiten "Alle Dinge automatisieren"
Wie lief die Dinge richtig? Mehr aus Vorfällen lernen
Überwachung und Verfolgung @Netflix Streaming -Dateninfrastruktur
Reale Benutzerleistung Überwachung bei Netflix Scale - Martin Spier
AWS Re: Invent 2017 - Nora Jones beschreibt, warum wir mehr Chaos brauchen - Chaos Engineering, das heißt
AWS RE: Invent 2017: Chaos bei Netflix Scale (Dev334) durchführen.
Netflix: Multi-Regional Resiliency und Amazon Route 53
Entwerfen von Dienstleistungen für Resilienz: Netflix -Lektionen
South Bay Sre Meetup - Netflix Cloud Performance Team
AWS RE: Invent 2017: Ein Tag im Leben eines Netflix Engineer III (ARC209)
Wie Netflix Kinesis -Streams verwendet, um Anwendungen zu überwachen und Milliarden von Verkehrsströmen zu analysieren
Mastering Chaos - eine Netflix -Handbuch für Microservices
AWS Re: Erfind 2016: Von Resilienz zur Allgegenwart - #netflixeverywhere Global Architecture (ARC204)
SRECON 2016 - Netflix: 190 Länder und 5 Kern -SRES
Von Sys Admin bis Netflix Sre
Anwendungsresilience Engineering und Operations bei Netflix mit Hytrix
Injizieren von Fehlern bei Netflix
LISA13 - Wie Netflix das Versäumnis beeinträchtigt, die Belastbarkeit zu verbessern und die Verfügbarkeit zu maximieren
Incident Management bei Netflix Velocity

Podcasts

Ryan -Küchen zum Lernen aus Vorfällen bei Netflix, der Rolle von SRE und soziotechnischen Systemen

Werkzeuge

Versenden

Neues Relikt

Blog -Beiträge

Definieren moderner Software -Rollen: SRES bei New Relic
10 Dinge, die jeder über Site Zuverlässigkeitstechnik (SRE) wissen muss
Welche Tools verwenden Site -Zuverlässigkeitsingenieure?
Ein Tag im Leben eines neuen Relic Sre
7 Gewohnheiten sehr erfolgreicher Site -Zuverlässigkeitsingenieure
Übernahme der Praxis von Sre
Verwenden der modernen Beobachtbarkeit, um eine datengesteuerte Kultur zu etablieren

Nubank

Blog -Beiträge

Engineering Operational Excellence, ein Fall kontinuierlicher Verbesserung
Wie wir mit technischen Vorfällen umgehen
Wie wir bei Nubank auf den Abruf machen
Wie wir unsere Datenplattform effizient und zuverlässig skalieren
Warum wir unsere End-to-End-Testsuite getötet haben
Automatische Umschulung für maschinelle Lernmodelle: Tipps und Lektionen gelernt

Openai

Blog -Beiträge

20. März Chatgpt -Ausfall: Hier ist was passiert ist
Openai Sre und Scaling erklärten leicht.
Skalierung Kubernetes auf 2.500 Knoten
Skalierung Kubernetes auf 7.500 Knoten
Skalierung der KI -Infrastruktur bei OpenAI

Paypal

Blog -Beiträge

Ausgelöst: Vorfall Nr. 1234 (Incident -Prozess erfordert die Behebung)
Implementierung der Beobachtbarkeit in einem Service -Netz
PostgreSQL in Skala: Das Datenbankschema ändert sich ohne Ausfallzeiten
Skalierung von GraphQL bei PayPal

Videos

SRECON -Gespräche Asien/Pazifik mit Karthikeyan Selvaraj und Rajesh Ramachandran, Paypal
Sre dann gegen SRE NO: Ein Balanceakt zwischen Reflexen und intuitiven Instinkten bei PayPal
Erkennen von Dienstverschlechterungen und -fehlern im Maßstab durch verteilte Protokollverarbeitung
Betrieb von Elasticsearch mit Leichtigkeit im Maßstab
Gewährleistung der Zuverlässigkeit der Standort durch Sicherheitskontrollen

Picknick

Blog -Beiträge

Mikrometer und der moderne Beobachtbarkeitsstapel
Überwachung und Beobachtbarkeit beim Picknick

Blog -Beiträge

Gewährleistung einer hohen Verfügbarkeit von Anzeigen -Echtzeit -Streaming -Diensten
Verbesserung der Effizienz und Reduzierung der Laufzeit mithilfe der S3 -Leseoptimierung
Skalierung Kubernetes mit Zusicherung bei Pinterest
Was wir aus einer iOS -App gelernt haben, OMOM -Vorfälle
Wie wir unser kontinuierliches Integrationssystem so gestaltet haben, dass es mehr als 50% schneller ist
Vereinfachung von Webbereitstellungen
Upgrade von Pinterest -Betriebsmetriken
Verteilte Verfolgung bei Pinterest mit neuen Open Source -Tools
Automatische Skalierung von Pinterest

Videos

Aufbau umsetzbarer Code -Eigentümer
Entwicklung von Beobachtbarkeitstools bei Pinterest
Automatisierung von Betriebssystemen/Plattform -Upgrades für Dienstbesitzer

Briefträger

Blog -Beiträge

Erfahren Sie, wie Ihre Kubernetes -Cluster mit Gremlin und Grafana auf Fehler reagieren

Prezi

Blog -Beiträge

Wie man globalen Ausfällen vermeidet - nahtlos wandernden Daemonset -Etiketten migrieren
Auf der Suche nach Geschwindigkeit - Debugging der Elasticsearch -Leistung
Prometheus bei Prezi: Ersetzen von 10 Jahren Anti-Muster

Roter Hut

Blog -Beiträge

Von OPS bis SRE: Entwicklung des openShift -engagierten Teams
5 agile Praktiken, die jedes SRE -Team übernehmen sollte
7 Best Practices für das Schreiben von Kubernetes -Betreibern: Eine SRE -Perspektive

Aufruhrspiele

Blog -Beiträge

Die Legenden der Runeterra CI/CD -Pipeline
Strategien für die Arbeit in unsicheren Systemen
Verbesserung der Entwicklererfahrung für Betriebsdienste
Skalierbarkeit und Lastprüfung für Valorant
Nutzung von Golang für Spielentwicklung und -betrieb
Kontrolliertes Chaos mit Fehlerinjektionstests
Das Kaninchenloch der Leistungsüberwachung hinunter
Profilerstellung: Der Fall der fehlenden Millisekunden
Profilerstellung: Real World Performance in der Liga
Profilerstellung: Optimierung
Profilerstellung: Messung und Analyse
Online -Dienste bei Riot: Teil I.
Online -Dienste bei Riot: Teil II
Online -Dienste bei Riot: Teil III ausführen
Online -Dienste bei Riot: Teil III: Teil Deux
Online -Dienste bei Riot: Teil IV ausführen
Online -Dienste bei Riot: Teil V ausführen
Die Entwicklung der Sicherheit bei Riot
Ausführen einer automatisierten Testpipeline für das Liga -Client -Update
Automatisierte Tests für League of Legends

Salesforce

Blog -Beiträge

Betrachten Sie die Kubernetes-Steuerebene für Multi-Messen
Optimierung des EKS -Netzwerks für die Skala
Zero -Ausfallknoten in einem Kubernetes -Cluster Patching
Wie, nicht warum: eine Alternative zu den fünf Whys für Post-Mortems
Ein generischer Beispritzjäger für Kubernetes
Implementierung einer Überwachungsstrategie für Produkte basierend auf Microservices
10 Schritte zur Entwicklung eines Vorfalls -Antwortplans, den Sie tatsächlich verwenden, werden Sie tatsächlich verwenden
Unsere Reise zu einer nahezu perfekten Blockpipeline
Die Leistung mit Webarbeitern optimieren
Nehmen Sie sich einen Moment Zeit, um sich neu zu konzentrieren

Schibsted Media

Blog -Beiträge

Zuverlässigkeitstechnik für einige der Top -10 -Standorte in Skandinavien

Scribd

Blog -Beiträge

Lernen aus Vorfällen: Sidekiq bereitstellen, eine Milliarde Arbeitsplätze zu bedienen
Ein Testimonial für die Verwendung von PagerDuty bei Scribd
Zuweisen der Pager -Pflicht an Entwickler

Shopify

Blog -Beiträge

Resilienzplanung für hochverträgliche Ereignisse
Kapazitätsplanung im Maßstab
Verwenden von DNS -Verkehrsmanagement, um den Services von Shopify Resilienz zu verleihen
Vier Schritte zum Erstellen effektiver Spieltagstests
Implementieren von Chatops in unser Vorfallverwaltungsverfahren
Statsd bei Shopify

Videos

Netzwerkmonitor: Eine Geschichte, eine Beobachtbarkeitslücke anzuerkennen
Erwarten Sie das Unerwartete: Vorbereitung der SRE -Teams auf die Reaktion auf neuartige Fehler
Erweiterte Serviettenmathematik: Schätzung der Systemleistung aus den ersten Prinzipien

Sky -Wetten und Spiele

Blog -Beiträge

Es ist nur eine Überwachungsänderung
"Was ist das Schlimmste, was passieren könnte?"
Aus der Asche aufsteigen
Absturz! Knall! Schlag! Übung macht perfekt
Links nach rechts und in der Leistung

Locker

Blog -Beiträge

Slacks Vorfall gegen 222-22
Infrastrukturbeobachtbarkeit zur Änderung der Ausgabenkurve
Slacks Ausfall am 4. Januar 2021
Ein schrecklicher, schrecklicher, nicht guter, sehr schlechter Tag bei Slack
Bereits bei Slack
Katastrophe Theater: Slacks Prozess für zugängliches Chaos -Engineering

Videos

Locker am Rande
Was bricht unsere Systeme: Eine Taxonomie schwarzer Schwäne

Slalombau

Blog -Beiträge

So implementieren Sie die Ziele der Serviceebene in New Relic APM
Anfängerleitfaden für DevOps: Wie man es in die Branche schafft
Github -Aktionen: Jenseits von CI/CD
Warum werden nicht alle Testautomatisierung auf der Pipeline ausgeführt?
Die vielen Formen der Site -Zuverlässigkeitstechnik
So erstellen Sie standardmäßig ein sicheres Kubernetes -Cluster mit einer grundlegenden CI/CD -Pipeline auf AWS
Geheimverwaltungsarchitekturen: das Gleichgewicht zwischen Sicherheit und Komplexität finden
Erkennen bösartiger Anfragen mit Keras & Tensorflow
DER LEGO MONOLITH - Ein Monolith Microservice Proof of Concept of Concept
Verwalten von Geheimnissen mithashicorp Vault
Verpackungsfeder -Boot -Anwendungen für die Bereitstellung auf Kubernetes
Unveränderliche Infrastruktur und kontinuierliche Lieferung in der Cloud

Soundcloud

Blog -Beiträge

Wie man Systeme erfolgreich übergeben
Aufbau einer gesunden Kultur auf dem Bergang
Auf SLOs wie Profis alarmieren
Hands-Off-Bereitstellung mit Kanarien
Prometheus ist erwachsen geworden-eine Reflexion über die Entwicklung eines Open-Source-Projekts
Prometheus: Überwachung bei SoundCloud
Was ich in einem Jahr als SRE -Auszubildende gelernt habe
Tests unter der Lupe

Spotify

Blog -Beiträge

Matt Clarke: Senior Backend Infrastructure Engineer
Entwerfen eines besseren Kubernetes -Erlebnisses für Entwickler
TechBytes: Was die Branche an Vorfällen vermisst und was Sie tun können
Automatisierte Infrastruktur für Vorfälle in der Vorfallreaktion in GCP

Videos

Verfolgung, schnell und langsam: In die Leistung Ihres Webdienstes graben und verbessern

Quadrat

Blog -Beiträge

Unter der Motorhaube: Gewährleistung der Zuverlässigkeit der Site

Videos

Durch Reibung drängen
Wie man sre ist, wenn alles schon in Flammen steht
Fallstudie: Implementierung von SLOs für einen neuen Service
Creating a Code Review Culture

Stack Overflow

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

Videos

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

Streifen

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

Videos

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

Ziel

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Zunder

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Dämmerung

Blog Posts

Twilio SRE Gameday Template

Twitter

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Uber

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

Videos

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

Videos

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

Videos

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Jaulen

Blog Posts

The process: Implementing Yelp's failover strategy

Videos

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

Videos

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

Ressourcen

Bücher

Neu! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering