Comment ils sont

Introduction
Comment ils expliquent comment ils sont un référentiel de connaissances organisé des meilleures pratiques, outils, techniques et cultures de la fiabilité de la site (SRE) adoptées par les principales technologies ou les organisations averties.
De nombreuses organisations partagent fréquemment leurs idées et leur expertise, englobant les meilleures pratiques, outils et techniques qui façonnent leur culture d'ingénierie. Ils le font via diverses plateformes publiques telles que les blogs d'ingénierie, les conférences et les rencontres. Ce référentiel compile et présente le contenu recueilli à partir de ces sources.
Sujets
- Ingénierie de fiabilité du site
- Embaucher et constituer des équipes SRE
- Culture sre
- DevOps
- Surveillance et observabilité
- Alerte
- Réponse des incidents et post-mortem
- De premier plan
- Test de production
- Ingénierie du chaos
- Automation
- Performance
- Ingénierie de plate-forme
Organisations
Réalisateurs
Articles de blog
- Entrez dans l'abattoir - Building 'à la Carte' Gitops Toolling
- Échelle de production mondiale - le lifting de service de service (partie 1)
- Échelle de production à l'échelle mondiale - résolution de problèmes d'observabilité pour les développeurs (partie 2)
- Test de charge Kubernetes: Construire un cadre (partie 1)
- Test de charge Kubernetes: résolution des goulots d'étranglement et amélioration des performances (partie 2)
Airbnb
Articles de blog
- Gestion automatisée des incidents par Slack
- Détecter les vulnérabilités avec vulnalisation
- Alerte Framework à Airbnb
- Quand le nuage devient sombre - comment la panne d'Amazon a affecté Airbnb
- Plateforme d'automatisation intelligente: autonomisation de l'IA conversationnelle et au-delà chez Airbnb
- Gestion secrète de la production chez Airbnb
- Automatisation de la protection des données à l'échelle, partie 1
- Automatisation de la protection des données à grande échelle, partie 2
- Automatisation de la protection des données à l'échelle, partie 3
- Échelle de cluster dynamique Kubernetes à Airbnb
Algolie
Articles de blog
- Incident du 30 mai SSL
- Un voyage dans SRE
- CI / CDAY 2024: Qu'est-ce qui fait une bonne plate-forme CI / CD?
Nuage d'alibaba
Articles de blog
- Pourquoi les meilleures sociétés Internet choisissent-elles SRE plutôt que les O&M traditionnelles?
- Architecture et pratiques de la plate-forme en temps réel de Bilibili
Asana
Articles de blog
- Comment asana utilise l'asana: réponse de l'incident de sécurité
- Comment Asana expédie les versions de l'application Web stable
- Analyse du temps d'arrêt récent et de ce que nous faisons pour éviter les incidents futurs
- Environnement des développeurs: obtenir une fiabilité en faisant de la réinitialisation rapide
- Trois tactiques de sécurité pour chaque leader informatique à considérer cet automne
ASOS
Articles de blog
- Jouer au jeu sans blâme
- Une journée dans la vie de… Cat S (chef de la fiabilité de l'ingénierie)
- Un voyage de performance AK
- Un voyage de performance AKS: Partie 2 - Réseautage
- Cybersécurité @ asos.com
- Opérations de sécurité 24 x 7
- Les compétences que nous recherchons dans la réponse aux incidents de cybersécurité
Atlassien
Articles de blog
- Meilleures pratiques de gestion du changement à l'ère des devops
- Test automatisé: 5 leçons de l'équipe Kubernetes d'Atlassian sur le test de l'infrastructure comme code
- Comment exporter les événements de Kubernetes pour l'observabilité et l'alerte
- Modèle post-mortem incident
Backmarket
Articles de blog
- Comment le marché du retour s'est préparé pour le Black Friday
Baidu
Vidéos
- Détection d'anomalies sur les signaux dorés
- Netradar: surveillance du réseau de centres de données
- Laissez le chaos commencer - l'ingénierie du chaos est en train de rencontrer la cybersécurité
Camp de base
Articles de blog
- À l'intérieur d'un code rouge: édition réseau
- Trois pannes de camp de base. Une semaine. Ce qui s'est passé?
- Basecamp 2 et Basecamp 3 Recherche Rapport des panneaux
- Réduire les escalades incidents à Basecamp
Livres
Bloomberg
Vidéos
- Planification des capacités et amélioration des performances avec échantillonnage de référence de page
- Pourquoi SRES ne peut pas se permettre de ne pas faire d'ingénierie du chaos
- Traçage des systèmes distribués en temps réel
- The Bloomberg Story: Construire des équipes SRE dans une organisation "incommensurable"
- Visibilité dans les bûcherons (et autres services de bas niveau) - voir les arbres de la forêt
Réservation.com
Articles de blog
- Comment les équipes de fiabilité et de produit collaborent sur booking.com
- Incidents, correctifs et le lendemain
- Dépannage: un voyage dans l'inconnu
Vidéos
- SLOS pour les services à forte intensité de données
- Avantages de prendre la route la moins fréquentée avec des infrastructures de conteneurs
Capital One
Articles de blog
- Automatiser la surveillance des applications avec Slack
- Automatiser les infrastructures AWS avec Boto 3: Vérification de la santé AWS
- Architecture de base de données partagée active-active-active
- Les 3 R de SRES: résilience, reprise et fiabilité
- 5 étapes pour préparer le chaos de votre application
- 4 scénarios du monde réel qui se lisent comme des expériences d'ingénierie du chaos
- Embrasser le chaos… ingénierie
- 3 leçons tirées de la mise en œuvre de l'ingénierie du chaos chez Enterprise
- Une plongée profonde dans le déploiement bleu / vert transparent à l'aide d'AWS CodePloy
- Les conteneurs Docker sécurisés nécessitent des applications sécurisées
- 4 étapes pour jumeler le cloud et les DevOps pour améliorer la résilience
- Applications prêtes à la conteneur avec application à douze facteurs et architecture de microservices
- Déploiement avec confiance - minimiser les risques, maximiser la résilience avec les déploiements canaries sur AWS
- Architecture pour la résilience
- Chaos continu - Présentation de l'ingénierie du chaos dans les pratiques DevOps
- La partie lunienne 1: métriques
Incidents majeurs et rapports d'analyse
- Informations sur le cyber-incident de Capital One
- Une étude de cas de la violation de données de Capital One
Vidéos
- Banque sur livraison continue - Capital One
- Chaos continu dans DevOps - Capital One
- DevOps at Capital One: se concentrer sur le pipeline et la mesure
- Automatisation de la gestion de la santé opérationnelle des comptes cloud à grande échelle
Coincement
Articles de blog
- Open Sourcing Coinbase's Secure Deployment Pipeline
Dazn
Articles de blog
- Fiabilité du site chez Dazn
DBS
Articles de blog
- Présentation à la conférence SRE d'Ithome: notre voyage de transformation DBS SRE jusqu'à présent
- Démystifier les sept mythes d'ingénierie de fiabilité du site les plus populaires
- Comment utiliser SRE pour cultiver une culture sans limace sur le lieu de travail
- Ingénierie de fiabilité du site chez DBS Bank
- Gestion de la configuration automatisée à grande échelle
- Comment DBS a dissipé les mythes de l'ingénierie du chaos
- Double, double labeur et ennuis
Vidéos
- Srecon Conversations Asia / Pacific avec Koon Seng Lim, DBS
En profondeur
Articles de blog
- Redis Diskless Replication: Quoi, comment, pourquoi et les mises en garde
- Comment configurer le coffre-fort avec Kubernetes
- Dépasser les déploiements de temps d'arrêt zéro à Kubernetes
Rêve11
Articles de blog
- Déploiement à l'échelle: histoire derrière la plate-forme de déploiement en interne de Dream11 «OneClick».
- Améliorer la sécurité et la confiance avec AWS WAFV2
- Leçons apprises de l'exécution de GraphQL à grande échelle
- Circuits de rupture, sauver Kong?
- Trouver la commande dans le chaos: comment nous automatisées les tests de performances avec un couple
- Maintenir des versions hyper-soniques chez Dream11
- Pour évoluer ou évoluer? Voici comment nous évoluons à Dream11
- Construire des analyses en temps réel évolutives, des alertes et une architecture de détection d'anomalies chez Dream11
Dropbox
Articles de blog
- Dropbox Engineering Career Framework - Fiability Engineer (SRE)
- Atlas: Notre voyage d'un monolithe Python à une plate-forme gérée
- Surveillance des applications de serveur avec vortex
- Athena: Notre système automatisé de gestion de la santé Build
- Vous souhaitez devenir ingénieur de fiabilité du site?
Vidéos
- Défis de découverte de service à grande échelle
eBay
Articles de blog
- Résilience et reprise après sinistre avec kafka
- Étude de cas SRE: Triage d'un problème de mémoire JVM non taillé
- Étude de cas SRE: déséquilibre de la circulation mystérieuse
- Zéro temps d'arrêt, déploiement instantané et retournement
- Comment la plate-forme de notification d'Ebay a utilisé l'injection de défaut de nouvelles façons
Vidéo
- Madaari: commander pour les singes
Jeux épiques
Vidéo
- AWS RE: Invent 2018: Epic Games utilise AWS pour livrer Fortnite à 200 millions de joueurs
Etsy
Articles de blog
- Amélioration de l'expérience de déploiement d'une demande de dix ans
- Comment Etsy s'est préparé pour les volumes historiques du trafic de vacances en 2020
- Votre cerveau sur les progrès
- Guide de facilitation du débriefing d'Etsy pour les post-mortems sans blâme
- Opsweekly: mesurer l'expérience de garde avec la classification des alertes
- Démystifier les pannes de site
- Post-mortems sans blâme et une culture juste
- Mesurez n'importe quoi, mesurez tout
Vidéos
- Velocity 09: John Alspaw et Paul Hammond, "10+ déploie PE
- Migrer un monolithe vers le nuage
Expedia
Articles de blog
- Automatisation des normes de performance
- Politique du budget d'erreur - Partie 1 - Adoption au groupe Expedia
- Politique du budget d'erreur - Partie 2 - Pratiques au groupe Expedia
- Utilisation de l'injection de défaut pour améliorer la fiabilité de notre nouvelle plateforme d'exécution
- Apprendre des incidents au groupe Expedia
- Amélioration de l'expérience de chargement de la page d'accueil VRBO
- Dépannage des erreurs 502: Liste de contrôle ECS
- Commencer avec elasticsearch
- Tout sur les problèmes 5xx Istio-Proxy
- AUTOSCALATION DANS KUBERNETES: Pourquoi l'autoscaler de pod horizontal ne fonctionne-t-il pas pour moi?
- Comment garder vos déploiements Kubernetes équilibrés sur plusieurs zones
- Vos mesures de latence Dropwizard vous trompent-elles?
- Le coût de la fiabilité de 100%
- Création de tableaux de bord de surveillance
- Utilisation de bash pour DevOps
Rapidement
Vidéos
- Sre & Product Management: Comment améliorer votre équipe (et carrière!) En pensant comme un chef de produit
- Mythbusting d'ingénierie de résilience
G-Research
Articles de blog
- Notre voyage SRE à G-Research
- Le voyage Sre continue
- OpentsDB Meta Cache - Comproductions pour la performance
Frappeur
Articles de blog
- Comment nous gérons les incidents à Getaround
- Évolution de notre processus de livraison continue
Github
Articles de blog
- Comment nous améliorons la disponibilité grâce à une simplification itérative
- Comment nous avons amélioré le traitement push sur github
- Comment Github utilise la file d'attente de fusion pour expédier des centaines de changements chaque jour
- Fixation des vulnérabilités de sécurité avec l'IA
- Programme fondamental d'ingénierie de GitHub: comment nous livrons la disponibilité, la sécurité et l'accessibilité
- Comment GitHub utilise les actions et les actions GitHub pour construire et tester GitHub.com
- Le parcours du GitHub Security Lab pour divulguer 500 CVE dans des projets open source
- L'équipe CodeQL utilise l'IA pour alimenter la détection de la vulnérabilité dans le code
- Aborder les problèmes de disponibilité récents de Github
- Construire une gouvernance et une réutilisation à l'échelle de l'organisation pour CI / CD et l'automatisation avec les actions GitHub
- Activer les déploiements de branche via des problèmes avec des actions GitHub
- Utilisation de Chatops pour aider les ingénieurs de appel aux actions
- Partitionner les bases de données relationnelles de Github pour gérer l'échelle
- Augmentation du bonheur des développeurs avec la numérisation du code GitHub
- Pourquoi (et comment) Github adopte l'opentélémétrie
- Amélioration de grandes performances de monorepo sur github
- Déploiement de la fiabilité de GitHub
- Amélioration de la façon dont nous déploiez Github
- Construire une culture sur appel à Github
- Réduisant les constructions feuilletées par 18x
- Le rôle d'évolution des opérations dans les devops
- Début avec DevOps Automation
- MySQL Haute disponibilité chez GitHub
Incidents majeurs et rapports d'analyse
- Rapport de disponibilité GitHub: août 2024
- Rapport de disponibilité GitHub: juillet 2024
- Rapport de disponibilité GitHub: juin 2024
- Rapport de disponibilité GitHub: mai 2024
- Rapport de disponibilité GitHub: avril 2024
- Rapport de disponibilité GitHub: mars 2024
- Rapport de disponibilité GitHub: février 2024
- Rapport de disponibilité GitHub: janvier 2024
- Rapport de disponibilité GitHub: décembre 2023
- Rapport de disponibilité GitHub: novembre 2023
- Rapport de disponibilité GitHub: octobre 2023
- Rapport de disponibilité GitHub: septembre 2023
- Rapport de disponibilité GitHub: août 2023
- Rapport de disponibilité GitHub: juillet 2023
- Rapport de disponibilité GitHub: juin 2023
- Rapport de disponibilité GitHub: mai 2023
- Rapport de disponibilité GitHub: avril 2023
- Rapport de disponibilité GitHub: mars 2023
- Rapport de disponibilité GitHub: février 2023
- Rapport de disponibilité GitHub: janvier 2023
- Rapport de disponibilité GitHub: décembre 2022
- Rapport de disponibilité GitHub: novembre 2022
- Rapport de disponibilité GitHub: octobre 2022
- Rapport de disponibilité GitHub: septembre 2022
- Rapport de disponibilité GitHub: août 2022
- Rapport de disponibilité GitHub: juillet 2022
- Rapport de disponibilité GitHub: juin 2022
- Rapport de disponibilité GitHub: mai 2022
- Rapport de disponibilité GitHub: avril 2022
- Rapport de disponibilité GitHub: mars 2022
- Rapport de disponibilité GitHub: février 2022
- Rapport de disponibilité GitHub: janvier 2022
- Rapport de disponibilité GitHub: décembre 2021
- Rapport de disponibilité GitHub: novembre 2021
- Rapport de disponibilité GitHub: octobre 2021
- Rapport de disponibilité GitHub: septembre 2021
- Rapport de disponibilité GitHub: août 2021
- Rapport de disponibilité GitHub: juillet 2021
- Rapport de disponibilité GitHub: juin 2021
- Rapport de disponibilité GitHub: mai 2021
- Rapport de disponibilité GitHub: avril 2021
- Rapport de disponibilité GitHub: mars 2021
- Rapport de disponibilité GitHub: février 2021
- Rapport de disponibilité GitHub: janvier 2021
- Rapport de disponibilité GitHub: décembre 2020
- Rapport de disponibilité GitHub: novembre 2020
- Rapport de disponibilité GitHub: août 2020
- Rapport de disponibilité GitHub: juillet 2020
- Présentation du rapport de disponibilité GitHub
- Interruptions de service en février Analyse post-incidence
- 21 octobre Analyse post-incidence
- Rapport d'incident du 28 février DDOS
- Rapport d'incident: divulgation du référentiel privé par inadvertance
Vidéos
Gitlab
Articles de blog
- Ce SRE a tenté de déployer un changement de configuration de Haproxy. Vous ne croirez pas ce qui s'est passé ensuite ...
- Ma semaine pour l'observation d'un ingénieur de fiabilité du site Gitlab
- MISE À JOUR: les leçons Elasticsearch apprises pour la recherche globale avancée
- Leçons d'itération d'une nouvelle équipe d'infrastructure
- Comment nous avons optimisé les dépenses d'infrastructure à Gitlab
- Comment nous avons mis à l'échelle le traitement de la charge de travail asynchrone sur gitlab.com en utilisant latérale
- À l'intérieur de GitLab: comment nous publions des correctifs logiciels
- Ce que le retrait manquant TCP Keepalives m'a appris sur Docker, Golang et Gitlab
- Comment nous avons utilisé une réplication retardée pour la reprise après sinistre avec PostgreSQL
Sans fard
Articles de blog
- Déploiement de logiciels chez GoCardless: Open-source notre tutoriel "
- Comment nous compressons les messages pub / sous et plus, économiser un tas d'argent
- Migrations postgresql sans peur pour les rails
- Observabilité chez GoCardless: une histoire d'amélioration des performances de l'API
- Débogage du planificateur de requête PostgreSQL
- Migrations postgres du zero-downtime - les parties dures
- À la recherche de performances - comment nous avons rasé 200 ms de chaque demande de poste
Incidents majeurs et rapports d'analyse
- Examen des incidents: Putage de service Le 25 octobre 2020, Vault TLS Expire
- Examen des incidents: API et panne du tableau de bord le 10 octobre 2017
Godaddy
Articles de blog
- Déploiements fermés de Kubernetes
- Secrets externes de Kubernetes
- Kubernetes - Une introduction pratique pour les développeurs d'applications
- Un client Node.js intuitif pour l'API Kubernetes
Gojek
Articles de blog
- Présentation de Skynet: Infrastructure comme code pour Gojek
- Échelle de notre service de recherche géo-search pour une charge 10x
- Pourquoi nous jurons par le RCA
- Comment améliorer les kubernetes sur GKE
- Comment nous surveillons le flux d'air Apache en production
Goldman Sachs
Articles de blog
- Voyage d'observabilité SECDB
- Chaos testant une application sur AWS
- Prévision des pannes de capacité utilisant l'apprentissage automatique pour renforcer la résilience des applications
- Fournir une disponibilité de 99,9% et des temps de réponse inférieurs à la seconde avec des multiplexes Sybase IQ en utilisant Haproxy
- Construire une résilience multi-régions avec Amazon RDS et Amazon Aurora
- Permettre des clusters Trino hautement disponibles chez Goldman Sachs
- Observabilité à grande échelle
- Infrastructure et modèle de chaîne de commande
- CICD mobile avec macOS EC2
- Annonce de Cattrit - Code source Scanner secret
- Création des plates-formes pour l'ingénierie des données
Google
Articles de blog
- Accélération de la réponse aux incidents en utilisant une AI générative
- Pièges et modèles dans la gestion de la dépendance aux microservices
- SRE Pratiques et processus
- Fiabilité Google du site à l'aide de Go
- Trois mois, 30x demande: comment nous avons mis à l'échelle Google Meet pendant Covid-19
- SROAGE SRE: Pubsub distribué
- Comment les équipes SRE sont organisées et comment commencer
Vidéos
- Quelle est la différence entre DevOps et SRE? avec Seth Vargo et Liz Fong-Jones de Google
- Budgets de risque et d'erreur »avec Seth Vargo et Liz Fong-Jones de Google
- Automatisation pragmatique 'avec Max Luebbe de GCP
- Doit regarder! - Liste de lecture Google Sre YouTube
- Objectifs au niveau des échêtes: comment SRE peut aider à aligner le travail technique sur le bénéfice des utilisateurs
- Implémentation de consensus distribué
- Le sre je aspire à être
- SROAGE SRE, OU, comment concevoir un système distribué fiable en 3 heures
- Zero Touch Prod: vers des environnements de production plus sûrs et plus sûrs
- Toutes nos idées de ML sont mauvaises (et nous devons nous sentir mal)
- La carte n'est pas le territoire: comment les slos nous font égarer, et ce que nous pouvons faire à ce sujet
- Déploiement des meilleures pratiques de formation SRE à la production: comment nous sommes SRE'ed notre programme d'éducation SRE
- BigTable: un voyage du binaire au service et les leçons apprises en cours de route
- Instrumentation pratique pour l'observabilité
- Qu'est-ce que ML OPS: Solutions et meilleures pratiques pour les services de production de la production ML
- Rapports unifiés de la fiabilité des services
- Comment échanger l'utilisation du serveur et la latence de la queue
- Garder l'équilibre: Demystified de chargement de chargement à l'échelle Internet
- De Black Box à une quantité connue: comment créer des services prévisibles et fiables basés sur ML
- La pleine conscience dans SRE: surveillance et alerte pour soi
- Automatisation pragmatique
- Échelle sous-linéaire dans la pratique: le projet SRE 1K
- Stratégies pour modifier les données de production
- La malédiction de l'autonomie SRE et comment la gérer
- Échec des organisations SRE: le voyage de 1 à de nombreuses équipes
- SREMOR SRE - Comment concevoir un système distribué en 3 heures
- Utilisation de PRDS et de trajets utilisateur pour concevoir des outils conviviaux
- Comment Google Sre et les développeurs travaillent ensemble
- SRECON21 - Expériences pour SRE
Saisir
Articles de blog
- Notre voyage vers la livraison continue à Grab (partie 1)
- Notre voyage vers la livraison continue à Grab (partie 2)
- Conception de systèmes résilients: disjoncteurs ou tentatives? (Partie 1)
- Conception de systèmes résilients: disjoncteurs ou tentatives? (Partie 2)
- Conception de systèmes résilients au-delà
- Orchestrer le chaos en utilisant la plate-forme d'expérimentation de Grab
- Comment nous avons conçu le microservice des quotas pour empêcher la maltraitance des ressources
- Comment nous avons escaladé notre cache et passé une bonne nuit de sommeil
Grammaire
Articles de blog
- Échelle d'infrastructure AWS pour prendre en charge plusieurs régions
- Opérations de sécurité dans un environnement AWS
Enthousiasme
Articles de blog
- Objectifs au niveau du service pour la tranquillité d'esprit de garde
- Pilules empoisonnées de débogage
Halodoc
Articles de blog
- Ingénierie de fiabilité du site pour les applications mobiles natives
Heroku
Articles de blog
- Les aventures du rendez-vous dans la nouvelle architecture d'Heroku
- Réponse des incidents à Heroku
Ibm
Articles de blog
- Qu'est-ce que l'ingénierie de fiabilité du site (SRE)?
- Outils et solutions AIOPS
En effet
Articles de blog
- En effet Sre: un look intérieur
- Être juste assez fiable
- Automatisation du processus de libération de l'automatisation
- Sloth, un outil pour induire des échecs de réseau 'avec Preetha Appan de en effet.com
Vidéos
- Allons-nous encore mieux? Progrès vers des opérations plus sûres
En effet
Articles de blog
- Sre Playbook - Guide pratique
Académie Khan
Articles de blog
- Comment Khan Academy a géré avec succès le trafic de 2,5x en une semaine
- Évoluant notre infrastructure de contenu
Liendin
Articles de blog
- Repenser les projections de capacité du site avec l'analyseur de capacité
- Aperçu de l'équipe SRE de produit à LinkedIn
- Embauche de SRES à LinkedIn
- Mise à jour open source: École de SRE
- Correction des régressions de performances du système de fichiers Linux
- Tests de production avec des canaris sombres
- Alertes intelligentes dans ThirdEye, la plate-forme de surveillance en temps réel de LinkedIn
- Iris Mobile: une interface mobile open source pour la gestion des incidents
- Linkedout: un cadre d'injection de défaillance au niveau de la demande
- Éliminer le travail avec des tests de charge entièrement automatisés
- La composition des équipes SRE géographiquement diffusées réussies: partie 1
- La composition des équipes SRE géographiquement diffusées réussies: partie 2
- Project Star *: rationalisation de notre processus de garde
- Automatisation de votre oncall: Open d'approvisionnement Fossor et ASCII
- Ingénierie de résilience chez LinkedIn avec Project Waterbear
- Embauche de SRES à LinkedIn, 2017
- Iris et oncall ouvrables ouvrir
- Construire la culture SRE à LinkedIn
- L'échec n'est pas une option
- MTTD et MTTR sont essentiels
- Ce qui est mesuré est réparé
Vidéos
- Cultiver l'équipe de fiabilité du site chez LinkedIn: l'embauche est difficile - Greg Leffler
- 9 ans d'échec: comment la course de voitures de merde a fait de moi un meilleur SRE
- Wreatring the Storm: comment les premiers avertissements sauvent la ferme
- Non conférence: problèmes non résolus dans le SRE
- Diriger sans gérer: devenir un leader technique SRE
- Pourquoi (ma) surveillance est-elle nulle?
- Infrastructure de prévision du trafic et de tests de stress
- La pleine conscience collective pour de meilleures décisions dans SRE
- TCP - Architecture, améliorations et réglage
- Plus de 600 millions de membres et des centaines de micro-services: comment nous avons évolué notre système de surveillance pour continuer
- Comprendre les mesures commerciales peut faire de vous un meilleur SRE
- Code-Yellow: Aider les opérations aux équipes de haut niveau de la manière intelligente
- Différences dans les implémentations SRE entre les entreprises
Outils
Loggi
Articles de blog
- Le modèle de gestionnaire de version
- SRE Équipes # 8: Loggi
Loveholidays
Articles de blog
- Routage d'alerte dynamique avec Prometheus et AlertManager
- Rendre Loveholidays 18% plus rapidement avec HTTP / 3
- Appliquer les meilleures pratiques sur les infrastructures en libre-service avec Terraform, Atlantis et la politique comme code
- Les 5 principes qui ont aidé à évoluer Loveholidays
- En temps réel, se connecte rapidement avec Grafana Loki pour moins de 1 $ par jour
Macquarie
Articles de blog
- Notre voyage DevSecops avec Golang
- Configuration du pipeline comme code avec Kotlin
- DevOps et ségrégation des fonctions
- Macquarie embrasse DevOps
- Échelle d'une plate-forme Kubernetes à travers l'entreprise
La plus importante
Articles de blog
- Surveillance des environnements cloud à grande échelle avec Prometheus et Thanos
- Comment nous utilisons la paresse pour faire une surveillance et une alerte SLO avec Prometheus
Meituan (美团)
Articles de blog
- Le développement et la pratique du SRE dans le cloud (云端的 sre 发展与实践)
Mercari
Articles de blog
- Qui regarde les gardiens? Garder un œil sur nos systèmes de surveillance
- Ce que les microservices Sre font en tant qu'évangélistes Sre
- Ce que c'est que de travailler comme des microservices intégrés SRE
- L'équipe Merpay Sre: passé et futur
- SRE intégré à Mercari
- Ce que l'équipe SRE veut réaliser avec l'équipe de développement
- DevSecops: Qu'est-ce que c'est et pourquoi prend-il de l'ampleur dans l'industrie?
- Comment partager les compétences de dépannage
- Tableau de tableau de bord Datadog à grande échelle avec terraform
Méta
Articles de blog
- Tirer parti de l'IA pour une réponse incidente efficace
- Améliorer les flux de travail SLO de META avec des annotations de données
- Slick: adopter des SLO pour une meilleure fiabilité
- Plus de détails sur la panne du 4 octobre
- Mise à jour sur la panne du 4 octobre
Vidéos
- Une approche de service client de SRE
- Comment (pas) pour évoluer un projet: un post-mortem
- Libérer le plus grand site Python au monde toutes les 7 minutes
- Utilisation de ML pour automatiser la catégorisation des erreurs dynamiques
Microsoft
Vidéos
- Sli & Reliability Deep-Dive 'avec David N. Blank-Edelman de Microsoft
- Ironies of Automation: une comédie en trois parties avec Tanner Lund de Microsoft
- Génie logiciel durable et SRES
- Étude sur les facteurs humains et la culture d'équipe pour améliorer la fatigue du pager
- Prioriser la confiance lors de la création d'applications
- Construire la résilience: comment en savoir plus sur les incidents
- Une histoire de deux post-mortems: une vision des facteurs humains
- Disponibilité - pensant au-delà des 9
- Ironies of Automation: une comédie en trois parties
- Les OPS sans serveur
Miro
Articles de blog
- Prometheus Haute disponibilité et stratégie de tolérance aux défauts, stockage à long terme avec VictoriaMetrics
- Gérer des centaines de serveurs pour les tests de charge: automatiquement, surveillance personnalisée, culture DevOps
- Test de charge fiable en ce qui concerne les nuances inattendues
Monzo
Articles de blog
- Autoscaling Monzo: Comment nous optimiserons notre plateforme pour être juste la bonne taille
- Comment nous avons évolué sur appel à Monzo
- Comment nous réagissons aux incidents
- Comment nous surveillons Monzo
Vidéos
- Découverte de service finalement cohérente
Outils
Netflix
Articles de blog
- Atteindre l'observabilité dans les flux de travail asynchronisés
- Construire l'infrastructure de traçage distribuée de Netflix
- Leçons de la construction d'outils d'observabilité à Netflix
- Edgar: résoudre les mystères plus rapidement avec observabilité
- Telltale: surveillance de l'application Netflix simplifiée
- Garder les clients en streaming - La pratique de la fiabilité centralisée du site chez Netflix
- Présentation de l'expédition
- Appliquer les modèles Netflix DevOps à Windows
- CHAP: Plateforme d'automatisation du chaos
- Commencer l'avalanche
- Netflix Chaos Monkey a mis à niveau
- Chaos Engineering amélioré
- Test de défaillance automatisée
- Du chaos au contrôle - tester la résilience de la plate-forme de découverte de contenu de Netflix
- Présentation de l'atlas: plate-forme de télémétrie principale de Netflix
- Ajustement: test d'injection de défaillance
- Annonce de Sécurité singe - surveillance et analyse de la configuration de la sécurité AWS
- Leçons que Netflix a appris de la panne AWS
- Scryer: le moteur à échelle automatique prédictive de Netflix
Incidents majeurs et rapports d'analyse
- Post-mortem du 22 octobre 2012 Dégradation AWS
Vidéos
- AWS RE: Invent 2019: Une journée dans la vie d'un ingénieur Netflix (NFX202)
- Attaques de When / Bin / Sh: Revisiter "Automatiser toutes les choses"
- Comment les choses se sont-elles bien passées? En savoir plus sur les incidents
- Surveillance et traçage de l'infrastructure de données de streaming @netflix
- Surveillance réelle des performances des utilisateurs à l'échelle Netflix - Martin Spier
- AWS RE: Invent 2017 - Nora Jones décrit pourquoi nous avons besoin de plus de chaos - Chaos Engineering, c'est-à-dire
- AWS RE: Invent 2017: Effectuer le chaos à Netflix Scale (Dev334)
- Netflix: résilience multirégionale et route Amazon 53
- Conception de services pour la résilience: leçons Netflix
- South Bay Sre Meetup - Équipe de performance de Netflix Cloud
- AWS RE: Invent 2017: une journée dans la vie d'un ingénieur Netflix III (ARC209)
- Comment Netflix utilise des flux de kinésis pour surveiller les applications et analyser des milliards de flux de trafic
- Mastering Chaos - Un Guide Netflix des microservices
- AWS RE: Invent 2016: de la résilience à l'ubiquité - #netflixeverywhere architecture mondiale (arc204)
- Srecon 2016 - Netflix: 190 pays et 5 Core SRES
- De l'administrateur SYS à Netflix SRE
- Ingénierie et opérations de résilience des applications chez Netflix avec Hystrix
- Injecter une défaillance à Netflix
- LISA13 - Comment Netflix embrasse l'échec de l'amélioration de la résilience et maximiser la disponibilité
- Gestion des incidents chez Netflix Velocity
Podcasts
- Ryan Kitchens sur l'apprentissage des incidents de Netflix, le rôle de SRE et les systèmes sociotes
Outils
Nouvelle relique
Articles de blog
- Définir les rôles logiciels modernes: SRES à New Relic
- 10 choses que tout le monde doit savoir sur l'ingénierie de la fiabilité du site (SRE)
- Quels outils les ingénieurs de fiabilité du site utilisent-ils?
- Une journée dans la vie d'une nouvelle relique
- 7 habitudes d'ingénieurs de fiabilité du site très réussis
- Adopter la pratique de SRE
- Utilisation de l'observabilité moderne pour établir une culture basée sur les données
Nubance
Articles de blog
- Excellence opérationnelle d'ingénierie, un cas d'amélioration continue
- Comment nous gérons les incidents techniques
- Comment nous faisons des rotations de garde à Nubank
- Comment nous évoluons notre plate-forme de données efficacement et de manière fiable
- Pourquoi nous avons tué notre suite de tests de bout en bout
- Recyclage automatique pour les modèles d'apprentissage automatique: Conseils et leçons apprises
Openai
Articles de blog
- 20 mars Putage de Chatgpt: voici ce qui s'est passé
- Openai Sre et la mise à l'échelle ont expliqué facile.
- Mise à l'échelle de Kubernetes à 2 500 nœuds
- Mise à l'échelle de Kubernetes à 7 500 nœuds
- Échelle des infrastructures AI à Openai
Paypal
Articles de blog
- Déclenché: incident # 1234 (le processus d'incident doit être fixé)
- Mise en œuvre de l'observabilité dans un maillage de service
- PostgreSQL à l'échelle: le schéma de base de données change sans temps d'arrêt
- Échelle GraphQL sur PayPal
Vidéos
- Srecon Conversations Asia / Pacific avec Karthikeyan Selvaraj et Rajesh Ramachandran, Paypal
- Sre alors contre Sre maintenant: un acte d'équilibrage entre les réflexes et les instincts intuitifs à PayPal
- Détection de la dégradation du service et des échecs à grande échelle grâce à un traitement de journal distribué
- Fonctionnement Elasticsearch avec facilité à grande échelle
- Assurer la fiabilité du site grâce aux contrôles de sécurité
Pique-niquer
Articles de blog
- Micromètre et pile d'observabilité moderne
- Surveillance et observabilité au pique-nique
Pinterest
Articles de blog
- Assurer la haute disponibilité des annonces de streaming en temps réel
- Amélioration de l'efficacité et réduction de l'exécution à l'aide de l'optimisation de la lecture S3
- Échelle Kubernetes avec assurance à Pinterest
- Ce que nous avons appris d'un incident de l'application iOS
- Comment nous avons conçu notre système d'intégration continue pour être plus de 50% plus rapide
- Simplification des déploiements Web
- Mise à niveau des métriques opérationnelles de Pinterest
- Traçage distribué à Pinterest avec de nouveaux outils open source
- Pinterest à l'échelle automatique
Vidéos
- Construire la propriété de code exploitable
- Évolution des outils d'observabilité à Pinterest
- Automatisation des mises à niveau du système d'exploitation / plate-forme pour les propriétaires de services
Facteur
Articles de blog
- Découvrez comment vos grappes Kubernetes réagissent à l'échec en utilisant Gremlin et Grafana
Prezi
Articles de blog
- Comment éviter la panne mondiale - étiquettes de daemonset migrant de manière transparente
- À la recherche de la vitesse - Performance de débogage Elasticsearch
- Prométhée à Prezi: remplacer 10 ans d'anti-motifs
Chapeau rouge
Articles de blog
- De OPS à SRE: Evolution de l'équipe dédiée OpenShift
- 5 pratiques agiles que chaque équipe SRE devrait adopter
- 7 meilleures pratiques pour écrire des opérateurs de Kubernetes: une perspective SRE
Jeux d'émeute
Articles de blog
- Les légendes du pipeline Runeterra CI / CD
- Stratégies pour travailler dans des systèmes incertains
- Amélioration de l'expérience du développeur pour les services d'exploitation
- Évolutivité et tests de charge pour le vaill
- Tirer parti de Golang pour le développement et les opérations de jeu
- Chaos contrôlé avec test d'injection de défaut
- Dans le trou de lapin de la surveillance des performances
- Profil: le cas des millisecondes manquantes
- Profil: performance réelle en ligue
- Profil: optimisation
- Profil: mesure et analyse
- Exécuter des services en ligne chez Riot: partie I
- Exécuter des services en ligne chez Riot: Part II
- Exécuter des services en ligne chez Riot: Part III
- Exécuter des services en ligne chez Riot: Part III: Part Deut
- Exécuter des services en ligne chez Riot: partie IV
- Exécuter des services en ligne chez Riot: partie V
- L'évolution de la sécurité à Riot
- Exécution d'un pipeline de test automatisé pour la mise à jour du client de la ligue
- Tests automatisés pour League of Legends
Salesforce
Articles de blog
- En regardant le plan de contrôle de Kubernetes pour la multi-tension
- Optimisation du réseau EKS pour l'échelle
- Patchage de nœud de temps d'arrêt zéro dans un cluster Kubernetes
- Comment, pas pourquoi: une alternative aux cinq pourquoi pour les post-mortems
- Un injecteur de side-car générique pour Kubernetes
- Mise en œuvre d'une stratégie de surveillance pour les produits basée sur les microservices
- 10 étapes pour développer un plan de réponse aux incidents que vous utiliserez réellement
- Notre voyage vers un pipeline en rondins presque parfait
- Optimisation des performances avec les travailleurs du Web
- Prendre un moment pour recentrer
Médias Schibsted
Articles de blog
- Ingénierie de fiabilité pour certains des 10 meilleurs sites en Scandinavie
Scribd
Articles de blog
- Apprendre des incidents: l'obtention du sidekiq prêt à servir un milliard d'emplois
- Un témoignage pour l'utilisation de PagerDuty à Scribd
- Affecter le devoir de sacrer envers les promoteurs
Faire du shoprif
Articles de blog
- Planification de la résilience pour les événements à fort trafic
- Planification des capacités à grande échelle
- Utilisation de la gestion du trafic DNS pour ajouter de la résilience aux services de Shopify
- Quatre étapes pour créer des tests efficaces du jour du jeu
- Implémentation de chatops dans notre procédure de gestion des incidents
- StatSD à Shopify
Vidéos
- Moniteur de réseau: une histoire de reconnaissance d'un écart d'observabilité
- Attendez-vous à l'inattendu: préparer les équipes SRE pour répondre à de nouvelles échecs
- Math de serviette avancée: estimation des performances du système à partir des premiers principes
Paris et jeux de ciel
Articles de blog
- C'est juste un changement de surveillance
- «Quel est le pire qui pourrait arriver?»: Un exemple travaillé de la façon dont nous gérons les incidents en direct
- S'élevant des cendres
- Accident! Claquer! Coup! La pratique rend parfait
- Performance gauche à droite et au centre
Mou
Articles de blog
- L'incident de Slack le 2-22-22
- Observabilité des infrastructures pour changer la courbe de dépenses
- Putage de Slack le 4 janvier 2021
- Une journée terrible, horrible, sans bonne journée, très mauvaise à Slack
- Déploie à Slack
- Théâtre en cas de catastrophe: Processus de Slack pour l'ingénierie du chaos accessible
Vidéos
- Slack au bord
- Ce qui rompt nos systèmes: une taxonomie de cygnes noirs
Slalom Build
Articles de blog
- Comment implémenter les objectifs du niveau de service dans une nouvelle relique APM
- Guide des débutants de DevOps: comment faire l'industrie
- Actions GitHub: au-delà de CI / CD
- Pourquoi toute automatisation des tests ne fonctionne-t-elle pas sur le pipeline?
- Les nombreuses formes de l'ingénierie de fiabilité du site
- Comment créer un cluster Kubernetes sécurisé par défaut avec un pipeline CI / CD de base sur AWS
- Architectures de gestion secrète: trouver l'équilibre entre la sécurité et la complexité
- Détecter les demandes malveillantes avec Keras & Tensorflow
- Le LEGO Monolith - une preuve de concept de microservice monolithe
- Gestion des secrets à l'aide de Hashicorp Vault
- Emballage des applications de démarrage Spring pour le déploiement sur Kubernetes
- Infrastructure immuable et livraison continue dans le cloud
Soundcloud
Articles de blog
- Comment remettre avec succès les systèmes
- Construire une culture sur appel saine
- Alerter sur des slos comme des pros
- Déploiement de l'interdiction avec Canary
- Prométhée est devenue majeure - une réflexion sur le développement d'un projet open-source
- Prométhée: surveillance sur SoundCloud
- Ce que j'ai appris en un an en tant que stagiaire SRE
- Tests sous la lentille de grossissement
Spotify
Articles de blog
- Matt Clarke: ingénieur principal d'infrastructure backend
- Concevoir une meilleure expérience de Kubernetes pour les développeurs
- TechBytes: ce que l'industrie manque des incidents et ce que vous pouvez faire
- Infrastructure automatisée de réponse aux incidents dans GCP
Vidéos
- Traçage, rapide et lent: creuser et améliorer les performances de votre service Web
Espace-citer
Articles de blog
- Sous le capot: assurer la fiabilité du site
Vidéos
- Pousser à travers la friction
- Comment sre quand tout est déjà en feu
- Étude de cas: mise en œuvre de SLOS pour un nouveau service
- Création d'une culture de revue de code
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
Vidéos
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
Bande
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
Vidéos
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
Cible
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Tinder
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Twilio
Blog Posts
- Twilio SRE Gameday Template
Gazouillement
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Uber
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
Vidéos
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
Vidéos
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
Vidéos
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Japper
Blog Posts
- The process: Implementing Yelp's failover strategy
Vidéos
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
Vidéos
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
Ressources
Livres
- Nouveau! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
Événements
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Autres ressources
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
Newsletters
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
Crédits
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
Contributeurs
Contribuer
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
Licence
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.