Téléchargement de howtheysre - Téléchargement du code source howtheysre

Comment ils sont

Introduction

Comment ils expliquent comment ils sont un référentiel de connaissances organisé des meilleures pratiques, outils, techniques et cultures de la fiabilité de la site (SRE) adoptées par les principales technologies ou les organisations averties.

De nombreuses organisations partagent fréquemment leurs idées et leur expertise, englobant les meilleures pratiques, outils et techniques qui façonnent leur culture d'ingénierie. Ils le font via diverses plateformes publiques telles que les blogs d'ingénierie, les conférences et les rencontres. Ce référentiel compile et présente le contenu recueilli à partir de ces sources.

Sujets

Ingénierie de fiabilité du site
Embaucher et constituer des équipes SRE
Culture sre
DevOps
Surveillance et observabilité
Alerte
Réponse des incidents et post-mortem
De premier plan
Test de production
Ingénierie du chaos
Automation
Performance
Ingénierie de plate-forme

Organisations

Réalisateurs

Articles de blog

Entrez dans l'abattoir - Building 'à la Carte' Gitops Toolling
Échelle de production mondiale - le lifting de service de service (partie 1)
Échelle de production à l'échelle mondiale - résolution de problèmes d'observabilité pour les développeurs (partie 2)
Test de charge Kubernetes: Construire un cadre (partie 1)
Test de charge Kubernetes: résolution des goulots d'étranglement et amélioration des performances (partie 2)

Airbnb

Articles de blog

Gestion automatisée des incidents par Slack
Détecter les vulnérabilités avec vulnalisation
Alerte Framework à Airbnb
Quand le nuage devient sombre - comment la panne d'Amazon a affecté Airbnb
Plateforme d'automatisation intelligente: autonomisation de l'IA conversationnelle et au-delà chez Airbnb
Gestion secrète de la production chez Airbnb
Automatisation de la protection des données à l'échelle, partie 1
Automatisation de la protection des données à grande échelle, partie 2
Automatisation de la protection des données à l'échelle, partie 3
Échelle de cluster dynamique Kubernetes à Airbnb

Algolie

Articles de blog

Incident du 30 mai SSL
Un voyage dans SRE
CI / CDAY 2024: Qu'est-ce qui fait une bonne plate-forme CI / CD?

Nuage d'alibaba

Articles de blog

Pourquoi les meilleures sociétés Internet choisissent-elles SRE plutôt que les O&M traditionnelles?
Architecture et pratiques de la plate-forme en temps réel de Bilibili

Asana

Articles de blog

Comment asana utilise l'asana: réponse de l'incident de sécurité
Comment Asana expédie les versions de l'application Web stable
Analyse du temps d'arrêt récent et de ce que nous faisons pour éviter les incidents futurs
Environnement des développeurs: obtenir une fiabilité en faisant de la réinitialisation rapide
Trois tactiques de sécurité pour chaque leader informatique à considérer cet automne

ASOS

Articles de blog

Jouer au jeu sans blâme
Une journée dans la vie de… Cat S (chef de la fiabilité de l'ingénierie)
Un voyage de performance AK
Un voyage de performance AKS: Partie 2 - Réseautage
Cybersécurité @ asos.com
Opérations de sécurité 24 x 7
Les compétences que nous recherchons dans la réponse aux incidents de cybersécurité

Atlassien

Articles de blog

Meilleures pratiques de gestion du changement à l'ère des devops
Test automatisé: 5 leçons de l'équipe Kubernetes d'Atlassian sur le test de l'infrastructure comme code
Comment exporter les événements de Kubernetes pour l'observabilité et l'alerte
Modèle post-mortem incident

Backmarket

Articles de blog

Comment le marché du retour s'est préparé pour le Black Friday

Baidu

Vidéos

Détection d'anomalies sur les signaux dorés
Netradar: surveillance du réseau de centres de données
Laissez le chaos commencer - l'ingénierie du chaos est en train de rencontrer la cybersécurité

Camp de base

Articles de blog

À l'intérieur d'un code rouge: édition réseau
Trois pannes de camp de base. Une semaine. Ce qui s'est passé?
Basecamp 2 et Basecamp 3 Recherche Rapport des panneaux
Réduire les escalades incidents à Basecamp

Livres

Façonner

Bloomberg

Vidéos

Planification des capacités et amélioration des performances avec échantillonnage de référence de page
Pourquoi SRES ne peut pas se permettre de ne pas faire d'ingénierie du chaos
Traçage des systèmes distribués en temps réel
The Bloomberg Story: Construire des équipes SRE dans une organisation "incommensurable"
Visibilité dans les bûcherons (et autres services de bas niveau) - voir les arbres de la forêt

Réservation.com

Articles de blog

Comment les équipes de fiabilité et de produit collaborent sur booking.com
Incidents, correctifs et le lendemain
Dépannage: un voyage dans l'inconnu

Vidéos

SLOS pour les services à forte intensité de données
Avantages de prendre la route la moins fréquentée avec des infrastructures de conteneurs

Capital One

Articles de blog

Automatiser la surveillance des applications avec Slack
Automatiser les infrastructures AWS avec Boto 3: Vérification de la santé AWS
Architecture de base de données partagée active-active-active
Les 3 R de SRES: résilience, reprise et fiabilité
5 étapes pour préparer le chaos de votre application
4 scénarios du monde réel qui se lisent comme des expériences d'ingénierie du chaos
Embrasser le chaos… ingénierie
3 leçons tirées de la mise en œuvre de l'ingénierie du chaos chez Enterprise
Une plongée profonde dans le déploiement bleu / vert transparent à l'aide d'AWS CodePloy
Les conteneurs Docker sécurisés nécessitent des applications sécurisées
4 étapes pour jumeler le cloud et les DevOps pour améliorer la résilience
Applications prêtes à la conteneur avec application à douze facteurs et architecture de microservices
Déploiement avec confiance - minimiser les risques, maximiser la résilience avec les déploiements canaries sur AWS
Architecture pour la résilience
Chaos continu - Présentation de l'ingénierie du chaos dans les pratiques DevOps
La partie lunienne 1: métriques

Incidents majeurs et rapports d'analyse

Informations sur le cyber-incident de Capital One
Une étude de cas de la violation de données de Capital One

Vidéos

Banque sur livraison continue - Capital One
Chaos continu dans DevOps - Capital One
DevOps at Capital One: se concentrer sur le pipeline et la mesure
Automatisation de la gestion de la santé opérationnelle des comptes cloud à grande échelle

Coincement

Articles de blog

Open Sourcing Coinbase's Secure Deployment Pipeline

Dazn

Articles de blog

Fiabilité du site chez Dazn

DBS

Articles de blog

Présentation à la conférence SRE d'Ithome: notre voyage de transformation DBS SRE jusqu'à présent
Démystifier les sept mythes d'ingénierie de fiabilité du site les plus populaires
Comment utiliser SRE pour cultiver une culture sans limace sur le lieu de travail
Ingénierie de fiabilité du site chez DBS Bank
Gestion de la configuration automatisée à grande échelle
Comment DBS a dissipé les mythes de l'ingénierie du chaos
Double, double labeur et ennuis

Vidéos

Srecon Conversations Asia / Pacific avec Koon Seng Lim, DBS

En profondeur

Articles de blog

Redis Diskless Replication: Quoi, comment, pourquoi et les mises en garde
Comment configurer le coffre-fort avec Kubernetes
Dépasser les déploiements de temps d'arrêt zéro à Kubernetes

Rêve11

Articles de blog

Déploiement à l'échelle: histoire derrière la plate-forme de déploiement en interne de Dream11 «OneClick».
Améliorer la sécurité et la confiance avec AWS WAFV2
Leçons apprises de l'exécution de GraphQL à grande échelle
Circuits de rupture, sauver Kong?
Trouver la commande dans le chaos: comment nous automatisées les tests de performances avec un couple
Maintenir des versions hyper-soniques chez Dream11
Pour évoluer ou évoluer? Voici comment nous évoluons à Dream11
Construire des analyses en temps réel évolutives, des alertes et une architecture de détection d'anomalies chez Dream11

Dropbox

Articles de blog

Dropbox Engineering Career Framework - Fiability Engineer (SRE)
Atlas: Notre voyage d'un monolithe Python à une plate-forme gérée
Surveillance des applications de serveur avec vortex
Athena: Notre système automatisé de gestion de la santé Build
Vous souhaitez devenir ingénieur de fiabilité du site?

Vidéos

Défis de découverte de service à grande échelle

eBay

Articles de blog

Résilience et reprise après sinistre avec kafka
Étude de cas SRE: Triage d'un problème de mémoire JVM non taillé
Étude de cas SRE: déséquilibre de la circulation mystérieuse
Zéro temps d'arrêt, déploiement instantané et retournement
Comment la plate-forme de notification d'Ebay a utilisé l'injection de défaut de nouvelles façons

Vidéo

Madaari: commander pour les singes

Jeux épiques

Vidéo

AWS RE: Invent 2018: Epic Games utilise AWS pour livrer Fortnite à 200 millions de joueurs

Etsy

Articles de blog

Amélioration de l'expérience de déploiement d'une demande de dix ans
Comment Etsy s'est préparé pour les volumes historiques du trafic de vacances en 2020
Votre cerveau sur les progrès
Guide de facilitation du débriefing d'Etsy pour les post-mortems sans blâme
Opsweekly: mesurer l'expérience de garde avec la classification des alertes
Démystifier les pannes de site
Post-mortems sans blâme et une culture juste
Mesurez n'importe quoi, mesurez tout

Vidéos

Velocity 09: John Alspaw et Paul Hammond, "10+ déploie PE
Migrer un monolithe vers le nuage

Expedia

Articles de blog

Automatisation des normes de performance
Politique du budget d'erreur - Partie 1 - Adoption au groupe Expedia
Politique du budget d'erreur - Partie 2 - Pratiques au groupe Expedia
Utilisation de l'injection de défaut pour améliorer la fiabilité de notre nouvelle plateforme d'exécution
Apprendre des incidents au groupe Expedia
Amélioration de l'expérience de chargement de la page d'accueil VRBO
Dépannage des erreurs 502: Liste de contrôle ECS
Commencer avec elasticsearch
Tout sur les problèmes 5xx Istio-Proxy
AUTOSCALATION DANS KUBERNETES: Pourquoi l'autoscaler de pod horizontal ne fonctionne-t-il pas pour moi?
Comment garder vos déploiements Kubernetes équilibrés sur plusieurs zones
Vos mesures de latence Dropwizard vous trompent-elles?
Le coût de la fiabilité de 100%
Création de tableaux de bord de surveillance
Utilisation de bash pour DevOps

Rapidement

Vidéos

Sre & Product Management: Comment améliorer votre équipe (et carrière!) En pensant comme un chef de produit
Mythbusting d'ingénierie de résilience

G-Research

Articles de blog

Notre voyage SRE à G-Research
Le voyage Sre continue
OpentsDB Meta Cache - Comproductions pour la performance

Frappeur

Articles de blog

Comment nous gérons les incidents à Getaround
Évolution de notre processus de livraison continue

Github

Articles de blog

Comment nous améliorons la disponibilité grâce à une simplification itérative
Comment nous avons amélioré le traitement push sur github
Comment Github utilise la file d'attente de fusion pour expédier des centaines de changements chaque jour
Fixation des vulnérabilités de sécurité avec l'IA
Programme fondamental d'ingénierie de GitHub: comment nous livrons la disponibilité, la sécurité et l'accessibilité
Comment GitHub utilise les actions et les actions GitHub pour construire et tester GitHub.com
Le parcours du GitHub Security Lab pour divulguer 500 CVE dans des projets open source
L'équipe CodeQL utilise l'IA pour alimenter la détection de la vulnérabilité dans le code
Aborder les problèmes de disponibilité récents de Github
Construire une gouvernance et une réutilisation à l'échelle de l'organisation pour CI / CD et l'automatisation avec les actions GitHub
Activer les déploiements de branche via des problèmes avec des actions GitHub
Utilisation de Chatops pour aider les ingénieurs de appel aux actions
Partitionner les bases de données relationnelles de Github pour gérer l'échelle
Augmentation du bonheur des développeurs avec la numérisation du code GitHub
Pourquoi (et comment) Github adopte l'opentélémétrie
Amélioration de grandes performances de monorepo sur github
Déploiement de la fiabilité de GitHub
Amélioration de la façon dont nous déploiez Github
Construire une culture sur appel à Github
Réduisant les constructions feuilletées par 18x
Le rôle d'évolution des opérations dans les devops
Début avec DevOps Automation
MySQL Haute disponibilité chez GitHub

Incidents majeurs et rapports d'analyse

Rapport de disponibilité GitHub: août 2024
Rapport de disponibilité GitHub: juillet 2024
Rapport de disponibilité GitHub: juin 2024
Rapport de disponibilité GitHub: mai 2024
Rapport de disponibilité GitHub: avril 2024
Rapport de disponibilité GitHub: mars 2024
Rapport de disponibilité GitHub: février 2024
Rapport de disponibilité GitHub: janvier 2024
Rapport de disponibilité GitHub: décembre 2023
Rapport de disponibilité GitHub: novembre 2023
Rapport de disponibilité GitHub: octobre 2023
Rapport de disponibilité GitHub: septembre 2023
Rapport de disponibilité GitHub: août 2023
Rapport de disponibilité GitHub: juillet 2023
Rapport de disponibilité GitHub: juin 2023
Rapport de disponibilité GitHub: mai 2023
Rapport de disponibilité GitHub: avril 2023
Rapport de disponibilité GitHub: mars 2023
Rapport de disponibilité GitHub: février 2023
Rapport de disponibilité GitHub: janvier 2023
Rapport de disponibilité GitHub: décembre 2022
Rapport de disponibilité GitHub: novembre 2022
Rapport de disponibilité GitHub: octobre 2022
Rapport de disponibilité GitHub: septembre 2022
Rapport de disponibilité GitHub: août 2022
Rapport de disponibilité GitHub: juillet 2022
Rapport de disponibilité GitHub: juin 2022
Rapport de disponibilité GitHub: mai 2022
Rapport de disponibilité GitHub: avril 2022
Rapport de disponibilité GitHub: mars 2022
Rapport de disponibilité GitHub: février 2022
Rapport de disponibilité GitHub: janvier 2022
Rapport de disponibilité GitHub: décembre 2021
Rapport de disponibilité GitHub: novembre 2021
Rapport de disponibilité GitHub: octobre 2021
Rapport de disponibilité GitHub: septembre 2021
Rapport de disponibilité GitHub: août 2021
Rapport de disponibilité GitHub: juillet 2021
Rapport de disponibilité GitHub: juin 2021
Rapport de disponibilité GitHub: mai 2021
Rapport de disponibilité GitHub: avril 2021
Rapport de disponibilité GitHub: mars 2021
Rapport de disponibilité GitHub: février 2021
Rapport de disponibilité GitHub: janvier 2021
Rapport de disponibilité GitHub: décembre 2020
Rapport de disponibilité GitHub: novembre 2020
Rapport de disponibilité GitHub: août 2020
Rapport de disponibilité GitHub: juillet 2020
Présentation du rapport de disponibilité GitHub
Interruptions de service en février Analyse post-incidence
21 octobre Analyse post-incidence
Rapport d'incident du 28 février DDOS
Rapport d'incident: divulgation du référentiel privé par inadvertance

Vidéos

One on One Sre

Gitlab

Articles de blog

Ce SRE a tenté de déployer un changement de configuration de Haproxy. Vous ne croirez pas ce qui s'est passé ensuite ...
Ma semaine pour l'observation d'un ingénieur de fiabilité du site Gitlab
MISE À JOUR: les leçons Elasticsearch apprises pour la recherche globale avancée
Leçons d'itération d'une nouvelle équipe d'infrastructure
Comment nous avons optimisé les dépenses d'infrastructure à Gitlab
Comment nous avons mis à l'échelle le traitement de la charge de travail asynchrone sur gitlab.com en utilisant latérale
À l'intérieur de GitLab: comment nous publions des correctifs logiciels
Ce que le retrait manquant TCP Keepalives m'a appris sur Docker, Golang et Gitlab
Comment nous avons utilisé une réplication retardée pour la reprise après sinistre avec PostgreSQL

Sans fard

Articles de blog

Déploiement de logiciels chez GoCardless: Open-source notre tutoriel "
Comment nous compressons les messages pub / sous et plus, économiser un tas d'argent
Migrations postgresql sans peur pour les rails
Observabilité chez GoCardless: une histoire d'amélioration des performances de l'API
Débogage du planificateur de requête PostgreSQL
Migrations postgres du zero-downtime - les parties dures
À la recherche de performances - comment nous avons rasé 200 ms de chaque demande de poste

Incidents majeurs et rapports d'analyse

Examen des incidents: Putage de service Le 25 octobre 2020, Vault TLS Expire
Examen des incidents: API et panne du tableau de bord le 10 octobre 2017

Godaddy

Articles de blog

Déploiements fermés de Kubernetes
Secrets externes de Kubernetes
Kubernetes - Une introduction pratique pour les développeurs d'applications
Un client Node.js intuitif pour l'API Kubernetes

Gojek

Articles de blog

Présentation de Skynet: Infrastructure comme code pour Gojek
Échelle de notre service de recherche géo-search pour une charge 10x
Pourquoi nous jurons par le RCA
Comment améliorer les kubernetes sur GKE
Comment nous surveillons le flux d'air Apache en production

Goldman Sachs

Articles de blog

Voyage d'observabilité SECDB
Chaos testant une application sur AWS
Prévision des pannes de capacité utilisant l'apprentissage automatique pour renforcer la résilience des applications
Fournir une disponibilité de 99,9% et des temps de réponse inférieurs à la seconde avec des multiplexes Sybase IQ en utilisant Haproxy
Construire une résilience multi-régions avec Amazon RDS et Amazon Aurora
Permettre des clusters Trino hautement disponibles chez Goldman Sachs
Observabilité à grande échelle
Infrastructure et modèle de chaîne de commande
CICD mobile avec macOS EC2
Annonce de Cattrit - Code source Scanner secret
Création des plates-formes pour l'ingénierie des données

Google

Articles de blog

Accélération de la réponse aux incidents en utilisant une AI générative
Pièges et modèles dans la gestion de la dépendance aux microservices
SRE Pratiques et processus
Fiabilité Google du site à l'aide de Go
Trois mois, 30x demande: comment nous avons mis à l'échelle Google Meet pendant Covid-19
SROAGE SRE: Pubsub distribué
Comment les équipes SRE sont organisées et comment commencer

Vidéos

Quelle est la différence entre DevOps et SRE? avec Seth Vargo et Liz Fong-Jones de Google
Budgets de risque et d'erreur »avec Seth Vargo et Liz Fong-Jones de Google
Automatisation pragmatique 'avec Max Luebbe de GCP
Doit regarder! - Liste de lecture Google Sre YouTube
Objectifs au niveau des échêtes: comment SRE peut aider à aligner le travail technique sur le bénéfice des utilisateurs
Implémentation de consensus distribué
Le sre je aspire à être
SROAGE SRE, OU, comment concevoir un système distribué fiable en 3 heures
Zero Touch Prod: vers des environnements de production plus sûrs et plus sûrs
Toutes nos idées de ML sont mauvaises (et nous devons nous sentir mal)
La carte n'est pas le territoire: comment les slos nous font égarer, et ce que nous pouvons faire à ce sujet
Déploiement des meilleures pratiques de formation SRE à la production: comment nous sommes SRE'ed notre programme d'éducation SRE
BigTable: un voyage du binaire au service et les leçons apprises en cours de route
Instrumentation pratique pour l'observabilité
Qu'est-ce que ML OPS: Solutions et meilleures pratiques pour les services de production de la production ML
Rapports unifiés de la fiabilité des services
Comment échanger l'utilisation du serveur et la latence de la queue
Garder l'équilibre: Demystified de chargement de chargement à l'échelle Internet
De Black Box à une quantité connue: comment créer des services prévisibles et fiables basés sur ML
La pleine conscience dans SRE: surveillance et alerte pour soi
Automatisation pragmatique
Échelle sous-linéaire dans la pratique: le projet SRE 1K
Stratégies pour modifier les données de production
La malédiction de l'autonomie SRE et comment la gérer
Échec des organisations SRE: le voyage de 1 à de nombreuses équipes
SREMOR SRE - Comment concevoir un système distribué en 3 heures
Utilisation de PRDS et de trajets utilisateur pour concevoir des outils conviviaux
Comment Google Sre et les développeurs travaillent ensemble
SRECON21 - Expériences pour SRE

Saisir

Articles de blog

Notre voyage vers la livraison continue à Grab (partie 1)
Notre voyage vers la livraison continue à Grab (partie 2)
Conception de systèmes résilients: disjoncteurs ou tentatives? (Partie 1)
Conception de systèmes résilients: disjoncteurs ou tentatives? (Partie 2)
Conception de systèmes résilients au-delà
Orchestrer le chaos en utilisant la plate-forme d'expérimentation de Grab
Comment nous avons conçu le microservice des quotas pour empêcher la maltraitance des ressources
Comment nous avons escaladé notre cache et passé une bonne nuit de sommeil

Grammaire

Articles de blog

Échelle d'infrastructure AWS pour prendre en charge plusieurs régions
Opérations de sécurité dans un environnement AWS

Enthousiasme

Articles de blog

Objectifs au niveau du service pour la tranquillité d'esprit de garde
Pilules empoisonnées de débogage

Halodoc

Articles de blog

Ingénierie de fiabilité du site pour les applications mobiles natives

Heroku

Articles de blog

Les aventures du rendez-vous dans la nouvelle architecture d'Heroku
Réponse des incidents à Heroku

Ibm

Articles de blog

Qu'est-ce que l'ingénierie de fiabilité du site (SRE)?
Outils et solutions AIOPS

En effet

Articles de blog

En effet Sre: un look intérieur
Être juste assez fiable
Automatisation du processus de libération de l'automatisation
Sloth, un outil pour induire des échecs de réseau 'avec Preetha Appan de en effet.com

Vidéos

Allons-nous encore mieux? Progrès vers des opérations plus sûres

En effet

Articles de blog

Sre Playbook - Guide pratique

Académie Khan

Articles de blog

Comment Khan Academy a géré avec succès le trafic de 2,5x en une semaine
Évoluant notre infrastructure de contenu

Liendin

Articles de blog

Repenser les projections de capacité du site avec l'analyseur de capacité
Aperçu de l'équipe SRE de produit à LinkedIn
Embauche de SRES à LinkedIn
Mise à jour open source: École de SRE
Correction des régressions de performances du système de fichiers Linux
Tests de production avec des canaris sombres
Alertes intelligentes dans ThirdEye, la plate-forme de surveillance en temps réel de LinkedIn
Iris Mobile: une interface mobile open source pour la gestion des incidents
Linkedout: un cadre d'injection de défaillance au niveau de la demande
Éliminer le travail avec des tests de charge entièrement automatisés
La composition des équipes SRE géographiquement diffusées réussies: partie 1
La composition des équipes SRE géographiquement diffusées réussies: partie 2
Project Star *: rationalisation de notre processus de garde
Automatisation de votre oncall: Open d'approvisionnement Fossor et ASCII
Ingénierie de résilience chez LinkedIn avec Project Waterbear
Embauche de SRES à LinkedIn, 2017
Iris et oncall ouvrables ouvrir
Construire la culture SRE à LinkedIn
L'échec n'est pas une option
MTTD et MTTR sont essentiels
Ce qui est mesuré est réparé

Vidéos

Cultiver l'équipe de fiabilité du site chez LinkedIn: l'embauche est difficile - Greg Leffler
9 ans d'échec: comment la course de voitures de merde a fait de moi un meilleur SRE
Wreatring the Storm: comment les premiers avertissements sauvent la ferme
Non conférence: problèmes non résolus dans le SRE
Diriger sans gérer: devenir un leader technique SRE
Pourquoi (ma) surveillance est-elle nulle?
Infrastructure de prévision du trafic et de tests de stress
La pleine conscience collective pour de meilleures décisions dans SRE
TCP - Architecture, améliorations et réglage
Plus de 600 millions de membres et des centaines de micro-services: comment nous avons évolué notre système de surveillance pour continuer
Comprendre les mesures commerciales peut faire de vous un meilleur SRE
Code-Yellow: Aider les opérations aux équipes de haut niveau de la manière intelligente
Différences dans les implémentations SRE entre les entreprises

Outils

De premier plan

Loggi

Articles de blog

Le modèle de gestionnaire de version
SRE Équipes # 8: Loggi

Loveholidays

Articles de blog

Routage d'alerte dynamique avec Prometheus et AlertManager
Rendre Loveholidays 18% plus rapidement avec HTTP / 3
Appliquer les meilleures pratiques sur les infrastructures en libre-service avec Terraform, Atlantis et la politique comme code
Les 5 principes qui ont aidé à évoluer Loveholidays
En temps réel, se connecte rapidement avec Grafana Loki pour moins de 1 $ par jour

Macquarie

Articles de blog

Notre voyage DevSecops avec Golang
Configuration du pipeline comme code avec Kotlin
DevOps et ségrégation des fonctions
Macquarie embrasse DevOps
Échelle d'une plate-forme Kubernetes à travers l'entreprise

La plus importante

Articles de blog

Surveillance des environnements cloud à grande échelle avec Prometheus et Thanos
Comment nous utilisons la paresse pour faire une surveillance et une alerte SLO avec Prometheus

Meituan (美团)

Articles de blog

Le développement et la pratique du SRE dans le cloud (云端的 sre 发展与实践)

Mercari

Articles de blog

Qui regarde les gardiens? Garder un œil sur nos systèmes de surveillance
Ce que les microservices Sre font en tant qu'évangélistes Sre
Ce que c'est que de travailler comme des microservices intégrés SRE
L'équipe Merpay Sre: passé et futur
SRE intégré à Mercari
Ce que l'équipe SRE veut réaliser avec l'équipe de développement
DevSecops: Qu'est-ce que c'est et pourquoi prend-il de l'ampleur dans l'industrie?
Comment partager les compétences de dépannage
Tableau de tableau de bord Datadog à grande échelle avec terraform

Méta

Articles de blog

Tirer parti de l'IA pour une réponse incidente efficace
Améliorer les flux de travail SLO de META avec des annotations de données
Slick: adopter des SLO pour une meilleure fiabilité
Plus de détails sur la panne du 4 octobre
Mise à jour sur la panne du 4 octobre

Vidéos

Une approche de service client de SRE
Comment (pas) pour évoluer un projet: un post-mortem
Libérer le plus grand site Python au monde toutes les 7 minutes
Utilisation de ML pour automatiser la catégorisation des erreurs dynamiques

Microsoft

Vidéos

Sli & Reliability Deep-Dive 'avec David N. Blank-Edelman de Microsoft
Ironies of Automation: une comédie en trois parties avec Tanner Lund de Microsoft
Génie logiciel durable et SRES
Étude sur les facteurs humains et la culture d'équipe pour améliorer la fatigue du pager
Prioriser la confiance lors de la création d'applications
Construire la résilience: comment en savoir plus sur les incidents
Une histoire de deux post-mortems: une vision des facteurs humains
Disponibilité - pensant au-delà des 9
Ironies of Automation: une comédie en trois parties
Les OPS sans serveur

Miro

Articles de blog

Prometheus Haute disponibilité et stratégie de tolérance aux défauts, stockage à long terme avec VictoriaMetrics
Gérer des centaines de serveurs pour les tests de charge: automatiquement, surveillance personnalisée, culture DevOps
Test de charge fiable en ce qui concerne les nuances inattendues

Monzo

Articles de blog

Autoscaling Monzo: Comment nous optimiserons notre plateforme pour être juste la bonne taille
Comment nous avons évolué sur appel à Monzo
Comment nous réagissons aux incidents
Comment nous surveillons Monzo

Vidéos

Découverte de service finalement cohérente

Outils

Réponse

Netflix

Articles de blog

Atteindre l'observabilité dans les flux de travail asynchronisés
Construire l'infrastructure de traçage distribuée de Netflix
Leçons de la construction d'outils d'observabilité à Netflix
Edgar: résoudre les mystères plus rapidement avec observabilité
Telltale: surveillance de l'application Netflix simplifiée
Garder les clients en streaming - La pratique de la fiabilité centralisée du site chez Netflix
Présentation de l'expédition
Appliquer les modèles Netflix DevOps à Windows
CHAP: Plateforme d'automatisation du chaos
Commencer l'avalanche
Netflix Chaos Monkey a mis à niveau
Chaos Engineering amélioré
Test de défaillance automatisée
Du chaos au contrôle - tester la résilience de la plate-forme de découverte de contenu de Netflix
Présentation de l'atlas: plate-forme de télémétrie principale de Netflix
Ajustement: test d'injection de défaillance
Annonce de Sécurité singe - surveillance et analyse de la configuration de la sécurité AWS
Leçons que Netflix a appris de la panne AWS
Scryer: le moteur à échelle automatique prédictive de Netflix

Incidents majeurs et rapports d'analyse

Post-mortem du 22 octobre 2012 Dégradation AWS

Vidéos

AWS RE: Invent 2019: Une journée dans la vie d'un ingénieur Netflix (NFX202)
Attaques de When / Bin / Sh: Revisiter "Automatiser toutes les choses"
Comment les choses se sont-elles bien passées? En savoir plus sur les incidents
Surveillance et traçage de l'infrastructure de données de streaming @netflix
Surveillance réelle des performances des utilisateurs à l'échelle Netflix - Martin Spier
AWS RE: Invent 2017 - Nora Jones décrit pourquoi nous avons besoin de plus de chaos - Chaos Engineering, c'est-à-dire
AWS RE: Invent 2017: Effectuer le chaos à Netflix Scale (Dev334)
Netflix: résilience multirégionale et route Amazon 53
Conception de services pour la résilience: leçons Netflix
South Bay Sre Meetup - Équipe de performance de Netflix Cloud
AWS RE: Invent 2017: une journée dans la vie d'un ingénieur Netflix III (ARC209)
Comment Netflix utilise des flux de kinésis pour surveiller les applications et analyser des milliards de flux de trafic
Mastering Chaos - Un Guide Netflix des microservices
AWS RE: Invent 2016: de la résilience à l'ubiquité - #netflixeverywhere architecture mondiale (arc204)
Srecon 2016 - Netflix: 190 pays et 5 Core SRES
De l'administrateur SYS à Netflix SRE
Ingénierie et opérations de résilience des applications chez Netflix avec Hystrix
Injecter une défaillance à Netflix
LISA13 - Comment Netflix embrasse l'échec de l'amélioration de la résilience et maximiser la disponibilité
Gestion des incidents chez Netflix Velocity

Podcasts

Ryan Kitchens sur l'apprentissage des incidents de Netflix, le rôle de SRE et les systèmes sociotes

Outils

Expédition

Nouvelle relique

Articles de blog

Définir les rôles logiciels modernes: SRES à New Relic
10 choses que tout le monde doit savoir sur l'ingénierie de la fiabilité du site (SRE)
Quels outils les ingénieurs de fiabilité du site utilisent-ils?
Une journée dans la vie d'une nouvelle relique
7 habitudes d'ingénieurs de fiabilité du site très réussis
Adopter la pratique de SRE
Utilisation de l'observabilité moderne pour établir une culture basée sur les données

Nubance

Articles de blog

Excellence opérationnelle d'ingénierie, un cas d'amélioration continue
Comment nous gérons les incidents techniques
Comment nous faisons des rotations de garde à Nubank
Comment nous évoluons notre plate-forme de données efficacement et de manière fiable
Pourquoi nous avons tué notre suite de tests de bout en bout
Recyclage automatique pour les modèles d'apprentissage automatique: Conseils et leçons apprises

Openai

Articles de blog

20 mars Putage de Chatgpt: voici ce qui s'est passé
Openai Sre et la mise à l'échelle ont expliqué facile.
Mise à l'échelle de Kubernetes à 2 500 nœuds
Mise à l'échelle de Kubernetes à 7 500 nœuds
Échelle des infrastructures AI à Openai

Paypal

Articles de blog

Déclenché: incident # 1234 (le processus d'incident doit être fixé)
Mise en œuvre de l'observabilité dans un maillage de service
PostgreSQL à l'échelle: le schéma de base de données change sans temps d'arrêt
Échelle GraphQL sur PayPal

Vidéos

Srecon Conversations Asia / Pacific avec Karthikeyan Selvaraj et Rajesh Ramachandran, Paypal
Sre alors contre Sre maintenant: un acte d'équilibrage entre les réflexes et les instincts intuitifs à PayPal
Détection de la dégradation du service et des échecs à grande échelle grâce à un traitement de journal distribué
Fonctionnement Elasticsearch avec facilité à grande échelle
Assurer la fiabilité du site grâce aux contrôles de sécurité

Pique-niquer

Articles de blog

Micromètre et pile d'observabilité moderne
Surveillance et observabilité au pique-nique

Articles de blog

Assurer la haute disponibilité des annonces de streaming en temps réel
Amélioration de l'efficacité et réduction de l'exécution à l'aide de l'optimisation de la lecture S3
Échelle Kubernetes avec assurance à Pinterest
Ce que nous avons appris d'un incident de l'application iOS
Comment nous avons conçu notre système d'intégration continue pour être plus de 50% plus rapide
Simplification des déploiements Web
Mise à niveau des métriques opérationnelles de Pinterest
Traçage distribué à Pinterest avec de nouveaux outils open source
Pinterest à l'échelle automatique

Vidéos

Construire la propriété de code exploitable
Évolution des outils d'observabilité à Pinterest
Automatisation des mises à niveau du système d'exploitation / plate-forme pour les propriétaires de services

Facteur

Articles de blog

Découvrez comment vos grappes Kubernetes réagissent à l'échec en utilisant Gremlin et Grafana

Prezi

Articles de blog

Comment éviter la panne mondiale - étiquettes de daemonset migrant de manière transparente
À la recherche de la vitesse - Performance de débogage Elasticsearch
Prométhée à Prezi: remplacer 10 ans d'anti-motifs

Chapeau rouge

Articles de blog

De OPS à SRE: Evolution de l'équipe dédiée OpenShift
5 pratiques agiles que chaque équipe SRE devrait adopter
7 meilleures pratiques pour écrire des opérateurs de Kubernetes: une perspective SRE

Jeux d'émeute

Articles de blog

Les légendes du pipeline Runeterra CI / CD
Stratégies pour travailler dans des systèmes incertains
Amélioration de l'expérience du développeur pour les services d'exploitation
Évolutivité et tests de charge pour le vaill
Tirer parti de Golang pour le développement et les opérations de jeu
Chaos contrôlé avec test d'injection de défaut
Dans le trou de lapin de la surveillance des performances
Profil: le cas des millisecondes manquantes
Profil: performance réelle en ligue
Profil: optimisation
Profil: mesure et analyse
Exécuter des services en ligne chez Riot: partie I
Exécuter des services en ligne chez Riot: Part II
Exécuter des services en ligne chez Riot: Part III
Exécuter des services en ligne chez Riot: Part III: Part Deut
Exécuter des services en ligne chez Riot: partie IV
Exécuter des services en ligne chez Riot: partie V
L'évolution de la sécurité à Riot
Exécution d'un pipeline de test automatisé pour la mise à jour du client de la ligue
Tests automatisés pour League of Legends

Salesforce

Articles de blog

En regardant le plan de contrôle de Kubernetes pour la multi-tension
Optimisation du réseau EKS pour l'échelle
Patchage de nœud de temps d'arrêt zéro dans un cluster Kubernetes
Comment, pas pourquoi: une alternative aux cinq pourquoi pour les post-mortems
Un injecteur de side-car générique pour Kubernetes
Mise en œuvre d'une stratégie de surveillance pour les produits basée sur les microservices
10 étapes pour développer un plan de réponse aux incidents que vous utiliserez réellement
Notre voyage vers un pipeline en rondins presque parfait
Optimisation des performances avec les travailleurs du Web
Prendre un moment pour recentrer

Médias Schibsted

Articles de blog

Ingénierie de fiabilité pour certains des 10 meilleurs sites en Scandinavie

Scribd

Articles de blog

Apprendre des incidents: l'obtention du sidekiq prêt à servir un milliard d'emplois
Un témoignage pour l'utilisation de PagerDuty à Scribd
Affecter le devoir de sacrer envers les promoteurs

Faire du shoprif

Articles de blog

Planification de la résilience pour les événements à fort trafic
Planification des capacités à grande échelle
Utilisation de la gestion du trafic DNS pour ajouter de la résilience aux services de Shopify
Quatre étapes pour créer des tests efficaces du jour du jeu
Implémentation de chatops dans notre procédure de gestion des incidents
StatSD à Shopify

Vidéos

Moniteur de réseau: une histoire de reconnaissance d'un écart d'observabilité
Attendez-vous à l'inattendu: préparer les équipes SRE pour répondre à de nouvelles échecs
Math de serviette avancée: estimation des performances du système à partir des premiers principes

Paris et jeux de ciel

Articles de blog

C'est juste un changement de surveillance
«Quel est le pire qui pourrait arriver?»: Un exemple travaillé de la façon dont nous gérons les incidents en direct
S'élevant des cendres
Accident! Claquer! Coup! La pratique rend parfait
Performance gauche à droite et au centre

Mou

Articles de blog

L'incident de Slack le 2-22-22
Observabilité des infrastructures pour changer la courbe de dépenses
Putage de Slack le 4 janvier 2021
Une journée terrible, horrible, sans bonne journée, très mauvaise à Slack
Déploie à Slack
Théâtre en cas de catastrophe: Processus de Slack pour l'ingénierie du chaos accessible

Vidéos

Slack au bord
Ce qui rompt nos systèmes: une taxonomie de cygnes noirs

Slalom Build

Articles de blog

Comment implémenter les objectifs du niveau de service dans une nouvelle relique APM
Guide des débutants de DevOps: comment faire l'industrie
Actions GitHub: au-delà de CI / CD
Pourquoi toute automatisation des tests ne fonctionne-t-elle pas sur le pipeline?
Les nombreuses formes de l'ingénierie de fiabilité du site
Comment créer un cluster Kubernetes sécurisé par défaut avec un pipeline CI / CD de base sur AWS
Architectures de gestion secrète: trouver l'équilibre entre la sécurité et la complexité
Détecter les demandes malveillantes avec Keras & Tensorflow
Le LEGO Monolith - une preuve de concept de microservice monolithe
Gestion des secrets à l'aide de Hashicorp Vault
Emballage des applications de démarrage Spring pour le déploiement sur Kubernetes
Infrastructure immuable et livraison continue dans le cloud

Soundcloud

Articles de blog

Comment remettre avec succès les systèmes
Construire une culture sur appel saine
Alerter sur des slos comme des pros
Déploiement de l'interdiction avec Canary
Prométhée est devenue majeure - une réflexion sur le développement d'un projet open-source
Prométhée: surveillance sur SoundCloud
Ce que j'ai appris en un an en tant que stagiaire SRE
Tests sous la lentille de grossissement

Spotify

Articles de blog

Matt Clarke: ingénieur principal d'infrastructure backend
Concevoir une meilleure expérience de Kubernetes pour les développeurs
TechBytes: ce que l'industrie manque des incidents et ce que vous pouvez faire
Infrastructure automatisée de réponse aux incidents dans GCP

Vidéos

Traçage, rapide et lent: creuser et améliorer les performances de votre service Web

Espace-citer

Articles de blog

Sous le capot: assurer la fiabilité du site

Vidéos

Pousser à travers la friction
Comment sre quand tout est déjà en feu
Étude de cas: mise en œuvre de SLOS pour un nouveau service
Création d'une culture de revue de code

Stack Overflow

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

Vidéos

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

Bande

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

Vidéos

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

Cible

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Tinder

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Twilio

Blog Posts

Twilio SRE Gameday Template

Gazouillement

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Uber

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

Vidéos

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

Vidéos

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

Vidéos

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Japper

Blog Posts

The process: Implementing Yelp's failover strategy

Vidéos

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

Vidéos

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

Ressources

Livres

Nouveau! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering