Como son

Introducción
La forma en que se sientan cómo son un repositorio de conocimiento curado de las mejores prácticas, herramientas, técnicas y cultura de la Ingeniería de Confiabilidad del Sitio (SRE) adoptadas por la tecnología líder o las organizaciones expertas en tecnología.
Numerosas organizaciones frecuentemente comparten sus ideas y experiencia, abarcando las mejores prácticas, herramientas y técnicas que dan forma a su cultura de ingeniería. Lo hacen a través de varias plataformas públicas, como blogs de ingeniería, conferencias y reuniones. Este repositorio compila y presenta contenido recopilado de estas fuentes.
Temas
- Ingeniería de confiabilidad del sitio
- Contratación y construcción de equipos SRE
- Cultura SRE
- Devops
- Monitoreo y observabilidad
- Alerta
- Respuesta de incidentes y post mortem
- De guardia
- Prueba en producción
- Ingeniería del caos
- Automatización
- Actuación
- Ingeniería de plataformas
Organizaciones
Triunfadores
Publicaciones de blog
- Ingrese al matadero - edificio 'à la carta' Gitops Tooling
- Escala de producción a nivel mundial: el lavado de cara de malla de servicio (parte-1)
- Escala de producción a nivel mundial: resolver problemas de observabilidad para los desarrolladores (Parte 2)
- Prueba de carga Kubernetes: construir un marco (parte-1)
- Prueba de carga Kubernetes: resolución de cuellos de botella y mejora del rendimiento (Parte-2)
Airbnb
Publicaciones de blog
- Gestión automatizada de incidentes a través de Slack
- Detectar vulnerabilidades con vulntura
- Alerta del marco en Airbnb
- Cuando la nube se oscurece, cómo la interrupción de Amazon afectó a Airbnb
- Plataforma de automatización inteligente: empoderamiento de IA conversacional y más allá en Airbnb
- Gestión secreta de producción en Airbnb
- Automatizar la protección de datos a escala, Parte 1
- Automatizar la protección de datos a escala, Parte 2
- Automatizar la protección de datos a escala, Parte 3
- Escala dinámica de clúster de Kubernetes en Airbnb
Algolia
Publicaciones de blog
- Incidente del 30 de mayo SSL
- Un viaje a SRE
- CI/CDAY 2024: ¿Qué hace una buena plataforma CI/CD?
Nube de alibaba
Publicaciones de blog
- ¿Por qué las principales compañías de Internet eligen SRE sobre el O&M tradicional?
- Arquitectura y prácticas de la plataforma en tiempo real de Bilibili
Asana
Publicaciones de blog
- Cómo ASANA usa Asana: respuesta a incidentes de seguridad
- Cómo se lanza a Asana envía una aplicación web estable
- Análisis de tiempo de inactividad reciente y lo que estamos haciendo para evitar futuros incidentes
- Medio ambiente del desarrollador: lograr la confiabilidad al hacer que sea rápido restablecer
- Tres tácticas de seguridad para que cada líder de TI considere este otoño
ASOS
Publicaciones de blog
- Jugando el juego sin culpa
- Un día en la vida de ... Cat S (Jefe de Ingeniería de Confiabilidad)
- Un viaje de rendimiento de AKS: Parte 1 - dimensionamiento de todo
- Un viaje de rendimiento de AKS: Parte 2 - Control
- Cyber Security @ asos.com
- Operaciones de seguridad 24x7
- Las habilidades que buscamos en la respuesta a incidentes de seguridad cibernética
Atlassiano
Publicaciones de blog
- Las mejores prácticas para la gestión del cambio en la era de DevOps
- Pruebas automatizadas: 5 lecciones del equipo de Kubernetes de Atlassian sobre la infraestructura de pruebas como código
- Cómo exportar eventos de Kubernetes para observabilidad y alerta
- Plantilla de posmortem incidente
Cambio
Publicaciones de blog
- Cómo se prepararon los SRES de Back Market para el Black Friday
Baidu
Videos
- Detección de anomalías en señales de oro
- Netradar: Monitoreo de la red de centros de datos
- Deje que comience el caos: la ingeniería del caos se encuentra con ciberseguridad
Basecampamento
Publicaciones de blog
- Dentro de un código rojo: edición de red
- Tres cortes de Basecamp. Una semana. ¿Qué pasó?
- Informe de interrupción de búsqueda de Basecamp 2 y Basecamp 3
- Reducir las escaladas de incidentes en Basecamp
Libros
Bloomberg
Videos
- Planificación de capacidad y mejora del rendimiento con muestreo de referencia de página
- Por qué SRES no puede permitirse el lujo de no hacer el caos Engineering
- Rastreo de sistemas distribuidos en tiempo real
- The Bloomberg Story: Construyendo equipos SRE en una organización "inconmensurable"
- Visibilidad en registradores (y otros servicios de bajo nivel): ver los árboles del bosque
Booking.com
Publicaciones de blog
- Cómo colaboran cómo la fiabilidad y los equipos de productos en Booking.com
- Incidentes, soluciones y el día posterior
- Solución de problemas: un viaje a lo desconocido
Videos
- SLOS para servicios intensivos en datos
- Beneficios de tomar la carretera menos transitada con infraestructura de contenedores
Capital uno
Publicaciones de blog
- Automatizar el monitoreo de la aplicación con Slack
- Automatice la infraestructura de AWS con Boto 3: AWS Health Check
- Arquitectura de base de datos de nada activo activo
- Las 3 R de SRE: Resiliencia, recuperación y confiabilidad
- 5 pasos para preparar el caos de su aplicación
- 4 escenarios del mundo real que se leen como experimentos de ingeniería del caos
- Abrazar el caos ... ingeniería
- 3 Lecciones aprendidas al implementar el caos Engineering en Enterprise
- Una inmersión profunda en una implementación azul/verde sin costura utilizando AWS CodeDeploy
- Los contenedores de Docker seguros requieren aplicaciones seguras
- 4 pasos para combinar la nube y los devops para mejorar la resiliencia
- Aplicaciones listas para contenedores con una aplicación de doce factores y arquitectura de microservicios
- Implementación con confianza: minimice el riesgo, maximice la resiliencia con las implementaciones canarias en AWS
- Arquitectura de resiliencia
- Caos continuo: introducir la ingeniería del caos en las prácticas de DevOps
- El lunes-ifesto Parte 1: Métricas
Informes principales de incidentes y análisis
- Información sobre el incidente cibernético Capital One
- Un estudio de caso de la violación de datos de Capital One
Videos
- Banca en entrega continua - Capital One
- Caos continuo en DevOps - Capital One
- DevOps en Capital One: centrarse en la tubería y la medición
- Automatizar la gestión de la salud operativa de las cuentas en la nube a escala
Coinbase
Publicaciones de blog
- Open Sourcing de la tubería de implementación segura de Coinbase
Dazn
Publicaciones de blog
- Confiabilidad del sitio en Dazn
DBS
Publicaciones de blog
- Presentación en la conferencia SRE de ITHome: nuestro viaje de transformación de DBS SRE hasta ahora
- Desacredito los siete mitos de ingeniería de confiabilidad del sitio más popular
- Cómo usar SRE para cultivar una cultura sin culpa en el lugar de trabajo
- Ingeniería de confiabilidad del sitio en DBS Bank
- Automatizar la gestión de la configuración a escala
- Cómo DBS disipó los mitos de la ingeniería del caos
- Doble, doble trabajo y problemas
Videos
- Srecon Conversations Asia/Pacific con Koon Seng Lim, DBS
Profundo
Publicaciones de blog
- Replicación sin disco de Redis: qué, cómo, por qué y las advertencias
- Cómo configurar la bóveda con Kubernetes
- Desglosando las implementaciones de tiempo de inactividad cero en Kubernetes
Sueño11
Publicaciones de blog
- Implementación a escala: Historia detrás de la plataforma de implementación azul verde de Dream11 'OneClick'.
- Mejorar la seguridad y la confianza con AWS WAFV2
- Lecciones aprendidas al ejecutar GraphQL a escala
- ¿Romper circuitos, salvar a Kong?
- Encontrar orden en el caos: cómo automatizamos las pruebas de rendimiento con torque
- Mantener lanzamientos hiper-sónicos en Dream11
- Para escalar o escalar? Así es como escala en Dream11
- Construyendo análisis de análisis, alertas y detección de anomalías escalables en Dream11 en Dream11
Dropbox
Publicaciones de blog
- Dropbox Engineering Career Framework - Ingeniero de confiabilidad (SRE)
- Atlas: Nuestro viaje desde un monolito de Python a una plataforma administrada
- Monitoreo de aplicaciones del servidor con Vortex
- Athena: nuestro sistema automatizado de gestión de salud de compilación
- ¿Interesado en convertirse en ingeniero de confiabilidad del sitio?
Videos
- Desafíos de descubrimiento de servicios a escala
eBay
Publicaciones de blog
- Resiliencia y recuperación de desastres con Kafka
- Estudio de caso de SRE: Trieging de un problema de fuera de la memoria sin altura
- Estudio de caso de SRE: desequilibrio misterioso de tráfico
- Tiempo de inactividad cero, implementación instantánea y reversión
- Cómo la plataforma de notificación de eBay utilizó la inyección de fallas de nuevas maneras
Video
- Madaari: ordenando a los monos
Juegos épicos
Video
- AWS Re: Invent 2018: Epic Games usa AWS para entregar Fortnite a 200 millones de jugadores
Etc.
Publicaciones de blog
- Mejorar la experiencia de implementación de una aplicación de diez años
- Cómo se preparó Etsy para volúmenes históricos de tráfico de vacaciones en 2020
- Tu cerebro sobre el progreso
- Guía de facilitación de informes de Etsy para las autopsias sin culpa
- Opsweekly: Medición de la experiencia de guardia con la clasificación de alerta
- Interrupciones del sitio desmitificadoras
- PostMortems sin culpa y una cultura justa
- Medir cualquier cosa, medir todo
Videos
- Velocity 09: John Allspaw y Paul Hammond, "10+ implementa PE
- Migrar un monolito a la nube
Expedia
Publicaciones de blog
- Automatizar los estándares de rendimiento
- Política de presupuesto de error - Parte 1 - Adopción en Expedia Group
- Política de presupuesto de error - Parte 2 - Prácticas en Expedia Group
- Uso de la inyección de fallas para mejorar la confiabilidad de nuestra nueva plataforma de tiempo de ejecución
- Aprender de los incidentes en Expedia Group
- Mejora de la experiencia de carga de la página de inicio de VRBO
- Solución de problemas de 502 errores: Lista de verificación de ECS
- Comenzando con ElasticSearch
- Todo sobre los problemas de Istio-Proxy 5xx
- Autoscaling en Kubernetes: ¿Por qué no me funciona el autoscaler de Pod horizontal?
- Cómo mantener sus implementaciones de Kubernetes equilibradas en varias zonas
- ¿Tus métricas de latencia de Dropwizard te engañan?
- El costo del 100% de confiabilidad
- Creación de paneles de monitoreo
- Usando Bash para DevOps
Rápidamente
Videos
- SRE y Gestión de productos: cómo subir de nivel a su equipo (¡y carrera!) Pensando como un gerente de producto
- Ingeniería de resiliencia Mythbusting
G-research
Publicaciones de blog
- Nuestro viaje de SRE en G-Research
- El viaje SRE continúa
- Opentsdb meta cache: compensaciones para el rendimiento
Adivinar
Publicaciones de blog
- Cómo manejamos los incidentes en Getaround
- Evolución de nuestro proceso de entrega continua
Github
Publicaciones de blog
- Cómo mejoramos la disponibilidad a través de la simplificación iterativa
- Cómo mejoramos el procesamiento de push en GitHub
- Cómo Github usa la cola de fusión para enviar cientos de cambios todos los días
- Arreglar las vulnerabilidades de seguridad con IA
- Programa de Fundamentos de Ingeniería de GitHub: cómo entregamos la disponibilidad, la seguridad y la accesibilidad
- Cómo GitHub utiliza acciones y acciones de Github más grandes corredores para construir y probar GitHub.com
- El viaje del laboratorio de seguridad de Github para revelar 500 CVE en proyectos de código abierto
- El equipo de CodeQL utiliza la detección de AI a Power Vulnerabilidad en el código
- Abordar los recientes problemas de disponibilidad de Github
- Construir gobernanza en toda la organización y reutilizar para CI/CD y automatización con acciones de GitHub
- Habilitar las implementaciones de ramas a través de emisores con acciones de GitHub
- Uso de Chatops para ayudar a las acciones de guardia de los ingenieros
- División de las bases de datos relacionales de Github para manejar la escala
- Aumento de la felicidad del desarrollador con el escaneo de código GitHub
- ¿Por qué (y cómo) GitHub está adoptando Opentelemety
- Mejora de un gran rendimiento de Monorepo en Github
- Confiabilidad de la implementación en GitHub
- Mejora de cómo implementamos GitHub
- Construyendo cultura de guardia en Github
- Reduciendo las construcciones escamadas por 18x
- El papel en evolución de las operaciones en DevOps
- Comenzando con la automatización DevOps
- MySQL alta disponibilidad en Github
Informes principales de incidentes y análisis
- Informe de disponibilidad de GitHub: agosto de 2024
- Informe de disponibilidad de GitHub: julio de 2024
- Informe de disponibilidad de GitHub: junio de 2024
- Informe de disponibilidad de GitHub: mayo de 2024
- Informe de disponibilidad de GitHub: abril de 2024
- Informe de disponibilidad de GitHub: marzo de 2024
- Informe de disponibilidad de GitHub: febrero de 2024
- Informe de disponibilidad de GitHub: enero de 2024
- Informe de disponibilidad de GitHub: diciembre de 2023
- Informe de disponibilidad de GitHub: noviembre de 2023
- Informe de disponibilidad de GitHub: octubre de 2023
- Informe de disponibilidad de GitHub: septiembre de 2023
- Informe de disponibilidad de GitHub: agosto de 2023
- Informe de disponibilidad de GitHub: julio de 2023
- Informe de disponibilidad de GitHub: junio de 2023
- Informe de disponibilidad de GitHub: mayo de 2023
- Informe de disponibilidad de GitHub: abril de 2023
- Informe de disponibilidad de GitHub: marzo de 2023
- Informe de disponibilidad de GitHub: febrero de 2023
- Informe de disponibilidad de GitHub: enero de 2023
- Informe de disponibilidad de GitHub: diciembre de 2022
- Informe de disponibilidad de GitHub: noviembre de 2022
- Informe de disponibilidad de GitHub: octubre de 2022
- Informe de disponibilidad de GitHub: septiembre de 2022
- Informe de disponibilidad de GitHub: agosto de 2022
- Informe de disponibilidad de GitHub: julio de 2022
- Informe de disponibilidad de GitHub: junio de 2022
- Informe de disponibilidad de GitHub: mayo de 2022
- Informe de disponibilidad de GitHub: abril de 2022
- Informe de disponibilidad de GitHub: marzo de 2022
- Informe de disponibilidad de GitHub: febrero de 2022
- Informe de disponibilidad de GitHub: enero de 2022
- Informe de disponibilidad de GitHub: diciembre de 2021
- Informe de disponibilidad de GitHub: noviembre de 2021
- Informe de disponibilidad de GitHub: octubre de 2021
- Informe de disponibilidad de GitHub: septiembre de 2021
- Informe de disponibilidad de GitHub: agosto de 2021
- Informe de disponibilidad de GitHub: julio de 2021
- Informe de disponibilidad de GitHub: junio de 2021
- Informe de disponibilidad de GitHub: mayo de 2021
- Informe de disponibilidad de GitHub: abril de 2021
- Informe de disponibilidad de GitHub: marzo de 2021
- Informe de disponibilidad de GitHub: febrero de 2021
- Informe de disponibilidad de GitHub: enero de 2021
- Informe de disponibilidad de GitHub: diciembre de 2020
- Informe de disponibilidad de GitHub: noviembre de 2020
- Informe de disponibilidad de GitHub: agosto de 2020
- Informe de disponibilidad de GitHub: julio de 2020
- Presentación del informe de disponibilidad de GitHub
- Disrupciones del servicio de febrero Análisis posterior a la incidente
- 21 de octubre Análisis posterior a la incidente
- Informe del incidente del 28 de febrero
- Informe de incidentes: divulgación inadvertida del repositorio privado
Videos
Gitlab
Publicaciones de blog
- Este SRE intentó lanzar un cambio de configuración de HaProxy. No creerás lo que pasó después ...
- Mi semana sombreando a un ingeniero de confiabilidad del sitio Gitlab
- ACTUALIZACIÓN: Lecciones de Elasticsearch aprendidas para la búsqueda global avanzada
- Lecciones en iteración de un nuevo equipo en infraestructura
- Cómo optimizamos el gasto de infraestructura en GitLab
- Cómo escalamos el procesamiento de la carga de trabajo de Async en gitlab.com usando Sidekiq
- Inside Gitlab: cómo lanzamos parches de software
- Qué seguimiento de TCP TCP Keepalives me enseñó sobre Docker, Golang y Gitlab
- Cómo utilizamos la replicación retrasada para la recuperación ante desastres con PostgreSQL
Sin gocard
Publicaciones de blog
- Implementación de software en GOCARDless: Open-Sourcing nuestro tutorial de "comenzar"
- Cómo comprimimos mensajes pub/sub y más, ahorrando una carga de dinero
- Migraciones de PostgreSQL sin miedo para rieles
- Observabilidad en Gocardless: una historia de mejora del rendimiento de API
- Depuración del planificador de consultas PostgreSQL
- Migraciones de postgras de tiempo cero hacia abajo: las partes duras
- En busca de rendimiento: cómo afeitamos 200 ms de cada solicitud de publicación
Informes principales de incidentes y análisis
- Revisión de incidentes: interrupción del servicio el 25 de octubre de 2020, Vault TLS Experty
- Revisión de incidentes: API y salida del tablero el 10 de octubre de 2017
Mierda
Publicaciones de blog
- Implementaciones cerradas de Kubernetes
- Kubernetes secretos externos
- Kubernetes: una introducción práctica para desarrolladores de aplicaciones
- Un cliente nodo.js intuitivo para la API de Kubernetes
Gojek
Publicaciones de blog
- Introducción de Skynet: Infraestructura como código para gojek
- Escala de nuestro servicio Geo-Search para una carga 10x
- Por qué juro por el RCA
- Cómo actualizamos Kubernetes en GKE
- Cómo monitoreamos el flujo de aire Apache en producción
Goldman Sachs
Publicaciones de blog
- Viaje de observabilidad de SECDB
- Caos Prueba de una aplicación en AWS
- Previsión de interrupciones de capacidad utilizando el aprendizaje automático para reforzar la capacidad de recuperación de la aplicación
- Proporcionando el 99.9% de disponibilidad y tiempos de respuesta sub-segundo con los multiplexes de IQ Sybase mediante el uso de HaProxy
- Construyendo resiliencia múltiple con Amazon RDS y Amazon Aurora
- Habilitando clústeres de trino altamente disponibles en Goldman Sachs
- Observabilidad a escala
- Infraestructura y patrón de cadena de comando
- CICD móvil con macOS EC2
- Anunciando Catchit - Código fuente Secret Scanner
- Plataformas de construcción para ingeniería de datos
Google
Publicaciones de blog
- Acelerar la respuesta de incidentes utilizando IA generativa
- Dificultades y patrones en la gestión de dependencias de microservicios
- SRE Prácticas y procesos
- La confiabilidad del sitio de Google usando Go
- Tres meses, 30x demanda: cómo escalamos Google Meet durante Covid-19
- SRE Classroom: pubsub distribuido
- Cómo se organizan los equipos SRE y cómo comenzar
Videos
- ¿Cuál es la diferencia entre DevOps y SRE? con Seth Vargo y Liz Fong-Jones de Google
- Presupuestos de riesgo y error con Seth Vargo y Liz Fong-Jones de Google
- Automatización pragmática 'con Max Luebbe de GCP
- ¡Debe mirar! - Lista de reproducción de YouTube de Google SRE
- OBJETIVOS DEL NIVEL SQUISH: Cómo SRE puede ayudar a alinear el trabajo técnico con el beneficio del usuario
- Implementación de consenso distribuido
- El sre que aspiro a ser
- SRE Classroom, o cómo diseñar un sistema distribuido confiable en 3 horas
- Cero Touch Prod: hacia entornos de producción más seguros y seguros
- Todas nuestras ideas de ML son malas (y deberíamos sentirnos mal)
- El mapa no es el territorio: cómo los Slos nos llevan por mal camino y lo que podemos hacer al respecto
- Implementación de las mejores prácticas de capacitación de SRE a la producción: cómo se convirtió en nuestro programa de educación SRE
- Bigtable: un viaje de binario a servicio y las lecciones aprendidas en el camino
- Instrumentación práctica para la observabilidad
- ¿Qué es ML OPS? Soluciones y mejores prácticas para los servicios de ML DevOps of Production
- Informes unificados de confiabilidad del servicio
- Cómo intercambiar la utilización del servidor y la latencia de la cola
- Manteniendo el equilibrio: la carga de carga a escala de Internet desmitificada
- Desde la caja negra hasta una cantidad conocida: cómo construir servicios basados en ML predecibles y confiables
- Mindfulness en SRE: monitoreo y alerta por uno mismo
- Automatización pragmática
- Escala sublínea en la práctica: el proyecto 1K SRE
- Estrategias para editar datos de producción
- La maldición de la autonomía de SRE y cómo administrarla
- Escalado de organizaciones SRE: el viaje de 1 a muchos equipos
- Aula SRE: cómo diseñar un sistema distribuido en 3 horas
- Uso de PRDS y viajes de usuario para diseñar herramientas fáciles de usar
- Cómo Google SRE y los desarrolladores trabajan juntos
- SRECON21 - Experimentos para SRE
Agarrar
Publicaciones de blog
- Nuestro viaje a la entrega continua en Grab (Parte 1)
- Nuestro viaje a la entrega continua en Grab (Parte 2)
- Diseño de sistemas resilientes: ¿interruptores de circuitos o reintentos? (Parte 1)
- Diseño de sistemas resilientes: ¿interruptores de circuitos o reintentos? (Parte 2)
- Diseño de sistemas resilientes más allá de reintentos (Parte 3): patrones de arquitectura e ingeniería del caos
- Orquestación del caos utilizando la plataforma de experimentación de Grab
- Cómo diseñamos el microservicio de cuotas para prevenir el abuso de recursos
- Cómo escalamos nuestro caché y dormimos bien
Gramática
Publicaciones de blog
- Escalar la infraestructura de AWS para admitir múltiples regiones
- Operaciones de seguridad en un entorno de AWS
Entusiasmo
Publicaciones de blog
- Objetivos de nivel de servicio para la tranquilidad de guardia
- Depuración de píldoras venenosas
Halodoc
Publicaciones de blog
- Ingeniería de confiabilidad del sitio para aplicaciones móviles nativas
Heroku
Publicaciones de blog
- The Adventures of Rendezvous en la nueva arquitectura de Heroku
- Respuesta de incidentes en Heroku
IBM
Publicaciones de blog
- ¿Qué es la ingeniería de confiabilidad del sitio (SRE)?
- Herramientas y soluciones de AIOPS
En efecto
Publicaciones de blog
- De hecho, SRE: un aspecto interno
- Ser lo suficientemente confiable
- Automatizar el proceso de lanzamiento de hecho
- Sloth, una herramienta para inducir fallas en la red 'con Preetha Appan de Date.com
Videos
- ¿Estamos mejorando todavía? Progreso hacia operaciones más seguras
En efecto
Publicaciones de blog
- SRE Playbook - Guía práctica
Academia Khan
Publicaciones de blog
- Cómo Khan Academy manejó con éxito el tráfico de 2.5x en una semana
- Evolucionando nuestra infraestructura de contenido
LinkedIn
Publicaciones de blog
- Repensar las proyecciones de capacidad del sitio con el analizador de capacidad
- Insights sobre un equipo de producto SRE en LinkedIn
- Contratación de SRES en LinkedIn
- Actualización de código abierto: Escuela de SRE
- Corrección de regresiones de rendimiento del sistema de archivos Linux
- Pruebas de producción con canarios oscuros
- Alertas inteligentes en ThirdEye, la plataforma de monitoreo en tiempo real de LinkedIn
- Iris Mobile: una interfaz móvil de código abierto para la gestión de incidentes
- LinkedOut: un marco de inyección de falla de nivel de solicitud de solicitud
- Eliminar el trabajo con pruebas de carga totalmente automatizadas
- La composición de equipos SRE de distribución geográfica exitosas: Parte 1
- La composición de equipos SRE de distribución geográfica exitosas: Parte 2
- Project Star*: optimizando nuestro proceso de guardia
- Automatización de su Oncall: abierta fossor de abastecimiento y grabado ASCII
- Ingeniería de resiliencia en LinkedIn con Project Waterbear
- Contratación de SRES en LinkedIn, 2017
- Abierto de abastecimiento Iris y Oncall
- Construyendo la cultura SRE en LinkedIn
- El fracaso no es una opción
- MTTD y MTTR son clave
- Lo que se mide se soluciona
Videos
- Cultivar el equipo de confiabilidad del sitio en LinkedIn: contratar es difícil - Greg Leffler
- 9 años de fracaso: cómo las carreras de autos de mierda me hicieron un mejor SRE
- Meteorización de la tormenta: cómo las advertencias tempranas salvan la granja
- No conferencia: problemas sin resolver en SRE
- Liderar sin administrar: convertirse en un líder técnico de SRE
- ¿Por qué (mi) monitoreo apesta?
- Previsión de tráfico e infraestructura de prueba de estrés
- Mindfulness colectiva para mejores decisiones en SRE
- TCP: arquitectura, mejoras y ajuste
- Más de 600 millones de miembros y cientos de micro servicios: cómo escalamos nuestro sistema de monitoreo para mantener
- Comprender las métricas comerciales puede hacerle un mejor SRE
- Código amarillo: ayudar a las operaciones de los mejores equipos de la manera inteligente
- Diferencias en las implementaciones de SRE en las empresas
Herramientas
Loggi
Publicaciones de blog
- El modelo de administrador de lanzamiento
- Equipos SRE #8: Loggi
Loveholidays
Publicaciones de blog
- Enrutamiento de alerta dinámica con Prometheus y AlertManager
- Haciendo LoveHolidays 18% más rápido con HTTP/3
- Hacer cumplir las mejores prácticas sobre la infraestructura de autoservicio con Terraform, Atlantis y Política como código
- Los 5 principios que ayudaron a escalar LoveHolidays
- REALTIO RECURSA FILLAMENTE CON GRAFANA LOKI por menos de $ 1 por día
Macquarie
Publicaciones de blog
- Nuestro viaje de Devsecops con Golang
- Configuración de la tubería como código con kotlin
- DevOps y segregación de deberes
- Macquarie abraza DevOps
- Escalar una plataforma Kubernetes en toda la empresa
Más importante
Publicaciones de blog
- Monitoreo de entornos en la nube a escala con Prometheus y Thanos
- Cómo usamos Sloth para monitorear y alertar SLO con Prometheus
Meituan (美团)
Publicaciones de blog
- El desarrollo y la práctica de SRE en la nube (云端的 SRE 发展与实践)
Mercari
Publicaciones de blog
- ¿Quién mira a los vigilantes? Vigilar nuestros sistemas de monitoreo
- Lo que el equipo SRE de Microservices está haciendo como evangelistas SRE
- Lo que es trabajar como un SRE de microservicios integrados
- El equipo de Merpay SRE: pasado y futuro
- SRE incrustado en Mercari
- Lo que el equipo de SRE quiere lograr con el equipo de desarrollo
- DevSecops: ¿Qué es y por qué está ganando impulso en la industria?
- ¿Cómo compartimos las habilidades de solución de problemas?
- Datadog Pashboard a escala con Terraform
Meta
Publicaciones de blog
- Aprovechando la IA para una respuesta eficiente de incidentes
- Mejora de los flujos de trabajo SLO de Meta con anotaciones de datos
- Slick: Adoptar SLOS para una mejor confiabilidad
- Más detalles sobre la interrupción del 4 de octubre
- Actualización sobre la interrupción del 4 de octubre
Videos
- Un enfoque de servicio al cliente para SRE
- Cómo (no) escalar un proyecto: una autopsia
- Lanzar el sitio de Python más grande del mundo cada 7 minutos
- Uso de ML para automatizar la categorización de errores dinámicos
Microsoft
Videos
- SLI y confiabilidad Dive Dive 'con David N. Blank-Edelman de Microsoft
- Ironies of Automation: una comedia en tres partes 'con Tanner Lund de Microsoft
- Ingeniería de software sostenible y SRES
- Estudiar sobre factores humanos y cultura del equipo para mejorar la fatiga del buscapersonas
- Priorizar la confianza al crear aplicaciones
- Creación de resiliencia: cómo aprender más de los incidentes
- Una historia de dos postmortems: una vista de factores humanos
- Disponibilidad: pensar más allá de los 9s
- Ironies of Automation: una comedia en tres partes
- Las operaciones sin servidor
Miro
Publicaciones de blog
- Prometheus Alta disponibilidad y estrategia de tolerancia a fallas, almacenamiento a largo plazo con Victoriametrics
- Administración de cientos de servidores para pruebas de carga: autoscalización, monitoreo personalizado, cultura DevOps
- Pruebas de carga confiables con respecto a matices inesperados
Monzo
Publicaciones de blog
- Autoscaling Monzo: cómo optimizamos nuestra plataforma para que sea el tamaño correcto
- Cómo hemos evolucionado de guardia en Monzo
- Cómo respondemos a los incidentes
- Cómo monitoreamos Monzo
Videos
- Finalmente, descubrimiento de servicios consistente
Herramientas
Netflix
Publicaciones de blog
- Lograr la observabilidad en los flujos de trabajo asíncronos
- Construyendo la infraestructura de rastreo distribuida de Netflix
- Lecciones de las herramientas de observabilidad del edificio en Netflix
- Edgar: Resolver misterios más rápido con la observabilidad
- Telltale: monitoreo de aplicaciones de Netflix simplificado
- Manteniendo la transmisión de clientes: la práctica centralizada de confiabilidad del sitio en Netflix
- Introducción de envío
- Aplicación de patrones de Netflix DevOps a Windows
- CHAP: plataforma de automatización del caos
- Comenzando la avalancha
- Netflix Chaos Monkey actualizado
- Ingeniería del caos actualizada
- Prueba de falla automatizada
- Desde el caos hasta el control: prueba la resistencia de la plataforma de descubrimiento de contenido de Netflix
- Presentación de Atlas: la plataforma de telemetría principal de Netflix
- Ajuste: prueba de inyección de falla
- Anunciando el mono de seguridad: monitoreo y análisis de configuración de seguridad de AWS
- Lecciones que Netflix aprendió de la interrupción de AWS
- SCRYER: el motor predictivo de escala automático de Netflix
Informes principales de incidentes y análisis
- Post-mortem del 22 de octubre de 2012 AWS degradación
Videos
- AWS RE: Invent 2019: A Day in the Life of a Netflix Ingeniero (NFX202)
- Cuando /bin /sh ataques: revisar "automatizar todas las cosas"
- ¿Cómo salieron bien las cosas? Aprender más de los incidentes
- Monitoreo y rastreo de infraestructura de datos de transmisión de @netflix
- Monitoreo real del rendimiento del usuario a escala de Netflix - Martin Spier
- AWS Re: Invent 2017 - Nora Jones describe por qué necesitamos más caos - Chaos Engineering, es decir
- AWS Re: Invent 2017: Realización del caos a la escala de Netflix (dev334)
- Netflix: Resiliencia multirregional y Ruta de Amazon 53
- Diseño de servicios para la resiliencia: lecciones de Netflix
- South Bay SRE Meetup - Netflix Cloud Performance Team
- AWS Re: Invent 2017: Un día en la vida de un ingeniero de Netflix III (ARC209)
- Cómo Netflix utiliza transmisiones Kinesis para monitorear aplicaciones y analizar miles de millones de flujos de tráfico
- Mastering Chaos: una guía de netflix para microservicios
- AWS Re: Invent 2016: De la resiliencia a la ubicuidad - #netflixeverywhere en la arquitectura global (ARC204)
- SRECON 2016 - Netflix: 190 países y 5 SRES centrales
- De Sys Admin a Netflix SRE
- Ingeniería y operaciones de resiliencia de aplicaciones en Netflix con Hystrix
- Inyectando falla en Netflix
- Lisa13 - Cómo Netflix abarca la falla para mejorar la resiliencia y maximizar la disponibilidad
- Gestión de incidentes en Netflix Velocity
Podcasts
- Ryan Kitchens sobre el aprendizaje de los incidentes en Netflix, el papel de SRE y los sistemas sociotecnicales
Herramientas
Nueva reliquia
Publicaciones de blog
- Definición de roles de software modernos: SRES en New Relic
- 10 cosas que todos deben saber sobre la ingeniería de confiabilidad del sitio (SRE)
- ¿Qué herramientas utilizan los ingenieros de confiabilidad del sitio?
- Un día en la vida de una nueva reliquia
- 7 hábitos de ingenieros de confiabilidad del sitio altamente exitosos
- Adoptando la práctica de SRE
- Uso de la observabilidad moderna para establecer una cultura basada en datos
Nubank
Publicaciones de blog
- Excelencia operativa de ingeniería, un caso de mejora continua
- Cómo tratamos los incidentes técnicos
- Cómo hacemos rotaciones de guardia en Nubank
- Cómo escamos nuestra plataforma de datos de manera eficiente y confiable
- Por qué matamos nuestra suite de prueba de extremo a extremo
- Ventrenda automática para modelos de aprendizaje automático: consejos y lecciones aprendidas
Opadai
Publicaciones de blog
- 20 de marzo interrupción de chatgpt: esto es lo que pasó
- Operai SRE y Scaling explican fácil.
- Escalar kubernetes a 2.500 nodos
- Escalar kubernetes a 7.500 nodos
- Escala de infraestructura de IA en OpenAI
Paypal
Publicaciones de blog
- Activado: Incidente #1234 (el proceso del incidente necesita la reparación)
- Implementación de la observabilidad en una malla de servicio
- PostgreSQL a escala: el esquema de la base de datos cambia sin tiempo de inactividad
- Escala GraphQL en PayPal
Videos
- Srecon Conversations Asia/Pacific con Karthikeyan Selvaraj y Rajesh Ramachandran, PayPal
- SRE entonces vs SRE ahora: un acto de equilibrio entre reflejos e instintos intuitivos en PayPal
- Detección de degradación del servicio y fallas a escala a través del procesamiento de registro distribuido
- Operando elasticsearch con facilidad a escala
- Garantizar la confiabilidad del sitio a través de controles de seguridad
Picnic
Publicaciones de blog
- Micrómetro y la pila de observabilidad moderna
- Monitoreo y observabilidad en picnic
Pinterest
Publicaciones de blog
- Asegurar una alta disponibilidad de anuncios de servicios de transmisión en tiempo real
- Mejorar la eficiencia y reducir el tiempo de ejecución utilizando la optimización de lectura S3
- Escala Kubernetes con seguridad en Pinterest
- Lo que aprendimos de un incidente de la aplicación iOS ooms
- Cómo diseñamos nuestro sistema de integración continua para que sea más del 50% más rápido
- Simplificar las implementaciones web
- Actualización de métricas operativas de Pinterest
- Rastreo distribuido en Pinterest con nuevas herramientas de código abierto
- Escala automática pinterest
Videos
- Construir la propiedad del código accionable
- Evolución de herramientas de observabilidad en Pinterest
- Automatizar las actualizaciones del sistema operativo/plataforma para los propietarios de servicios
Cartero
Publicaciones de blog
- Aprenda cómo sus grupos de Kubernetes responden a la falla usando Gremlin y Grafana
Prezi
Publicaciones de blog
- Cómo evitar la interrupción global: las etiquetas de demonios migratorias sin problemas
- En busca de velocidad - depuración de elasticsearch rendimiento
- Prometeo en Prezi: reemplazo de 10 años de antipatrones
Sombrero rojo
Publicaciones de blog
- De OPS a SRE: Evolution of the OpenShift Dedicated Team
- 5 Prácticas ágiles Cada equipo de SRE debe adoptar
- 7 mejores prácticas para escribir operadores de Kubernetes: una perspectiva SRE
Juegos antidisturbios
Publicaciones de blog
- Las leyendas de Runeterra CI/CD Pipeline
- Estrategias para trabajar en sistemas inciertos
- Mejorar la experiencia del desarrollador para los servicios operativos
- Prueba de escalabilidad y carga para Valorant
- Aprovechando el Golang para el desarrollo y las operaciones de los juegos
- Caos controlado con pruebas de inyección de fallas
- Abajo la madriguera del conejo del monitoreo del rendimiento
- Perfil: el caso de los milisegundos faltantes
- Perfil: rendimiento del mundo real en la liga
- Perfil: optimización
- Perfil: medición y análisis
- Ejecución de servicios en línea en Riot: Parte I
- Ejecución de servicios en línea en Riot: Parte II
- Ejecución de servicios en línea en Riot: Parte III
- Ejecución de servicios en línea en Riot: Parte III: Parte deux
- Ejecución de servicios en línea en Riot: Parte IV
- Ejecución de servicios en línea en Riot: Parte V
- La evolución de la seguridad en Riot
- Ejecutar una tubería de prueba automatizada para la actualización del cliente de la liga
- Pruebas automatizadas para League of Legends
Salesforce
Publicaciones de blog
- Mirando el plano de control de Kubernetes para la tenencia múltiple
- Optimización de las redes de EKS para la escala
- Cero parcheo de nodo de tiempo de inactividad en un clúster de Kubernetes
- Cómo, no por qué: una alternativa a los cinco por encima de las post mortemas
- Un inyector sidecar genérico para Kubernetes
- Implementación de una estrategia de monitoreo para productos basados en microservicios
- 10 pasos para desarrollar un plan de respuesta a incidentes que realmente use
- Nuestro viaje a una tubería de registro casi perfecta
- Optimizar el rendimiento con los trabajadores web
- Tómese un momento para reenfocarse
Medios de Schibsted
Publicaciones de blog
- Ingeniería de confiabilidad para algunos de los 10 principales sitios en Escandinavia
Escribuamiento
Publicaciones de blog
- Aprendiendo de los incidentes: preparar el sidekiq listo para servir a mil millones de empleos
- Un testimonio para usar PagerDuty en Scribd
- Asignación de deber de buscapersonas a los desarrolladores
Shop
Publicaciones de blog
- Planificación de resiliencia para eventos de alto tráfico
- Planificación de capacidad a escala
- Uso de la gestión del tráfico DNS para agregar resistencia a los servicios de Shopify
- Cuatro pasos para crear pruebas efectivas del día del juego
- Implementación de Chatops en nuestro procedimiento de gestión de incidentes
- Statsd en Shopify
Videos
- Monitor de red: una historia de reconocer una brecha de observabilidad
- Espere lo inesperado: preparar a los equipos SRE para responder a fallas novedosas
- Matemáticas avanzadas de servilleta: Estimación del rendimiento del sistema desde los primeros principios
Apuestas y juegos en el cielo
Publicaciones de blog
- Es solo un cambio de monitoreo
- "¿Qué es lo peor que podría pasar?": Un ejemplo trabajado de cómo tratamos los incidentes en vivo
- Saliendo de las cenizas
- ¡Chocar! ¡Estallido! ¡Golpe! La práctica hace la perfección
- Rendimiento izquierdo a la derecha y centro
Flojo
Publicaciones de blog
- Incidente de Slack el 22-22-22
- Observabilidad de la infraestructura para cambiar la curva de gasto
- La interrupción de Slack el 4 de enero de 2021
- Un día terrible, horrible, no bueno, muy malo en Slack
- Despliegue en Slack
- DesasterPiece Theatre: Slack's Process for Accessable Chaos Engineering
Videos
- Floja en el borde
- Lo que rompe nuestros sistemas: una taxonomía de cisnes negros
Construcción de slalom
Publicaciones de blog
- Cómo implementar objetivos de nivel de servicio en una nueva RELIC APM
- Guía para principiantes de DevOps: cómo llegar a la industria
- Acciones de Github: más allá de CI/CD
- ¿Por qué no se ejecutan todas las pruebas en la tubería?
- Las muchas formas de ingeniería de confiabilidad del sitio
- Cómo construir un clúster Kubernetes seguro por defecto con una tubería básica de CI/CD en AWS
- Arquitecturas de gestión secreta: encontrar el equilibrio entre seguridad y complejidad
- Detección de solicitudes maliciosas con Keras y TensorFlow
- El Monolito de LEGO: una prueba de concepto de microservicio de monolito
- Administrar secretos con Hashicorp Bault
- Embalaje de aplicaciones de arranque de primavera para la implementación en Kubernetes
- Infraestructura inmutable y entrega continua en la nube
Nubes de sonido
Publicaciones de blog
- Cómo entregar con éxito los sistemas
- Construir una cultura saludable de guardia
- Alertar sobre SLOS como profesionales
- Despliegue sin duda con Canary
- Prometeo ha alcanzado la mayoría de edad: una reflexión sobre el desarrollo de un proyecto de código abierto
- Prometeo: Monitoreo en SoundCloud
- Lo que aprendí en un año como aprendiz de SRE
- Pruebas bajo la lente de aumento
Spotify
Publicaciones de blog
- Matt Clarke: ingeniero de infraestructura de backend senior
- Diseño de una mejor experiencia de Kubernetes para desarrolladores
- TechBytes: Lo que la industria pierde los incidentes y lo que puede hacer
- Infraestructura automatizada de respuesta a incidentes en GCP
Videos
- Rastreo, rápido y lento: excavar y mejorar el rendimiento de su servicio web
Squarespace
Publicaciones de blog
- Debajo del capó: garantizar la confiabilidad del sitio
Videos
- Empujando la fricción
- Cómo sre cuando todo ya está en llamas
- Estudio de caso: Implementación de SLOS para un nuevo servicio
- Creación de una cultura de revisión de código
Desbordamiento de la pila
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
Videos
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
Raya
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
Videos
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
Objetivo
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Tinder
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Twilio
Blog Posts
- Twilio SRE Gameday Template
Gorjeo
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Súper
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
Videos
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
Videos
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
Videos
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Gañido
Blog Posts
- The process: Implementing Yelp's failover strategy
Videos
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
Videos
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
Recursos
Libros
- ¡Nuevo! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
Eventos
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Otros recursos
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
Newsletters
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
Créditos
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
Colaboradores
Contribuir
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
Licencia
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.