howtheysre descargar: cómo descargar el código fuente de howtheysre

Como son

Introducción

La forma en que se sientan cómo son un repositorio de conocimiento curado de las mejores prácticas, herramientas, técnicas y cultura de la Ingeniería de Confiabilidad del Sitio (SRE) adoptadas por la tecnología líder o las organizaciones expertas en tecnología.

Numerosas organizaciones frecuentemente comparten sus ideas y experiencia, abarcando las mejores prácticas, herramientas y técnicas que dan forma a su cultura de ingeniería. Lo hacen a través de varias plataformas públicas, como blogs de ingeniería, conferencias y reuniones. Este repositorio compila y presenta contenido recopilado de estas fuentes.

Temas

Ingeniería de confiabilidad del sitio
Contratación y construcción de equipos SRE
Cultura SRE
Devops
Monitoreo y observabilidad
Alerta
Respuesta de incidentes y post mortem
De guardia
Prueba en producción
Ingeniería del caos
Automatización
Actuación
Ingeniería de plataformas

Organizaciones

Triunfadores

Publicaciones de blog

Ingrese al matadero - edificio 'à la carta' Gitops Tooling
Escala de producción a nivel mundial: el lavado de cara de malla de servicio (parte-1)
Escala de producción a nivel mundial: resolver problemas de observabilidad para los desarrolladores (Parte 2)
Prueba de carga Kubernetes: construir un marco (parte-1)
Prueba de carga Kubernetes: resolución de cuellos de botella y mejora del rendimiento (Parte-2)

Airbnb

Publicaciones de blog

Gestión automatizada de incidentes a través de Slack
Detectar vulnerabilidades con vulntura
Alerta del marco en Airbnb
Cuando la nube se oscurece, cómo la interrupción de Amazon afectó a Airbnb
Plataforma de automatización inteligente: empoderamiento de IA conversacional y más allá en Airbnb
Gestión secreta de producción en Airbnb
Automatizar la protección de datos a escala, Parte 1
Automatizar la protección de datos a escala, Parte 2
Automatizar la protección de datos a escala, Parte 3
Escala dinámica de clúster de Kubernetes en Airbnb

Algolia

Publicaciones de blog

Incidente del 30 de mayo SSL
Un viaje a SRE
CI/CDAY 2024: ¿Qué hace una buena plataforma CI/CD?

Nube de alibaba

Publicaciones de blog

¿Por qué las principales compañías de Internet eligen SRE sobre el O&M tradicional?
Arquitectura y prácticas de la plataforma en tiempo real de Bilibili

Asana

Publicaciones de blog

Cómo ASANA usa Asana: respuesta a incidentes de seguridad
Cómo se lanza a Asana envía una aplicación web estable
Análisis de tiempo de inactividad reciente y lo que estamos haciendo para evitar futuros incidentes
Medio ambiente del desarrollador: lograr la confiabilidad al hacer que sea rápido restablecer
Tres tácticas de seguridad para que cada líder de TI considere este otoño

ASOS

Publicaciones de blog

Jugando el juego sin culpa
Un día en la vida de ... Cat S (Jefe de Ingeniería de Confiabilidad)
Un viaje de rendimiento de AKS: Parte 1 - dimensionamiento de todo
Un viaje de rendimiento de AKS: Parte 2 - Control
Cyber Security @ asos.com
Operaciones de seguridad 24x7
Las habilidades que buscamos en la respuesta a incidentes de seguridad cibernética

Atlassiano

Publicaciones de blog

Las mejores prácticas para la gestión del cambio en la era de DevOps
Pruebas automatizadas: 5 lecciones del equipo de Kubernetes de Atlassian sobre la infraestructura de pruebas como código
Cómo exportar eventos de Kubernetes para observabilidad y alerta
Plantilla de posmortem incidente

Cambio

Publicaciones de blog

Cómo se prepararon los SRES de Back Market para el Black Friday

Baidu

Videos

Detección de anomalías en señales de oro
Netradar: Monitoreo de la red de centros de datos
Deje que comience el caos: la ingeniería del caos se encuentra con ciberseguridad

Basecampamento

Publicaciones de blog

Dentro de un código rojo: edición de red
Tres cortes de Basecamp. Una semana. ¿Qué pasó?
Informe de interrupción de búsqueda de Basecamp 2 y Basecamp 3
Reducir las escaladas de incidentes en Basecamp

Libros

Dar forma a

Bloomberg

Videos

Planificación de capacidad y mejora del rendimiento con muestreo de referencia de página
Por qué SRES no puede permitirse el lujo de no hacer el caos Engineering
Rastreo de sistemas distribuidos en tiempo real
The Bloomberg Story: Construyendo equipos SRE en una organización "inconmensurable"
Visibilidad en registradores (y otros servicios de bajo nivel): ver los árboles del bosque

Booking.com

Publicaciones de blog

Cómo colaboran cómo la fiabilidad y los equipos de productos en Booking.com
Incidentes, soluciones y el día posterior
Solución de problemas: un viaje a lo desconocido

Videos

SLOS para servicios intensivos en datos
Beneficios de tomar la carretera menos transitada con infraestructura de contenedores

Capital uno

Publicaciones de blog

Automatizar el monitoreo de la aplicación con Slack
Automatice la infraestructura de AWS con Boto 3: AWS Health Check
Arquitectura de base de datos de nada activo activo
Las 3 R de SRE: Resiliencia, recuperación y confiabilidad
5 pasos para preparar el caos de su aplicación
4 escenarios del mundo real que se leen como experimentos de ingeniería del caos
Abrazar el caos ... ingeniería
3 Lecciones aprendidas al implementar el caos Engineering en Enterprise
Una inmersión profunda en una implementación azul/verde sin costura utilizando AWS CodeDeploy
Los contenedores de Docker seguros requieren aplicaciones seguras
4 pasos para combinar la nube y los devops para mejorar la resiliencia
Aplicaciones listas para contenedores con una aplicación de doce factores y arquitectura de microservicios
Implementación con confianza: minimice el riesgo, maximice la resiliencia con las implementaciones canarias en AWS
Arquitectura de resiliencia
Caos continuo: introducir la ingeniería del caos en las prácticas de DevOps
El lunes-ifesto Parte 1: Métricas

Informes principales de incidentes y análisis

Información sobre el incidente cibernético Capital One
Un estudio de caso de la violación de datos de Capital One

Videos

Banca en entrega continua - Capital One
Caos continuo en DevOps - Capital One
DevOps en Capital One: centrarse en la tubería y la medición
Automatizar la gestión de la salud operativa de las cuentas en la nube a escala

Coinbase

Publicaciones de blog

Open Sourcing de la tubería de implementación segura de Coinbase

Dazn

Publicaciones de blog

Confiabilidad del sitio en Dazn

DBS

Publicaciones de blog

Presentación en la conferencia SRE de ITHome: nuestro viaje de transformación de DBS SRE hasta ahora
Desacredito los siete mitos de ingeniería de confiabilidad del sitio más popular
Cómo usar SRE para cultivar una cultura sin culpa en el lugar de trabajo
Ingeniería de confiabilidad del sitio en DBS Bank
Automatizar la gestión de la configuración a escala
Cómo DBS disipó los mitos de la ingeniería del caos
Doble, doble trabajo y problemas

Videos

Srecon Conversations Asia/Pacific con Koon Seng Lim, DBS

Profundo

Publicaciones de blog

Replicación sin disco de Redis: qué, cómo, por qué y las advertencias
Cómo configurar la bóveda con Kubernetes
Desglosando las implementaciones de tiempo de inactividad cero en Kubernetes

Sueño11

Publicaciones de blog

Implementación a escala: Historia detrás de la plataforma de implementación azul verde de Dream11 'OneClick'.
Mejorar la seguridad y la confianza con AWS WAFV2
Lecciones aprendidas al ejecutar GraphQL a escala
¿Romper circuitos, salvar a Kong?
Encontrar orden en el caos: cómo automatizamos las pruebas de rendimiento con torque
Mantener lanzamientos hiper-sónicos en Dream11
Para escalar o escalar? Así es como escala en Dream11
Construyendo análisis de análisis, alertas y detección de anomalías escalables en Dream11 en Dream11

Dropbox

Publicaciones de blog

Dropbox Engineering Career Framework - Ingeniero de confiabilidad (SRE)
Atlas: Nuestro viaje desde un monolito de Python a una plataforma administrada
Monitoreo de aplicaciones del servidor con Vortex
Athena: nuestro sistema automatizado de gestión de salud de compilación
¿Interesado en convertirse en ingeniero de confiabilidad del sitio?

Videos

Desafíos de descubrimiento de servicios a escala

eBay

Publicaciones de blog

Resiliencia y recuperación de desastres con Kafka
Estudio de caso de SRE: Trieging de un problema de fuera de la memoria sin altura
Estudio de caso de SRE: desequilibrio misterioso de tráfico
Tiempo de inactividad cero, implementación instantánea y reversión
Cómo la plataforma de notificación de eBay utilizó la inyección de fallas de nuevas maneras

Video

Madaari: ordenando a los monos

Juegos épicos

Video

AWS Re: Invent 2018: Epic Games usa AWS para entregar Fortnite a 200 millones de jugadores

Etc.

Publicaciones de blog

Mejorar la experiencia de implementación de una aplicación de diez años
Cómo se preparó Etsy para volúmenes históricos de tráfico de vacaciones en 2020
Tu cerebro sobre el progreso
Guía de facilitación de informes de Etsy para las autopsias sin culpa
Opsweekly: Medición de la experiencia de guardia con la clasificación de alerta
Interrupciones del sitio desmitificadoras
PostMortems sin culpa y una cultura justa
Medir cualquier cosa, medir todo

Videos

Velocity 09: John Allspaw y Paul Hammond, "10+ implementa PE
Migrar un monolito a la nube

Expedia

Publicaciones de blog

Automatizar los estándares de rendimiento
Política de presupuesto de error - Parte 1 - Adopción en Expedia Group
Política de presupuesto de error - Parte 2 - Prácticas en Expedia Group
Uso de la inyección de fallas para mejorar la confiabilidad de nuestra nueva plataforma de tiempo de ejecución
Aprender de los incidentes en Expedia Group
Mejora de la experiencia de carga de la página de inicio de VRBO
Solución de problemas de 502 errores: Lista de verificación de ECS
Comenzando con ElasticSearch
Todo sobre los problemas de Istio-Proxy 5xx
Autoscaling en Kubernetes: ¿Por qué no me funciona el autoscaler de Pod horizontal?
Cómo mantener sus implementaciones de Kubernetes equilibradas en varias zonas
¿Tus métricas de latencia de Dropwizard te engañan?
El costo del 100% de confiabilidad
Creación de paneles de monitoreo
Usando Bash para DevOps

Rápidamente

Videos

SRE y Gestión de productos: cómo subir de nivel a su equipo (¡y carrera!) Pensando como un gerente de producto
Ingeniería de resiliencia Mythbusting

G-research

Publicaciones de blog

Nuestro viaje de SRE en G-Research
El viaje SRE continúa
Opentsdb meta cache: compensaciones para el rendimiento

Adivinar

Publicaciones de blog

Cómo manejamos los incidentes en Getaround
Evolución de nuestro proceso de entrega continua

Github

Publicaciones de blog

Cómo mejoramos la disponibilidad a través de la simplificación iterativa
Cómo mejoramos el procesamiento de push en GitHub
Cómo Github usa la cola de fusión para enviar cientos de cambios todos los días
Arreglar las vulnerabilidades de seguridad con IA
Programa de Fundamentos de Ingeniería de GitHub: cómo entregamos la disponibilidad, la seguridad y la accesibilidad
Cómo GitHub utiliza acciones y acciones de Github más grandes corredores para construir y probar GitHub.com
El viaje del laboratorio de seguridad de Github para revelar 500 CVE en proyectos de código abierto
El equipo de CodeQL utiliza la detección de AI a Power Vulnerabilidad en el código
Abordar los recientes problemas de disponibilidad de Github
Construir gobernanza en toda la organización y reutilizar para CI/CD y automatización con acciones de GitHub
Habilitar las implementaciones de ramas a través de emisores con acciones de GitHub
Uso de Chatops para ayudar a las acciones de guardia de los ingenieros
División de las bases de datos relacionales de Github para manejar la escala
Aumento de la felicidad del desarrollador con el escaneo de código GitHub
¿Por qué (y cómo) GitHub está adoptando Opentelemety
Mejora de un gran rendimiento de Monorepo en Github
Confiabilidad de la implementación en GitHub
Mejora de cómo implementamos GitHub
Construyendo cultura de guardia en Github
Reduciendo las construcciones escamadas por 18x
El papel en evolución de las operaciones en DevOps
Comenzando con la automatización DevOps
MySQL alta disponibilidad en Github

Informes principales de incidentes y análisis

Informe de disponibilidad de GitHub: agosto de 2024
Informe de disponibilidad de GitHub: julio de 2024
Informe de disponibilidad de GitHub: junio de 2024
Informe de disponibilidad de GitHub: mayo de 2024
Informe de disponibilidad de GitHub: abril de 2024
Informe de disponibilidad de GitHub: marzo de 2024
Informe de disponibilidad de GitHub: febrero de 2024
Informe de disponibilidad de GitHub: enero de 2024
Informe de disponibilidad de GitHub: diciembre de 2023
Informe de disponibilidad de GitHub: noviembre de 2023
Informe de disponibilidad de GitHub: octubre de 2023
Informe de disponibilidad de GitHub: septiembre de 2023
Informe de disponibilidad de GitHub: agosto de 2023
Informe de disponibilidad de GitHub: julio de 2023
Informe de disponibilidad de GitHub: junio de 2023
Informe de disponibilidad de GitHub: mayo de 2023
Informe de disponibilidad de GitHub: abril de 2023
Informe de disponibilidad de GitHub: marzo de 2023
Informe de disponibilidad de GitHub: febrero de 2023
Informe de disponibilidad de GitHub: enero de 2023
Informe de disponibilidad de GitHub: diciembre de 2022
Informe de disponibilidad de GitHub: noviembre de 2022
Informe de disponibilidad de GitHub: octubre de 2022
Informe de disponibilidad de GitHub: septiembre de 2022
Informe de disponibilidad de GitHub: agosto de 2022
Informe de disponibilidad de GitHub: julio de 2022
Informe de disponibilidad de GitHub: junio de 2022
Informe de disponibilidad de GitHub: mayo de 2022
Informe de disponibilidad de GitHub: abril de 2022
Informe de disponibilidad de GitHub: marzo de 2022
Informe de disponibilidad de GitHub: febrero de 2022
Informe de disponibilidad de GitHub: enero de 2022
Informe de disponibilidad de GitHub: diciembre de 2021
Informe de disponibilidad de GitHub: noviembre de 2021
Informe de disponibilidad de GitHub: octubre de 2021
Informe de disponibilidad de GitHub: septiembre de 2021
Informe de disponibilidad de GitHub: agosto de 2021
Informe de disponibilidad de GitHub: julio de 2021
Informe de disponibilidad de GitHub: junio de 2021
Informe de disponibilidad de GitHub: mayo de 2021
Informe de disponibilidad de GitHub: abril de 2021
Informe de disponibilidad de GitHub: marzo de 2021
Informe de disponibilidad de GitHub: febrero de 2021
Informe de disponibilidad de GitHub: enero de 2021
Informe de disponibilidad de GitHub: diciembre de 2020
Informe de disponibilidad de GitHub: noviembre de 2020
Informe de disponibilidad de GitHub: agosto de 2020
Informe de disponibilidad de GitHub: julio de 2020
Presentación del informe de disponibilidad de GitHub
Disrupciones del servicio de febrero Análisis posterior a la incidente
21 de octubre Análisis posterior a la incidente
Informe del incidente del 28 de febrero
Informe de incidentes: divulgación inadvertida del repositorio privado

Videos

Uno a uno sre

Gitlab

Publicaciones de blog

Este SRE intentó lanzar un cambio de configuración de HaProxy. No creerás lo que pasó después ...
Mi semana sombreando a un ingeniero de confiabilidad del sitio Gitlab
ACTUALIZACIÓN: Lecciones de Elasticsearch aprendidas para la búsqueda global avanzada
Lecciones en iteración de un nuevo equipo en infraestructura
Cómo optimizamos el gasto de infraestructura en GitLab
Cómo escalamos el procesamiento de la carga de trabajo de Async en gitlab.com usando Sidekiq
Inside Gitlab: cómo lanzamos parches de software
Qué seguimiento de TCP TCP Keepalives me enseñó sobre Docker, Golang y Gitlab
Cómo utilizamos la replicación retrasada para la recuperación ante desastres con PostgreSQL

Sin gocard

Publicaciones de blog

Implementación de software en GOCARDless: Open-Sourcing nuestro tutorial de "comenzar"
Cómo comprimimos mensajes pub/sub y más, ahorrando una carga de dinero
Migraciones de PostgreSQL sin miedo para rieles
Observabilidad en Gocardless: una historia de mejora del rendimiento de API
Depuración del planificador de consultas PostgreSQL
Migraciones de postgras de tiempo cero hacia abajo: las partes duras
En busca de rendimiento: cómo afeitamos 200 ms de cada solicitud de publicación

Informes principales de incidentes y análisis

Revisión de incidentes: interrupción del servicio el 25 de octubre de 2020, Vault TLS Experty
Revisión de incidentes: API y salida del tablero el 10 de octubre de 2017

Mierda

Publicaciones de blog

Implementaciones cerradas de Kubernetes
Kubernetes secretos externos
Kubernetes: una introducción práctica para desarrolladores de aplicaciones
Un cliente nodo.js intuitivo para la API de Kubernetes

Gojek

Publicaciones de blog

Introducción de Skynet: Infraestructura como código para gojek
Escala de nuestro servicio Geo-Search para una carga 10x
Por qué juro por el RCA
Cómo actualizamos Kubernetes en GKE
Cómo monitoreamos el flujo de aire Apache en producción

Goldman Sachs

Publicaciones de blog

Viaje de observabilidad de SECDB
Caos Prueba de una aplicación en AWS
Previsión de interrupciones de capacidad utilizando el aprendizaje automático para reforzar la capacidad de recuperación de la aplicación
Proporcionando el 99.9% de disponibilidad y tiempos de respuesta sub-segundo con los multiplexes de IQ Sybase mediante el uso de HaProxy
Construyendo resiliencia múltiple con Amazon RDS y Amazon Aurora
Habilitando clústeres de trino altamente disponibles en Goldman Sachs
Observabilidad a escala
Infraestructura y patrón de cadena de comando
CICD móvil con macOS EC2
Anunciando Catchit - Código fuente Secret Scanner
Plataformas de construcción para ingeniería de datos

Google

Publicaciones de blog

Acelerar la respuesta de incidentes utilizando IA generativa
Dificultades y patrones en la gestión de dependencias de microservicios
SRE Prácticas y procesos
La confiabilidad del sitio de Google usando Go
Tres meses, 30x demanda: cómo escalamos Google Meet durante Covid-19
SRE Classroom: pubsub distribuido
Cómo se organizan los equipos SRE y cómo comenzar

Videos

¿Cuál es la diferencia entre DevOps y SRE? con Seth Vargo y Liz Fong-Jones de Google
Presupuestos de riesgo y error con Seth Vargo y Liz Fong-Jones de Google
Automatización pragmática 'con Max Luebbe de GCP
¡Debe mirar! - Lista de reproducción de YouTube de Google SRE
OBJETIVOS DEL NIVEL SQUISH: Cómo SRE puede ayudar a alinear el trabajo técnico con el beneficio del usuario
Implementación de consenso distribuido
El sre que aspiro a ser
SRE Classroom, o cómo diseñar un sistema distribuido confiable en 3 horas
Cero Touch Prod: hacia entornos de producción más seguros y seguros
Todas nuestras ideas de ML son malas (y deberíamos sentirnos mal)
El mapa no es el territorio: cómo los Slos nos llevan por mal camino y lo que podemos hacer al respecto
Implementación de las mejores prácticas de capacitación de SRE a la producción: cómo se convirtió en nuestro programa de educación SRE
Bigtable: un viaje de binario a servicio y las lecciones aprendidas en el camino
Instrumentación práctica para la observabilidad
¿Qué es ML OPS? Soluciones y mejores prácticas para los servicios de ML DevOps of Production
Informes unificados de confiabilidad del servicio
Cómo intercambiar la utilización del servidor y la latencia de la cola
Manteniendo el equilibrio: la carga de carga a escala de Internet desmitificada
Desde la caja negra hasta una cantidad conocida: cómo construir servicios basados en ML predecibles y confiables
Mindfulness en SRE: monitoreo y alerta por uno mismo
Automatización pragmática
Escala sublínea en la práctica: el proyecto 1K SRE
Estrategias para editar datos de producción
La maldición de la autonomía de SRE y cómo administrarla
Escalado de organizaciones SRE: el viaje de 1 a muchos equipos
Aula SRE: cómo diseñar un sistema distribuido en 3 horas
Uso de PRDS y viajes de usuario para diseñar herramientas fáciles de usar
Cómo Google SRE y los desarrolladores trabajan juntos
SRECON21 - Experimentos para SRE

Agarrar

Publicaciones de blog

Nuestro viaje a la entrega continua en Grab (Parte 1)
Nuestro viaje a la entrega continua en Grab (Parte 2)
Diseño de sistemas resilientes: ¿interruptores de circuitos o reintentos? (Parte 1)
Diseño de sistemas resilientes: ¿interruptores de circuitos o reintentos? (Parte 2)
Diseño de sistemas resilientes más allá de reintentos (Parte 3): patrones de arquitectura e ingeniería del caos
Orquestación del caos utilizando la plataforma de experimentación de Grab
Cómo diseñamos el microservicio de cuotas para prevenir el abuso de recursos
Cómo escalamos nuestro caché y dormimos bien

Gramática

Publicaciones de blog

Escalar la infraestructura de AWS para admitir múltiples regiones
Operaciones de seguridad en un entorno de AWS

Entusiasmo

Publicaciones de blog

Objetivos de nivel de servicio para la tranquilidad de guardia
Depuración de píldoras venenosas

Halodoc

Publicaciones de blog

Ingeniería de confiabilidad del sitio para aplicaciones móviles nativas

Heroku

Publicaciones de blog

The Adventures of Rendezvous en la nueva arquitectura de Heroku
Respuesta de incidentes en Heroku

IBM

Publicaciones de blog

¿Qué es la ingeniería de confiabilidad del sitio (SRE)?
Herramientas y soluciones de AIOPS

En efecto

Publicaciones de blog

De hecho, SRE: un aspecto interno
Ser lo suficientemente confiable
Automatizar el proceso de lanzamiento de hecho
Sloth, una herramienta para inducir fallas en la red 'con Preetha Appan de Date.com

Videos

¿Estamos mejorando todavía? Progreso hacia operaciones más seguras

En efecto

Publicaciones de blog

SRE Playbook - Guía práctica

Academia Khan

Publicaciones de blog

Cómo Khan Academy manejó con éxito el tráfico de 2.5x en una semana
Evolucionando nuestra infraestructura de contenido

Publicaciones de blog

Repensar las proyecciones de capacidad del sitio con el analizador de capacidad
Insights sobre un equipo de producto SRE en LinkedIn
Contratación de SRES en LinkedIn
Actualización de código abierto: Escuela de SRE
Corrección de regresiones de rendimiento del sistema de archivos Linux
Pruebas de producción con canarios oscuros
Alertas inteligentes en ThirdEye, la plataforma de monitoreo en tiempo real de LinkedIn
Iris Mobile: una interfaz móvil de código abierto para la gestión de incidentes
LinkedOut: un marco de inyección de falla de nivel de solicitud de solicitud
Eliminar el trabajo con pruebas de carga totalmente automatizadas
La composición de equipos SRE de distribución geográfica exitosas: Parte 1
La composición de equipos SRE de distribución geográfica exitosas: Parte 2
Project Star*: optimizando nuestro proceso de guardia
Automatización de su Oncall: abierta fossor de abastecimiento y grabado ASCII
Ingeniería de resiliencia en LinkedIn con Project Waterbear
Contratación de SRES en LinkedIn, 2017
Abierto de abastecimiento Iris y Oncall
Construyendo la cultura SRE en LinkedIn
El fracaso no es una opción
MTTD y MTTR son clave
Lo que se mide se soluciona

Videos

Cultivar el equipo de confiabilidad del sitio en LinkedIn: contratar es difícil - Greg Leffler
9 años de fracaso: cómo las carreras de autos de mierda me hicieron un mejor SRE
Meteorización de la tormenta: cómo las advertencias tempranas salvan la granja
No conferencia: problemas sin resolver en SRE
Liderar sin administrar: convertirse en un líder técnico de SRE
¿Por qué (mi) monitoreo apesta?
Previsión de tráfico e infraestructura de prueba de estrés
Mindfulness colectiva para mejores decisiones en SRE
TCP: arquitectura, mejoras y ajuste
Más de 600 millones de miembros y cientos de micro servicios: cómo escalamos nuestro sistema de monitoreo para mantener
Comprender las métricas comerciales puede hacerle un mejor SRE
Código amarillo: ayudar a las operaciones de los mejores equipos de la manera inteligente
Diferencias en las implementaciones de SRE en las empresas

Herramientas

De guardia

Loggi

Publicaciones de blog

El modelo de administrador de lanzamiento
Equipos SRE #8: Loggi

Loveholidays

Publicaciones de blog

Enrutamiento de alerta dinámica con Prometheus y AlertManager
Haciendo LoveHolidays 18% más rápido con HTTP/3
Hacer cumplir las mejores prácticas sobre la infraestructura de autoservicio con Terraform, Atlantis y Política como código
Los 5 principios que ayudaron a escalar LoveHolidays
REALTIO RECURSA FILLAMENTE CON GRAFANA LOKI por menos de $ 1 por día

Macquarie

Publicaciones de blog

Nuestro viaje de Devsecops con Golang
Configuración de la tubería como código con kotlin
DevOps y segregación de deberes
Macquarie abraza DevOps
Escalar una plataforma Kubernetes en toda la empresa

Más importante

Publicaciones de blog

Monitoreo de entornos en la nube a escala con Prometheus y Thanos
Cómo usamos Sloth para monitorear y alertar SLO con Prometheus

Meituan (美团)

Publicaciones de blog

El desarrollo y la práctica de SRE en la nube (云端的 SRE 发展与实践)

Mercari

Publicaciones de blog

¿Quién mira a los vigilantes? Vigilar nuestros sistemas de monitoreo
Lo que el equipo SRE de Microservices está haciendo como evangelistas SRE
Lo que es trabajar como un SRE de microservicios integrados
El equipo de Merpay SRE: pasado y futuro
SRE incrustado en Mercari
Lo que el equipo de SRE quiere lograr con el equipo de desarrollo
DevSecops: ¿Qué es y por qué está ganando impulso en la industria?
¿Cómo compartimos las habilidades de solución de problemas?
Datadog Pashboard a escala con Terraform

Publicaciones de blog

Aprovechando la IA para una respuesta eficiente de incidentes
Mejora de los flujos de trabajo SLO de Meta con anotaciones de datos
Slick: Adoptar SLOS para una mejor confiabilidad
Más detalles sobre la interrupción del 4 de octubre
Actualización sobre la interrupción del 4 de octubre

Videos

Un enfoque de servicio al cliente para SRE
Cómo (no) escalar un proyecto: una autopsia
Lanzar el sitio de Python más grande del mundo cada 7 minutos
Uso de ML para automatizar la categorización de errores dinámicos

Microsoft

Videos

SLI y confiabilidad Dive Dive 'con David N. Blank-Edelman de Microsoft
Ironies of Automation: una comedia en tres partes 'con Tanner Lund de Microsoft
Ingeniería de software sostenible y SRES
Estudiar sobre factores humanos y cultura del equipo para mejorar la fatiga del buscapersonas
Priorizar la confianza al crear aplicaciones
Creación de resiliencia: cómo aprender más de los incidentes
Una historia de dos postmortems: una vista de factores humanos
Disponibilidad: pensar más allá de los 9s
Ironies of Automation: una comedia en tres partes
Las operaciones sin servidor

Miro

Publicaciones de blog

Prometheus Alta disponibilidad y estrategia de tolerancia a fallas, almacenamiento a largo plazo con Victoriametrics
Administración de cientos de servidores para pruebas de carga: autoscalización, monitoreo personalizado, cultura DevOps
Pruebas de carga confiables con respecto a matices inesperados

Monzo

Publicaciones de blog

Autoscaling Monzo: cómo optimizamos nuestra plataforma para que sea el tamaño correcto
Cómo hemos evolucionado de guardia en Monzo
Cómo respondemos a los incidentes
Cómo monitoreamos Monzo

Videos

Finalmente, descubrimiento de servicios consistente

Herramientas

Respuesta

Netflix

Publicaciones de blog

Lograr la observabilidad en los flujos de trabajo asíncronos
Construyendo la infraestructura de rastreo distribuida de Netflix
Lecciones de las herramientas de observabilidad del edificio en Netflix
Edgar: Resolver misterios más rápido con la observabilidad
Telltale: monitoreo de aplicaciones de Netflix simplificado
Manteniendo la transmisión de clientes: la práctica centralizada de confiabilidad del sitio en Netflix
Introducción de envío
Aplicación de patrones de Netflix DevOps a Windows
CHAP: plataforma de automatización del caos
Comenzando la avalancha
Netflix Chaos Monkey actualizado
Ingeniería del caos actualizada
Prueba de falla automatizada
Desde el caos hasta el control: prueba la resistencia de la plataforma de descubrimiento de contenido de Netflix
Presentación de Atlas: la plataforma de telemetría principal de Netflix
Ajuste: prueba de inyección de falla
Anunciando el mono de seguridad: monitoreo y análisis de configuración de seguridad de AWS
Lecciones que Netflix aprendió de la interrupción de AWS
SCRYER: el motor predictivo de escala automático de Netflix

Informes principales de incidentes y análisis

Post-mortem del 22 de octubre de 2012 AWS degradación

Videos

AWS RE: Invent 2019: A Day in the Life of a Netflix Ingeniero (NFX202)
Cuando /bin /sh ataques: revisar "automatizar todas las cosas"
¿Cómo salieron bien las cosas? Aprender más de los incidentes
Monitoreo y rastreo de infraestructura de datos de transmisión de @netflix
Monitoreo real del rendimiento del usuario a escala de Netflix - Martin Spier
AWS Re: Invent 2017 - Nora Jones describe por qué necesitamos más caos - Chaos Engineering, es decir
AWS Re: Invent 2017: Realización del caos a la escala de Netflix (dev334)
Netflix: Resiliencia multirregional y Ruta de Amazon 53
Diseño de servicios para la resiliencia: lecciones de Netflix
South Bay SRE Meetup - Netflix Cloud Performance Team
AWS Re: Invent 2017: Un día en la vida de un ingeniero de Netflix III (ARC209)
Cómo Netflix utiliza transmisiones Kinesis para monitorear aplicaciones y analizar miles de millones de flujos de tráfico
Mastering Chaos: una guía de netflix para microservicios
AWS Re: Invent 2016: De la resiliencia a la ubicuidad - #netflixeverywhere en la arquitectura global (ARC204)
SRECON 2016 - Netflix: 190 países y 5 SRES centrales
De Sys Admin a Netflix SRE
Ingeniería y operaciones de resiliencia de aplicaciones en Netflix con Hystrix
Inyectando falla en Netflix
Lisa13 - Cómo Netflix abarca la falla para mejorar la resiliencia y maximizar la disponibilidad
Gestión de incidentes en Netflix Velocity

Podcasts

Ryan Kitchens sobre el aprendizaje de los incidentes en Netflix, el papel de SRE y los sistemas sociotecnicales

Herramientas

Despacho

Nueva reliquia

Publicaciones de blog

Definición de roles de software modernos: SRES en New Relic
10 cosas que todos deben saber sobre la ingeniería de confiabilidad del sitio (SRE)
¿Qué herramientas utilizan los ingenieros de confiabilidad del sitio?
Un día en la vida de una nueva reliquia
7 hábitos de ingenieros de confiabilidad del sitio altamente exitosos
Adoptando la práctica de SRE
Uso de la observabilidad moderna para establecer una cultura basada en datos

Nubank

Publicaciones de blog

Excelencia operativa de ingeniería, un caso de mejora continua
Cómo tratamos los incidentes técnicos
Cómo hacemos rotaciones de guardia en Nubank
Cómo escamos nuestra plataforma de datos de manera eficiente y confiable
Por qué matamos nuestra suite de prueba de extremo a extremo
Ventrenda automática para modelos de aprendizaje automático: consejos y lecciones aprendidas

Opadai

Publicaciones de blog

20 de marzo interrupción de chatgpt: esto es lo que pasó
Operai SRE y Scaling explican fácil.
Escalar kubernetes a 2.500 nodos
Escalar kubernetes a 7.500 nodos
Escala de infraestructura de IA en OpenAI

Paypal

Publicaciones de blog

Activado: Incidente #1234 (el proceso del incidente necesita la reparación)
Implementación de la observabilidad en una malla de servicio
PostgreSQL a escala: el esquema de la base de datos cambia sin tiempo de inactividad
Escala GraphQL en PayPal

Videos

Srecon Conversations Asia/Pacific con Karthikeyan Selvaraj y Rajesh Ramachandran, PayPal
SRE entonces vs SRE ahora: un acto de equilibrio entre reflejos e instintos intuitivos en PayPal
Detección de degradación del servicio y fallas a escala a través del procesamiento de registro distribuido
Operando elasticsearch con facilidad a escala
Garantizar la confiabilidad del sitio a través de controles de seguridad

Picnic

Publicaciones de blog

Micrómetro y la pila de observabilidad moderna
Monitoreo y observabilidad en picnic

Publicaciones de blog

Asegurar una alta disponibilidad de anuncios de servicios de transmisión en tiempo real
Mejorar la eficiencia y reducir el tiempo de ejecución utilizando la optimización de lectura S3
Escala Kubernetes con seguridad en Pinterest
Lo que aprendimos de un incidente de la aplicación iOS ooms
Cómo diseñamos nuestro sistema de integración continua para que sea más del 50% más rápido
Simplificar las implementaciones web
Actualización de métricas operativas de Pinterest
Rastreo distribuido en Pinterest con nuevas herramientas de código abierto
Escala automática pinterest

Videos

Construir la propiedad del código accionable
Evolución de herramientas de observabilidad en Pinterest
Automatizar las actualizaciones del sistema operativo/plataforma para los propietarios de servicios

Cartero

Publicaciones de blog

Aprenda cómo sus grupos de Kubernetes responden a la falla usando Gremlin y Grafana

Prezi

Publicaciones de blog

Cómo evitar la interrupción global: las etiquetas de demonios migratorias sin problemas
En busca de velocidad - depuración de elasticsearch rendimiento
Prometeo en Prezi: reemplazo de 10 años de antipatrones

Sombrero rojo

Publicaciones de blog

De OPS a SRE: Evolution of the OpenShift Dedicated Team
5 Prácticas ágiles Cada equipo de SRE debe adoptar
7 mejores prácticas para escribir operadores de Kubernetes: una perspectiva SRE

Juegos antidisturbios

Publicaciones de blog

Las leyendas de Runeterra CI/CD Pipeline
Estrategias para trabajar en sistemas inciertos
Mejorar la experiencia del desarrollador para los servicios operativos
Prueba de escalabilidad y carga para Valorant
Aprovechando el Golang para el desarrollo y las operaciones de los juegos
Caos controlado con pruebas de inyección de fallas
Abajo la madriguera del conejo del monitoreo del rendimiento
Perfil: el caso de los milisegundos faltantes
Perfil: rendimiento del mundo real en la liga
Perfil: optimización
Perfil: medición y análisis
Ejecución de servicios en línea en Riot: Parte I
Ejecución de servicios en línea en Riot: Parte II
Ejecución de servicios en línea en Riot: Parte III
Ejecución de servicios en línea en Riot: Parte III: Parte deux
Ejecución de servicios en línea en Riot: Parte IV
Ejecución de servicios en línea en Riot: Parte V
La evolución de la seguridad en Riot
Ejecutar una tubería de prueba automatizada para la actualización del cliente de la liga
Pruebas automatizadas para League of Legends

Salesforce

Publicaciones de blog

Mirando el plano de control de Kubernetes para la tenencia múltiple
Optimización de las redes de EKS para la escala
Cero parcheo de nodo de tiempo de inactividad en un clúster de Kubernetes
Cómo, no por qué: una alternativa a los cinco por encima de las post mortemas
Un inyector sidecar genérico para Kubernetes
Implementación de una estrategia de monitoreo para productos basados en microservicios
10 pasos para desarrollar un plan de respuesta a incidentes que realmente use
Nuestro viaje a una tubería de registro casi perfecta
Optimizar el rendimiento con los trabajadores web
Tómese un momento para reenfocarse

Medios de Schibsted

Publicaciones de blog

Ingeniería de confiabilidad para algunos de los 10 principales sitios en Escandinavia

Escribuamiento

Publicaciones de blog

Aprendiendo de los incidentes: preparar el sidekiq listo para servir a mil millones de empleos
Un testimonio para usar PagerDuty en Scribd
Asignación de deber de buscapersonas a los desarrolladores

Shop

Publicaciones de blog

Planificación de resiliencia para eventos de alto tráfico
Planificación de capacidad a escala
Uso de la gestión del tráfico DNS para agregar resistencia a los servicios de Shopify
Cuatro pasos para crear pruebas efectivas del día del juego
Implementación de Chatops en nuestro procedimiento de gestión de incidentes
Statsd en Shopify

Videos

Monitor de red: una historia de reconocer una brecha de observabilidad
Espere lo inesperado: preparar a los equipos SRE para responder a fallas novedosas
Matemáticas avanzadas de servilleta: Estimación del rendimiento del sistema desde los primeros principios

Apuestas y juegos en el cielo

Publicaciones de blog

Es solo un cambio de monitoreo
"¿Qué es lo peor que podría pasar?": Un ejemplo trabajado de cómo tratamos los incidentes en vivo
Saliendo de las cenizas
¡Chocar! ¡Estallido! ¡Golpe! La práctica hace la perfección
Rendimiento izquierdo a la derecha y centro

Flojo

Publicaciones de blog

Incidente de Slack el 22-22-22
Observabilidad de la infraestructura para cambiar la curva de gasto
La interrupción de Slack el 4 de enero de 2021
Un día terrible, horrible, no bueno, muy malo en Slack
Despliegue en Slack
DesasterPiece Theatre: Slack's Process for Accessable Chaos Engineering

Videos

Floja en el borde
Lo que rompe nuestros sistemas: una taxonomía de cisnes negros

Construcción de slalom

Publicaciones de blog

Cómo implementar objetivos de nivel de servicio en una nueva RELIC APM
Guía para principiantes de DevOps: cómo llegar a la industria
Acciones de Github: más allá de CI/CD
¿Por qué no se ejecutan todas las pruebas en la tubería?
Las muchas formas de ingeniería de confiabilidad del sitio
Cómo construir un clúster Kubernetes seguro por defecto con una tubería básica de CI/CD en AWS
Arquitecturas de gestión secreta: encontrar el equilibrio entre seguridad y complejidad
Detección de solicitudes maliciosas con Keras y TensorFlow
El Monolito de LEGO: una prueba de concepto de microservicio de monolito
Administrar secretos con Hashicorp Bault
Embalaje de aplicaciones de arranque de primavera para la implementación en Kubernetes
Infraestructura inmutable y entrega continua en la nube

Nubes de sonido

Publicaciones de blog

Cómo entregar con éxito los sistemas
Construir una cultura saludable de guardia
Alertar sobre SLOS como profesionales
Despliegue sin duda con Canary
Prometeo ha alcanzado la mayoría de edad: una reflexión sobre el desarrollo de un proyecto de código abierto
Prometeo: Monitoreo en SoundCloud
Lo que aprendí en un año como aprendiz de SRE
Pruebas bajo la lente de aumento

Spotify

Publicaciones de blog

Matt Clarke: ingeniero de infraestructura de backend senior
Diseño de una mejor experiencia de Kubernetes para desarrolladores
TechBytes: Lo que la industria pierde los incidentes y lo que puede hacer
Infraestructura automatizada de respuesta a incidentes en GCP

Videos

Rastreo, rápido y lento: excavar y mejorar el rendimiento de su servicio web

Squarespace

Publicaciones de blog

Debajo del capó: garantizar la confiabilidad del sitio

Videos

Empujando la fricción
Cómo sre cuando todo ya está en llamas
Estudio de caso: Implementación de SLOS para un nuevo servicio
Creación de una cultura de revisión de código

Desbordamiento de la pila

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

Videos

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

Raya

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

Videos

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

Objetivo

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Tinder

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Twilio

Blog Posts

Twilio SRE Gameday Template

Gorjeo

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Súper

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

Videos

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

Videos

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

Videos

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Gañido

Blog Posts

The process: Implementing Yelp's failover strategy

Videos

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

Videos

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

Recursos

Libros

¡Nuevo! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering