Como eles são

Introdução
Como eles são como eles são um repositório de conhecimento com curadoria de melhores práticas, ferramentas, técnicas e cultura de engenharia de confiabilidade do local (SRE), adotadas pela principal tecnologia ou organizações que conhecem a tecnologia.
Inúmeras organizações freqüentemente compartilham suas idéias e conhecimentos, abrangendo as melhores práticas, ferramentas e técnicas que moldam sua cultura de engenharia. Eles fazem isso através de várias plataformas públicas, como blogs de engenharia, conferências e encontros. Esse repositório compila e apresenta o conteúdo coletado dessas fontes.
Tópicos
- Engenharia de confiabilidade do local
- Contratando e construindo equipes SRE
- Cultura sre
- DevOps
- Monitoramento e observabilidade
- Alerta
- Resposta de incidentes e post-mortem
- De plantão
- Testes em produção
- Engenharia do Caos
- Automação
- Desempenho
- Engenharia de plataforma
Organizações
Realizadores
Postagens do blog
- Entre no matadouro - construindo ferramentas de gitops 'à la carte'
- Escala de produção globalmente-o facelift de malha de serviço (Parte-1)
- Escala de produção globalmente - resolvendo problemas de observabilidade para desenvolvedores (Parte 2)
- Teste de carga Kubernetes: Construindo uma estrutura (Parte-1)
- Teste de carga Kubernetes: resolvendo gargalos e melhorando o desempenho (Parte 2)
Airbnb
Postagens do blog
- Gerenciamento de incidentes automatizados através do Slack
- Detectando vulnerabilidades com vulnura
- Estrutura de alerta no Airbnb
- Quando a nuvem fica escura - como a interrupção da Amazon afetou o Airbnb
- Plataforma de Automação Inteligente: Empoderando a IA Conversa e além no Airbnb
- Gestão secreta de produção no Airbnb
- Automatando a proteção de dados em escala, parte 1
- Automatando a proteção de dados em escala, parte 2
- Automatando a proteção de dados em escala, parte 3
- Cluster de Kubernetes dinâmicos no Airbnb
Algolia
Postagens do blog
- 30 de maio Incidente SSL
- Uma jornada para Sre
- CI/CDAY 2024: O que faz uma boa plataforma de CI/CD?
Cloud Alibaba
Postagens do blog
- Por que as principais empresas de Internet estão escolhendo o SRE em relação ao O&M tradicional?
- Arquitetura e práticas da plataforma em tempo real de Bilibili
Asana
Postagens do blog
- Como asana usa asana: resposta a incidentes de segurança
- Como Asana envia versões de aplicativos da web estáveis
- Análise do tempo de inatividade recente e o que estamos fazendo para evitar incidentes futuros
- Ambiente do desenvolvedor: alcançar a confiabilidade, tornando -se rápido para redefinir
- Três táticas de segurança para todo líder de TI considerar neste outono
Asos
Postagens do blog
- Jogando o jogo sem culpa
- Um dia na vida de… Cat S (Chefe de Engenharia de Confiabilidade)
- Uma jornada de desempenho do AKS: Parte 1 - dimensionando tudo
- Uma jornada de desempenho do AKS: Parte 2 - Rede de rede
- Cyber Security @ ASOS.com
- Operações de segurança 24x7
- As habilidades que procuramos na resposta a incidentes de segurança cibernética
Atlassiano
Postagens do blog
- Melhores práticas para gerenciamento de mudanças na era do DevOps
- Teste automatizado: 5 lições da equipe de Kubernetes da Atlassian na infraestrutura de teste como código
- Como exportar eventos de Kubernetes para observabilidade e alerta
- Modelo de post -mortem incidente
Backmarket
Postagens do blog
- Como o mercado de volta SRES preparado para a Black Friday
Baidu
Vídeos
- Detecção de anomalia em sinais de ouro
- NetRadar: Monitorando a Rede de Datacenter
- Deixe o caos começar - a engenharia do caos atende à segurança cibernética
Basecamp
Postagens do blog
- Dentro de um código Red: Network Edition
- Três interrupções no Basecamp. Uma semana. O que aconteceu?
- Basecamp 2 e Basecamp 3 Pesquisar relatório de interrupção
- Reduzindo escalações incidentes no Basecamp
Livros
Bloomberg
Vídeos
- Planejamento de capacidade e aprimoramento de desempenho com amostragem de referência de página
- Por que os Sres não podem se dar ao luxo de não fazer engenharia de caos
- Rastreando sistemas distribuídos em tempo real
- The Bloomberg Story: Construindo equipes SRE em uma organização "imensurável"
- Visibilidade para madeireiros (e outros serviços de baixo nível) - ver as árvores da floresta
Booking.com
Postagens do blog
- Como as equipes de confiabilidade e produto colaboram em booking.com
- Incidentes, correções e no dia seguinte
- Solução de problemas: uma jornada para o desconhecido
Vídeos
- SLOs para serviços intensivos em dados
- Benefícios de seguir a estrada menos percorrida com infraestrutura de contêineres
Capital um
Postagens do blog
- Automatize o monitoramento de aplicativos com folga
- Automatize a infraestrutura da AWS com o BOTO 3: AWS Health Check
- Arquitetura de banco de dados de nada compartilhado ativo-ativo
- Os 3 R's de Sres: Resiliência, Recuperação e Confiabilidade
- 5 etapas para preparar seu caos de aplicativo
- 4 cenários do mundo real que lêem como experimentos de engenharia do caos
- Abrace o caos… Engenharia
- 3 lições aprendidas com a implementação de engenharia do caos na Enterprise
- Um mergulho profundo em implantação azul/verde perfeita usando a AWS codedeploy
- Contêineres seguros do Docker requerem aplicativos seguros
- 4 etapas para emparelhar a nuvem e o DevOps para melhorar a resiliência
- Aplicativos prontos para contêineres com doze aplicativos de fator e arquitetura de microsserviços
- Implantando com confiança - minimize o risco, maximize a resiliência com as implantações Canárias na AWS
- Arquiteto para resiliência
- Caos contínuo - Introdução de engenharia de caos nas práticas do DevOps
- O Mon-Ipesto Parte 1: Métricas
Principais incidentes e relatórios de análise
- Informações sobre o incidente cibernético da Capital One
- Um estudo de caso da violação de dados Capital One
Vídeos
- Bancos em entrega contínua - Capital One
- Caos contínuo no DevOps - Capital One
- DevOps na Capital One: focando no pipeline e medição
- Automatizando o gerenciamento da saúde operacional das contas em nuvem em escala
Coinbase
Postagens do blog
- Pipeline de implantação segura da Coinbase de fornecimento aberto
Dazn
Postagens do blog
- Confiabilidade do local na Dazn
Dbs
Postagens do blog
- Apresentando na conferência SRE de Ithome: nossa jornada de transformação do DBS SRE até agora
- Desmistribuindo os sete mitos mais populares de engenharia de confiabilidade do site
- Como usar o SRE para cultivar uma cultura sem culpa no local de trabalho
- Engenharia de Confiabilidade do Site no banco DBS
- Automatando o gerenciamento de configuração em escala
- Como o DBS dissipou os mitos da engenharia do caos
- Duplo, trabalho duplo e problemas
Vídeos
- SRECON Conversas Ásia/Pacífico com Koon Seng Lim, DBS
DeepSource
Postagens do blog
- Replicação sem disco Redis: o quê, como, por que e as advertências
- Como configurar o Vault com Kubernetes
- Quebrando implantações de tempo de inatividade zero em Kubernetes
Dream11
Postagens do blog
- Implantação em escala: história por trás da plataforma de implantação azul-esverdeada do Dream11 'OneClick'.
- Aumentando a segurança e a confiança com a AWS WAFV2
- Lições aprendidas com a execução do GraphQL em escala
- Break Circuits, Save Kong?
- Encontrar ordem no caos: como automatizamos testes de desempenho com torque
- Mantendo lançamentos hiper-sônicos no Dream11
- Para dimensionar ou dimensionar? Veja como escalamos no Dream11
- Construindo análise escalável em tempo real, alerta e arquitetura de detecção de anomalias no Dream11
Dropbox
Postagens do blog
- Dropbox Engineering Career Framework - Engenheiro de Confiabilidade (SRE)
- Atlas: nossa jornada de um monólito python para uma plataforma gerenciada
- Monitorando aplicativos do servidor com vórtice
- Athena: nosso sistema automatizado de gerenciamento de saúde
- Interessado em se tornar um engenheiro de confiabilidade do site?
Vídeos
- Descobertos de serviço desafios em escala
eBay
Postagens do blog
- Resiliência e recuperação de desastres com Kafka
- Estudo de caso de SRE: Trialing uma JVM não heap fora da memória
- Estudo de caso SRE: desequilíbrio misterioso do tráfego
- Tempo de inatividade zero, implantação instantânea e reversão
- Como a plataforma de notificação do eBay usou injeção de falha de novas maneiras
Vídeo
- Madaari: ordenando os macacos
Jogos épicos
Vídeo
- AWS Re: Invent 2018: Epic Games usa a AWS para entregar o Fortnite a 200 milhões de jogadores
Etsy
Postagens do blog
- Melhorando a experiência de implantação de um aplicativo de dez anos
- Como o Etsy se preparou para volumes históricos de tráfego de férias em 2020
- Seu cérebro no progresso
- Guia de facilitação de interrogatório de Etsy para post -mortems sem culpa
- OpSweekly: Medindo a experiência de plantão com a classificação de alerta
- Interrupções desmistificadoras do site
- PostMortems sem culpa e uma cultura justa
- Meça qualquer coisa, meça tudo
Vídeos
- Velocity 09: John Allspaw e Paul Hammond, "10+ implanta PE
- Migrando um monólito para a nuvem
Expedia
Postagens do blog
- Automatizando padrões de desempenho
- Política de orçamento de erro - Parte 1 - Adoção no Grupo Expedia
- Política de orçamento de erro - Parte 2 - Práticas no Grupo Expedia
- Usando a injeção de falhas para melhorar a confiabilidade de nossa nova plataforma de tempo de execução
- Aprendendo com incidentes no Grupo Expedia
- Melhorando a experiência de carregamento da página inicial do VRBO
- Solução de problemas 502 Erros: Lista de verificação ECS
- Introdução com elasticsearch
- Tudo sobre istio-proxy 5xx problemas
- Automoscaling em Kubernetes: Por que o automóvel horizontal não funciona para mim?
- Como manter suas implantações de Kubernetes equilibradas em várias zonas
- Suas métricas de latência do DropWizard estão enganando você?
- O custo de 100% de confiabilidade
- Criando painéis de monitoramento
- Usando Bash para DevOps
Rapidamente
Vídeos
- SRE e Gerenciamento de produtos: como aumentar o nível de sua equipe (e carreira!) Pensando como um gerente de produto
- Engenharia de resiliência Mythbusting
G-Research
Postagens do blog
- Nossa jornada SRE em G-Research
- A jornada SRE continua
- OPENTSDB META CACH
Girando
Postagens do blog
- Como lidamos com incidentes no GetLoDound
- Evolução do nosso processo de entrega contínua
Github
Postagens do blog
- Como melhoramos a disponibilidade através da simplificação iterativa
- Como melhoramos o processamento de push no github
- Como o Github usa a fila de mesclagem para enviar centenas de mudanças todos os dias
- Corrigindo vulnerabilidades de segurança com IA
- Programa de Fundamentos de Engenharia do Github: como entregamos a disponibilidade, segurança e acessibilidade
- Como o Github usa ações e ações do GitHub maiores para construir e testar o github.com
- A jornada do Github Security Lab para divulgar 500 CVEs em projetos de código aberto
- A equipe CodeQL usa a IA para alimentar a detecção de vulnerabilidades no código
- Abordando os recentes problemas de disponibilidade do Github
- Construindo governança em toda a organização e reutilização para CI/CD e automação com ações do GitHub
- Permitindo implantações de ramificação por meio de edições com ações do GitHub
- Usando chatops para ajudar as ações de plantão engenheiros
- Particionando os bancos de dados relacionais do Github para lidar com a escala
- Aumentando a felicidade do desenvolvedor com a digitalização do código do github
- Por que (e como) o Github está adotando o OpenteleMetria
- Melhorando o grande desempenho monorepo no GitHub
- Confiabilidade da implantação no GitHub
- Melhorando como implantamos o Github
- Construindo a cultura de plantão no GitHub
- Reduzindo construções escamosas por 18x
- O papel em evolução das operações no DevOps
- Introdução com a Automação DevOps
- MySQL Alta disponibilidade no Github
Principais incidentes e relatórios de análise
- Relatório de disponibilidade do GitHub: agosto de 2024
- Relatório de disponibilidade do GitHub: julho de 2024
- Relatório de disponibilidade do GitHub: junho de 2024
- Relatório de disponibilidade do GitHub: maio de 2024
- Relatório de disponibilidade do GitHub: abril de 2024
- Relatório de disponibilidade do GitHub: março de 2024
- Relatório de disponibilidade do GitHub: fevereiro de 2024
- Relatório de disponibilidade do GitHub: janeiro de 2024
- Relatório de disponibilidade do GitHub: dezembro de 2023
- Relatório de disponibilidade do GitHub: novembro de 2023
- Relatório de disponibilidade do GitHub: outubro de 2023
- Relatório de disponibilidade do GitHub: setembro de 2023
- Relatório de disponibilidade do GitHub: agosto de 2023
- Relatório de disponibilidade do GitHub: julho de 2023
- Relatório de disponibilidade do GitHub: junho de 2023
- Relatório de disponibilidade do GitHub: maio de 2023
- Relatório de disponibilidade do GitHub: abril de 2023
- Relatório de disponibilidade do GitHub: março de 2023
- Relatório de disponibilidade do GitHub: fevereiro de 2023
- Relatório de disponibilidade do GitHub: janeiro de 2023
- Relatório de disponibilidade do GitHub: dezembro de 2022
- Relatório de disponibilidade do GitHub: novembro de 2022
- Relatório de disponibilidade do GitHub: outubro de 2022
- Relatório de disponibilidade do GitHub: setembro de 2022
- Relatório de disponibilidade do GitHub: agosto de 2022
- Relatório de disponibilidade do GitHub: julho de 2022
- Relatório de disponibilidade do GitHub: junho de 2022
- Relatório de disponibilidade do GitHub: maio de 2022
- Relatório de disponibilidade do GitHub: abril de 2022
- Relatório de disponibilidade do GitHub: março de 2022
- Relatório de disponibilidade do GitHub: fevereiro de 2022
- Relatório de disponibilidade do GitHub: janeiro de 2022
- Relatório de disponibilidade do GitHub: dezembro de 2021
- Relatório de disponibilidade do GitHub: novembro de 2021
- Relatório de disponibilidade do GitHub: outubro de 2021
- Relatório de disponibilidade do GitHub: setembro de 2021
- Relatório de disponibilidade do GitHub: agosto de 2021
- Relatório de disponibilidade do GitHub: julho de 2021
- Relatório de disponibilidade do GitHub: junho de 2021
- Relatório de disponibilidade do GitHub: maio de 2021
- Relatório de disponibilidade do GitHub: abril de 2021
- Relatório de disponibilidade do GitHub: março de 2021
- Relatório de disponibilidade do GitHub: fevereiro de 2021
- Relatório de disponibilidade do GitHub: janeiro de 2021
- Relatório de disponibilidade do GitHub: dezembro de 2020
- Relatório de disponibilidade do GitHub: novembro de 2020
- Relatório de disponibilidade do GitHub: agosto de 2020
- Relatório de disponibilidade do GitHub: julho de 2020
- Apresentando o relatório de disponibilidade do GitHub
- Interrupções do serviço de fevereiro
- 21 de outubro Análise pós-incidente
- 28 de fevereiro Relatório de incidentes de DDoS
- Relatório de incidentes: Divisão inadvertida do repositório privado
Vídeos
Gitlab
Postagens do blog
- Este SRE tentou lançar uma mudança de configuração do Haproxy. Você não vai acreditar no que aconteceu a seguir ...
- Minha semana sombreando um engenheiro de confiabilidade do site Gitlab
- ATUALIZAÇÃO: Elasticsearch Lições aprendidas para pesquisa global avançada
- Lições de iteração de uma nova equipe em infraestrutura
- Como nós otimizamos a infraestrutura gasta no Gitlab
- Como escalamos o processamento da carga de trabalho assíncronos em gitlab.com usando o sidekiq
- Inside Gitlab: como lançamos patches de software
- O que rastreando a falta de TCP Keepalives me ensinou sobre Docker, Golang e Gitlab
- Como usamos replicação atrasada para recuperação de desastres com PostgreSQL
Gocardless
Postagens do blog
- Implantando o software no Gocardless: Open Sourcing nosso tutorial de "começar"
- Como comprimimos pub/sub -mensagens e muito mais, economizando um monte de dinheiro
- Migrações de pós-grausql sem medo para trilhos
- Observabilidade no Gocardless: um conto de melhoria de desempenho da API
- Debugando o planejador de consulta PostGresql
- Migrações de pós -gres do tempo zero - as partes difíceis
- Em busca de desempenho - como raspamos 200ms de todas as solicitações de postagem
Principais incidentes e relatórios de análise
- Revisão do incidente: interrupção do serviço em 25 de outubro de 2020, expiração do Vault TLS
- Revisão de incidentes: API e interrupção do painel em 10 de outubro de 2017
Godaddy
Postagens do blog
- Kubernetes as implantações fechadas
- Kubernetes segredos externos
- Kubernetes - Uma introdução prática para desenvolvedores de aplicativos
- Um cliente node.js intuitivo para a API Kubernetes
Gojek
Postagens do blog
- Apresentando Skynet: Infraestrutura como código para Gojek
- Escalando nosso serviço de pesquisa geográfica para carga de 10x
- Por que juramos pela RCA
- Como atualizamos Kubernetes no GKE
- Como monitoramos o fluxo de ar Apache na produção
Goldman Sachs
Postagens do blog
- Jornada de observabilidade do Secdb
- Caos testando um aplicativo na AWS
- Previsão de interrupções na capacidade usando o aprendizado de máquina para reforçar a resiliência do aplicativo
- Fornecendo 99,9% de disponibilidade e tempos de resposta subsegunda com multiplexos de QI Sybase usando o Haproxy
- Construindo resiliência multi-region com a Amazon RDS e Amazon Aurora
- Permitindo grupos trino altamente disponíveis no Goldman Sachs
- Observabilidade em escala
- Infraestrutura e padrão da cadeia de comando
- Mobile Cicd com MacOS EC2
- Anunciando Catchit - Scanner Secreto do Código Fonte
- Construindo plataformas para engenharia de dados
Google
Postagens do blog
- Acelerando a resposta de incidentes usando IA generativa
- Armadilhas e padrões no gerenciamento de dependência de microsserviços
- Práticas e processos SRE
- Confiabilidade do site do google usando go
- Três meses, demanda 30x: como escalamos o Google se encontra durante o Covid-19
- SROURA DE ALGUMA SRE: Pubsub distribuído
- Como as equipes SRE estão organizadas e como começar
Vídeos
- Qual é a diferença entre DevOps e SRE? com Seth Vargo e Liz Fong-Jones do Google
- Orçamentos de risco e erro 'com Seth Vargo e Liz Fong-Jones do Google
- Automação pragmática 'com Max Luebbe do GCP
- Deve assistir! - Lista de reprodução do Google Sre Youtube
- Objetivos do nível de esmagamento: como o SRE pode ajudar a alinhar o trabalho técnico ao benefício do usuário
- Implementando consenso distribuído
- O SRE eu aspiro ser
- SRE aula da sala de aula, ou, como projetar um sistema distribuído confiável em 3 horas
- Zero Touch Prod: Para ambientes de produção mais seguros e seguros
- Todas as nossas idéias de ML são ruins (e devemos nos sentir mal)
- O mapa não é o território: como os SLOs nos desviam e o que podemos fazer sobre isso
- Implantando as melhores práticas de treinamento da SRE para a produção: como nós vencemos nosso programa de educação SRE
- Bigtable: uma jornada de binário para serviço e as lições aprendidas ao longo do caminho
- Instrumentação prática para observabilidade
- O que é ML Ops: Soluções e Melhores Práticas para DevOps of Production ML Services
- Relatório unificado da confiabilidade do serviço
- Como negociar a utilização do servidor e a latência da cauda
- Mantendo o equilíbrio: o carregamento em escala na Internet desmistificado
- Da caixa preta a uma quantidade conhecida: como criar serviços previsíveis e confiáveis baseados em ML
- Mindfulness em SRE: Monitoramento e alerta para si mesmo
- Automação pragmática
- Escala sublinear na prática: o projeto 1K SRE
- Estratégias para editar dados de produção
- A maldição da autonomia de Sre e como gerenciá -la
- Organizações de escala SRE: a jornada de 1 para muitas equipes
- SRE Classroom - Como projetar um sistema distribuído em 3 horas
- Usando PRDs e viagens de usuário para projetar ferramentas amigáveis
- Como o Google SRE e os desenvolvedores trabalham juntos
- SRECON21 - Experiências para SRE
Pegar
Postagens do blog
- Nossa jornada para a entrega contínua no Grab (Parte 1)
- Nossa jornada para a entrega contínua no Grab (Parte 2)
- Projetando sistemas resilientes: disjuntores ou tentativas? (Parte 1)
- Projetando sistemas resilientes: disjuntores ou tentativas? (Parte 2)
- Projetando sistemas resilientes além das tentativas (parte 3): padrões de arquitetura e engenharia de caos
- Orquestrando o caos usando a plataforma de experimentação de Grab
- Como projetamos o microsserviço das cotas para evitar o abuso de recursos
- Como escalamos nosso cache e tivemos uma boa noite de sono
Gramática
Postagens do blog
- Escala Infraestrutura da AWS para suportar várias regiões
- Operações de segurança em um ambiente da AWS
Gusto
Postagens do blog
- Nível de serviço Objetivos para a paz de espírito de plantão
- Pílulas de veneno de depuração de Sidekiq
Halodoc
Postagens do blog
- Engenharia de confiabilidade do site para aplicativos móveis nativos
Heroku
Postagens do blog
- As aventuras de Rendezvous na nova arquitetura de Heroku
- Resposta de incidentes no Heroku
IBM
Postagens do blog
- O que é engenharia de confiabilidade do site (SRE)?
- Ferramentas e soluções AIOPS
De fato
Postagens do blog
- Na verdade, Sre: um visual interno
- Sendo apenas confiável o suficiente
- Automatando o processo de liberação de de fato
- Sloth, uma ferramenta para induzir falhas de rede 'com preetha appan de dey.com
Vídeos
- Ainda estamos melhorando? Progresso em direção a operações mais seguras
De fato
Postagens do blog
- SRE Playbook - Guia Prático
Academia Khan
Postagens do blog
- Como a Khan Academy lidou com o tráfego de 2,5x com sucesso em uma semana
- Evoluindo nossa infraestrutura de conteúdo
LinkedIn
Postagens do blog
- Repensando as projeções de capacidade do local com o analisador de capacidade
- Insights sobre uma equipe SRE de produto no LinkedIn
- Contratando Sres no LinkedIn
- Atualização de código aberto: Escola de SRE
- Corrigindo regressões de desempenho do sistema de arquivos Linux
- Testes de produção com canários escuros
- Alertas inteligentes no terceiro, plataforma de monitoramento em tempo real do LinkedIn
- Iris Mobile: uma interface móvel de código aberto para gerenciamento de incidentes
- Linkedout: uma estrutura de injeção de falha no nível de solicitação
- Eliminando a labuta com testes de carga totalmente automatizados
- A composição de equipes SRE geograficamente distribuídas de sucesso: Parte 1
- A composição de equipes SRE geograficamente distribuídas de sucesso: Parte 2
- Estrela do projeto*: simplificar nosso processo de plantão
- Automatizando seu ONCALL: Fossor de fornecimento aberto e ASCII ETCH
- Engenharia de resiliência no LinkedIn com Projeto Waterbear
- Contratando Sres no LinkedIn, 2017
- Iris de fonte aberta e OnCall
- Construindo a cultura SRE no LinkedIn
- O fracasso não é uma opção
- MTTD e MTTR são fundamentais
- O que é medido é consertado
Vídeos
- Crescendo a equipe de confiabilidade do local no LinkedIn: a contratação é difícil - Greg Leffler
- 9 anos de fracasso: como os carros ruins de corrida me tornaram um SRE melhor
- Reduzindo a tempestade: como os avisos salvados salvam a fazenda
- Inconferência: Problemas não resolvidos em SRE
- Liderando sem gerenciar: tornar -se um líder técnico SRE
- Por que (meu) monitoramento é péssimo?
- Infraestrutura de previsão de tráfego e teste de estresse
- Mindfulidade coletiva para melhores decisões em SRE
- TCP - Arquitetura, aprimoramentos e ajustes
- Mais de 600 milhões de membros e centenas de micro serviços: como escalamos nosso sistema de monitoramento para acompanhar
- Entender as métricas de negócios pode torná -lo um SRE melhor
- Código-amarelo: Ajudando as operações e as equipes pesadas da maneira inteligente
- Diferenças nas implementações de SRE entre as empresas
Ferramentas
Loggi
Postagens do blog
- O modelo de gerente de lançamento
- Equipes SRE #8: LOGGI
LoveHolidays
Postagens do blog
- Rotamento dinâmico de alerta com Prometheus e AlertManager
- Fazendo LoveHolidays 18% mais rápido com HTTP/3
- Exibindo as melhores práticas em infraestrutura de autoatendimento com Terraform, Atlantis e Política como código
- Os 5 princípios que ajudaram
- Real em tempo real faz login com Grafana Loki por menos de US $ 1 por dia
Macquarie
Postagens do blog
- Nossa jornada de devSecops com Golang
- Configuração do pipeline como código com Kotlin
- DevOps e segregação de tarefas
- Macquarie abraça o DevOps
- Escalando uma plataforma Kubernetes em toda a empresa
Matéria mais
Postagens do blog
- Monitorando ambientes em nuvem em escala com Prometheus e Thanos
- Como usamos a preguiça para fazer monitoramento e alerta com Prometheus
Meituan (美团)
Postagens do blog
- O desenvolvimento e a prática do SRE na nuvem (云端的 云端的 SRE 发展与实践)
MERCARI
Postagens do blog
- Quem assiste os vigias? Ficando de olho em nossos sistemas de monitoramento
- O que a equipe de Microservices SRE está fazendo como evangelistas SRE
- Como é trabalhar como microsserviços incorporados SRE
- A equipe do Merpay SRE: passado e futuro
- SRE incorporado em Mercari
- O que a equipe SRE quer alcançar com a equipe de desenvolvimento
- DevSecops: O que é e por que está ganhando impulso na indústria?
- Como compartilhamos habilidades de solução de problemas
- Painel de Datadog em escala com Terraform
Meta
Postagens do blog
- Aproveitando a IA para resposta eficiente de incidentes
- Melhorando os fluxos de trabalho SLO da Meta com anotações de dados
- Slick: adotando SLOs para melhorar a confiabilidade
- Mais detalhes sobre a interrupção de 4 de outubro
- Atualização sobre a interrupção de 4 de outubro
Vídeos
- Uma abordagem de atendimento ao cliente para SRE
- Como (não) escalar um projeto: um post-mortem
- Liberando o maior site de Python do mundo a cada 7 minutos
- Usando ML para automatizar a categorização de erro dinâmico
Microsoft
Vídeos
- Sli & Confiabilidade Deep Dive 'com David N. Blank-Edelman da Microsoft
- Ironies of Automation: uma comédia em três partes 'com Tanner Lund of Microsoft
- Engenharia de Software Sustentável e SRES
- Estudo sobre fatores humanos e cultura de equipe para melhorar a fadiga do pager
- Priorizando a confiança ao criar aplicativos
- Construindo resiliência: como aprender mais com incidentes
- Uma história de dois post -mortem: uma visão de fatores humanos
- Disponibilidade - pensando além dos 9s
- Ironies of Automation: uma comédia em três partes
- O OPS no servidor sem servidor
Miro
Postagens do blog
- Prometheus Alta disponibilidade e estratégia de tolerância a falhas, armazenamento a longo prazo com vitorietrics
- Gerenciando centenas de servidores para teste de carga: autoscaling, monitoramento personalizado, cultura DevOps
- Teste de carga confiável com relação a nuances inesperadas
Monzo
Postagens do blog
- Monzo automático: como otimizamos nossa plataforma para ser o tamanho certo
- Como evoluímos de plantão em Monzo
- Como respondemos a incidentes
- Como monitoramos monzo
Vídeos
- Eventualmente, descoberta de serviço consistente
Ferramentas
Netflix
Postagens do blog
- Alcançar a observabilidade em fluxos de trabalho assíncronos
- Construindo a infraestrutura de rastreamento distribuída da Netflix
- Lições da construção de ferramentas de observabilidade na Netflix
- Edgar: resolvendo mistérios mais rapidamente com observabilidade
- Telltale: Monitoramento de aplicativos da Netflix simplificado
- Mantendo os clientes Streaming - a prática centralizada de confiabilidade do site na Netflix
- Introdução de Dispatch
- Aplicando padrões do Netflix DevOps ao Windows
- CHAP: Plataforma de automação do caos
- Começando a avalanche
- Netflix caos macaco atualizado
- Engenharia de caos atualizada
- Teste de falha automatizada
- Do caos ao controle - testando a resiliência da plataforma de descoberta de conteúdo da Netflix
- Apresentando Atlas: Plataforma de telemetria primária da Netflix
- Ajuste: teste de injeção de falha
- Anunciando o Security Monkey - Monitoramento e análise de configuração de segurança da AWS
- Lições que Netflix aprendeu com a interrupção da AWS
- Scryer: Motor de Escalagem Automática Preditiva da Netflix
Principais incidentes e relatórios de análise
- Post-mortem de 22 de outubro de 2012 AWS Degradação
Vídeos
- AWS Re: Invent 2019: Um dia na vida de um engenheiro da Netflix (NFX202)
- Quando /bin /sh ataques: revisitando "automatize todas as coisas"
- Como as coisas corriam certo? Aprendendo mais com incidentes
- Monitoramento e rastreamento @NETFLix Streaming Infraestrutura de dados
- Monitoramento real de desempenho do usuário na escala Netflix - Martin Spier
- AWS Re: Invent 2017 - Nora Jones descreve por que precisamos de mais caos - Chaos Engineering, ou seja,
- AWS Re: Invent 2017: Realizando o caos na escala Netflix (dev334)
- Netflix: resiliência multi-regional e Amazon Route 53
- Projetando serviços para resiliência: lições da Netflix
- South Bay Sre Meetup - Equipe de desempenho da Netflix Cloud
- AWS Re: Invent 2017: Um dia na vida de um Netflix Engineer III (ARC209)
- Como a Netflix usa fluxos de kinesis para monitorar aplicativos e analisar bilhões de fluxos de tráfego
- Chaos de domínio - um guia da Netflix para microsserviços
- AWS Re: Invent 2016: da resiliência à onipresença - #Netflixeverywhere Global Architecture (ARC204)
- SRECON 2016 - Netflix: 190 países e 5 sres centrais
- De Sys Admin a Netflix SRE
- Engenharia e Operações de Resiliência Aplicativa na Netflix com Hystrix
- Injeção de falha na Netflix
- LISA13 - Como a Netflix abrange a falha em melhorar a resiliência e maximizar a disponibilidade
- Gerenciamento de incidentes na velocidade da Netflix
Podcasts
- Ryan cozinha sobre o aprendizado de incidentes na Netflix, o papel de SRE e sistemas sociotécnicos
Ferramentas
Nova relíquia
Postagens do blog
- Definindo funções modernas de software: SRES na nova relíquia
- 10 coisas que todos precisam saber sobre a engenharia de confiabilidade do site (SRE)
- Quais ferramentas usam os engenheiros de confiabilidade do site?
- Um dia na vida de um novo SRE relíquia
- 7 hábitos de engenheiros de confiabilidade do site de grande sucesso
- Adotando a prática de SRE
- Usando a observabilidade moderna para estabelecer uma cultura orientada a dados
Nubank
Postagens do blog
- Excelência operacional de engenharia, um caso de melhoria contínua
- Como lidamos com incidentes técnicos
- Como fazemos rotações de plantão em Nubank
- Como escalamos nossa plataforma de dados de maneira eficiente e confiável
- Por que matamos nossa suíte de teste de ponta a ponta
- Reciclagem automática para modelos de aprendizado de máquina: dicas e lições aprendidas
Openai
Postagens do blog
- 20 de março Chatgpt interda: Aqui está o que aconteceu
- OpenAi SRE e Scaling explicaram facilmente.
- Escalando Kubernetes para 2.500 nós
- Escalando Kubernetes para 7.500 nós
- Escala de infraestrutura de IA no OpenAI
PayPal
Postagens do blog
- Acionado: incidente nº 1234 (o processo de incidente precisa de fixação)
- Implementando a observabilidade em uma malha de serviço
- PostgreSQL em escala: o esquema de banco de dados muda sem tempo de inatividade
- Sconing GraphQL no PayPal
Vídeos
- SRECON CONVERSAS ÁSIA/PACÍFICO COM KARTHIKEYAN SELVARAJ E RAJESH RAMACHANDRAN, PayPal
- SRE então vs SRE agora: um ato de equilíbrio entre reflexos e instintos intuitivos no PayPal
- Detectar degradação e falhas do serviço
- Elasticsearch Operating com facilidade em escala
- Garantir a confiabilidade do site através de controles de segurança
Piquenique
Postagens do blog
- Micrômetro e a pilha de observabilidade moderna
- Monitoramento e observabilidade no piquenique
Pinterest
Postagens do blog
- Garantir a alta disponibilidade de anúncios de serviços de streaming em tempo real
- Melhorando a eficiência e reduzindo o tempo de execução usando a otimização de leitura S3
- Escalando Kubernetes com garantia no Pinterest
- O que aprendemos com um incidente de ooms de aplicativos iOS
- Como projetamos nosso sistema de integração contínuo para ser mais de 50% mais rápido
- Simplificando a Web implanta
- Atualizando as métricas operacionais do Pinterest
- Rastreamento distribuído no Pinterest com novas ferramentas de código aberto
- Pinterest de escala automática
Vídeos
- Construindo a propriedade de código acionável
- Evolução das ferramentas de observabilidade no Pinterest
- Automatando atualizações do sistema operacional/plataforma para proprietários de serviços
Carteiro
Postagens do blog
- Saiba como seus clusters de Kubernetes respondem ao fracasso usando Gremlin e Grafana
Prezi
Postagens do blog
- Como evitar interrupções globais - migrando perfeitamente os rótulos de daemonset
- Em busca de velocidade - Debuging Elasticsearch Performance
- Prometheus em Prezi: substituindo 10 anos de anti-padrões
Chapéu vermelho
Postagens do blog
- De Ops a SRE: Evolução da equipe dedicada OpenShift
- 5 Práticas ágeis que toda equipe de SRE deve adotar
- 7 práticas recomendadas para escrever operadores de Kubernetes: uma perspectiva SRE
Jogos Riot
Postagens do blog
- As lendas do pipeline do RuneTerra CI/CD
- Estratégias para trabalhar em sistemas incertos
- Melhorando a experiência do desenvolvedor para serviços operacionais
- Escalabilidade e teste de carga para valorante
- Aproveitando Golang para o desenvolvimento e operações de jogos
- Caos controlado com teste de injeção de falha
- Na toca do coelho do monitoramento de desempenho
- Perfil: o caso dos milissegundos ausentes
- Profiling: desempenho do mundo real na liga
- Perfil: otimização
- Perfil: medição e análise
- Executando serviços on -line em Riot: Parte I
- Executando serviços on -line em Riot: Parte II
- Executando serviços on -line em Riot: Parte III
- Executando serviços on -line em Riot: Parte III: Parte Deux
- Executando serviços on -line em Riot: Parte IV
- Executando serviços on -line em Riot: Parte V
- A evolução da segurança no Riot
- Executando um pipeline de teste automatizado para a atualização do cliente da liga
- Testes automatizados para League of Legends
Salesforce
Postagens do blog
- Olhando para o plano de controle de Kubernetes para multi-cinema
- Otimizando a rede EKS para escala
- Nó de inatividade zero Patching em um cluster de Kubernetes
- Como, não por que: uma alternativa aos cinco porquês para post-mortems
- Um injetor de carco lateral genérico para Kubernetes
- Implementação de uma estratégia de monitoramento para produtos com base em microsserviços
- 10 etapas para desenvolver um plano de resposta a incidentes que você realmente usará
- Nossa jornada para um pipeline de madeira quase perfeito
- Otimizando o desempenho com trabalhadores da web
- Reserve um momento para reorientar
Mídia Schibsted
Postagens do blog
- Engenharia de confiabilidade para alguns dos 10 principais locais da Escandinávia
Scribd
Postagens do blog
- Aprendendo com os incidentes: preparando o Sidekiq para servir um bilhão de empregos
- Um depoimento para usar PagerDuty no Scribd
- Atribuindo o dever de pager aos desenvolvedores
Shopify
Postagens do blog
- Planejamento de resiliência para eventos de alto tráfego
- Planejamento de capacidade em escala
- Usando o gerenciamento de tráfego DNS para adicionar resiliência aos serviços do Shopify
- Quatro etapas para criar testes eficazes do dia do jogo
- Implementando Chatops em nosso procedimento de gerenciamento de incidentes
- STATSD no Shopify
Vídeos
- Monitor de rede: um conto de reconhecer uma lacuna de observabilidade
- Espere o inesperado: preparando equipes SRE para responder a novas falhas
- Matemática avançada de guardanapo: estimando o desempenho do sistema a partir dos primeiros princípios
Sky Betting and Gaming
Postagens do blog
- É apenas uma mudança de monitoramento
- “Qual é o pior que poderia acontecer?”: Um exemplo funcionado de como lidamos com incidentes vivos
- Levantando -se das cinzas
- Colidir! BANG! Wallop! A prática leva à perfeição
- Desempenho à esquerda e centro
Folga
Postagens do blog
- Incidente do Slack em 2-22-22
- Observabilidade da infraestrutura para mudar a curva de gastos
- A interrupção do Slack em 4 de janeiro de 2021
- Um dia terrível, horrível, sem boa e muito ruim no Slack
- Implanta no Slack
- Teatro de desastres: processo do Slack para engenharia de caos acessível
Vídeos
- Folga na borda
- O que quebra nossos sistemas: uma taxonomia de cisnes negros
Slalom Build
Postagens do blog
- Como implementar objetivos de nível de serviço em nova relíquias APM
- Guia para iniciantes para o DevOps: como transformá -lo na indústria
- Ações do Github: além do CI/CD
- Por que toda a automação de teste não é executada no pipeline?
- As muitas formas de engenharia de confiabilidade do local
- Como construir um cluster Secure por padrão Kubernetes com um pipeline básico de CI/CD na AWS
- Arquiteturas de gestão secreta: encontrando o equilíbrio entre segurança e complexidade
- Detectando pedidos maliciosos com Keras & Tensorflow
- O Monolito Lego - uma prova de conceito de microsserviço de monólito
- Gerenciando segredos usando Hashicorp Vault
- Embalagem Aplicativos de inicialização da mola para implantação em Kubernetes
- Infraestrutura imutável e entrega contínua na nuvem
Soundcloud
Postagens do blog
- Como entregar com sucesso os sistemas
- Construindo uma cultura saudável de plantão
- Alertando no SLS como profissionais
- Implantação de mão-de-obra com Canary
- Prometeu atingiu a maioridade-uma reflexão sobre o desenvolvimento de um projeto de código aberto
- Prometheus: Monitorando no SoundCloud
- O que aprendi em um ano como estagiário SRE
- Testes sob a lente de ampliação
Spotify
Postagens do blog
- Matt Clarke: engenheiro de infraestrutura de back -end sênior
- Projetando uma melhor experiência de Kubernetes para desenvolvedores
- Techbytes: O que a indústria sente falta dos incidentes e do que você pode fazer
- Infraestrutura automatizada de resposta a incidentes no GCP
Vídeos
- Rastrear, rápido e lento: cavar e melhorar o desempenho do seu serviço da web
Squarespace
Postagens do blog
- Sob o capô: garantir a confiabilidade do local
Vídeos
- Empurrando o atrito
- Como fazer quando tudo já está pegando fogo
- Estudo de caso: Implementando SLOs para um novo serviço
- Creating a Code Review Culture
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
Vídeos
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
Listra
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
Vídeos
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
Alvo
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Inflamável
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Twilio
Blog Posts
- Twilio SRE Gameday Template
Twitter
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Uber
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
Vídeos
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
Vídeos
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
Vídeos
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Yelp
Blog Posts
- The process: Implementing Yelp's failover strategy
Vídeos
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
Vídeos
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
Recursos
Livros
- Novo! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
Eventos
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Outros recursos
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
Boletins
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
Créditos
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
Colaboradores
Contribuir
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
Licença
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.