Download de howtheysre - howtheysre Download de código -fonte

Como eles são

Introdução

Como eles são como eles são um repositório de conhecimento com curadoria de melhores práticas, ferramentas, técnicas e cultura de engenharia de confiabilidade do local (SRE), adotadas pela principal tecnologia ou organizações que conhecem a tecnologia.

Inúmeras organizações freqüentemente compartilham suas idéias e conhecimentos, abrangendo as melhores práticas, ferramentas e técnicas que moldam sua cultura de engenharia. Eles fazem isso através de várias plataformas públicas, como blogs de engenharia, conferências e encontros. Esse repositório compila e apresenta o conteúdo coletado dessas fontes.

Tópicos

Engenharia de confiabilidade do local
Contratando e construindo equipes SRE
Cultura sre
DevOps
Monitoramento e observabilidade
Alerta
Resposta de incidentes e post-mortem
De plantão
Testes em produção
Engenharia do Caos
Automação
Desempenho
Engenharia de plataforma

Organizações

Realizadores

Postagens do blog

Entre no matadouro - construindo ferramentas de gitops 'à la carte'
Escala de produção globalmente-o facelift de malha de serviço (Parte-1)
Escala de produção globalmente - resolvendo problemas de observabilidade para desenvolvedores (Parte 2)
Teste de carga Kubernetes: Construindo uma estrutura (Parte-1)
Teste de carga Kubernetes: resolvendo gargalos e melhorando o desempenho (Parte 2)

Airbnb

Postagens do blog

Gerenciamento de incidentes automatizados através do Slack
Detectando vulnerabilidades com vulnura
Estrutura de alerta no Airbnb
Quando a nuvem fica escura - como a interrupção da Amazon afetou o Airbnb
Plataforma de Automação Inteligente: Empoderando a IA Conversa e além no Airbnb
Gestão secreta de produção no Airbnb
Automatando a proteção de dados em escala, parte 1
Automatando a proteção de dados em escala, parte 2
Automatando a proteção de dados em escala, parte 3
Cluster de Kubernetes dinâmicos no Airbnb

Algolia

Postagens do blog

30 de maio Incidente SSL
Uma jornada para Sre
CI/CDAY 2024: O que faz uma boa plataforma de CI/CD?

Cloud Alibaba

Postagens do blog

Por que as principais empresas de Internet estão escolhendo o SRE em relação ao O&M tradicional?
Arquitetura e práticas da plataforma em tempo real de Bilibili

Asana

Postagens do blog

Como asana usa asana: resposta a incidentes de segurança
Como Asana envia versões de aplicativos da web estáveis
Análise do tempo de inatividade recente e o que estamos fazendo para evitar incidentes futuros
Ambiente do desenvolvedor: alcançar a confiabilidade, tornando -se rápido para redefinir
Três táticas de segurança para todo líder de TI considerar neste outono

Asos

Postagens do blog

Jogando o jogo sem culpa
Um dia na vida de… Cat S (Chefe de Engenharia de Confiabilidade)
Uma jornada de desempenho do AKS: Parte 1 - dimensionando tudo
Uma jornada de desempenho do AKS: Parte 2 - Rede de rede
Cyber Security @ ASOS.com
Operações de segurança 24x7
As habilidades que procuramos na resposta a incidentes de segurança cibernética

Atlassiano

Postagens do blog

Melhores práticas para gerenciamento de mudanças na era do DevOps
Teste automatizado: 5 lições da equipe de Kubernetes da Atlassian na infraestrutura de teste como código
Como exportar eventos de Kubernetes para observabilidade e alerta
Modelo de post -mortem incidente

Backmarket

Postagens do blog

Como o mercado de volta SRES preparado para a Black Friday

Baidu

Vídeos

Detecção de anomalia em sinais de ouro
NetRadar: Monitorando a Rede de Datacenter
Deixe o caos começar - a engenharia do caos atende à segurança cibernética

Basecamp

Postagens do blog

Dentro de um código Red: Network Edition
Três interrupções no Basecamp. Uma semana. O que aconteceu?
Basecamp 2 e Basecamp 3 Pesquisar relatório de interrupção
Reduzindo escalações incidentes no Basecamp

Livros

Moldar -se

Bloomberg

Vídeos

Planejamento de capacidade e aprimoramento de desempenho com amostragem de referência de página
Por que os Sres não podem se dar ao luxo de não fazer engenharia de caos
Rastreando sistemas distribuídos em tempo real
The Bloomberg Story: Construindo equipes SRE em uma organização "imensurável"
Visibilidade para madeireiros (e outros serviços de baixo nível) - ver as árvores da floresta

Booking.com

Postagens do blog

Como as equipes de confiabilidade e produto colaboram em booking.com
Incidentes, correções e no dia seguinte
Solução de problemas: uma jornada para o desconhecido

Vídeos

SLOs para serviços intensivos em dados
Benefícios de seguir a estrada menos percorrida com infraestrutura de contêineres

Capital um

Postagens do blog

Automatize o monitoramento de aplicativos com folga
Automatize a infraestrutura da AWS com o BOTO 3: AWS Health Check
Arquitetura de banco de dados de nada compartilhado ativo-ativo
Os 3 R's de Sres: Resiliência, Recuperação e Confiabilidade
5 etapas para preparar seu caos de aplicativo
4 cenários do mundo real que lêem como experimentos de engenharia do caos
Abrace o caos… Engenharia
3 lições aprendidas com a implementação de engenharia do caos na Enterprise
Um mergulho profundo em implantação azul/verde perfeita usando a AWS codedeploy
Contêineres seguros do Docker requerem aplicativos seguros
4 etapas para emparelhar a nuvem e o DevOps para melhorar a resiliência
Aplicativos prontos para contêineres com doze aplicativos de fator e arquitetura de microsserviços
Implantando com confiança - minimize o risco, maximize a resiliência com as implantações Canárias na AWS
Arquiteto para resiliência
Caos contínuo - Introdução de engenharia de caos nas práticas do DevOps
O Mon-Ipesto Parte 1: Métricas

Principais incidentes e relatórios de análise

Informações sobre o incidente cibernético da Capital One
Um estudo de caso da violação de dados Capital One

Vídeos

Bancos em entrega contínua - Capital One
Caos contínuo no DevOps - Capital One
DevOps na Capital One: focando no pipeline e medição
Automatizando o gerenciamento da saúde operacional das contas em nuvem em escala

Coinbase

Postagens do blog

Pipeline de implantação segura da Coinbase de fornecimento aberto

Dazn

Postagens do blog

Confiabilidade do local na Dazn

Dbs

Postagens do blog

Apresentando na conferência SRE de Ithome: nossa jornada de transformação do DBS SRE até agora
Desmistribuindo os sete mitos mais populares de engenharia de confiabilidade do site
Como usar o SRE para cultivar uma cultura sem culpa no local de trabalho
Engenharia de Confiabilidade do Site no banco DBS
Automatando o gerenciamento de configuração em escala
Como o DBS dissipou os mitos da engenharia do caos
Duplo, trabalho duplo e problemas

Vídeos

SRECON Conversas Ásia/Pacífico com Koon Seng Lim, DBS

DeepSource

Postagens do blog

Replicação sem disco Redis: o quê, como, por que e as advertências
Como configurar o Vault com Kubernetes
Quebrando implantações de tempo de inatividade zero em Kubernetes

Dream11

Postagens do blog

Implantação em escala: história por trás da plataforma de implantação azul-esverdeada do Dream11 'OneClick'.
Aumentando a segurança e a confiança com a AWS WAFV2
Lições aprendidas com a execução do GraphQL em escala
Break Circuits, Save Kong?
Encontrar ordem no caos: como automatizamos testes de desempenho com torque
Mantendo lançamentos hiper-sônicos no Dream11
Para dimensionar ou dimensionar? Veja como escalamos no Dream11
Construindo análise escalável em tempo real, alerta e arquitetura de detecção de anomalias no Dream11

Dropbox

Postagens do blog

Dropbox Engineering Career Framework - Engenheiro de Confiabilidade (SRE)
Atlas: nossa jornada de um monólito python para uma plataforma gerenciada
Monitorando aplicativos do servidor com vórtice
Athena: nosso sistema automatizado de gerenciamento de saúde
Interessado em se tornar um engenheiro de confiabilidade do site?

Vídeos

Descobertos de serviço desafios em escala

eBay

Postagens do blog

Resiliência e recuperação de desastres com Kafka
Estudo de caso de SRE: Trialing uma JVM não heap fora da memória
Estudo de caso SRE: desequilíbrio misterioso do tráfego
Tempo de inatividade zero, implantação instantânea e reversão
Como a plataforma de notificação do eBay usou injeção de falha de novas maneiras

Vídeo

Madaari: ordenando os macacos

Jogos épicos

Vídeo

AWS Re: Invent 2018: Epic Games usa a AWS para entregar o Fortnite a 200 milhões de jogadores

Etsy

Postagens do blog

Melhorando a experiência de implantação de um aplicativo de dez anos
Como o Etsy se preparou para volumes históricos de tráfego de férias em 2020
Seu cérebro no progresso
Guia de facilitação de interrogatório de Etsy para post -mortems sem culpa
OpSweekly: Medindo a experiência de plantão com a classificação de alerta
Interrupções desmistificadoras do site
PostMortems sem culpa e uma cultura justa
Meça qualquer coisa, meça tudo

Vídeos

Velocity 09: John Allspaw e Paul Hammond, "10+ implanta PE
Migrando um monólito para a nuvem

Expedia

Postagens do blog

Automatizando padrões de desempenho
Política de orçamento de erro - Parte 1 - Adoção no Grupo Expedia
Política de orçamento de erro - Parte 2 - Práticas no Grupo Expedia
Usando a injeção de falhas para melhorar a confiabilidade de nossa nova plataforma de tempo de execução
Aprendendo com incidentes no Grupo Expedia
Melhorando a experiência de carregamento da página inicial do VRBO
Solução de problemas 502 Erros: Lista de verificação ECS
Introdução com elasticsearch
Tudo sobre istio-proxy 5xx problemas
Automoscaling em Kubernetes: Por que o automóvel horizontal não funciona para mim?
Como manter suas implantações de Kubernetes equilibradas em várias zonas
Suas métricas de latência do DropWizard estão enganando você?
O custo de 100% de confiabilidade
Criando painéis de monitoramento
Usando Bash para DevOps

Rapidamente

Vídeos

SRE e Gerenciamento de produtos: como aumentar o nível de sua equipe (e carreira!) Pensando como um gerente de produto
Engenharia de resiliência Mythbusting

G-Research

Postagens do blog

Nossa jornada SRE em G-Research
A jornada SRE continua
OPENTSDB META CACH

Girando

Postagens do blog

Como lidamos com incidentes no GetLoDound
Evolução do nosso processo de entrega contínua

Github

Postagens do blog

Como melhoramos a disponibilidade através da simplificação iterativa
Como melhoramos o processamento de push no github
Como o Github usa a fila de mesclagem para enviar centenas de mudanças todos os dias
Corrigindo vulnerabilidades de segurança com IA
Programa de Fundamentos de Engenharia do Github: como entregamos a disponibilidade, segurança e acessibilidade
Como o Github usa ações e ações do GitHub maiores para construir e testar o github.com
A jornada do Github Security Lab para divulgar 500 CVEs em projetos de código aberto
A equipe CodeQL usa a IA para alimentar a detecção de vulnerabilidades no código
Abordando os recentes problemas de disponibilidade do Github
Construindo governança em toda a organização e reutilização para CI/CD e automação com ações do GitHub
Permitindo implantações de ramificação por meio de edições com ações do GitHub
Usando chatops para ajudar as ações de plantão engenheiros
Particionando os bancos de dados relacionais do Github para lidar com a escala
Aumentando a felicidade do desenvolvedor com a digitalização do código do github
Por que (e como) o Github está adotando o OpenteleMetria
Melhorando o grande desempenho monorepo no GitHub
Confiabilidade da implantação no GitHub
Melhorando como implantamos o Github
Construindo a cultura de plantão no GitHub
Reduzindo construções escamosas por 18x
O papel em evolução das operações no DevOps
Introdução com a Automação DevOps
MySQL Alta disponibilidade no Github

Principais incidentes e relatórios de análise

Relatório de disponibilidade do GitHub: agosto de 2024
Relatório de disponibilidade do GitHub: julho de 2024
Relatório de disponibilidade do GitHub: junho de 2024
Relatório de disponibilidade do GitHub: maio de 2024
Relatório de disponibilidade do GitHub: abril de 2024
Relatório de disponibilidade do GitHub: março de 2024
Relatório de disponibilidade do GitHub: fevereiro de 2024
Relatório de disponibilidade do GitHub: janeiro de 2024
Relatório de disponibilidade do GitHub: dezembro de 2023
Relatório de disponibilidade do GitHub: novembro de 2023
Relatório de disponibilidade do GitHub: outubro de 2023
Relatório de disponibilidade do GitHub: setembro de 2023
Relatório de disponibilidade do GitHub: agosto de 2023
Relatório de disponibilidade do GitHub: julho de 2023
Relatório de disponibilidade do GitHub: junho de 2023
Relatório de disponibilidade do GitHub: maio de 2023
Relatório de disponibilidade do GitHub: abril de 2023
Relatório de disponibilidade do GitHub: março de 2023
Relatório de disponibilidade do GitHub: fevereiro de 2023
Relatório de disponibilidade do GitHub: janeiro de 2023
Relatório de disponibilidade do GitHub: dezembro de 2022
Relatório de disponibilidade do GitHub: novembro de 2022
Relatório de disponibilidade do GitHub: outubro de 2022
Relatório de disponibilidade do GitHub: setembro de 2022
Relatório de disponibilidade do GitHub: agosto de 2022
Relatório de disponibilidade do GitHub: julho de 2022
Relatório de disponibilidade do GitHub: junho de 2022
Relatório de disponibilidade do GitHub: maio de 2022
Relatório de disponibilidade do GitHub: abril de 2022
Relatório de disponibilidade do GitHub: março de 2022
Relatório de disponibilidade do GitHub: fevereiro de 2022
Relatório de disponibilidade do GitHub: janeiro de 2022
Relatório de disponibilidade do GitHub: dezembro de 2021
Relatório de disponibilidade do GitHub: novembro de 2021
Relatório de disponibilidade do GitHub: outubro de 2021
Relatório de disponibilidade do GitHub: setembro de 2021
Relatório de disponibilidade do GitHub: agosto de 2021
Relatório de disponibilidade do GitHub: julho de 2021
Relatório de disponibilidade do GitHub: junho de 2021
Relatório de disponibilidade do GitHub: maio de 2021
Relatório de disponibilidade do GitHub: abril de 2021
Relatório de disponibilidade do GitHub: março de 2021
Relatório de disponibilidade do GitHub: fevereiro de 2021
Relatório de disponibilidade do GitHub: janeiro de 2021
Relatório de disponibilidade do GitHub: dezembro de 2020
Relatório de disponibilidade do GitHub: novembro de 2020
Relatório de disponibilidade do GitHub: agosto de 2020
Relatório de disponibilidade do GitHub: julho de 2020
Apresentando o relatório de disponibilidade do GitHub
Interrupções do serviço de fevereiro
21 de outubro Análise pós-incidente
28 de fevereiro Relatório de incidentes de DDoS
Relatório de incidentes: Divisão inadvertida do repositório privado

Vídeos

Um a um SRE

Gitlab

Postagens do blog

Este SRE tentou lançar uma mudança de configuração do Haproxy. Você não vai acreditar no que aconteceu a seguir ...
Minha semana sombreando um engenheiro de confiabilidade do site Gitlab
ATUALIZAÇÃO: Elasticsearch Lições aprendidas para pesquisa global avançada
Lições de iteração de uma nova equipe em infraestrutura
Como nós otimizamos a infraestrutura gasta no Gitlab
Como escalamos o processamento da carga de trabalho assíncronos em gitlab.com usando o sidekiq
Inside Gitlab: como lançamos patches de software
O que rastreando a falta de TCP Keepalives me ensinou sobre Docker, Golang e Gitlab
Como usamos replicação atrasada para recuperação de desastres com PostgreSQL

Gocardless

Postagens do blog

Implantando o software no Gocardless: Open Sourcing nosso tutorial de "começar"
Como comprimimos pub/sub -mensagens e muito mais, economizando um monte de dinheiro
Migrações de pós-grausql sem medo para trilhos
Observabilidade no Gocardless: um conto de melhoria de desempenho da API
Debugando o planejador de consulta PostGresql
Migrações de pós -gres do tempo zero - as partes difíceis
Em busca de desempenho - como raspamos 200ms de todas as solicitações de postagem

Principais incidentes e relatórios de análise

Revisão do incidente: interrupção do serviço em 25 de outubro de 2020, expiração do Vault TLS
Revisão de incidentes: API e interrupção do painel em 10 de outubro de 2017

Godaddy

Postagens do blog

Kubernetes as implantações fechadas
Kubernetes segredos externos
Kubernetes - Uma introdução prática para desenvolvedores de aplicativos
Um cliente node.js intuitivo para a API Kubernetes

Gojek

Postagens do blog

Apresentando Skynet: Infraestrutura como código para Gojek
Escalando nosso serviço de pesquisa geográfica para carga de 10x
Por que juramos pela RCA
Como atualizamos Kubernetes no GKE
Como monitoramos o fluxo de ar Apache na produção

Goldman Sachs

Postagens do blog

Jornada de observabilidade do Secdb
Caos testando um aplicativo na AWS
Previsão de interrupções na capacidade usando o aprendizado de máquina para reforçar a resiliência do aplicativo
Fornecendo 99,9% de disponibilidade e tempos de resposta subsegunda com multiplexos de QI Sybase usando o Haproxy
Construindo resiliência multi-region com a Amazon RDS e Amazon Aurora
Permitindo grupos trino altamente disponíveis no Goldman Sachs
Observabilidade em escala
Infraestrutura e padrão da cadeia de comando
Mobile Cicd com MacOS EC2
Anunciando Catchit - Scanner Secreto do Código Fonte
Construindo plataformas para engenharia de dados

Google

Postagens do blog

Acelerando a resposta de incidentes usando IA generativa
Armadilhas e padrões no gerenciamento de dependência de microsserviços
Práticas e processos SRE
Confiabilidade do site do google usando go
Três meses, demanda 30x: como escalamos o Google se encontra durante o Covid-19
SROURA DE ALGUMA SRE: Pubsub distribuído
Como as equipes SRE estão organizadas e como começar

Vídeos

Qual é a diferença entre DevOps e SRE? com Seth Vargo e Liz Fong-Jones do Google
Orçamentos de risco e erro 'com Seth Vargo e Liz Fong-Jones do Google
Automação pragmática 'com Max Luebbe do GCP
Deve assistir! - Lista de reprodução do Google Sre Youtube
Objetivos do nível de esmagamento: como o SRE pode ajudar a alinhar o trabalho técnico ao benefício do usuário
Implementando consenso distribuído
O SRE eu aspiro ser
SRE aula da sala de aula, ou, como projetar um sistema distribuído confiável em 3 horas
Zero Touch Prod: Para ambientes de produção mais seguros e seguros
Todas as nossas idéias de ML são ruins (e devemos nos sentir mal)
O mapa não é o território: como os SLOs nos desviam e o que podemos fazer sobre isso
Implantando as melhores práticas de treinamento da SRE para a produção: como nós vencemos nosso programa de educação SRE
Bigtable: uma jornada de binário para serviço e as lições aprendidas ao longo do caminho
Instrumentação prática para observabilidade
O que é ML Ops: Soluções e Melhores Práticas para DevOps of Production ML Services
Relatório unificado da confiabilidade do serviço
Como negociar a utilização do servidor e a latência da cauda
Mantendo o equilíbrio: o carregamento em escala na Internet desmistificado
Da caixa preta a uma quantidade conhecida: como criar serviços previsíveis e confiáveis baseados em ML
Mindfulness em SRE: Monitoramento e alerta para si mesmo
Automação pragmática
Escala sublinear na prática: o projeto 1K SRE
Estratégias para editar dados de produção
A maldição da autonomia de Sre e como gerenciá -la
Organizações de escala SRE: a jornada de 1 para muitas equipes
SRE Classroom - Como projetar um sistema distribuído em 3 horas
Usando PRDs e viagens de usuário para projetar ferramentas amigáveis
Como o Google SRE e os desenvolvedores trabalham juntos
SRECON21 - Experiências para SRE

Pegar

Postagens do blog

Nossa jornada para a entrega contínua no Grab (Parte 1)
Nossa jornada para a entrega contínua no Grab (Parte 2)
Projetando sistemas resilientes: disjuntores ou tentativas? (Parte 1)
Projetando sistemas resilientes: disjuntores ou tentativas? (Parte 2)
Projetando sistemas resilientes além das tentativas (parte 3): padrões de arquitetura e engenharia de caos
Orquestrando o caos usando a plataforma de experimentação de Grab
Como projetamos o microsserviço das cotas para evitar o abuso de recursos
Como escalamos nosso cache e tivemos uma boa noite de sono

Gramática

Postagens do blog

Escala Infraestrutura da AWS para suportar várias regiões
Operações de segurança em um ambiente da AWS

Gusto

Postagens do blog

Nível de serviço Objetivos para a paz de espírito de plantão
Pílulas de veneno de depuração de Sidekiq

Halodoc

Postagens do blog

Engenharia de confiabilidade do site para aplicativos móveis nativos

Heroku

Postagens do blog

As aventuras de Rendezvous na nova arquitetura de Heroku
Resposta de incidentes no Heroku

IBM

Postagens do blog

O que é engenharia de confiabilidade do site (SRE)?
Ferramentas e soluções AIOPS

De fato

Postagens do blog

Na verdade, Sre: um visual interno
Sendo apenas confiável o suficiente
Automatando o processo de liberação de de fato
Sloth, uma ferramenta para induzir falhas de rede 'com preetha appan de dey.com

Vídeos

Ainda estamos melhorando? Progresso em direção a operações mais seguras

De fato

Postagens do blog

SRE Playbook - Guia Prático

Academia Khan

Postagens do blog

Como a Khan Academy lidou com o tráfego de 2,5x com sucesso em uma semana
Evoluindo nossa infraestrutura de conteúdo

Postagens do blog

Repensando as projeções de capacidade do local com o analisador de capacidade
Insights sobre uma equipe SRE de produto no LinkedIn
Contratando Sres no LinkedIn
Atualização de código aberto: Escola de SRE
Corrigindo regressões de desempenho do sistema de arquivos Linux
Testes de produção com canários escuros
Alertas inteligentes no terceiro, plataforma de monitoramento em tempo real do LinkedIn
Iris Mobile: uma interface móvel de código aberto para gerenciamento de incidentes
Linkedout: uma estrutura de injeção de falha no nível de solicitação
Eliminando a labuta com testes de carga totalmente automatizados
A composição de equipes SRE geograficamente distribuídas de sucesso: Parte 1
A composição de equipes SRE geograficamente distribuídas de sucesso: Parte 2
Estrela do projeto*: simplificar nosso processo de plantão
Automatizando seu ONCALL: Fossor de fornecimento aberto e ASCII ETCH
Engenharia de resiliência no LinkedIn com Projeto Waterbear
Contratando Sres no LinkedIn, 2017
Iris de fonte aberta e OnCall
Construindo a cultura SRE no LinkedIn
O fracasso não é uma opção
MTTD e MTTR são fundamentais
O que é medido é consertado

Vídeos

Crescendo a equipe de confiabilidade do local no LinkedIn: a contratação é difícil - Greg Leffler
9 anos de fracasso: como os carros ruins de corrida me tornaram um SRE melhor
Reduzindo a tempestade: como os avisos salvados salvam a fazenda
Inconferência: Problemas não resolvidos em SRE
Liderando sem gerenciar: tornar -se um líder técnico SRE
Por que (meu) monitoramento é péssimo?
Infraestrutura de previsão de tráfego e teste de estresse
Mindfulidade coletiva para melhores decisões em SRE
TCP - Arquitetura, aprimoramentos e ajustes
Mais de 600 milhões de membros e centenas de micro serviços: como escalamos nosso sistema de monitoramento para acompanhar
Entender as métricas de negócios pode torná -lo um SRE melhor
Código-amarelo: Ajudando as operações e as equipes pesadas da maneira inteligente
Diferenças nas implementações de SRE entre as empresas

Ferramentas

De plantão

Loggi

Postagens do blog

O modelo de gerente de lançamento
Equipes SRE #8: LOGGI

LoveHolidays

Postagens do blog

Rotamento dinâmico de alerta com Prometheus e AlertManager
Fazendo LoveHolidays 18% mais rápido com HTTP/3
Exibindo as melhores práticas em infraestrutura de autoatendimento com Terraform, Atlantis e Política como código
Os 5 princípios que ajudaram
Real em tempo real faz login com Grafana Loki por menos de US $ 1 por dia

Macquarie

Postagens do blog

Nossa jornada de devSecops com Golang
Configuração do pipeline como código com Kotlin
DevOps e segregação de tarefas
Macquarie abraça o DevOps
Escalando uma plataforma Kubernetes em toda a empresa

Matéria mais

Postagens do blog

Monitorando ambientes em nuvem em escala com Prometheus e Thanos
Como usamos a preguiça para fazer monitoramento e alerta com Prometheus

Meituan (美团)

Postagens do blog

O desenvolvimento e a prática do SRE na nuvem (云端的云端的 SRE 发展与实践)

MERCARI

Postagens do blog

Quem assiste os vigias? Ficando de olho em nossos sistemas de monitoramento
O que a equipe de Microservices SRE está fazendo como evangelistas SRE
Como é trabalhar como microsserviços incorporados SRE
A equipe do Merpay SRE: passado e futuro
SRE incorporado em Mercari
O que a equipe SRE quer alcançar com a equipe de desenvolvimento
DevSecops: O que é e por que está ganhando impulso na indústria?
Como compartilhamos habilidades de solução de problemas
Painel de Datadog em escala com Terraform

Postagens do blog

Aproveitando a IA para resposta eficiente de incidentes
Melhorando os fluxos de trabalho SLO da Meta com anotações de dados
Slick: adotando SLOs para melhorar a confiabilidade
Mais detalhes sobre a interrupção de 4 de outubro
Atualização sobre a interrupção de 4 de outubro

Vídeos

Uma abordagem de atendimento ao cliente para SRE
Como (não) escalar um projeto: um post-mortem
Liberando o maior site de Python do mundo a cada 7 minutos
Usando ML para automatizar a categorização de erro dinâmico

Microsoft

Vídeos

Sli & Confiabilidade Deep Dive 'com David N. Blank-Edelman da Microsoft
Ironies of Automation: uma comédia em três partes 'com Tanner Lund of Microsoft
Engenharia de Software Sustentável e SRES
Estudo sobre fatores humanos e cultura de equipe para melhorar a fadiga do pager
Priorizando a confiança ao criar aplicativos
Construindo resiliência: como aprender mais com incidentes
Uma história de dois post -mortem: uma visão de fatores humanos
Disponibilidade - pensando além dos 9s
Ironies of Automation: uma comédia em três partes
O OPS no servidor sem servidor

Miro

Postagens do blog

Prometheus Alta disponibilidade e estratégia de tolerância a falhas, armazenamento a longo prazo com vitorietrics
Gerenciando centenas de servidores para teste de carga: autoscaling, monitoramento personalizado, cultura DevOps
Teste de carga confiável com relação a nuances inesperadas

Monzo

Postagens do blog

Monzo automático: como otimizamos nossa plataforma para ser o tamanho certo
Como evoluímos de plantão em Monzo
Como respondemos a incidentes
Como monitoramos monzo

Vídeos

Eventualmente, descoberta de serviço consistente

Ferramentas

Resposta

Netflix

Postagens do blog

Alcançar a observabilidade em fluxos de trabalho assíncronos
Construindo a infraestrutura de rastreamento distribuída da Netflix
Lições da construção de ferramentas de observabilidade na Netflix
Edgar: resolvendo mistérios mais rapidamente com observabilidade
Telltale: Monitoramento de aplicativos da Netflix simplificado
Mantendo os clientes Streaming - a prática centralizada de confiabilidade do site na Netflix
Introdução de Dispatch
Aplicando padrões do Netflix DevOps ao Windows
CHAP: Plataforma de automação do caos
Começando a avalanche
Netflix caos macaco atualizado
Engenharia de caos atualizada
Teste de falha automatizada
Do caos ao controle - testando a resiliência da plataforma de descoberta de conteúdo da Netflix
Apresentando Atlas: Plataforma de telemetria primária da Netflix
Ajuste: teste de injeção de falha
Anunciando o Security Monkey - Monitoramento e análise de configuração de segurança da AWS
Lições que Netflix aprendeu com a interrupção da AWS
Scryer: Motor de Escalagem Automática Preditiva da Netflix

Principais incidentes e relatórios de análise

Post-mortem de 22 de outubro de 2012 AWS Degradação

Vídeos

AWS Re: Invent 2019: Um dia na vida de um engenheiro da Netflix (NFX202)
Quando /bin /sh ataques: revisitando "automatize todas as coisas"
Como as coisas corriam certo? Aprendendo mais com incidentes
Monitoramento e rastreamento @NETFLix Streaming Infraestrutura de dados
Monitoramento real de desempenho do usuário na escala Netflix - Martin Spier
AWS Re: Invent 2017 - Nora Jones descreve por que precisamos de mais caos - Chaos Engineering, ou seja,
AWS Re: Invent 2017: Realizando o caos na escala Netflix (dev334)
Netflix: resiliência multi-regional e Amazon Route 53
Projetando serviços para resiliência: lições da Netflix
South Bay Sre Meetup - Equipe de desempenho da Netflix Cloud
AWS Re: Invent 2017: Um dia na vida de um Netflix Engineer III (ARC209)
Como a Netflix usa fluxos de kinesis para monitorar aplicativos e analisar bilhões de fluxos de tráfego
Chaos de domínio - um guia da Netflix para microsserviços
AWS Re: Invent 2016: da resiliência à onipresença - #Netflixeverywhere Global Architecture (ARC204)
SRECON 2016 - Netflix: 190 países e 5 sres centrais
De Sys Admin a Netflix SRE
Engenharia e Operações de Resiliência Aplicativa na Netflix com Hystrix
Injeção de falha na Netflix
LISA13 - Como a Netflix abrange a falha em melhorar a resiliência e maximizar a disponibilidade
Gerenciamento de incidentes na velocidade da Netflix

Podcasts

Ryan cozinha sobre o aprendizado de incidentes na Netflix, o papel de SRE e sistemas sociotécnicos

Ferramentas

Expedição

Nova relíquia

Postagens do blog

Definindo funções modernas de software: SRES na nova relíquia
10 coisas que todos precisam saber sobre a engenharia de confiabilidade do site (SRE)
Quais ferramentas usam os engenheiros de confiabilidade do site?
Um dia na vida de um novo SRE relíquia
7 hábitos de engenheiros de confiabilidade do site de grande sucesso
Adotando a prática de SRE
Usando a observabilidade moderna para estabelecer uma cultura orientada a dados

Nubank

Postagens do blog

Excelência operacional de engenharia, um caso de melhoria contínua
Como lidamos com incidentes técnicos
Como fazemos rotações de plantão em Nubank
Como escalamos nossa plataforma de dados de maneira eficiente e confiável
Por que matamos nossa suíte de teste de ponta a ponta
Reciclagem automática para modelos de aprendizado de máquina: dicas e lições aprendidas

Openai

Postagens do blog

20 de março Chatgpt interda: Aqui está o que aconteceu
OpenAi SRE e Scaling explicaram facilmente.
Escalando Kubernetes para 2.500 nós
Escalando Kubernetes para 7.500 nós
Escala de infraestrutura de IA no OpenAI

PayPal

Postagens do blog

Acionado: incidente nº 1234 (o processo de incidente precisa de fixação)
Implementando a observabilidade em uma malha de serviço
PostgreSQL em escala: o esquema de banco de dados muda sem tempo de inatividade
Sconing GraphQL no PayPal

Vídeos

SRECON CONVERSAS ÁSIA/PACÍFICO COM KARTHIKEYAN SELVARAJ E RAJESH RAMACHANDRAN, PayPal
SRE então vs SRE agora: um ato de equilíbrio entre reflexos e instintos intuitivos no PayPal
Detectar degradação e falhas do serviço
Elasticsearch Operating com facilidade em escala
Garantir a confiabilidade do site através de controles de segurança

Piquenique

Postagens do blog

Micrômetro e a pilha de observabilidade moderna
Monitoramento e observabilidade no piquenique

Postagens do blog

Garantir a alta disponibilidade de anúncios de serviços de streaming em tempo real
Melhorando a eficiência e reduzindo o tempo de execução usando a otimização de leitura S3
Escalando Kubernetes com garantia no Pinterest
O que aprendemos com um incidente de ooms de aplicativos iOS
Como projetamos nosso sistema de integração contínuo para ser mais de 50% mais rápido
Simplificando a Web implanta
Atualizando as métricas operacionais do Pinterest
Rastreamento distribuído no Pinterest com novas ferramentas de código aberto
Pinterest de escala automática

Vídeos

Construindo a propriedade de código acionável
Evolução das ferramentas de observabilidade no Pinterest
Automatando atualizações do sistema operacional/plataforma para proprietários de serviços

Carteiro

Postagens do blog

Saiba como seus clusters de Kubernetes respondem ao fracasso usando Gremlin e Grafana

Prezi

Postagens do blog

Como evitar interrupções globais - migrando perfeitamente os rótulos de daemonset
Em busca de velocidade - Debuging Elasticsearch Performance
Prometheus em Prezi: substituindo 10 anos de anti-padrões

Chapéu vermelho

Postagens do blog

De Ops a SRE: Evolução da equipe dedicada OpenShift
5 Práticas ágeis que toda equipe de SRE deve adotar
7 práticas recomendadas para escrever operadores de Kubernetes: uma perspectiva SRE

Jogos Riot

Postagens do blog

As lendas do pipeline do RuneTerra CI/CD
Estratégias para trabalhar em sistemas incertos
Melhorando a experiência do desenvolvedor para serviços operacionais
Escalabilidade e teste de carga para valorante
Aproveitando Golang para o desenvolvimento e operações de jogos
Caos controlado com teste de injeção de falha
Na toca do coelho do monitoramento de desempenho
Perfil: o caso dos milissegundos ausentes
Profiling: desempenho do mundo real na liga
Perfil: otimização
Perfil: medição e análise
Executando serviços on -line em Riot: Parte I
Executando serviços on -line em Riot: Parte II
Executando serviços on -line em Riot: Parte III
Executando serviços on -line em Riot: Parte III: Parte Deux
Executando serviços on -line em Riot: Parte IV
Executando serviços on -line em Riot: Parte V
A evolução da segurança no Riot
Executando um pipeline de teste automatizado para a atualização do cliente da liga
Testes automatizados para League of Legends

Salesforce

Postagens do blog

Olhando para o plano de controle de Kubernetes para multi-cinema
Otimizando a rede EKS para escala
Nó de inatividade zero Patching em um cluster de Kubernetes
Como, não por que: uma alternativa aos cinco porquês para post-mortems
Um injetor de carco lateral genérico para Kubernetes
Implementação de uma estratégia de monitoramento para produtos com base em microsserviços
10 etapas para desenvolver um plano de resposta a incidentes que você realmente usará
Nossa jornada para um pipeline de madeira quase perfeito
Otimizando o desempenho com trabalhadores da web
Reserve um momento para reorientar

Mídia Schibsted

Postagens do blog

Engenharia de confiabilidade para alguns dos 10 principais locais da Escandinávia

Scribd

Postagens do blog

Aprendendo com os incidentes: preparando o Sidekiq para servir um bilhão de empregos
Um depoimento para usar PagerDuty no Scribd
Atribuindo o dever de pager aos desenvolvedores

Shopify

Postagens do blog

Planejamento de resiliência para eventos de alto tráfego
Planejamento de capacidade em escala
Usando o gerenciamento de tráfego DNS para adicionar resiliência aos serviços do Shopify
Quatro etapas para criar testes eficazes do dia do jogo
Implementando Chatops em nosso procedimento de gerenciamento de incidentes
STATSD no Shopify

Vídeos

Monitor de rede: um conto de reconhecer uma lacuna de observabilidade
Espere o inesperado: preparando equipes SRE para responder a novas falhas
Matemática avançada de guardanapo: estimando o desempenho do sistema a partir dos primeiros princípios

Sky Betting and Gaming

Postagens do blog

É apenas uma mudança de monitoramento
“Qual é o pior que poderia acontecer?”: Um exemplo funcionado de como lidamos com incidentes vivos
Levantando -se das cinzas
Colidir! BANG! Wallop! A prática leva à perfeição
Desempenho à esquerda e centro

Folga

Postagens do blog

Incidente do Slack em 2-22-22
Observabilidade da infraestrutura para mudar a curva de gastos
A interrupção do Slack em 4 de janeiro de 2021
Um dia terrível, horrível, sem boa e muito ruim no Slack
Implanta no Slack
Teatro de desastres: processo do Slack para engenharia de caos acessível

Vídeos

Folga na borda
O que quebra nossos sistemas: uma taxonomia de cisnes negros

Slalom Build

Postagens do blog

Como implementar objetivos de nível de serviço em nova relíquias APM
Guia para iniciantes para o DevOps: como transformá -lo na indústria
Ações do Github: além do CI/CD
Por que toda a automação de teste não é executada no pipeline?
As muitas formas de engenharia de confiabilidade do local
Como construir um cluster Secure por padrão Kubernetes com um pipeline básico de CI/CD na AWS
Arquiteturas de gestão secreta: encontrando o equilíbrio entre segurança e complexidade
Detectando pedidos maliciosos com Keras & Tensorflow
O Monolito Lego - uma prova de conceito de microsserviço de monólito
Gerenciando segredos usando Hashicorp Vault
Embalagem Aplicativos de inicialização da mola para implantação em Kubernetes
Infraestrutura imutável e entrega contínua na nuvem

Soundcloud

Postagens do blog

Como entregar com sucesso os sistemas
Construindo uma cultura saudável de plantão
Alertando no SLS como profissionais
Implantação de mão-de-obra com Canary
Prometeu atingiu a maioridade-uma reflexão sobre o desenvolvimento de um projeto de código aberto
Prometheus: Monitorando no SoundCloud
O que aprendi em um ano como estagiário SRE
Testes sob a lente de ampliação

Spotify

Postagens do blog

Matt Clarke: engenheiro de infraestrutura de back -end sênior
Projetando uma melhor experiência de Kubernetes para desenvolvedores
Techbytes: O que a indústria sente falta dos incidentes e do que você pode fazer
Infraestrutura automatizada de resposta a incidentes no GCP

Vídeos

Rastrear, rápido e lento: cavar e melhorar o desempenho do seu serviço da web

Squarespace

Postagens do blog

Sob o capô: garantir a confiabilidade do local

Vídeos

Empurrando o atrito
Como fazer quando tudo já está pegando fogo
Estudo de caso: Implementando SLOs para um novo serviço
Creating a Code Review Culture

Stack Overflow

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

Vídeos

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

Listra

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

Vídeos

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

Alvo

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Inflamável

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Twilio

Blog Posts

Twilio SRE Gameday Template

Twitter

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Uber

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

Vídeos

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

Vídeos

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

Vídeos

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Yelp

Blog Posts

The process: Implementing Yelp's failover strategy

Vídeos

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

Vídeos

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

Recursos

Livros

Novo! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering