howtheysre下载方式 - howtheysre源代码如何下载

他们如何表现

介绍

他们如何SRE如何成为网站可靠性工程（SRE）最佳实践，工具，技术和文化的策划知识存储库，由领先的技术或精通技术的组织采用。

许多组织经常分享他们的见解和专业知识，包括塑造其工程文化的最佳实践，工具和技术。他们通过工程博客，会议和聚会等各种公共平台来做到这一点。该存储库编译并介绍从这些来源收集的内容。

主题

站点可靠性工程
雇用和建立SRE团队
SRE文化
DevOps
监视和可观察性
警报
事件响应和验尸
呼叫
生产测试
混乱工程
自动化
表现
平台工程

组织

成就者

博客文章

输入屠宰场 - 建筑物“点菜” gitops工具
在全球范围内扩展生产 - 服务网络改款（第1部分）
全球扩展生产 - 解决开发人员的可观察性问题（第2部分）
负载测试Kubernetes：构建框架（第1部分）
负载测试Kubernetes：解决瓶颈和提高性能（第2部分）

Airbnb

博客文章

通过松弛自动事件管理
检测漏洞
在Airbnb发出警报框架
当云变得黑暗时 - 亚马逊的中断如何影响Airbnb
智能自动化平台：赋予Airbnb的对话人AI及其他
Airbnb的生产秘密管理
大规模自动化数据保护，第1部分
大规模自动化数据保护，第2部分
大规模自动化数据保护，第3部分
Airbnb的动态kubernetes群集缩放

阿尔高利

博客文章

5月30日SSL事件
进入SRE的旅程
CI/CDAY 2024：是什么使CI/CD平台成为什么？

阿里巴巴云

博客文章

为什么顶级互联网公司选择SRE而不是传统的O＆M？
比利比利实时平台的建筑和实践

体式

博客文章

体式如何使用Asana：安全事件响应
Asana如何发行稳定的Web应用程序发布
分析最近的停机时间以及我们为防止未来事件做什么
开发人员环境：通过快速重置来实现可靠性
每个IT领导者今年秋天考虑的三种安全策略

ASOS

博客文章

玩无责任的比赛
…CAT S（可靠性工程主管）的一天
AKS性能旅程：第1部分 - 对所有内容进行调整
AKS性能旅程：第2部分 - 网络
网络安全 @ asos.com
安全操作24x7
我们在网络安全事件中寻找的技能响应

阿特拉斯利亚人

博客文章

DevOps时代变更管理的最佳实践
自动测试：来自Atlassian的Kubernetes团队的5堂课，用于测试基础架构作为代码
如何导出Kubernetes事件以观察到和警报
事件验尸模板

后市场

博客文章

Back Market SRE如何为黑色星期五做准备

百度

视频

金信号的异常检测
Netradar：监视数据中心网络
让混乱开始 - Sre Chaos Engineering符合网络安全

基础

博客文章

内部代码红色：网络版
三个基本打电话。一周。发生了什么？
Basecamp 2和Basecamp 3搜索中断报告
减少Basecamp的事件升级

图书

形状

彭博

视频

通过页面参考抽样的能力计划和绩效提高
为什么SRE负担不起不做混乱工程
追踪实时分布式系统
彭博故事：在一个“不可估量”的组织中建立SRE团队
可见性对伐木者（和其他低级服务） - 从森林中看到树木

booking.com

博客文章

可靠性和产品团队如何在booking.com上合作
事件，修复和第二天
故障排除：进入未知的旅程

视频

数据密集型服务的SLO
带有容器基础设施的较少旅行道路的好处

首都一

博客文章

与Slack自动化应用程序监视
使用Boto 3：AWS健康检查自动化AWS基础架构
主动活动共享的数据库体系结构
SRES的3 R：弹性，恢复和可靠性
准备好您的应用混乱的5个步骤
4种像混乱工程实验一样阅读的现实情况
拥抱混乱……工程
从企业实施混乱工程中学到的3个教训
深入研究AWS CodeDeploy的无缝蓝色/绿色部署
安全的Docker容器需要安全的应用程序
配对云和Devops以提高弹性的4个步骤
使用十二个因素应用程序和微服务体系结构的容器就绪应用程序
充满信心地部署 - 最大程度地降低风险，最大程度地利用AWS的金丝雀部署
建筑建筑以提高弹性
连续混乱 - 将混乱工程引入DevOps实践
Mon-Fifesto第1部分：指标

主要事件与分析报告

有关Capital One网络事件的信息
对资本一个数据泄露的案例研究

视频

持续交付 - 资本一号
DevOps中的连续混乱 - 首都一号
Capital One的DevOps：专注于管道和测量
自动化管理云帐户运营健康的管理

共同案件

博客文章

开源Coinbase的安全部署管道

达兹

博客文章

DAZN的站点可靠性

DBS

博客文章

在ITHOME的SRE会议上展示：到目前为止我们的DBS SRE转型之旅
揭穿七个最受欢迎的网站可靠性工程神话
如何使用SRE在工作场所培养无罪的文化
DBS银行的站点可靠性工程
大规模自动配置管理
DBS如何消除混乱工程的神话
双重劳动和麻烦

视频

SRECON对话亚太与Koon Seng Lim，DBS

DeepSource

博客文章

REDIS无磁盘复制：什么，如何，原因和警告
如何用kubernetes设置保险库
分解Kubernetes中的零停机时间部署

Dream11

博客文章

大规模部署：Dream11内部蓝绿色部署平台“ OneClick”背后的故事。
通过AWS WAFV2增强安全性和信任
从运行GraphQL中学到的经验教训
断路，节省孔？
在混乱中查找订单：我们如何使用扭矩自动化性能测试
在Dream11中保持超声发行版
缩放还是扩展？这是我们在Dream11进行扩展的方式
Dream11构建可扩展的实时分析，警报和异常检测体系结构

Dropbox

博客文章

Dropbox工程职业框架 - 可靠性工程师（SRE）
Atlas：我们从Python Monolith到托管平台的旅程
用涡流监视服务器应用程序
雅典娜：我们的自动建筑健康管理系统
有兴趣成为网站可靠性工程师吗？

视频

服务发现挑战

ebay

博客文章

Kafka的弹性和灾难恢复
SRE案例研究：在记忆问题上分类非降低的JVM
SRE案例研究：神秘的交通不平衡
零停机时间，即时部署和回滚
eBay的通知平台如何以新方式使用故障注入

视频

Madaari：订购猴子

史诗般的游戏

视频

AWS RE：Invent 2018：Epic Games使用AWS向2亿玩家提供Fortnite

Etsy

博客文章

改善十年申请的部署经验
Etsy如何为2020年的历史度假货币做准备
你的大脑进步
Etsy的汇报促进指南指南
OPSWEEKLY：测量警报分类的呼叫经验
揭开现场中断
无罪的邮政事故和公正文化
测量任何东西，衡量一切

视频

速度09：John Allspaw和Paul Hammond，“ 10+部署PE
将整体迁移到云端

Expedia

博客文章

自动化性能标准
错误预算政策 - 第1部分 - 在Expedia集团中采用
错误预算政策 - 第2部分 - Expedia Group的实践
使用故障注射来提高我们新的运行时平台的可靠性
从Expedia Group的事件中学习
改善VRBO主页加载体验
故障排除502错误：ECS清单
开始使用Elasticsearch
关于istio-proxy 5xx问题
在Kubernetes中自动化：为什么水平豆荚自动制剂不适合我？
如何保持Kubernetes部署在多个区域之间保持平衡
您的Dropwizard延迟指标是否会误导您？
100％可靠性的成本
创建监视仪表板
使用Bash进行DevOps

迅速

视频

SRE和产品管理：如何通过像产品经理一样思考来升级您的团队（和职业！）
弹性工程神话

G研究

博客文章

我们在G-Research的SRE旅程
SRE之旅继续
OPENTSDB META CACE - 性能权衡

Getaround

博客文章

我们如何处理事件
我们连续交付过程的演变

github

博客文章

我们如何通过迭代简化改善可用性
我们如何改善GitHub上的推动处理
Github如何使用合并队列每天运送数百个变化
使用AI修复安全漏洞
Github的工程基础计划：我们如何提供可用性，安全性和可访问性
GitHub如何使用GitHub动作和动作较大的跑步者来构建和测试GitHub.com
GitHub安全实验室在开源项目中披露500个CVE的旅程
CodeQL团队使用AI在代码中为漏洞检测供电
解决GitHub最近的可用性问题
建立整个组织的治理和重新利用CI/CD和使用GitHub行动的自动化
通过GITHUB操作通过exuceops启用分支机构部署
使用ChatOps帮助行动中的工程师
分区GitHub的关系数据库来处理规模
通过GitHub代码扫描增加开发人员的幸福感
为什么（以及如何）GitHub采用opentelemetry
改善GitHub上的大型MonorePo性能
GitHub的部署可靠性
改善我们如何部署github
在Github建立呼叫文化
将片状构建减少18倍
操作在DevOps中的不断发展的作用
DevOps Automation入门
GitHub的MySQL高可用性

主要事件与分析报告

GitHub可用性报告：2024年8月
GitHub可用性报告：2024年7月
GitHub可用性报告：2024年6月
GitHub可用性报告：2024年5月
GitHub可用性报告：2024年4月
GitHub可用性报告：2024年3月
GitHub可用性报告：2024年2月
GitHub可用性报告：2024年1月
GitHub可用性报告：2023年12月
GitHub可用性报告：2023年11月
GitHub可用性报告：2023年10月
GitHub可用性报告：2023年9月
GitHub可用性报告：2023年8月
GitHub可用性报告：2023年7月
GitHub可用性报告：2023年6月
GitHub可用性报告：2023年5月
GitHub可用性报告：2023年4月
GitHub可用性报告：2023年3月
GitHub可用性报告：2023年2月
GitHub可用性报告：2023年1月
GitHub可用性报告：2022年12月
GitHub可用性报告：2022年11月
GitHub可用性报告：2022年10月
GitHub可用性报告：2022年9月
GitHub可用性报告：2022年8月
GitHub可用性报告：2022年7月
GitHub可用性报告：2022年6月
GitHub可用性报告：2022年5月
GitHub可用性报告：2022年4月
GitHub可用性报告：2022年3月
GitHub可用性报告：2022年2月
GitHub可用性报告：2022年1月
GitHub可用性报告：2021年12月
GitHub可用性报告：2021年11月
GitHub可用性报告：2021年10月
GitHub可用性报告：2021年9月
GitHub可用性报告：2021年8月
GitHub可用性报告：2021年7月
GitHub可用性报告：2021年6月
GitHub可用性报告：2021年5月
GitHub可用性报告：2021年4月
GitHub可用性报告：2021年3月
GitHub可用性报告：2021年2月
GitHub可用性报告：2021年1月
GitHub可用性报告：2020年12月
GitHub可用性报告：2020年11月
GitHub可用性报告：2020年8月
GitHub可用性报告：2020年7月
引入GitHub可用性报告
2月服务中断事后分析
10月21日，后期分析
2月28日DDOS事件报告
事件报告：无意的私人存储库披露

视频

一对一

GitLab

博客文章

此SRE试图推出Haproxy配置更改。您不会相信接下来发生的事情...
我的一周阴影Gitlab网站可靠性工程师
更新：用于高级全局搜索的Elasticsearch课程
新团队基础架构的迭代课程
我们如何优化Gitlab的基础设施支出
我们如何使用sidekiq在gitlab.com上缩放异步工作负载处理
gitlab内部：我们如何发布软件补丁
追踪的缺少TCP饲养员教会了我关于Docker，Golang和Gitlab的知识
我们如何使用PostgreSQL使用延迟复制进行灾难恢复

无盖

博客文章

在Gocardless：开源我们的“入门”教程中部署软件
我们如何压缩酒吧/子消息等等，节省一笔钱
铁轨的无恐惧后Ql迁移
无盖无观的可观察性：API性能改善的故事
调试PostgreSQL查询计划者
零下降的邮政迁移 - 硬零件
寻找性能 - 我们如何剃光200ms的每个帖子请求

主要事件与分析报告

事件评论：2020年10月25日的服务停电，Vault TLS到期
事件评论：2017年10月10日的API和仪表板中断

Godaddy

博客文章

Kubernetes封闭部署
Kubernetes外部秘密
Kubernetes-应用程序开发人员的实用介绍
kubernetes api的直观node.js客户端

Gojek

博客文章

引入Skynet：基础架构作为Gojek的代码
扩展我们的地理搜索服务10倍负载
为什么我们向RCA发誓
我们如何在GKE上升级Kubernetes
我们如何监视生产中的Apache气流

高盛

博客文章

SECDB可观察性旅程
混乱测试AWS上的应用程序
使用机器学习来提高应用程序弹性的预测产能停电
通过使用Haproxy，通过SYBASE IQ多路复用提供99.9％的可用性和次秒响应时间
使用Amazon RD和Amazon Aurora建立多区域弹性
在高盛（Goldman Sachs）启用高度可用的Trino集群
大规模可观察性
基础架构和指挥链模式
移动CICD与EC2 MACOS
宣布捕获 - 源代码秘密扫描仪
建立数据工程平台

谷歌

博客文章

使用生成AI加速事件响应
微服务依赖管理中的陷阱和模式
SRE练习和流程
Google网站可靠性使用
三个月，30倍的需求：我们如何扩展Google在Covid-19期间
SRE教室：分布式Pubsub
SRE团队的组织方式以及如何开始

视频

DevOps和SRE有什么区别？与Google的Seth Vargo和Liz Fong-Jones一起
与Google的Seth Vargo和Liz Fong-Jones一起使用风险和错误预算
务实的自动化'与GCP的Max Luebbe
必须看！ -Google SRE YouTube播放列表
紧缩级别的目标：SRE如何帮助对齐技术工作以使用户利益
实施分布式共识
我渴望成为
SRE教室，或如何在3小时内设计可靠的分布式系统
零触摸产品：面向更安全，更安全的生产环境
我们所有的ML想法都是不好的（我们应该感到难过）
该地图不是领土：SLO如何使我们误入歧途，以及我们能做什么
将SRE培训最佳实践部署到生产中：我们如何制定SRE教育计划
Bigtable：从二进制到服务的旅程以及一路上学到的教训
可观察性的实用仪器
什么是ML OPS：生产ML服务的解决方案和最佳实践
统一的服务可靠性报告
如何交易服务器利用率和尾部潜伏期
保持平衡：互联网规模的负载平衡神秘
从黑匣子到已知数量：如何构建可预测的，可靠的基于ML的服务
SRE中的正念：监视和警告自己的自我
务实的自动化
实践中的均方根缩放：1K SRE项目
编辑生产数据的策略
SRE自治的诅咒以及如何管理它
扩展SRE组织：从1到许多团队的旅程
SRE教室 - 如何在3小时内设计分布式系统
使用PRD和用户旅行来设计用户友好的工具
Google SRE和开发人员如何共同努力
SRECON21- SRE的实验

抓住

博客文章

我们在Grab连续交付的旅程（第1部分）
我们在Grab连续交付的旅程（第2部分）
设计弹性系统：断路器还是检索？（第1部分）
设计弹性系统：断路器还是检索？（第2部分）
设计弹性系统超出重试（第3部分）：建筑模式和混乱工程
使用Grab的实验平台编排混乱
我们如何设计配额微服务以防止资源滥用
我们如何缩放缓存并睡个好觉

语法

博客文章

扩展AWS基础架构以支持多个区域
AWS环境中的安全操作

热情

博客文章

服务级别的目标目的
调试SideKiq毒药

halodoc

博客文章

本地移动应用程序的站点可靠性工程

Heroku

博客文章

Heroku的新建筑中的聚会冒险
Heroku的事件响应

IBM

博客文章

什么是站点可靠性工程（SRE）？
AIOPS工具和解决方案

的确

博客文章

确实是SRE：内部外观
足够可靠
自动化确实的发布过程
懒惰，一种诱导网络失败的工具

视频

我们越来越好吗？朝更安全的行动迈进

的确

博客文章

SRE剧本 - 实用指南

可汗学院

博客文章

可汗学院如何在一周内成功处理2.5倍的流量
不断发展我们的内容基础架构

博客文章

通过容量分析仪重新思考现场容量预测
深入了解LinkedIn产品SRE团队
在LinkedIn雇用SRES
开源更新：SRE学校
修复Linux文件系统性能回归
黑色金丝雀的生产测试
LinkedIn的实时监控平台Thixteye中的智能警报
虹膜手机：用于事件管理的开源，移动接口
链接：请求级故障注入框架
通过全自动负载测试消除辛劳
成功的地理分布的SRE团队的构成：第1部分
成功地理分布的SRE团队的成功构成：第2部分
项目明星*：简化我们的电话过程
自动化您的oncall：开源纹章和ASCII蚀刻
LinkedIn的弹性工程与项目水折
在LinkedIn招聘SRE，2017年
开源虹膜和oncall
在LinkedIn建立SRE文化
失败不是一个选择
MTTD和MTTR是关键
测量的是修复的

视频

在LinkedIn：招聘很困难-Greg Leffler
9年的失败：赛车糟糕的汽车如何使我变得更好
风暴风暴：早期警告如何拯救农场
不参加会议：SRE中未解决的问题
领导而无需管理：成为SRE技术领导者
为什么（我的）监视很烂？
交通预测和压力测试基础设施
集体正念在SRE中做出更好的决定
TCP - 架构，增强和调整
超过6亿成员和数百个微服务：我们如何扩展监控系统以跟上
了解业务指标可以使您成为更好的SRE
代码黄色：帮助运营最聪明的团队以明智的方式
公司之间SRE实施的差异

工具

呼叫

loggi

博客文章

发布管理器模型
SRE团队＃8：Loggi

Loveholidays

博客文章

与Prometheus和AlertManager的动态警报路由
用HTTP/3使LoveHolidays更快地制作LoveHolidays
使用Terraform，Atlantis和政策作为代码来实施自助基础设施的最佳实践
有助于扩展Loveholidays的5个原则
实时与Grafana Loki快速登录，每天不到1美元

麦格理

博客文章

我们与Golang一起旅行的DevSecops
管道配置为与Kotlin的代码
DevOps和职责隔离
Macquarie拥抱Devops
在整个企业上扩展Kubernetes平台

最重要

博客文章

用Prometheus和Thanos大规模监视云环境
我们如何使用懒惰对Prometheus进行SLO监测和警报

meituan（美团）

博客文章

SRE在云中的发展和实践（云端的sre发展与实践）

Mercari

博客文章

谁看着守望者？密切关注我们的监视系统
SRE SRE团队作为SRE福音传教士所做的事情
作为嵌入式微服务SRE工作的感觉
Merpay SRE团队：过去和未来
在Mercari嵌入SRED SRE
SRE团队希望在开发团队中取得什么成就
DevSecops：这是什么，为什么它在行业中获得动力？
我们如何分享故障排除技能
datadog仪表板，w / terraform

元

博客文章

利用AI进行有效的事件响应
通过数据注释改善Meta的SLO工作流程
光滑：采用SLO以提高可靠性
有关10月4日停电的更多详细信息
有关10月4日停电的更新

视频

SRE的客户服务方法
如何（不）扩展项目：验尸
每7分钟释放一次世界上最大的Python网站
使用ML自动化动态错误分类

微软

视频

SLI和可靠性深入研究'与Microsoft的David N. Blank-Edelman
自动化的讽刺：一部喜剧，分为三部分'与Microsoft的Tanner Lund
可持续软件工程和SRES
研究人为因素和团队文化以改善Pager疲劳
在创建应用程序时优先考虑信任
建筑韧性：如何从事件中学习更多
两个邮政事故的故事：人为意见
可用性 - 超过9秒
自动化讽刺：三个部分的喜剧
无服务器中的操作

米罗

博客文章

Prometheus高可用性和容错策略，长期存储与VictoriAmetrics
管理数百台服务器进行负载测试：自动化，自定义监控，DevOps文化
关于意外细微差别的可靠负载测试

蒙佐

博客文章

自动化Monzo：我们如何优化平台以成为合适的尺寸
我们如何在Monzo进化
我们如何应对事件
我们如何监视Monzo

视频

最终始终如一的服务发现

工具

Netflix

博客文章

在异步工作流程中实现可观察性
构建Netflix的分布式追踪基础设施
Netflix建立可观察性工具的教训
埃德加：以可观察性解决谜团
Telltale：Netflix应用程序监控简化
保持客户流媒体 - Netflix的集中站点可靠性实践
介绍调度
将Netflix DevOps模式应用于Windows
章节：混乱自动化平台
开始雪崩
Netflix混乱猴子升级
混乱工程升级
自动故障测试
从混乱到控制 - 测试Netflix内容发现平台的弹性
介绍地图集：Netflix的主要遥测平台
适合：故障注射测试
宣布安全猴子 - AWS安全配置监视和分析
Netflix的课程从AWS中断学到了
Scryer：Netflix的预测自动扩展引擎

主要事件与分析报告

2012年10月22日的验尸退化

视频

AWS RE：Invent 2019：Netflix工程师生平的一天（NFX202）
/bin /sh攻击时：重新审视“自动化所有事物”
事情怎么对？从事件中了解更多
监视和追踪@Netflix流数据基础结构
Netflix量表的真实用户性能监视 - 马丁·斯皮尔（Martin Spier）
AWS RE：Invent 2017- Nora Jones描述了我们为什么需要更多混乱 - 混乱工程
AWS RE：Invent 2017：在Netflix量表（DEV334）上表演混乱
Netflix：多区域弹性和亚马逊路线53
设计服务以提高弹性：Netflix课程
南湾SRE聚会 - Netflix Cloud Performance Team
AWS RE：Invent 2017：Netflix工程师III（ARC209）的一天
Netflix如何使用运动式流来监视应用程序并分析数十亿流量
掌握混乱 - Netflix微服务指南
AWS RE：Invent 2016：从韧性到无处不在 - #NetflixeveryWhere全球体系结构（ARC204）
Srecon 2016- Netflix：190个国家和5个核心SRES
从系统管理员到Netflix SRE
Netflix的应用弹性工程和运营
Netflix注射故障
LISA13- Netflix如何拥抱未能提高弹性和最大化可用性
Netflix速度的事件管理

播客

瑞安厨房（Ryan Kitchens）从Netflix，SRE的角色和社会技术系统中学习

工具

派遣

新遗物

博客文章

定义现代软件角色：新遗物的SRES
每个人都需要了解有关网站可靠性工程（SRE）的10件事
网站可靠性工程师使用哪些工具？
新遗物SRE的生活中的一天
非常成功的站点可靠性工程师的7种习惯
采用SRE的做法
使用现代可观察性建立数据驱动的文化

nubank

博客文章

工程运营卓越，持续改进的案例
我们如何处理技术事件
我们如何在nubank进行旋转
我们如何有效，可靠地扩展数据平台
为什么我们杀死了我们的端到端测试套件
机器学习模型的自动再培训：技巧和经验教训

Openai

博客文章

3月20日CHATGPT中断：这就是发生的事情
Openai SRE和缩放缩放很容易。
将kubernetes缩放到2500个节点
将kubernetes缩放到7,500个节点
在OpenAI上扩展AI基础设施

贝宝

博客文章

触发：事件＃1234（事件过程需要修复）
在服务网格中实现可观察性
大规模的PostgreSQL：数据库架构更改而没有停机时间
在PayPal上缩放GraphQl

视频

Srecon对话是亚洲/太平洋与Karthikeyan Selvaraj和Rajesh Ramachandran，Paypal
SRE然后对SRE NOW：Paypal的反射与直觉本能之间的平衡行为
通过分布式日志处理检测服务降解和大规模失败
轻松地操作Elasticsearch
通过安全控制确保站点可靠性

野餐

博客文章

千分尺和现代可观察性堆栈
野餐的监视和可观察性

博客文章

确保广告的高可用性实时流媒体服务
使用S3读取优化提高效率并降低运行时
在Pinterest上保证Kubernetes缩放Kubernetes
我们从iOS App Ooms事件中学到了什么
我们如何设计连续集成系统的速度超过50％
简化Web部署
升级Pinterest操作指标
使用新的开源工具在Pinterest上分布式跟踪
自动缩放pinterest

视频

建立可行的代码所有权
Pinterest的可观察性工具的演变
自动化服务所有者的OS/平台升级

邮差

博客文章

了解您的Kubernetes群集如何使用Gremlin和Grafana响应故障

Prezi

博客文章

如何避免全局中断 - 无缝迁移登山标签
寻找速度 - 调试Elasticsearch绩效
普罗米修斯（Prometheus）在Prezi：替换10年的反模式

红帽

博客文章

从行动到SRE：OpenShift专用团队的演变
5敏捷实践每个SRE团队都应采用
撰写Kubernetes运营商的7种最佳实践：SRE的观点

防暴游戏

博客文章

Runeterra CI/CD管道的传说
在不确定系统中工作的策略
改善开发人员的经验
阀门的可伸缩性和负载测试
利用Golang进行游戏开发和操作
与故障注入测试的控制混乱
沿着性能监测的兔子洞
分析：失踪毫秒的情况
分析：联盟现实世界的表现
分析：优化
分析：测量和分析
Riot在线服务：第一部分
Riot在线服务：第二部分
Riot在线运行：第三部分
暴动：第三部分：零件Deux
Riot在线服务：第四部分
Riot在线服务：V部分
防暴的安全性演变
为联盟客户更新运行自动测试管道
英雄联盟的自动测试

Salesforce

博客文章

查看Kubernetes控制平面多租期
优化EKS网络以进行规模
kubernetes群集中的零停机节点补丁
如何，而不是为什么：验证后五个Whys的替代方案
kubernetes的通用边防器注射器
基于微服务的产品的监视策略实施
制定您实际使用的事件响应计划的10个步骤
我们前往几乎完美的日志管道的旅程
优化网络工作者的绩效
花点时间重新关注

Schibsted媒体

博客文章

斯堪的纳维亚半岛前10个地点中的一些网站中的一些可靠性工程

Scribd

博客文章

从事件中学习：获得SideKiq准备服务十亿个工作
用于使用Scribd的Pagerduty的推荐
将寻呼机义务分配给开发人员

购物

博客文章

高流量活动的弹性计划
规模能力计划
使用DNS流量管理为Shopify的服务增加弹性
创建有效的游戏日测试的四个步骤
将Chatops实施到我们的事件管理程序中
Shopify的Statsd

视频

网络监视器：确认可观察性差距的故事
期望出乎意料：准备SRE团队应对新的失败
高级餐巾数学：从第一原理估算系统性能

天空博彩和游戏

博客文章

这只是一个监视变化
“可能发生的最糟糕的情况是什么？”：我们如何处理现场事件的工作例子
从灰烬中升起
碰撞！砰!沃洛普！实践使完美
左右表演

松弛

博客文章

Slack的事件在2-22-22上
改变支出曲线的基础设施可观察性
Slack的停电在2021年1月4日
在Slack的可怕，可怕，不好，非常糟糕的一天
部署在Slack
灾难剧院：Slack的可接近混乱工程的过程

视频

边缘松弛
什么打破了我们的系统：黑天鹅的分类法

激流回旋构建

博客文章

如何在新的遗物APM中实现服务级别目标
DevOps的初学者指南：如何进入行业
GitHub动作：超越CI/CD
为什么所有测试自动化都不在管道上运行？
网站可靠性工程的许多形状
如何使用AWS上的基本CI/CD管道来默认构建安全的Kubernetes群集
秘密管理体系结构：找到安全与复杂性之间的平衡
使用Keras＆TensorFlow检测恶意要求
乐高巨石 - 整体微服务概念证明
使用Hashicorp Vault管理秘密
包装春季启动应用程序，用于在Kubernetes上部署
不变的基础设施和云中的连续交付

Soundcloud

博客文章

如何成功交出系统
建立健康的待命文化
警报像专业人士这样的SLO
与金丝雀的移动部署
普罗米修斯已经成年 - 对开源项目的开发的反映
Prometheus：在Soundcloud进行监控
我一年以来作为SRE学员学到的东西
放大镜下的测试

Spotify

博客文章

马特·克拉克（Matt Clarke）：高级后端基础设施工程师
为开发人员设计更好的Kubernetes体验
TechBytes：行业对事件的错过以及您可以做什么
GCP中的自动事件响应基础架构

视频

跟踪，快速和慢：挖掘并改善网络服务的性能

方形

博客文章

引擎盖下：确保网站可靠性

视频

推动摩擦
当一切都已经着火时如何sre
案例研究：为新服务实施SLO
创建代码审查文化

堆栈溢出

博客文章

“这永远不会发生。如果这样做，请致电开发人员。”
基础架构作为代码：创建和配置基础架构元素在几秒钟内
履行CI/CD的承诺
深入研究我们2019年5月的安全事件
来宾帖子 - 失败而没有跌倒
我们如何建立博客
堆栈溢出用Netlify释放工程时间

视频

低环境DevOps：通过默认，文档和纪律改善SRE团队文化

Strava

博客文章

为数百万用户的缩放俱乐部排行榜基础架构
在Strava的分布式跟踪

条纹

博客文章

使用规范日志线的快速灵活的可观察性
快速构建，安全构建。选择两个。
介绍委员：DataDog的高性能和全球聚合

视频

Stripe如何投资于技术基础架构
AWS计费机和优化云成本

目标

博客文章

ɔhaosǝnginǝǝring @ target-第2部分
ɔhaosǝnginǝǝring @ target-第1部分
GOOLERT-您未来的开源，通知产品

Teads

博客文章

Scaling your on-duty team

火种

博客文章

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

象征

博客文章

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

博客文章

How To Get Fooled By Metrics

Twilio

博客文章

Twilio SRE Gameday Template

叽叽喳喳

博客文章

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

优步

博客文章

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

视频

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

博客文章

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

升级

博客文章

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

博客文章

The SRE Incident Response game

视频

Level Up Your Incident Response With Gameplay

Wikimedia基金会

视频

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Wix

博客文章

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

喊叫

博客文章

The process: Implementing Yelp's failover strategy

视频

Yelp - What I Wish I Knew before Going On-Call

Zalando

博客文章

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

博客文章

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

博客文章

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

视频

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

资源

图书

新的！ Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success |便携式版本
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering