他们如何表现

介绍
他们如何SRE如何成为网站可靠性工程(SRE)最佳实践,工具,技术和文化的策划知识存储库,由领先的技术或精通技术的组织采用。
许多组织经常分享他们的见解和专业知识,包括塑造其工程文化的最佳实践,工具和技术。他们通过工程博客,会议和聚会等各种公共平台来做到这一点。该存储库编译并介绍从这些来源收集的内容。
主题
- 站点可靠性工程
- 雇用和建立SRE团队
- SRE文化
- DevOps
- 监视和可观察性
- 警报
- 事件响应和验尸
- 呼叫
- 生产测试
- 混乱工程
- 自动化
- 表现
- 平台工程
组织
成就者
博客文章
- 输入屠宰场 - 建筑物“点菜” gitops工具
- 在全球范围内扩展生产 - 服务网络改款(第1部分)
- 全球扩展生产 - 解决开发人员的可观察性问题(第2部分)
- 负载测试Kubernetes:构建框架(第1部分)
- 负载测试Kubernetes:解决瓶颈和提高性能(第2部分)
Airbnb
博客文章
- 通过松弛自动事件管理
- 检测漏洞
- 在Airbnb发出警报框架
- 当云变得黑暗时 - 亚马逊的中断如何影响Airbnb
- 智能自动化平台:赋予Airbnb的对话人AI及其他
- Airbnb的生产秘密管理
- 大规模自动化数据保护,第1部分
- 大规模自动化数据保护,第2部分
- 大规模自动化数据保护,第3部分
- Airbnb的动态kubernetes群集缩放
阿尔高利
博客文章
- 5月30日SSL事件
- 进入SRE的旅程
- CI/CDAY 2024:是什么使CI/CD平台成为什么?
阿里巴巴云
博客文章
- 为什么顶级互联网公司选择SRE而不是传统的O&M?
- 比利比利实时平台的建筑和实践
体式
博客文章
- 体式如何使用Asana:安全事件响应
- Asana如何发行稳定的Web应用程序发布
- 分析最近的停机时间以及我们为防止未来事件做什么
- 开发人员环境:通过快速重置来实现可靠性
- 每个IT领导者今年秋天考虑的三种安全策略
ASOS
博客文章
- 玩无责任的比赛
- …CAT S(可靠性工程主管)的一天
- AKS性能旅程:第1部分 - 对所有内容进行调整
- AKS性能旅程:第2部分 - 网络
- 网络安全 @ asos.com
- 安全操作24x7
- 我们在网络安全事件中寻找的技能响应
阿特拉斯利亚人
博客文章
- DevOps时代变更管理的最佳实践
- 自动测试:来自Atlassian的Kubernetes团队的5堂课,用于测试基础架构作为代码
- 如何导出Kubernetes事件以观察到和警报
- 事件验尸模板
后市场
博客文章
- Back Market SRE如何为黑色星期五做准备
百度
视频
- 金信号的异常检测
- Netradar:监视数据中心网络
- 让混乱开始 - Sre Chaos Engineering符合网络安全
基础
博客文章
- 内部代码红色:网络版
- 三个基本打电话。一周。发生了什么?
- Basecamp 2和Basecamp 3搜索中断报告
- 减少Basecamp的事件升级
图书
彭博
视频
- 通过页面参考抽样的能力计划和绩效提高
- 为什么SRE负担不起不做混乱工程
- 追踪实时分布式系统
- 彭博故事:在一个“不可估量”的组织中建立SRE团队
- 可见性对伐木者(和其他低级服务) - 从森林中看到树木
booking.com
博客文章
- 可靠性和产品团队如何在booking.com上合作
- 事件,修复和第二天
- 故障排除:进入未知的旅程
视频
- 数据密集型服务的SLO
- 带有容器基础设施的较少旅行道路的好处
首都一
博客文章
- 与Slack自动化应用程序监视
- 使用Boto 3:AWS健康检查自动化AWS基础架构
- 主动活动共享的数据库体系结构
- SRES的3 R:弹性,恢复和可靠性
- 准备好您的应用混乱的5个步骤
- 4种像混乱工程实验一样阅读的现实情况
- 拥抱混乱……工程
- 从企业实施混乱工程中学到的3个教训
- 深入研究AWS CodeDeploy的无缝蓝色/绿色部署
- 安全的Docker容器需要安全的应用程序
- 配对云和Devops以提高弹性的4个步骤
- 使用十二个因素应用程序和微服务体系结构的容器就绪应用程序
- 充满信心地部署 - 最大程度地降低风险,最大程度地利用AWS的金丝雀部署
- 建筑建筑以提高弹性
- 连续混乱 - 将混乱工程引入DevOps实践
- Mon-Fifesto第1部分:指标
主要事件与分析报告
- 有关Capital One网络事件的信息
- 对资本一个数据泄露的案例研究
视频
- 持续交付 - 资本一号
- DevOps中的连续混乱 - 首都一号
- Capital One的DevOps:专注于管道和测量
- 自动化管理云帐户运营健康的管理
共同案件
博客文章
达兹
博客文章
DBS
博客文章
- 在ITHOME的SRE会议上展示:到目前为止我们的DBS SRE转型之旅
- 揭穿七个最受欢迎的网站可靠性工程神话
- 如何使用SRE在工作场所培养无罪的文化
- DBS银行的站点可靠性工程
- 大规模自动配置管理
- DBS如何消除混乱工程的神话
- 双重劳动和麻烦
视频
- SRECON对话亚太与Koon Seng Lim,DBS
DeepSource
博客文章
- REDIS无磁盘复制:什么,如何,原因和警告
- 如何用kubernetes设置保险库
- 分解Kubernetes中的零停机时间部署
Dream11
博客文章
- 大规模部署:Dream11内部蓝绿色部署平台“ OneClick”背后的故事。
- 通过AWS WAFV2增强安全性和信任
- 从运行GraphQL中学到的经验教训
- 断路,节省孔?
- 在混乱中查找订单:我们如何使用扭矩自动化性能测试
- 在Dream11中保持超声发行版
- 缩放还是扩展?这是我们在Dream11进行扩展的方式
- Dream11构建可扩展的实时分析,警报和异常检测体系结构
Dropbox
博客文章
- Dropbox工程职业框架 - 可靠性工程师(SRE)
- Atlas:我们从Python Monolith到托管平台的旅程
- 用涡流监视服务器应用程序
- 雅典娜:我们的自动建筑健康管理系统
- 有兴趣成为网站可靠性工程师吗?
视频
ebay
博客文章
- Kafka的弹性和灾难恢复
- SRE案例研究:在记忆问题上分类非降低的JVM
- SRE案例研究:神秘的交通不平衡
- 零停机时间,即时部署和回滚
- eBay的通知平台如何以新方式使用故障注入
视频
史诗般的游戏
视频
- AWS RE:Invent 2018:Epic Games使用AWS向2亿玩家提供Fortnite
Etsy
博客文章
- 改善十年申请的部署经验
- Etsy如何为2020年的历史度假货币做准备
- 你的大脑进步
- Etsy的汇报促进指南指南
- OPSWEEKLY:测量警报分类的呼叫经验
- 揭开现场中断
- 无罪的邮政事故和公正文化
- 测量任何东西,衡量一切
视频
- 速度09:John Allspaw和Paul Hammond,“ 10+部署PE
- 将整体迁移到云端
Expedia
博客文章
- 自动化性能标准
- 错误预算政策 - 第1部分 - 在Expedia集团中采用
- 错误预算政策 - 第2部分 - Expedia Group的实践
- 使用故障注射来提高我们新的运行时平台的可靠性
- 从Expedia Group的事件中学习
- 改善VRBO主页加载体验
- 故障排除502错误:ECS清单
- 开始使用Elasticsearch
- 关于istio-proxy 5xx问题
- 在Kubernetes中自动化:为什么水平豆荚自动制剂不适合我?
- 如何保持Kubernetes部署在多个区域之间保持平衡
- 您的Dropwizard延迟指标是否会误导您?
- 100%可靠性的成本
- 创建监视仪表板
- 使用Bash进行DevOps
迅速
视频
- SRE和产品管理:如何通过像产品经理一样思考来升级您的团队(和职业!)
- 弹性工程神话
G研究
博客文章
- 我们在G-Research的SRE旅程
- SRE之旅继续
- OPENTSDB META CACE - 性能权衡
Getaround
博客文章
github
博客文章
- 我们如何通过迭代简化改善可用性
- 我们如何改善GitHub上的推动处理
- Github如何使用合并队列每天运送数百个变化
- 使用AI修复安全漏洞
- Github的工程基础计划:我们如何提供可用性,安全性和可访问性
- GitHub如何使用GitHub动作和动作较大的跑步者来构建和测试GitHub.com
- GitHub安全实验室在开源项目中披露500个CVE的旅程
- CodeQL团队使用AI在代码中为漏洞检测供电
- 解决GitHub最近的可用性问题
- 建立整个组织的治理和重新利用CI/CD和使用GitHub行动的自动化
- 通过GITHUB操作通过exuceops启用分支机构部署
- 使用ChatOps帮助行动中的工程师
- 分区GitHub的关系数据库来处理规模
- 通过GitHub代码扫描增加开发人员的幸福感
- 为什么(以及如何)GitHub采用opentelemetry
- 改善GitHub上的大型MonorePo性能
- GitHub的部署可靠性
- 改善我们如何部署github
- 在Github建立呼叫文化
- 将片状构建减少18倍
- 操作在DevOps中的不断发展的作用
- DevOps Automation入门
- GitHub的MySQL高可用性
主要事件与分析报告
- GitHub可用性报告:2024年8月
- GitHub可用性报告:2024年7月
- GitHub可用性报告:2024年6月
- GitHub可用性报告:2024年5月
- GitHub可用性报告:2024年4月
- GitHub可用性报告:2024年3月
- GitHub可用性报告:2024年2月
- GitHub可用性报告:2024年1月
- GitHub可用性报告:2023年12月
- GitHub可用性报告:2023年11月
- GitHub可用性报告:2023年10月
- GitHub可用性报告:2023年9月
- GitHub可用性报告:2023年8月
- GitHub可用性报告:2023年7月
- GitHub可用性报告:2023年6月
- GitHub可用性报告:2023年5月
- GitHub可用性报告:2023年4月
- GitHub可用性报告:2023年3月
- GitHub可用性报告:2023年2月
- GitHub可用性报告:2023年1月
- GitHub可用性报告:2022年12月
- GitHub可用性报告:2022年11月
- GitHub可用性报告:2022年10月
- GitHub可用性报告:2022年9月
- GitHub可用性报告:2022年8月
- GitHub可用性报告:2022年7月
- GitHub可用性报告:2022年6月
- GitHub可用性报告:2022年5月
- GitHub可用性报告:2022年4月
- GitHub可用性报告:2022年3月
- GitHub可用性报告:2022年2月
- GitHub可用性报告:2022年1月
- GitHub可用性报告:2021年12月
- GitHub可用性报告:2021年11月
- GitHub可用性报告:2021年10月
- GitHub可用性报告:2021年9月
- GitHub可用性报告:2021年8月
- GitHub可用性报告:2021年7月
- GitHub可用性报告:2021年6月
- GitHub可用性报告:2021年5月
- GitHub可用性报告:2021年4月
- GitHub可用性报告:2021年3月
- GitHub可用性报告:2021年2月
- GitHub可用性报告:2021年1月
- GitHub可用性报告:2020年12月
- GitHub可用性报告:2020年11月
- GitHub可用性报告:2020年8月
- GitHub可用性报告:2020年7月
- 引入GitHub可用性报告
- 2月服务中断事后分析
- 10月21日,后期分析
- 2月28日DDOS事件报告
- 事件报告:无意的私人存储库披露
视频
GitLab
博客文章
- 此SRE试图推出Haproxy配置更改。您不会相信接下来发生的事情...
- 我的一周阴影Gitlab网站可靠性工程师
- 更新:用于高级全局搜索的Elasticsearch课程
- 新团队基础架构的迭代课程
- 我们如何优化Gitlab的基础设施支出
- 我们如何使用sidekiq在gitlab.com上缩放异步工作负载处理
- gitlab内部:我们如何发布软件补丁
- 追踪的缺少TCP饲养员教会了我关于Docker,Golang和Gitlab的知识
- 我们如何使用PostgreSQL使用延迟复制进行灾难恢复
无盖
博客文章
- 在Gocardless:开源我们的“入门”教程中部署软件
- 我们如何压缩酒吧/子消息等等,节省一笔钱
- 铁轨的无恐惧后Ql迁移
- 无盖无观的可观察性:API性能改善的故事
- 调试PostgreSQL查询计划者
- 零下降的邮政迁移 - 硬零件
- 寻找性能 - 我们如何剃光200ms的每个帖子请求
主要事件与分析报告
- 事件评论:2020年10月25日的服务停电,Vault TLS到期
- 事件评论:2017年10月10日的API和仪表板中断
Godaddy
博客文章
- Kubernetes封闭部署
- Kubernetes外部秘密
- Kubernetes-应用程序开发人员的实用介绍
- kubernetes api的直观node.js客户端
Gojek
博客文章
- 引入Skynet:基础架构作为Gojek的代码
- 扩展我们的地理搜索服务10倍负载
- 为什么我们向RCA发誓
- 我们如何在GKE上升级Kubernetes
- 我们如何监视生产中的Apache气流
高盛
博客文章
- SECDB可观察性旅程
- 混乱测试AWS上的应用程序
- 使用机器学习来提高应用程序弹性的预测产能停电
- 通过使用Haproxy,通过SYBASE IQ多路复用提供99.9%的可用性和次秒响应时间
- 使用Amazon RD和Amazon Aurora建立多区域弹性
- 在高盛(Goldman Sachs)启用高度可用的Trino集群
- 大规模可观察性
- 基础架构和指挥链模式
- 移动CICD与EC2 MACOS
- 宣布捕获 - 源代码秘密扫描仪
- 建立数据工程平台
谷歌
博客文章
- 使用生成AI加速事件响应
- 微服务依赖管理中的陷阱和模式
- SRE练习和流程
- Google网站可靠性使用
- 三个月,30倍的需求:我们如何扩展Google在Covid-19期间
- SRE教室:分布式Pubsub
- SRE团队的组织方式以及如何开始
视频
- DevOps和SRE有什么区别?与Google的Seth Vargo和Liz Fong-Jones一起
- 与Google的Seth Vargo和Liz Fong-Jones一起使用风险和错误预算
- 务实的自动化'与GCP的Max Luebbe
- 必须看! -Google SRE YouTube播放列表
- 紧缩级别的目标:SRE如何帮助对齐技术工作以使用户利益
- 实施分布式共识
- 我渴望成为
- SRE教室,或如何在3小时内设计可靠的分布式系统
- 零触摸产品:面向更安全,更安全的生产环境
- 我们所有的ML想法都是不好的(我们应该感到难过)
- 该地图不是领土:SLO如何使我们误入歧途,以及我们能做什么
- 将SRE培训最佳实践部署到生产中:我们如何制定SRE教育计划
- Bigtable:从二进制到服务的旅程以及一路上学到的教训
- 可观察性的实用仪器
- 什么是ML OPS:生产ML服务的解决方案和最佳实践
- 统一的服务可靠性报告
- 如何交易服务器利用率和尾部潜伏期
- 保持平衡:互联网规模的负载平衡神秘
- 从黑匣子到已知数量:如何构建可预测的,可靠的基于ML的服务
- SRE中的正念:监视和警告自己的自我
- 务实的自动化
- 实践中的均方根缩放:1K SRE项目
- 编辑生产数据的策略
- SRE自治的诅咒以及如何管理它
- 扩展SRE组织:从1到许多团队的旅程
- SRE教室 - 如何在3小时内设计分布式系统
- 使用PRD和用户旅行来设计用户友好的工具
- Google SRE和开发人员如何共同努力
- SRECON21- SRE的实验
抓住
博客文章
- 我们在Grab连续交付的旅程(第1部分)
- 我们在Grab连续交付的旅程(第2部分)
- 设计弹性系统:断路器还是检索? (第1部分)
- 设计弹性系统:断路器还是检索? (第2部分)
- 设计弹性系统超出重试(第3部分):建筑模式和混乱工程
- 使用Grab的实验平台编排混乱
- 我们如何设计配额微服务以防止资源滥用
- 我们如何缩放缓存并睡个好觉
语法
博客文章
- 扩展AWS基础架构以支持多个区域
- AWS环境中的安全操作
热情
博客文章
halodoc
博客文章
Heroku
博客文章
- Heroku的新建筑中的聚会冒险
- Heroku的事件响应
IBM
博客文章
- 什么是站点可靠性工程(SRE)?
- AIOPS工具和解决方案
的确
博客文章
- 确实是SRE:内部外观
- 足够可靠
- 自动化确实的发布过程
- 懒惰,一种诱导网络失败的工具
视频
的确
博客文章
可汗学院
博客文章
- 可汗学院如何在一周内成功处理2.5倍的流量
- 不断发展我们的内容基础架构
LinkedIn
博客文章
- 通过容量分析仪重新思考现场容量预测
- 深入了解LinkedIn产品SRE团队
- 在LinkedIn雇用SRES
- 开源更新:SRE学校
- 修复Linux文件系统性能回归
- 黑色金丝雀的生产测试
- LinkedIn的实时监控平台Thixteye中的智能警报
- 虹膜手机:用于事件管理的开源,移动接口
- 链接:请求级故障注入框架
- 通过全自动负载测试消除辛劳
- 成功的地理分布的SRE团队的构成:第1部分
- 成功地理分布的SRE团队的成功构成:第2部分
- 项目明星*:简化我们的电话过程
- 自动化您的oncall:开源纹章和ASCII蚀刻
- LinkedIn的弹性工程与项目水折
- 在LinkedIn招聘SRE,2017年
- 开源虹膜和oncall
- 在LinkedIn建立SRE文化
- 失败不是一个选择
- MTTD和MTTR是关键
- 测量的是修复的
视频
- 在LinkedIn:招聘很困难-Greg Leffler
- 9年的失败:赛车糟糕的汽车如何使我变得更好
- 风暴风暴:早期警告如何拯救农场
- 不参加会议:SRE中未解决的问题
- 领导而无需管理:成为SRE技术领导者
- 为什么(我的)监视很烂?
- 交通预测和压力测试基础设施
- 集体正念在SRE中做出更好的决定
- TCP - 架构,增强和调整
- 超过6亿成员和数百个微服务:我们如何扩展监控系统以跟上
- 了解业务指标可以使您成为更好的SRE
- 代码黄色:帮助运营最聪明的团队以明智的方式
- 公司之间SRE实施的差异
工具
loggi
博客文章
Loveholidays
博客文章
- 与Prometheus和AlertManager的动态警报路由
- 用HTTP/3使LoveHolidays更快地制作LoveHolidays
- 使用Terraform,Atlantis和政策作为代码来实施自助基础设施的最佳实践
- 有助于扩展Loveholidays的5个原则
- 实时与Grafana Loki快速登录,每天不到1美元
麦格理
博客文章
- 我们与Golang一起旅行的DevSecops
- 管道配置为与Kotlin的代码
- DevOps和职责隔离
- Macquarie拥抱Devops
- 在整个企业上扩展Kubernetes平台
最重要
博客文章
- 用Prometheus和Thanos大规模监视云环境
- 我们如何使用懒惰对Prometheus进行SLO监测和警报
meituan(美团)
博客文章
- SRE在云中的发展和实践(云端的sre发展与实践)
Mercari
博客文章
- 谁看着守望者?密切关注我们的监视系统
- SRE SRE团队作为SRE福音传教士所做的事情
- 作为嵌入式微服务SRE工作的感觉
- Merpay SRE团队:过去和未来
- 在Mercari嵌入SRED SRE
- SRE团队希望在开发团队中取得什么成就
- DevSecops:这是什么,为什么它在行业中获得动力?
- 我们如何分享故障排除技能
- datadog仪表板,w / terraform
元
博客文章
- 利用AI进行有效的事件响应
- 通过数据注释改善Meta的SLO工作流程
- 光滑:采用SLO以提高可靠性
- 有关10月4日停电的更多详细信息
- 有关10月4日停电的更新
视频
- SRE的客户服务方法
- 如何(不)扩展项目:验尸
- 每7分钟释放一次世界上最大的Python网站
- 使用ML自动化动态错误分类
微软
视频
- SLI和可靠性深入研究'与Microsoft的David N. Blank-Edelman
- 自动化的讽刺:一部喜剧,分为三部分'与Microsoft的Tanner Lund
- 可持续软件工程和SRES
- 研究人为因素和团队文化以改善Pager疲劳
- 在创建应用程序时优先考虑信任
- 建筑韧性:如何从事件中学习更多
- 两个邮政事故的故事:人为意见
- 可用性 - 超过9秒
- 自动化讽刺:三个部分的喜剧
- 无服务器中的操作
米罗
博客文章
- Prometheus高可用性和容错策略,长期存储与VictoriAmetrics
- 管理数百台服务器进行负载测试:自动化,自定义监控,DevOps文化
- 关于意外细微差别的可靠负载测试
蒙佐
博客文章
- 自动化Monzo:我们如何优化平台以成为合适的尺寸
- 我们如何在Monzo进化
- 我们如何应对事件
- 我们如何监视Monzo
视频
工具
Netflix
博客文章
- 在异步工作流程中实现可观察性
- 构建Netflix的分布式追踪基础设施
- Netflix建立可观察性工具的教训
- 埃德加:以可观察性解决谜团
- Telltale:Netflix应用程序监控简化
- 保持客户流媒体 - Netflix的集中站点可靠性实践
- 介绍调度
- 将Netflix DevOps模式应用于Windows
- 章节:混乱自动化平台
- 开始雪崩
- Netflix混乱猴子升级
- 混乱工程升级
- 自动故障测试
- 从混乱到控制 - 测试Netflix内容发现平台的弹性
- 介绍地图集:Netflix的主要遥测平台
- 适合:故障注射测试
- 宣布安全猴子 - AWS安全配置监视和分析
- Netflix的课程从AWS中断学到了
- Scryer:Netflix的预测自动扩展引擎
主要事件与分析报告
视频
- AWS RE:Invent 2019:Netflix工程师生平的一天(NFX202)
- /bin /sh攻击时:重新审视“自动化所有事物”
- 事情怎么对?从事件中了解更多
- 监视和追踪@Netflix流数据基础结构
- Netflix量表的真实用户性能监视 - 马丁·斯皮尔(Martin Spier)
- AWS RE:Invent 2017- Nora Jones描述了我们为什么需要更多混乱 - 混乱工程
- AWS RE:Invent 2017:在Netflix量表(DEV334)上表演混乱
- Netflix:多区域弹性和亚马逊路线53
- 设计服务以提高弹性:Netflix课程
- 南湾SRE聚会 - Netflix Cloud Performance Team
- AWS RE:Invent 2017:Netflix工程师III(ARC209)的一天
- Netflix如何使用运动式流来监视应用程序并分析数十亿流量
- 掌握混乱 - Netflix微服务指南
- AWS RE:Invent 2016:从韧性到无处不在 - #NetflixeveryWhere全球体系结构(ARC204)
- Srecon 2016- Netflix:190个国家和5个核心SRES
- 从系统管理员到Netflix SRE
- Netflix的应用弹性工程和运营
- Netflix注射故障
- LISA13- Netflix如何拥抱未能提高弹性和最大化可用性
- Netflix速度的事件管理
播客
- 瑞安厨房(Ryan Kitchens)从Netflix,SRE的角色和社会技术系统中学习
工具
新遗物
博客文章
- 定义现代软件角色:新遗物的SRES
- 每个人都需要了解有关网站可靠性工程(SRE)的10件事
- 网站可靠性工程师使用哪些工具?
- 新遗物SRE的生活中的一天
- 非常成功的站点可靠性工程师的7种习惯
- 采用SRE的做法
- 使用现代可观察性建立数据驱动的文化
nubank
博客文章
- 工程运营卓越,持续改进的案例
- 我们如何处理技术事件
- 我们如何在nubank进行旋转
- 我们如何有效,可靠地扩展数据平台
- 为什么我们杀死了我们的端到端测试套件
- 机器学习模型的自动再培训:技巧和经验教训
Openai
博客文章
- 3月20日CHATGPT中断:这就是发生的事情
- Openai SRE和缩放缩放很容易。
- 将kubernetes缩放到2500个节点
- 将kubernetes缩放到7,500个节点
- 在OpenAI上扩展AI基础设施
贝宝
博客文章
- 触发:事件#1234(事件过程需要修复)
- 在服务网格中实现可观察性
- 大规模的PostgreSQL:数据库架构更改而没有停机时间
- 在PayPal上缩放GraphQl
视频
- Srecon对话是亚洲/太平洋与Karthikeyan Selvaraj和Rajesh Ramachandran,Paypal
- SRE然后对SRE NOW:Paypal的反射与直觉本能之间的平衡行为
- 通过分布式日志处理检测服务降解和大规模失败
- 轻松地操作Elasticsearch
- 通过安全控制确保站点可靠性
野餐
博客文章
Pinterest
博客文章
- 确保广告的高可用性实时流媒体服务
- 使用S3读取优化提高效率并降低运行时
- 在Pinterest上保证Kubernetes缩放Kubernetes
- 我们从iOS App Ooms事件中学到了什么
- 我们如何设计连续集成系统的速度超过50%
- 简化Web部署
- 升级Pinterest操作指标
- 使用新的开源工具在Pinterest上分布式跟踪
- 自动缩放pinterest
视频
- 建立可行的代码所有权
- Pinterest的可观察性工具的演变
- 自动化服务所有者的OS/平台升级
邮差
博客文章
- 了解您的Kubernetes群集如何使用Gremlin和Grafana响应故障
Prezi
博客文章
- 如何避免全局中断 - 无缝迁移登山标签
- 寻找速度 - 调试Elasticsearch绩效
- 普罗米修斯(Prometheus)在Prezi:替换10年的反模式
红帽
博客文章
- 从行动到SRE:OpenShift专用团队的演变
- 5敏捷实践每个SRE团队都应采用
- 撰写Kubernetes运营商的7种最佳实践:SRE的观点
防暴游戏
博客文章
- Runeterra CI/CD管道的传说
- 在不确定系统中工作的策略
- 改善开发人员的经验
- 阀门的可伸缩性和负载测试
- 利用Golang进行游戏开发和操作
- 与故障注入测试的控制混乱
- 沿着性能监测的兔子洞
- 分析:失踪毫秒的情况
- 分析:联盟现实世界的表现
- 分析:优化
- 分析:测量和分析
- Riot在线服务:第一部分
- Riot在线服务:第二部分
- Riot在线运行:第三部分
- 暴动:第三部分:零件Deux
- Riot在线服务:第四部分
- Riot在线服务:V部分
- 防暴的安全性演变
- 为联盟客户更新运行自动测试管道
- 英雄联盟的自动测试
Salesforce
博客文章
- 查看Kubernetes控制平面多租期
- 优化EKS网络以进行规模
- kubernetes群集中的零停机节点补丁
- 如何,而不是为什么:验证后五个Whys的替代方案
- kubernetes的通用边防器注射器
- 基于微服务的产品的监视策略实施
- 制定您实际使用的事件响应计划的10个步骤
- 我们前往几乎完美的日志管道的旅程
- 优化网络工作者的绩效
- 花点时间重新关注
Schibsted媒体
博客文章
- 斯堪的纳维亚半岛前10个地点中的一些网站中的一些可靠性工程
Scribd
博客文章
- 从事件中学习:获得SideKiq准备服务十亿个工作
- 用于使用Scribd的Pagerduty的推荐
- 将寻呼机义务分配给开发人员
购物
博客文章
- 高流量活动的弹性计划
- 规模能力计划
- 使用DNS流量管理为Shopify的服务增加弹性
- 创建有效的游戏日测试的四个步骤
- 将Chatops实施到我们的事件管理程序中
- Shopify的Statsd
视频
- 网络监视器:确认可观察性差距的故事
- 期望出乎意料:准备SRE团队应对新的失败
- 高级餐巾数学:从第一原理估算系统性能
天空博彩和游戏
博客文章
- 这只是一个监视变化
- “可能发生的最糟糕的情况是什么?”:我们如何处理现场事件的工作例子
- 从灰烬中升起
- 碰撞!砰!沃洛普!实践使完美
- 左右表演
松弛
博客文章
- Slack的事件在2-22-22上
- 改变支出曲线的基础设施可观察性
- Slack的停电在2021年1月4日
- 在Slack的可怕,可怕,不好,非常糟糕的一天
- 部署在Slack
- 灾难剧院:Slack的可接近混乱工程的过程
视频
激流回旋构建
博客文章
- 如何在新的遗物APM中实现服务级别目标
- DevOps的初学者指南:如何进入行业
- GitHub动作:超越CI/CD
- 为什么所有测试自动化都不在管道上运行?
- 网站可靠性工程的许多形状
- 如何使用AWS上的基本CI/CD管道来默认构建安全的Kubernetes群集
- 秘密管理体系结构:找到安全与复杂性之间的平衡
- 使用Keras&TensorFlow检测恶意要求
- 乐高巨石 - 整体微服务概念证明
- 使用Hashicorp Vault管理秘密
- 包装春季启动应用程序,用于在Kubernetes上部署
- 不变的基础设施和云中的连续交付
Soundcloud
博客文章
- 如何成功交出系统
- 建立健康的待命文化
- 警报像专业人士这样的SLO
- 与金丝雀的移动部署
- 普罗米修斯已经成年 - 对开源项目的开发的反映
- Prometheus:在Soundcloud进行监控
- 我一年以来作为SRE学员学到的东西
- 放大镜下的测试
Spotify
博客文章
- 马特·克拉克(Matt Clarke):高级后端基础设施工程师
- 为开发人员设计更好的Kubernetes体验
- TechBytes:行业对事件的错过以及您可以做什么
- GCP中的自动事件响应基础架构
视频
方形
博客文章
视频
- 推动摩擦
- 当一切都已经着火时如何sre
- 案例研究:为新服务实施SLO
- 创建代码审查文化
堆栈溢出
博客文章
- “这永远不会发生。如果这样做,请致电开发人员。”
- 基础架构作为代码:创建和配置基础架构元素在几秒钟内
- 履行CI/CD的承诺
- 深入研究我们2019年5月的安全事件
- 来宾帖子 - 失败而没有跌倒
- 我们如何建立博客
- 堆栈溢出用Netlify释放工程时间
视频
- 低环境DevOps:通过默认,文档和纪律改善SRE团队文化
Strava
博客文章
- 为数百万用户的缩放俱乐部排行榜基础架构
- 在Strava的分布式跟踪
条纹
博客文章
- 使用规范日志线的快速灵活的可观察性
- 快速构建,安全构建。选择两个。
- 介绍委员:DataDog的高性能和全球聚合
视频
- Stripe如何投资于技术基础架构
- AWS计费机和优化云成本
目标
博客文章
- ɔhaosǝnginǝǝring @ target-第2部分
- ɔhaosǝnginǝǝring @ target-第1部分
- GOOLERT-您未来的开源,通知产品
Teads
博客文章
- Scaling your on-duty team
火种
博客文章
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
象征
博客文章
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
博客文章
- How To Get Fooled By Metrics
Twilio
博客文章
- Twilio SRE Gameday Template
叽叽喳喳
博客文章
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
优步
博客文章
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
视频
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
博客文章
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
升级
博客文章
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
博客文章
- The SRE Incident Response game
视频
- Level Up Your Incident Response With Gameplay
Wikimedia基金会
视频
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Wix
博客文章
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
喊叫
博客文章
- The process: Implementing Yelp's failover strategy
视频
- Yelp - What I Wish I Knew before Going On-Call
Zalando
博客文章
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
博客文章
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
博客文章
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
视频
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
资源
图书
- 新的! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success |便携式版本
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
事件
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
其他资源
很棒的列表
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
新闻通讯
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
学分
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
贡献者
贡献
欢迎捐款! Read the contribution guidelines first.
Stargazers Over Time
执照
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.