howtheysreダウンロード - howtheysreソースコードのダウンロード方法

彼らがどのようにsre

導入

彼らがどのようにSREがどのようにSREがサイト信頼性エンジニアリング（SRE）のベストプラクティス、ツール、テクニック、文化のキュレーションされた知識リポジトリであり、主要なテクノロジーまたは技術に精通した組織によって採用されています。

多くの組織は、洞察と専門知識を頻繁に共有し、エンジニアリング文化を形成するベストプラクティス、ツール、テクニックを網羅しています。エンジニアリングブログ、会議、ミートアップなど、さまざまな公開プラットフォームを通じてこれを行います。このリポジトリは、これらのソースから収集されたコンテンツをコンパイルして提示します。

トピック

サイトの信頼性エンジニアリング
SREチームの雇用と構築
SRE文化
DevOps
監視と観察性
警告
インシデント対応と死後
オンコール
生産におけるテスト
カオスエンジニアリング
オートメーション
パフォーマンス
プラットフォームエンジニアリング

組織

達成者

ブログ投稿

食料詰まりを入力 - ビルディング「アラカルト」ギトップス工具
グローバルなスケーリング生産 - サービスメッシュフェイスリフト（パート1）
グローバルに生産をスケーリングする - 開発者の観察可能性の問題を解決する（パート2）
ロードテストKubernetes：フレームワークの構築（パート1）
負荷テストKubernetes：ボトルネックの解決とパフォーマンスの向上（パート2）

Airbnb

ブログ投稿

Slackによる自動インシデント管理
脆弱性の脆弱性を検出します
Airbnbでのアラートフレームワーク
雲が暗くなったとき - Amazonの停止がAirbnbにどのように影響したか
インテリジェントオートメーションプラットフォーム：Airbnbでの会話型AIおよびそれ以降
Airbnbの生産秘密管理
大規模なデータ保護の自動、パート1
大規模なデータ保護の自動、パート2
大規模なデータ保護の自動、パート3
AirbnbでのDynamic Kubernetesクラスタースケーリング

アルゴリア

ブログ投稿

5月30日SSLインシデント
SREへの旅
CI/CDAY 2024：良いCI/CDプラットフォームを作るものは何ですか？

アリババクラウド

ブログ投稿

トップインターネット企業が従来のO＆MよりもSREを選択しているのはなぜですか？
ビリビリのリアルタイムプラットフォームのアーキテクチャとプラクティス

アーサナ

ブログ投稿

AsanaがAsanaを使用する方法：セキュリティインシデント応答
Asanaが安定したWebアプリケーションをリリースする方法
最近のダウンタイムの分析と、将来の事件を防ぐために私たちがしていること
開発者環境：高速にリセットすることで信頼性を達成する
すべてのITリーダーがこの秋を検討するための3つのセキュリティ戦術

ASOS

ブログ投稿

非難のないゲームをプレイします
…猫の人生の一日（信頼性エンジニアリングの責任者）
AKSパフォーマンスの旅：パート1 - すべてをサイジングアップ
AKSパフォーマンスの旅：パート2 - ネットワークアウト
Cyber Security @ asos.com
セキュリティ操作24x7
サイバーセキュリティインシデント対応で私たちが探しているスキル

アトラシアン

ブログ投稿

DevOpsの時代の変更管理のためのベストプラクティス
自動テスト：コードとしてのインフラストラクチャのテストに関するAtlassian's Kubernetesチームからの5つのレッスン
Kubernetesイベントを観察可能性と警告のためにエクスポートする方法
インシデントポストモルテムテンプレート

バックマーケット

ブログ投稿

バックマーケットSRESがブラックフライデーのためにどのように準備したか

Baidu

ビデオ

黄金信号の異常検出
Netradar：データセンターネットワークの監視
カオスを始めましょう。シュレカオスエンジニアリングはサイバーセキュリティを満たしています

ベースキャンプ

ブログ投稿

コードレッド内：ネットワークエディション
3つのベースキャンプ停止。一週間。どうしたの？
Basecamp 2およびBasecamp 3検索停止レポート
Basecampでのインシデントエスカレーションを減らす

本

形を整えます

ブルームバーグ

ビデオ

ページ参照サンプリングによる容量の計画とパフォーマンスの向上
なぜSRESはカオスエンジニアリングを行わない余裕がないのですか
リアルタイム分散システムのトレース
ブルームバーグの物語：「計り知れない」組織にSREチームを構築する
ロガー（およびその他の低レベルのサービス）への可視性 - 森から木を選択します

Booking.com

ブログ投稿

Booking.comで信頼性と製品チームがどのように協力するか
インシデント、修正、および翌日
トラブルシューティング：未知への旅

ビデオ

データ集約型サービスのスロス
コンテナインフラストラクチャを使用して、あまり走行しない道路を取ることの利点

キャピタル1

ブログ投稿

Slackでアプリケーションの監視を自動化します
BOTO 3：AWS Health Checkを使用して、AWSインフラストラクチャを自動化します
アクティブアクティブ共有データベースアーキテクチャ
3 Rのsres：回復力、回復、信頼性
アプリのカオスを準備するための5つのステップ
カオス工学実験のように読み取る4つの現実世界のシナリオ
カオスを受け入れます…エンジニアリング
エンタープライズでカオスエンジニアリングの実装から学んだ3つの教訓
AWS CodeDePloyを使用したシームレスな青/緑の展開に深く潜ります
安全なDockerコンテナには、安全なアプリケーションが必要です
復元力を向上させるためにクラウドとDevOpsをペアリングするための4つのステップ
12個のファクターアプリとマイクロサービスアーキテクチャを備えたコンテナ対応アプリケーション
自信を持って展開 - リスクを最小限に抑え、AWSのカナリア展開で弾力性を最大化する
回復力のための建築
連続カオス - Chaos EngineeringをDevOpsプラクティスに導入します
Mon-Ifestoパート1：メトリック

主要なインシデントと分析レポート

キャピタルワンサイバーインシデントに関する情報
資本1データ侵害のケーススタディ

ビデオ

継続的な配達の銀行 - 資本1
DevOpsの連続カオス - キャピタル1
Capital OneのDevOps：パイプラインと測定に焦点を当てています
大規模なクラウドアカウントの運用健康の管理を自動化する

コインベース

ブログ投稿

Coinbaseの安全な展開パイプラインを開きます

ダズン

ブログ投稿

Daznでのサイトの信頼性

DBS

ブログ投稿

IthomeのSRE会議で発表：これまでのDBS SRE変革の旅
最も人気のある7つのサイトの信頼性エンジニアリングの神話を暴きます
SREを使用して職場で非難されない文化を育む方法
DBS銀行のサイト信頼性エンジニアリング
大規模な構成管理を自動化します
DBがカオス工学の神話をどのように払拭したか
二重、二重の苦労とトラブル

ビデオ

SRECON会話アジア/太平洋、Koon Seng Lim、DBS

ディープソース

ブログ投稿

DisklessレプリケーションをRedis：何、どのように、なぜ、警告
KubernetesでVaultをセットアップする方法
Kubernetesでのゼロダウンタイム展開を分解します

Dream11

ブログ投稿

大規模な展開：Dream11の社内青緑色の展開プラットフォーム「Oneclick」の背後にあるストーリー。
AWS WAFV2でセキュリティと信頼を高める
GraphQLを大規模に実行することから学んだ教訓
サーキットを破り、コングを救いますか？
カオスで注文を見つける：トルクでパフォーマンステストを自動化する方法
Dream11でハイパーソニックリリースを維持します
スケーリングまたはスケーリングするには？ Dream11でのスケーリング方法は次のとおりです
Dream11のスケーラブルなリアルタイム分析、アラート、異常検出アーキテクチャの構築11

ドロップボックス

ブログ投稿

ドロップボックスエンジニアリングキャリアフレームワーク - 信頼性エンジニア（SRE）
Atlas：Python Monolithから管理されたプラットフォームへの旅
Vortexを使用したサーバーアプリケーションの監視
Athena：自動化されたビルドヘルスマネジメントシステム
サイトの信頼性エンジニアになることに興味がありますか？

ビデオ

大規模なサービス発見の課題

eBay

ブログ投稿

カフカによる回復力と災害復旧
SREケーススタディ：メモリの問題から非ヒープJVMのトリアージ
SREケーススタディ：不思議なトラフィックの不均衡
ダウンタイム、インスタントデプロイメント、ロールバック
eBayの通知プラットフォームがどのように障害インジェクションを新しい方法で使用したか

ビデオ

マダリ：サルの注文

壮大なゲーム

ビデオ

AWS Re：Invent 2018：Epic GamesはAWSを使用してFortniteを2億人のプレイヤーに配信します

Etsy

ブログ投稿

10歳のアプリケーションの展開エクスペリエンスの改善
2020年の歴史的な大量のホリデートラフィックのためにEtsyがどのように準備されたか
進歩に関するあなたの脳
非難されない死後のためのEtsyのデブリーフィングファシリテーションガイド
Opsweekly：アラート分類によるオンコールエクスペリエンスの測定
サイトの停止を分類します
非難されないポストモルテムと公正な文化
何でも測定し、すべてを測定します

ビデオ

Velocity 09：John AllspawとPaul Hammond、 "10+ Deplus PE
モノリスを雲に移動します

expedia

ブログ投稿

パフォーマンス基準を自動化します
エラー予算ポリシー - パート1-エクスペディアグループでの採用
エラー予算ポリシー - パート2-エクスペディアグループでの慣行
フォールトインジェクションを使用して、新しいランタイムプラットフォームの信頼性を向上させます
Expedia Groupでの事件から学ぶ
VRBOホームページの読み込みエクスペリエンスの改善
トラブルシューティング502エラー：ECSチェックリスト
ElasticSearchを始めましょう
ISTio-Proxy 5XXの問題についてすべて
Kubernetesでの自動化：なぜ水平ポッドオートスケーラーが私のために機能しないのですか？
Kubernetesの展開を複数のゾーンでバランスを保つ方法
あなたのドロップウィザードのレイテンシメトリックはあなたを誤解させていますか？
100％の信頼性のコスト
監視ダッシュボードの作成
DevOpsにBashを使用します

早く

ビデオ

SRE＆製品管理：製品マネージャーのように考えることでチーム（およびキャリア！）をレベルアップする方法
レジリエンスエンジニアリングの神話

G-Research

ブログ投稿

G-ResearchでのSREの旅
SREの旅は続きます
OpentsDBメタキャッシュ - パフォーマンスのトレードオフ

GetAround

ブログ投稿

GetAroundでのインシデントの処理方法
継続的な配信プロセスの進化

github

ブログ投稿

反復的な単純化により、可用性を改善する方法
GitHubでのプッシュ処理を改善する方法
Githubがマージキューを使用する方法で毎日何百もの変更を出荷する
AIでセキュリティの脆弱性を修正します
Githubのエンジニアリングファンダメル求プログラム：空室状況、セキュリティ、アクセシビリティの提供方法
GithubがGitHubのアクションとアクションを使用する方法Github.comを構築およびテストするために大規模なランナー
Github Security Labのオープンソースプロジェクトで500 CVEを開示する旅
codeqlチームはAIを使用してコード内の脆弱性検出を電源
Githubの最近の可用性の問題に対処します
組織全体のガバナンスを構築し、CI/CDの再利用とGitHubアクションによる自動化
GitHubアクションを使用して、IssuePopsを介してブランチの展開を有効にします
Chatopsを使用して、オンコールエンジニアのアクションを支援します
スケールを処理するためにGitHubのリレーショナルデータベースを分割します
GitHubコードスキャンで開発者の幸福を高めます
GithubがOpentelemetryを採用している理由（および方法）
Githubでの大規模なモノレポのパフォーマンスの向上
Githubでの展開信頼性
GitHubの展開方法を改善します
Githubでオンコール文化を構築します
フレーク状のビルドを18倍削減します
DevOpsにおける操作の進化する役割
DevOps Automationを開始します
GithubでのMySQLの高可用性

主要なインシデントと分析レポート

GitHub可用性レポート：2024年8月
GitHub可用性レポート：2024年7月
GitHub可用性レポート：2024年6月
GitHub可用性レポート：2024年5月
GitHub可用性レポート：2024年4月
GitHub可用性レポート：2024年3月
GitHub可用性レポート：2024年2月
GitHub可用性レポート：2024年1月
GitHub可用性レポート：2023年12月
GitHub可用性レポート：2023年11月
GitHub可用性レポート：2023年10月
GitHub可用性レポート：2023年9月
GitHub可用性レポート：2023年8月
GitHub可用性レポート：2023年7月
GitHub可用性レポート：2023年6月
GitHub可用性レポート：2023年5月
GitHub可用性レポート：2023年4月
GitHub可用性レポート：2023年3月
GitHub可用性レポート：2023年2月
GitHub可用性レポート：2023年1月
GitHub可用性レポート：2022年12月
GitHub可用性レポート：2022年11月
GitHub可用性レポート：2022年10月
GitHub可用性レポート：2022年9月
GitHub可用性レポート：2022年8月
GitHub可用性レポート：2022年7月
GitHub可用性レポート：2022年6月
GitHub可用性レポート：2022年5月
GitHub可用性レポート：2022年4月
GitHub可用性レポート：2022年3月
GitHub可用性レポート：2022年2月
GitHub可用性レポート：2022年1月
GitHub可用性レポート：2021年12月
GitHub可用性レポート：2021年11月
GitHub可用性レポート：2021年10月
GitHub可用性レポート：2021年9月
GitHub可用性レポート：2021年8月
GitHub可用性レポート：2021年7月
GitHub可用性レポート：2021年6月
GitHub可用性レポート：2021年5月
GitHub可用性レポート：2021年4月
GitHub可用性レポート：2021年3月
GitHub可用性レポート：2021年2月
GitHub可用性レポート：2021年1月
GitHub可用性レポート：2020年12月
GitHub可用性レポート：2020年11月
GitHub可用性レポート：2020年8月
GitHub可用性レポート：2020年7月
GitHub可用性レポートの紹介
2月のサービスの混乱は、インテリアの分析後の分析
10月21日、インテリアポスト分析
2月28日DDOSインシデントレポート
インシデントレポート：不注意なプライベートリポジトリの開示

ビデオ

1つ1つのスレ

gitlab

ブログ投稿

このSREは、Haproxy構成の変更を展開しようとしました。あなたは次に何が起こったのか信じないでしょう...
私の週はGitLabサイトの信頼性エンジニアを影で覆っています
更新：高度なグローバル検索のために学んだElasticSearchレッスン
インフラストラクチャの新しいチームからの反復のレッスン
Gitlabでのインフラストラクチャの支出を最適化する方法
sidekiqを使用してgitlab.comで非同期ワークロード処理をどのようにスケーリングしたか
内部gitlab：ソフトウェアパッチのリリース方法
不足しているTCP Keepalivesを追跡することは、Docker、Golang、およびGitlabについて教えてくれました
PostgreSQLで災害復旧に遅延レプリケーションをどのように使用したか

Gocardless

ブログ投稿

Gocardlessでソフトウェアの展開：「開始」チュートリアルをオープンソーシングします
パブ/サブメッセージなどを圧縮する方法、大量のお金を節約する
レールの恐怖のない後の移行
Gocardlessでの観察可能性：APIパフォーマンスの改善の物語
PostgreSQLクエリプランナーのデバッグ
ゼロダウン後の移行 - ハードパーツ
パフォーマンスを求めて - すべてのPOSTリクエストから200msをどのように剃ったか

主要なインシデントと分析レポート

インシデントレビュー：2020年10月25日のサービス停止、VaultTLS Expiry
インシデントレビュー：2017年10月10日のAPIおよびダッシュボードの停止

ゴダディ

ブログ投稿

Kubernetesゲート展開
Kubernetes外部秘密
Kubernetes-アプリケーション開発者向けの実用的な紹介
Kubernetes APIの直感的なnode.jsクライアント

Gojek

ブログ投稿

Skynetの紹介：Gojekのコードとしてインフラストラクチャ
Geo-Searchサービスを10倍の負荷でスケーリングします
RCAに誓う理由
KubernetesをGKEにアップグレードする方法
生産中のApache気流を監視する方法

ゴールドマン・サックス

ブログ投稿

SECDB観測可能性の旅
Chaos AWSでアプリケーションをテストします
機械学習を使用した容量停止の予測アプリケーションの復元力を強化する
Haproxyを使用して、SYBASE IQマルチプレックスで99.9％の可用性とサブ秒応答時間を提供する
Amazon RDSとAmazon Auroraとの複数地域の弾力性を構築します
ゴールドマンサックスで非常に利用可能なトリノクラスターを有効にします
大規模な観察可能性
インフラストラクチャとコマンドチェーンパターン
EC2 macOSを備えたモバイルCICD
Catchitの発表 - ソースコードシークレットスキャナー
データエンジニアリングのための構築プラットフォーム

グーグル

ブログ投稿

生成AIを使用したインシデント応答の加速
マイクロサービス依存関係管理の落とし穴とパターン
SREプラクティスとプロセス
GOを使用したGoogleサイトの信頼性
3か月、30倍の需要：Covid-19の間にGoogle Meetをスケーリングした方法
SRE Classroom：分散PubSub
SREチームがどのように整理されているか、どのように始めるか

ビデオ

DevOpsとSREの違いは何ですか？ GoogleのSeth VargoとLiz Fong-Jonesと
GoogleのSeth VargoとLiz Fong-Jonesとのリスクとエラーの予算
GCPのMax luebbeを使用した実用的な自動化
見なければなりません！ -Google SRE YouTubeプレイリスト
スクイッシュレベルの目的：SREが技術作業をユーザーの利益に合わせてどのように役立つか
分散コンセンサスの実装
私が望んでいるsre
SRE Classroom、または、信頼できる分散システムを3時間で設計する方法
ゼロタッチ製品：より安全で安全な生産環境に向けて
私たちのMLのアイデアはすべて悪いです（そして、私たちは気分が悪いはずです）
地図は領土ではありません：どのようにスロスが私たちを惑わせ、それについて何ができるか
SREトレーニングのベストプラクティスを生産に展開する：SRE教育プログラムのSREALEATE
Bigtable：バイナリからサービスへの旅と途中で学んだ教訓
観察可能性のための実用的な計装
ML OPSとは：生産MLサービスのDevOpsのソリューションとベストプラクティス
サービスの信頼性の統一レポート
サーバーの使用率とテールレイテンシをトレードオフする方法
バランスを維持する：インターネットスケールのロードバランシングは分かりやすくなります
ブラックボックスから既知の数量まで：予測可能で信頼性の高いMLベースのサービスを構築する方法
SREのマインドフルネス：自分の監視と警告
実用的な自動化
実際のサブリニアスケーリング：1K SREプロジェクト
生産データを編集するための戦略
SREの自律性の呪いとそれを管理する方法
スケーリングSRE組織：1から多くのチームへの旅
SRE教室 - 分散システムを3時間で設計する方法
PRDとユーザージャーニーを使用して、ユーザーフレンドリーなツールを設計します
Google SREと開発者がどのように連携するか
SRECON21-SREの実験

掴む

ブログ投稿

グラブでの継続的な配達への旅（パート1）
グラブでの継続的な配達への旅（パート2）
回復力のあるシステムの設計：サーキットブレーカーまたはレトリー？（パート1）
回復力のあるシステムの設計：サーキットブレーカーまたはレトリー？（パート2）
レトリを超えた回復力のあるシステムの設計（パート3）：アーキテクチャパターンとカオスエンジニアリング
Grabの実験プラットフォームを使用してカオスを調整します
リソースの乱用を防ぐためにクォータマイクロサービスの設計方法
キャッシュをスケーリングし、ぐっすり眠れた方法

文法

ブログ投稿

複数の領域をサポートするためのインフラストラクチャのスケーリング
AWS環境でのセキュリティ運用

gusto

ブログ投稿

オンコールの安心のためのサービスレベルの目標
Debugging Sidekiq Poison Pills

Halodoc

ブログ投稿

ネイティブモバイルアプリのサイト信頼性エンジニアリング

ヘロク

ブログ投稿

Herokuの新しい建築におけるRendezvousの冒険
Herokuでのインシデント応答

IBM

ブログ投稿

サイト信頼性エンジニアリング（SRE）とは何ですか？
AIOPSツールとソリューション

確かに

ブログ投稿

確かにsre：内側の外観
十分に信頼できる
実際のリリースプロセスを自動化します
Sloth、EndquirecomのPreetha Appanを使用してネットワーク障害を誘導するためのツール '

ビデオ

私たちはまだ良くなっていますか？より安全な操作に向けて進歩します

確かに

ブログ投稿

SRE Playbook-実践ガイド

カーンアカデミー

ブログ投稿

Khan Academyが1週間で2.5倍のトラフィックをうまく処理する方法
コンテンツインフラストラクチャの進化

ブログ投稿

容量アナライザーを使用したサイト容量の投影を再考します
LinkedInの製品SREチームへの洞察
LinkedInでsresを雇います
オープンソースアップデート：SCHOOL of SRE
Linuxファイルシステムのパフォーマンス回帰の修正
暗いカナリアによる生産テスト
LinkedInのリアルタイム監視プラットフォームであるThirdeyeのスマートアラート
IRISモバイル：オープンソース、インシデント管理のためのモバイルインターフェイス
Linkedout：要求レベルの失敗インジェクションフレームワーク
完全に自動化された負荷テストで苦労を排除します
地理的に分散した成功したSREチームの構成：パート1
地理的に分散した成功したSREチームの構成：パート2
Project Star*：オンコールプロセスを合理化します
oncallの自動化：ソーシングフォッサーとASCIIエッチングを開きます
Project WaterbearとのLinkedInのレジリエンスエンジニアリング
LinkedInでの雇用、2017年
虹彩とoncallを開いています
LinkedInにSRE文化を構築します
失敗はオプションではありません
MTTDとMTTRが重要です
測定されるものは修正されます

ビデオ

LinkedInでサイトの信頼性チームを成長させる：雇用は難しい-Greg Leffler
9年の失敗：レースのくだらない車が私をより良いsreにした方法
嵐の風化：早期警告が農場を救う方法
Unconference：SREの解決されていない問題
管理せずにリーディング：SRE技術リーダーになる
なぜ（私の）監視が吸うのですか？
トラフィック予測とストレステストインフラストラクチャ
SREのより良い決定のための集合的なマインドフルネス
TCP— architecture、拡張、およびチューニング
6億人以上のメンバーと数百のマイクロサービス：監視システムをスケーリングして追いつく方法
ビジネスメトリックを理解することで、より良いSREになります
Code-Yellow：トップヘビーチームがスマートな方法で運用を支援します
企業間のSRE実装の違い

ツール

オンコール

ロギー

ブログ投稿

リリースマネージャーモデル
SREチーム＃8：Loggi

ラブホリデイ

ブログ投稿

プロメテウスとアラートマネージャーによるダイナミックアラートルーティング
HTTP/3でLoveHolidaysを18％高速にします
セルフサービスインフラストラクチャのベストプラクティスをテラフォーム、アトランティス、ポリシーをコードとして施行する
Loveholidaysを拡大するのに役立った5つの原則
リアルタイムは、グラファナロキで1日1ドル未満で早くログを記録します

マッコーリー

ブログ投稿

ゴランと一緒に私たちのdevsecopsの旅
Kotlinのコードとしてのパイプライン構成
DevOpsと職務の分離
MacquarieはDevOpsを受け入れます
エンタープライズ全体でKubernetesプラットフォームをスケーリングします

ほとんど重要です

ブログ投稿

プロメテウスとサノスを使用して大規模なクラウド環境を監視します
ナマケモノを使用する方法SLOモニタリングとプロメテウスとの警告を実行する方法

Meituan（美团）

ブログ投稿

クラウド内のSREの開発と実践（云端的sre发展与实践）

メルカリ

ブログ投稿

誰が監視員を見ますか？監視システムに注意してください
SREエバンジェリストとしてMicroservices Sreチームが何をしているか
埋め込まれたマイクロサービスsreとして働くのはどんなものか
Merpay SREチーム：過去と未来
メルカリに埋め込まれたSRE
SREチームが開発チームで達成したいこと
DevSecops：それは何ですか、そしてなぜそれは業界で勢いを増しているのですか？
トラブルシューティングスキルをどのように共有しますか
TerraformのスケールのDataDogダッシュボード

メタ

ブログ投稿

効率的なインシデント応答のためにAIを活用します
データアノテーションでメタのSLOワークフローを改善します
スリック：信頼性を向上させるためにスロを採用します
10月4日の停止の詳細
10月4日の停止に関する更新

ビデオ

SREへのカスタマーサービスアプローチ
プロジェクトを拡大する方法：死後
7分ごとに世界最大のPythonサイトをリリースします
MLを使用して、動的エラー分類を自動化します

マイクロソフト

ビデオ

David N. Blank-Edelman of MicrosoftとのSli＆Leliability Deep-Dive '
オートメーションの皮肉：マイクロソフトのタナールンドとのコメディー3部のコメディ
持続可能なソフトウェアエンジニアリング＆SRES
ページャーの疲労を改善するための人的要因とチーム文化に関する研究
アプリケーションの作成中の信頼の優先順位付け
復元力の構築：インシデントから詳細を学ぶ方法
2つのポスト死後の物語：人的要因の見解
可用性 - 9を超えて考えています
自動化の皮肉：3つの部分のコメディ
サーバーレスのOPS

ミロ

ブログ投稿

Prometheus高可用性とフォールトトレランス戦略、Victoriametricsによる長期保管
負荷テスト用の数百のサーバーの管理：自動焦点、カスタム監視、DevOpsカルチャー
予期しないニュアンスに関する信頼できる負荷テスト

モンゾ

ブログ投稿

自動化学モンゾ：プラットフォームを適切なサイズにする方法を最適化する方法
Monzoでオンコールをどのように進化させたか
インシデントへの対応方法
Monzoを監視する方法

ビデオ

最終的に一貫したサービスの発見

ツール

応答

Netflix

ブログ投稿

非同期ワークフローでの観察性を実現します
Netflixの分散トレースインフラストラクチャを構築します
Netflixで観測可能性ツールを構築することからのレッスン
エドガー：観察可能性で謎をより速く解決します
telltale：Netflixアプリケーション監視が簡素化されました
顧客のストリーミングを維持する - Netflixでの集中サイトの信頼性の実践
発送の紹介
Netflix DevOpsパターンをWindowsに適用します
Chap：Chaos Automation Platform
雪崩を開始します
Netflix Chaos Monkeyアップグレード
カオスエンジニアリングがアップグレードされました
自動障害テスト
カオスから制御へ - Netflixのコンテンツディスカバリープラットフォームの弾力性をテストする
Atlasの紹介：Netflixの主要なテレメトリープラットフォーム
FIT：故障噴射テスト
セキュリティモンキーの発表 - AWSセキュリティ構成の監視と分析
AWSの停止から学んだNetflixのレッスン
Scryer：Netflixの予測自動スケーリングエンジン

主要なインシデントと分析レポート

2012年10月22日の死後AWS分解

ビデオ

AWS Re：Invent 2019：Netflixエンジニアの生活の1日（NFX202）
/bin /sh攻撃時：「すべてのものを自動化する」を再訪する
どうやって物事はうまくいきましたか？インシデントからもっと学ぶ
監視とトレース@netflixデータインフラストラクチャ
Netflixスケールでの実際のユーザーパフォーマンス監視 - マーティンスパイ
AWS Re：Invent 2017-ノラジョーンズは、なぜ私たちがより多くのカオスを必要とするのかを説明しています - カオスエンジニアリング、つまり
AWS Re：Invent 2017：Netflixスケールでカオスを実行する（dev334）
Netflix：多地域の回復力とAmazon Route 53
レジリエンスのためのサービスの設計：Netflixレッスン
South Bay SRE Meetup -Netflix Cloud Performanceチーム
AWS Re：Invent 2017：NetflixエンジニアIIIの生活の1日（ARC209）
NetflixがKinesisストリームを使用してアプリケーションを監視し、10億のトラフィックフローを分析する方法
カオスのマスター - マイクロサービスのNetflixガイド
AWS RE：Invent 2016：ResilienceからUbiquityまで - #NetFlixEverywhere Global Architecture（ARC204）
SRECON 2016 -Netflix：190か国と5つのコアSRES
SYS管理者からNetflix SREまで
Hystrixを使用したNetflixでのアプリケーションの回復力エンジニアリングと運用
Netflixで障害を注入します
LISA13-Netflixが回復力を向上させ、可用性を最大化することの失敗をどのように採用するか
Netflix Velocityでのインシデント管理

ポッドキャスト

Netflixでのインシデント、SREの役割、社会技術システムの学習に関するライアンキッチン

ツール

急送

新しい遺物

ブログ投稿

最新のソフトウェアの役割の定義：New RelicのSRES
誰もがサイトの信頼性エンジニアリング（SRE）について知っておくべき10のこと
サイトの信頼性エンジニアはどのツールを使用していますか？
新しい遺物sreの人生の一日
7非常に成功したサイト信頼性エンジニアの習慣
SREの実践を採用します
最新の観測可能性を使用して、データ駆動型の文化を確立します

ヌバンク

ブログ投稿

エンジニアリング運用の卓越性、継続的な改善のケース
技術的なインシデントへの対処方法
Nubankでのオンコールローテーションの方法
データプラットフォームを効率的かつ確実にスケーリングする方法
エンドツーエンドのテストスイートを殺した理由
機械学習モデルの自動再訓練：学んだヒントとレッスン

Openai

ブログ投稿

3月20日ChatGptの停止：これが起こったことです
Openai SREとスケーリングは簡単に説明しました。
Kubernetesを2,500ノードにスケーリングします
Kubernetesを7,500ノードにスケーリングします
OpenaiのAIインフラストラクチャのスケーリング

PayPal

ブログ投稿

トリガー：インシデント＃1234（インシデントプロセスの修正が必要）
サービスメッシュに観察可能性を実装します
ScaleのPostgreSQL：データベーススキーマはダウンタイムなしで変更されます
PayPalでGraphQLをスケーリングします

ビデオ

SRECON会話アジア/太平洋Karthikeyan SelvarajとRajesh Ramachandran、Paypal
SRE vs SRE Now：PayPalでの反射と直感的な本能との間のバランスをとる行為
分散ログ処理を通じて、サービスの劣化と規模の障害の検出
Elasticsearchを大規模に簡単に動作させます
セキュリティ管理を通じてサイトの信頼性を確保します

ピクニック

ブログ投稿

マイクロメーターと最新の観測可能性スタック
ピクニックでの監視と観察可能性

ブログ投稿

広告のリアルタイムストリーミングサービスの高可用性を確保します
S3読み取り最適化を使用して、効率を改善し、ランタイムを削減します
Pinterestでの保証でKubernetesのスケーリング
iOSアプリOOMSインシデントから学んだこと
継続的な統合システムを50％以上速くするように設計する方法
Webデプロイを簡素化します
Pinterest運用指標のアップグレード
新しいオープンソースツールを使用して、Pinterestでの分散トレース
Pinterestの自動スケーリング

ビデオ

実用的なコード所有権を構築します
Pinterestでの観測可能性ツールの進化
サービス所有者のOS/プラットフォームのアップグレードを自動化します

郵便配達員

ブログ投稿

GremlinとGrafanaを使用して、Kubernetesクラスターが障害にどのように反応するかを学びます

prezi

ブログ投稿

グローバルな停止を回避する方法 - シームレスに移行するデイモンセットラベル
速度を求めて - Elasticsearchのパフォーマンスのデバッグ
PreziのPrometheus：10年間の反パターンを交換します

赤い帽子

ブログ投稿

OPSからSREへ：OpenShiftの進化献身的なチーム
5つのアジャイルプラクティスすべてのSREチームが採用する必要があります
Kubernetesオペレーターを書くための7つのベストプラクティス：SREの視点

暴動ゲーム

ブログ投稿

Reneterra CI/CDパイプラインのLegends
不確実なシステムで作業するための戦略
オペレーティングサービスの開発者エクスペリエンスの向上
Valorantのスケーラビリティと負荷テスト
ゲーム開発と運用のためのGolangの活用
断層注入検査で制御されたカオス
パフォーマンス監視のウサギの穴を下ってください
プロファイリング：不足しているミリ秒の場合
プロファイリング：リーグでの現実世界のパフォーマンス
プロファイリング：最適化
プロファイリング：測定と分析
Riotでオンラインサービスを実行する：パートI
Riotでオンラインサービスの実行：パートII
Riotでオンラインサービスの実行：パートIII
Riotでのオンラインサービスの実行：パートIII：パートDeux
Riotでのオンラインサービスの実行：パートIV
Riotでオンラインサービスの実行：パートv
暴動のセキュリティの進化
リーグクライアントアップデート用の自動テストパイプラインの実行
League of Legendsの自動テスト

Salesforce

ブログ投稿

マルチテナンシー用のKubernetesコントロールプレーンを見る
eksネットワーキングのスケールの最適化
Kubernetesクラスターでのゼロダウンタイムノードパッチング
どうして、理由ではない：死後の5つの理由に代わる
Kubernetes用の一般的なサイドカーインジェクター
マイクロサービスに基づく製品の監視戦略の実装
実際に使用するインシデント対応計画を作成するための10のステップ
ほぼ完璧なログパイプラインへの旅
Webワーカーとのパフォーマンスの最適化
少し焦点を合わせてください

Schibsted Media

ブログ投稿

スカンジナビアのトップ10サイトのいくつかの信頼性エンジニアリング

scribd

ブログ投稿

インシデントから学ぶ：sidekiqを10億の仕事に奉仕する準備をする
ScribdでPagerdutyを使用するための証言
開発者へのポケットベルの義務の割り当て

Shopify

ブログ投稿

交通量の多いイベントの回復力計画
大規模な容量計画
DNSトラフィック管理を使用して、Shopifyのサービスに回復力を追加する
効果的なゲームデイテストを作成するための4つのステップ
Chatopsをインシデント管理手順に実装します
Shopifyのstatsd

ビデオ

ネットワークモニター：観察可能性のギャップを認める物語
予期しないことを期待する：新しい失敗に対応するためにSREチームを準備する
高度なナプキン数学：最初の原則からシステムのパフォーマンスを推定します

空の賭けとゲーム

ブログ投稿

それは単なる監視の変更です
「起こりうる最悪の事態は何ですか？」：ライブインシデントに対処する方法の実用的な例
灰から立ち上がる
クラッシュ！強打！ワロップ！練習は完璧になります
パフォーマンスは左右に左右

スラック

ブログ投稿

2-22-22にSlackの事件
支出曲線を変更するためのインフラストラクチャの観測可能性
2021年1月4日のSlackの停止
ひどく、恐ろしく、無駄な、非常に悪い日、スラックで
Slackで展開します
災害劇場：親しみやすいカオス工学のためのSlackのプロセス

ビデオ

端でスラック
私たちのシステムを壊すもの：ブラックスワンの分類

Slalom Build

ブログ投稿

新しいRelic APMにサービスレベルの目標を実装する方法
DevOpsへの初心者ガイド：業界に登場する方法
GitHubアクション：CI/CDを超えて
すべてのテスト自動化がパイプラインで実行されないのはなぜですか？
サイト信頼性エンジニアリングの多くの形状
デフォルトでセキュアを構築する方法kubernetesクラスターは、AWSに基本的なCI/CDパイプラインを備えています
秘密の管理アーキテクチャ：セキュリティと複雑さのバランスを見つける
Keras＆Tensorflowで悪意のあるリクエストを検出します
レゴモノリス - モノリスマイクロサービスの概念実証
Hashicorp Vaultを使用した秘密の管理
Kubernetesでの展開用のパッケージスプリングブートアプリケーション
不変のインフラストラクチャとクラウドでの継続的な配信

soundcloud

ブログ投稿

システムを正常に引き渡す方法
健康的なオンコール文化を構築します
プロのようなスロで警告します
カナリアとのハンドオフの展開
プロメテウスは年齢になりました - オープンソースプロジェクトの開発に関する反映
プロメテウス：SoundCloudでの監視
SREの研修生として1年で学んだこと
拡大レンズの下のテスト

Spotify

ブログ投稿

Matt Clarke：シニアバックエンドインフラストラクチャエンジニア
開発者向けのより良いKubernetesエクスペリエンスを設計する
TechBytes：業界がインシデントについて見逃していることとあなたができること
GCPの自動インシデント応答インフラストラクチャ

ビデオ

トレース、速くて遅い：Webサービスのパフォーマンスを掘り下げて改善する

Squarespace

ブログ投稿

フードの下：サイトの信頼性を確保します

ビデオ

摩擦を押し通します
すべてがすでに燃えているときにsreする方法
Case Study: Implementing SLOs for a New Service
Creating a Code Review Culture

Stack Overflow

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

ビデオ

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

ストライプ

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

ビデオ

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

ターゲット

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Tinder

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

トリバゴ

Blog Posts

How To Get Fooled By Metrics

トワイリオ

Blog Posts

Twilio SRE Gameday Template

ツイッター

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Uber

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

ビデオ

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

ビデオ

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

ビデオ

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Yelp

Blog Posts

The process: Implementing Yelp's failover strategy

ビデオ

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

ゾマト

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

ビデオ

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

リソース

本

新しい！ Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering