彼らがどのようにsre

導入
彼らがどのようにSREがどのようにSREがサイト信頼性エンジニアリング(SRE)のベストプラクティス、ツール、テクニック、文化のキュレーションされた知識リポジトリであり、主要なテクノロジーまたは技術に精通した組織によって採用されています。
多くの組織は、洞察と専門知識を頻繁に共有し、エンジニアリング文化を形成するベストプラクティス、ツール、テクニックを網羅しています。エンジニアリングブログ、会議、ミートアップなど、さまざまな公開プラットフォームを通じてこれを行います。このリポジトリは、これらのソースから収集されたコンテンツをコンパイルして提示します。
トピック
- サイトの信頼性エンジニアリング
- SREチームの雇用と構築
- SRE文化
- DevOps
- 監視と観察性
- 警告
- インシデント対応と死後
- オンコール
- 生産におけるテスト
- カオスエンジニアリング
- オートメーション
- パフォーマンス
- プラットフォームエンジニアリング
組織
達成者
ブログ投稿
- 食料詰まりを入力 - ビルディング「アラカルト」ギトップス工具
- グローバルなスケーリング生産 - サービスメッシュフェイスリフト(パート1)
- グローバルに生産をスケーリングする - 開発者の観察可能性の問題を解決する(パート2)
- ロードテストKubernetes:フレームワークの構築(パート1)
- 負荷テストKubernetes:ボトルネックの解決とパフォーマンスの向上(パート2)
Airbnb
ブログ投稿
- Slackによる自動インシデント管理
- 脆弱性の脆弱性を検出します
- Airbnbでのアラートフレームワーク
- 雲が暗くなったとき - Amazonの停止がAirbnbにどのように影響したか
- インテリジェントオートメーションプラットフォーム:Airbnbでの会話型AIおよびそれ以降
- Airbnbの生産秘密管理
- 大規模なデータ保護の自動、パート1
- 大規模なデータ保護の自動、パート2
- 大規模なデータ保護の自動、パート3
- AirbnbでのDynamic Kubernetesクラスタースケーリング
アルゴリア
ブログ投稿
- 5月30日SSLインシデント
- SREへの旅
- CI/CDAY 2024:良いCI/CDプラットフォームを作るものは何ですか?
アリババクラウド
ブログ投稿
- トップインターネット企業が従来のO&MよりもSREを選択しているのはなぜですか?
- ビリビリのリアルタイムプラットフォームのアーキテクチャとプラクティス
アーサナ
ブログ投稿
- AsanaがAsanaを使用する方法:セキュリティインシデント応答
- Asanaが安定したWebアプリケーションをリリースする方法
- 最近のダウンタイムの分析と、将来の事件を防ぐために私たちがしていること
- 開発者環境:高速にリセットすることで信頼性を達成する
- すべてのITリーダーがこの秋を検討するための3つのセキュリティ戦術
ASOS
ブログ投稿
- 非難のないゲームをプレイします
- …猫の人生の一日(信頼性エンジニアリングの責任者)
- AKSパフォーマンスの旅:パート1 - すべてをサイジングアップ
- AKSパフォーマンスの旅:パート2 - ネットワークアウト
- Cyber Security @ asos.com
- セキュリティ操作24x7
- サイバーセキュリティインシデント対応で私たちが探しているスキル
アトラシアン
ブログ投稿
- DevOpsの時代の変更管理のためのベストプラクティス
- 自動テスト:コードとしてのインフラストラクチャのテストに関するAtlassian's Kubernetesチームからの5つのレッスン
- Kubernetesイベントを観察可能性と警告のためにエクスポートする方法
- インシデントポストモルテムテンプレート
バックマーケット
ブログ投稿
- バックマーケットSRESがブラックフライデーのためにどのように準備したか
Baidu
ビデオ
- 黄金信号の異常検出
- Netradar:データセンターネットワークの監視
- カオスを始めましょう。シュレカオスエンジニアリングはサイバーセキュリティを満たしています
ベースキャンプ
ブログ投稿
- コードレッド内:ネットワークエディション
- 3つのベースキャンプ停止。一週間。どうしたの?
- Basecamp 2およびBasecamp 3検索停止レポート
- Basecampでのインシデントエスカレーションを減らす
本
ブルームバーグ
ビデオ
- ページ参照サンプリングによる容量の計画とパフォーマンスの向上
- なぜSRESはカオスエンジニアリングを行わない余裕がないのですか
- リアルタイム分散システムのトレース
- ブルームバーグの物語:「計り知れない」組織にSREチームを構築する
- ロガー(およびその他の低レベルのサービス)への可視性 - 森から木を選択します
Booking.com
ブログ投稿
- Booking.comで信頼性と製品チームがどのように協力するか
- インシデント、修正、および翌日
- トラブルシューティング:未知への旅
ビデオ
- データ集約型サービスのスロス
- コンテナインフラストラクチャを使用して、あまり走行しない道路を取ることの利点
キャピタル1
ブログ投稿
- Slackでアプリケーションの監視を自動化します
- BOTO 3:AWS Health Checkを使用して、AWSインフラストラクチャを自動化します
- アクティブアクティブ共有データベースアーキテクチャ
- 3 Rのsres:回復力、回復、信頼性
- アプリのカオスを準備するための5つのステップ
- カオス工学実験のように読み取る4つの現実世界のシナリオ
- カオスを受け入れます…エンジニアリング
- エンタープライズでカオスエンジニアリングの実装から学んだ3つの教訓
- AWS CodeDePloyを使用したシームレスな青/緑の展開に深く潜ります
- 安全なDockerコンテナには、安全なアプリケーションが必要です
- 復元力を向上させるためにクラウドとDevOpsをペアリングするための4つのステップ
- 12個のファクターアプリとマイクロサービスアーキテクチャを備えたコンテナ対応アプリケーション
- 自信を持って展開 - リスクを最小限に抑え、AWSのカナリア展開で弾力性を最大化する
- 回復力のための建築
- 連続カオス - Chaos EngineeringをDevOpsプラクティスに導入します
- Mon-Ifestoパート1:メトリック
主要なインシデントと分析レポート
- キャピタルワンサイバーインシデントに関する情報
- 資本1データ侵害のケーススタディ
ビデオ
- 継続的な配達の銀行 - 資本1
- DevOpsの連続カオス - キャピタル1
- Capital OneのDevOps:パイプラインと測定に焦点を当てています
- 大規模なクラウドアカウントの運用健康の管理を自動化する
コインベース
ブログ投稿
- Coinbaseの安全な展開パイプラインを開きます
ダズン
ブログ投稿
DBS
ブログ投稿
- IthomeのSRE会議で発表:これまでのDBS SRE変革の旅
- 最も人気のある7つのサイトの信頼性エンジニアリングの神話を暴きます
- SREを使用して職場で非難されない文化を育む方法
- DBS銀行のサイト信頼性エンジニアリング
- 大規模な構成管理を自動化します
- DBがカオス工学の神話をどのように払拭したか
- 二重、二重の苦労とトラブル
ビデオ
- SRECON会話アジア/太平洋、Koon Seng Lim、DBS
ディープソース
ブログ投稿
- DisklessレプリケーションをRedis:何、どのように、なぜ、警告
- KubernetesでVaultをセットアップする方法
- Kubernetesでのゼロダウンタイム展開を分解します
Dream11
ブログ投稿
- 大規模な展開:Dream11の社内青緑色の展開プラットフォーム「Oneclick」の背後にあるストーリー。
- AWS WAFV2でセキュリティと信頼を高める
- GraphQLを大規模に実行することから学んだ教訓
- サーキットを破り、コングを救いますか?
- カオスで注文を見つける:トルクでパフォーマンステストを自動化する方法
- Dream11でハイパーソニックリリースを維持します
- スケーリングまたはスケーリングするには? Dream11でのスケーリング方法は次のとおりです
- Dream11のスケーラブルなリアルタイム分析、アラート、異常検出アーキテクチャの構築11
ドロップボックス
ブログ投稿
- ドロップボックスエンジニアリングキャリアフレームワーク - 信頼性エンジニア(SRE)
- Atlas:Python Monolithから管理されたプラットフォームへの旅
- Vortexを使用したサーバーアプリケーションの監視
- Athena:自動化されたビルドヘルスマネジメントシステム
- サイトの信頼性エンジニアになることに興味がありますか?
ビデオ
eBay
ブログ投稿
- カフカによる回復力と災害復旧
- SREケーススタディ:メモリの問題から非ヒープJVMのトリアージ
- SREケーススタディ:不思議なトラフィックの不均衡
- ダウンタイム、インスタントデプロイメント、ロールバック
- eBayの通知プラットフォームがどのように障害インジェクションを新しい方法で使用したか
ビデオ
壮大なゲーム
ビデオ
- AWS Re:Invent 2018:Epic GamesはAWSを使用してFortniteを2億人のプレイヤーに配信します
Etsy
ブログ投稿
- 10歳のアプリケーションの展開エクスペリエンスの改善
- 2020年の歴史的な大量のホリデートラフィックのためにEtsyがどのように準備されたか
- 進歩に関するあなたの脳
- 非難されない死後のためのEtsyのデブリーフィングファシリテーションガイド
- Opsweekly:アラート分類によるオンコールエクスペリエンスの測定
- サイトの停止を分類します
- 非難されないポストモルテムと公正な文化
- 何でも測定し、すべてを測定します
ビデオ
- Velocity 09:John AllspawとPaul Hammond、 "10+ Deplus PE
- モノリスを雲に移動します
expedia
ブログ投稿
- パフォーマンス基準を自動化します
- エラー予算ポリシー - パート1-エクスペディアグループでの採用
- エラー予算ポリシー - パート2-エクスペディアグループでの慣行
- フォールトインジェクションを使用して、新しいランタイムプラットフォームの信頼性を向上させます
- Expedia Groupでの事件から学ぶ
- VRBOホームページの読み込みエクスペリエンスの改善
- トラブルシューティング502エラー:ECSチェックリスト
- ElasticSearchを始めましょう
- ISTio-Proxy 5XXの問題についてすべて
- Kubernetesでの自動化:なぜ水平ポッドオートスケーラーが私のために機能しないのですか?
- Kubernetesの展開を複数のゾーンでバランスを保つ方法
- あなたのドロップウィザードのレイテンシメトリックはあなたを誤解させていますか?
- 100%の信頼性のコスト
- 監視ダッシュボードの作成
- DevOpsにBashを使用します
早く
ビデオ
- SRE&製品管理:製品マネージャーのように考えることでチーム(およびキャリア!)をレベルアップする方法
- レジリエンスエンジニアリングの神話
G-Research
ブログ投稿
- G-ResearchでのSREの旅
- SREの旅は続きます
- OpentsDBメタキャッシュ - パフォーマンスのトレードオフ
GetAround
ブログ投稿
- GetAroundでのインシデントの処理方法
- 継続的な配信プロセスの進化
github
ブログ投稿
- 反復的な単純化により、可用性を改善する方法
- GitHubでのプッシュ処理を改善する方法
- Githubがマージキューを使用する方法で毎日何百もの変更を出荷する
- AIでセキュリティの脆弱性を修正します
- Githubのエンジニアリングファンダメル求プログラム:空室状況、セキュリティ、アクセシビリティの提供方法
- GithubがGitHubのアクションとアクションを使用する方法Github.comを構築およびテストするために大規模なランナー
- Github Security Labのオープンソースプロジェクトで500 CVEを開示する旅
- codeqlチームはAIを使用してコード内の脆弱性検出を電源
- Githubの最近の可用性の問題に対処します
- 組織全体のガバナンスを構築し、CI/CDの再利用とGitHubアクションによる自動化
- GitHubアクションを使用して、IssuePopsを介してブランチの展開を有効にします
- Chatopsを使用して、オンコールエンジニアのアクションを支援します
- スケールを処理するためにGitHubのリレーショナルデータベースを分割します
- GitHubコードスキャンで開発者の幸福を高めます
- GithubがOpentelemetryを採用している理由(および方法)
- Githubでの大規模なモノレポのパフォーマンスの向上
- Githubでの展開信頼性
- GitHubの展開方法を改善します
- Githubでオンコール文化を構築します
- フレーク状のビルドを18倍削減します
- DevOpsにおける操作の進化する役割
- DevOps Automationを開始します
- GithubでのMySQLの高可用性
主要なインシデントと分析レポート
- GitHub可用性レポート:2024年8月
- GitHub可用性レポート:2024年7月
- GitHub可用性レポート:2024年6月
- GitHub可用性レポート:2024年5月
- GitHub可用性レポート:2024年4月
- GitHub可用性レポート:2024年3月
- GitHub可用性レポート:2024年2月
- GitHub可用性レポート:2024年1月
- GitHub可用性レポート:2023年12月
- GitHub可用性レポート:2023年11月
- GitHub可用性レポート:2023年10月
- GitHub可用性レポート:2023年9月
- GitHub可用性レポート:2023年8月
- GitHub可用性レポート:2023年7月
- GitHub可用性レポート:2023年6月
- GitHub可用性レポート:2023年5月
- GitHub可用性レポート:2023年4月
- GitHub可用性レポート:2023年3月
- GitHub可用性レポート:2023年2月
- GitHub可用性レポート:2023年1月
- GitHub可用性レポート:2022年12月
- GitHub可用性レポート:2022年11月
- GitHub可用性レポート:2022年10月
- GitHub可用性レポート:2022年9月
- GitHub可用性レポート:2022年8月
- GitHub可用性レポート:2022年7月
- GitHub可用性レポート:2022年6月
- GitHub可用性レポート:2022年5月
- GitHub可用性レポート:2022年4月
- GitHub可用性レポート:2022年3月
- GitHub可用性レポート:2022年2月
- GitHub可用性レポート:2022年1月
- GitHub可用性レポート:2021年12月
- GitHub可用性レポート:2021年11月
- GitHub可用性レポート:2021年10月
- GitHub可用性レポート:2021年9月
- GitHub可用性レポート:2021年8月
- GitHub可用性レポート:2021年7月
- GitHub可用性レポート:2021年6月
- GitHub可用性レポート:2021年5月
- GitHub可用性レポート:2021年4月
- GitHub可用性レポート:2021年3月
- GitHub可用性レポート:2021年2月
- GitHub可用性レポート:2021年1月
- GitHub可用性レポート:2020年12月
- GitHub可用性レポート:2020年11月
- GitHub可用性レポート:2020年8月
- GitHub可用性レポート:2020年7月
- GitHub可用性レポートの紹介
- 2月のサービスの混乱は、インテリアの分析後の分析
- 10月21日、インテリアポスト分析
- 2月28日DDOSインシデントレポート
- インシデントレポート:不注意なプライベートリポジトリの開示
ビデオ
gitlab
ブログ投稿
- このSREは、Haproxy構成の変更を展開しようとしました。あなたは次に何が起こったのか信じないでしょう...
- 私の週はGitLabサイトの信頼性エンジニアを影で覆っています
- 更新:高度なグローバル検索のために学んだElasticSearchレッスン
- インフラストラクチャの新しいチームからの反復のレッスン
- Gitlabでのインフラストラクチャの支出を最適化する方法
- sidekiqを使用してgitlab.comで非同期ワークロード処理をどのようにスケーリングしたか
- 内部gitlab:ソフトウェアパッチのリリース方法
- 不足しているTCP Keepalivesを追跡することは、Docker、Golang、およびGitlabについて教えてくれました
- PostgreSQLで災害復旧に遅延レプリケーションをどのように使用したか
Gocardless
ブログ投稿
- Gocardlessでソフトウェアの展開:「開始」チュートリアルをオープンソーシングします
- パブ/サブメッセージなどを圧縮する方法、大量のお金を節約する
- レールの恐怖のない後の移行
- Gocardlessでの観察可能性:APIパフォーマンスの改善の物語
- PostgreSQLクエリプランナーのデバッグ
- ゼロダウン後の移行 - ハードパーツ
- パフォーマンスを求めて - すべてのPOSTリクエストから200msをどのように剃ったか
主要なインシデントと分析レポート
- インシデントレビュー:2020年10月25日のサービス停止、VaultTLS Expiry
- インシデントレビュー:2017年10月10日のAPIおよびダッシュボードの停止
ゴダディ
ブログ投稿
- Kubernetesゲート展開
- Kubernetes外部秘密
- Kubernetes-アプリケーション開発者向けの実用的な紹介
- Kubernetes APIの直感的なnode.jsクライアント
Gojek
ブログ投稿
- Skynetの紹介:Gojekのコードとしてインフラストラクチャ
- Geo-Searchサービスを10倍の負荷でスケーリングします
- RCAに誓う理由
- KubernetesをGKEにアップグレードする方法
- 生産中のApache気流を監視する方法
ゴールドマン・サックス
ブログ投稿
- SECDB観測可能性の旅
- Chaos AWSでアプリケーションをテストします
- 機械学習を使用した容量停止の予測アプリケーションの復元力を強化する
- Haproxyを使用して、SYBASE IQマルチプレックスで99.9%の可用性とサブ秒応答時間を提供する
- Amazon RDSとAmazon Auroraとの複数地域の弾力性を構築します
- ゴールドマンサックスで非常に利用可能なトリノクラスターを有効にします
- 大規模な観察可能性
- インフラストラクチャとコマンドチェーンパターン
- EC2 macOSを備えたモバイルCICD
- Catchitの発表 - ソースコードシークレットスキャナー
- データエンジニアリングのための構築プラットフォーム
グーグル
ブログ投稿
- 生成AIを使用したインシデント応答の加速
- マイクロサービス依存関係管理の落とし穴とパターン
- SREプラクティスとプロセス
- GOを使用したGoogleサイトの信頼性
- 3か月、30倍の需要:Covid-19の間にGoogle Meetをスケーリングした方法
- SRE Classroom:分散PubSub
- SREチームがどのように整理されているか、どのように始めるか
ビデオ
- DevOpsとSREの違いは何ですか? GoogleのSeth VargoとLiz Fong-Jonesと
- GoogleのSeth VargoとLiz Fong-Jonesとのリスクとエラーの予算
- GCPのMax luebbeを使用した実用的な自動化
- 見なければなりません! -Google SRE YouTubeプレイリスト
- スクイッシュレベルの目的:SREが技術作業をユーザーの利益に合わせてどのように役立つか
- 分散コンセンサスの実装
- 私が望んでいるsre
- SRE Classroom、または、信頼できる分散システムを3時間で設計する方法
- ゼロタッチ製品:より安全で安全な生産環境に向けて
- 私たちのMLのアイデアはすべて悪いです(そして、私たちは気分が悪いはずです)
- 地図は領土ではありません:どのようにスロスが私たちを惑わせ、それについて何ができるか
- SREトレーニングのベストプラクティスを生産に展開する:SRE教育プログラムのSREALEATE
- Bigtable:バイナリからサービスへの旅と途中で学んだ教訓
- 観察可能性のための実用的な計装
- ML OPSとは:生産MLサービスのDevOpsのソリューションとベストプラクティス
- サービスの信頼性の統一レポート
- サーバーの使用率とテールレイテンシをトレードオフする方法
- バランスを維持する:インターネットスケールのロードバランシングは分かりやすくなります
- ブラックボックスから既知の数量まで:予測可能で信頼性の高いMLベースのサービスを構築する方法
- SREのマインドフルネス:自分の監視と警告
- 実用的な自動化
- 実際のサブリニアスケーリング:1K SREプロジェクト
- 生産データを編集するための戦略
- SREの自律性の呪いとそれを管理する方法
- スケーリングSRE組織:1から多くのチームへの旅
- SRE教室 - 分散システムを3時間で設計する方法
- PRDとユーザージャーニーを使用して、ユーザーフレンドリーなツールを設計します
- Google SREと開発者がどのように連携するか
- SRECON21-SREの実験
掴む
ブログ投稿
- グラブでの継続的な配達への旅(パート1)
- グラブでの継続的な配達への旅(パート2)
- 回復力のあるシステムの設計:サーキットブレーカーまたはレトリー? (パート1)
- 回復力のあるシステムの設計:サーキットブレーカーまたはレトリー? (パート2)
- レトリを超えた回復力のあるシステムの設計(パート3):アーキテクチャパターンとカオスエンジニアリング
- Grabの実験プラットフォームを使用してカオスを調整します
- リソースの乱用を防ぐためにクォータマイクロサービスの設計方法
- キャッシュをスケーリングし、ぐっすり眠れた方法
文法
ブログ投稿
- 複数の領域をサポートするためのインフラストラクチャのスケーリング
- AWS環境でのセキュリティ運用
gusto
ブログ投稿
- オンコールの安心のためのサービスレベルの目標
- Debugging Sidekiq Poison Pills
Halodoc
ブログ投稿
- ネイティブモバイルアプリのサイト信頼性エンジニアリング
ヘロク
ブログ投稿
- Herokuの新しい建築におけるRendezvousの冒険
- Herokuでのインシデント応答
IBM
ブログ投稿
- サイト信頼性エンジニアリング(SRE)とは何ですか?
- AIOPSツールとソリューション
確かに
ブログ投稿
- 確かにsre:内側の外観
- 十分に信頼できる
- 実際のリリースプロセスを自動化します
- Sloth、EndquirecomのPreetha Appanを使用してネットワーク障害を誘導するためのツール '
ビデオ
- 私たちはまだ良くなっていますか?より安全な操作に向けて進歩します
確かに
ブログ投稿
カーンアカデミー
ブログ投稿
- Khan Academyが1週間で2.5倍のトラフィックをうまく処理する方法
- コンテンツインフラストラクチャの進化
LinkedIn
ブログ投稿
- 容量アナライザーを使用したサイト容量の投影を再考します
- LinkedInの製品SREチームへの洞察
- LinkedInでsresを雇います
- オープンソースアップデート:SCHOOL of SRE
- Linuxファイルシステムのパフォーマンス回帰の修正
- 暗いカナリアによる生産テスト
- LinkedInのリアルタイム監視プラットフォームであるThirdeyeのスマートアラート
- IRISモバイル:オープンソース、インシデント管理のためのモバイルインターフェイス
- Linkedout:要求レベルの失敗インジェクションフレームワーク
- 完全に自動化された負荷テストで苦労を排除します
- 地理的に分散した成功したSREチームの構成:パート1
- 地理的に分散した成功したSREチームの構成:パート2
- Project Star*:オンコールプロセスを合理化します
- oncallの自動化:ソーシングフォッサーとASCIIエッチングを開きます
- Project WaterbearとのLinkedInのレジリエンスエンジニアリング
- LinkedInでの雇用、2017年
- 虹彩とoncallを開いています
- LinkedInにSRE文化を構築します
- 失敗はオプションではありません
- MTTDとMTTRが重要です
- 測定されるものは修正されます
ビデオ
- LinkedInでサイトの信頼性チームを成長させる:雇用は難しい-Greg Leffler
- 9年の失敗:レースのくだらない車が私をより良いsreにした方法
- 嵐の風化:早期警告が農場を救う方法
- Unconference:SREの解決されていない問題
- 管理せずにリーディング:SRE技術リーダーになる
- なぜ(私の)監視が吸うのですか?
- トラフィック予測とストレステストインフラストラクチャ
- SREのより良い決定のための集合的なマインドフルネス
- TCP— architecture、拡張、およびチューニング
- 6億人以上のメンバーと数百のマイクロサービス:監視システムをスケーリングして追いつく方法
- ビジネスメトリックを理解することで、より良いSREになります
- Code-Yellow:トップヘビーチームがスマートな方法で運用を支援します
- 企業間のSRE実装の違い
ツール
ロギー
ブログ投稿
- リリースマネージャーモデル
- SREチーム#8:Loggi
ラブホリデイ
ブログ投稿
- プロメテウスとアラートマネージャーによるダイナミックアラートルーティング
- HTTP/3でLoveHolidaysを18%高速にします
- セルフサービスインフラストラクチャのベストプラクティスをテラフォーム、アトランティス、ポリシーをコードとして施行する
- Loveholidaysを拡大するのに役立った5つの原則
- リアルタイムは、グラファナロキで1日1ドル未満で早くログを記録します
マッコーリー
ブログ投稿
- ゴランと一緒に私たちのdevsecopsの旅
- Kotlinのコードとしてのパイプライン構成
- DevOpsと職務の分離
- MacquarieはDevOpsを受け入れます
- エンタープライズ全体でKubernetesプラットフォームをスケーリングします
ほとんど重要です
ブログ投稿
- プロメテウスとサノスを使用して大規模なクラウド環境を監視します
- ナマケモノを使用する方法SLOモニタリングとプロメテウスとの警告を実行する方法
Meituan(美团)
ブログ投稿
- クラウド内のSREの開発と実践(云端的sre发展与实践)
メルカリ
ブログ投稿
- 誰が監視員を見ますか?監視システムに注意してください
- SREエバンジェリストとしてMicroservices Sreチームが何をしているか
- 埋め込まれたマイクロサービスsreとして働くのはどんなものか
- Merpay SREチーム:過去と未来
- メルカリに埋め込まれたSRE
- SREチームが開発チームで達成したいこと
- DevSecops:それは何ですか、そしてなぜそれは業界で勢いを増しているのですか?
- トラブルシューティングスキルをどのように共有しますか
- TerraformのスケールのDataDogダッシュボード
メタ
ブログ投稿
- 効率的なインシデント応答のためにAIを活用します
- データアノテーションでメタのSLOワークフローを改善します
- スリック:信頼性を向上させるためにスロを採用します
- 10月4日の停止の詳細
- 10月4日の停止に関する更新
ビデオ
- SREへのカスタマーサービスアプローチ
- プロジェクトを拡大する方法:死後
- 7分ごとに世界最大のPythonサイトをリリースします
- MLを使用して、動的エラー分類を自動化します
マイクロソフト
ビデオ
- David N. Blank-Edelman of MicrosoftとのSli&Leliability Deep-Dive '
- オートメーションの皮肉:マイクロソフトのタナールンドとのコメディー3部のコメディ
- 持続可能なソフトウェアエンジニアリング&SRES
- ページャーの疲労を改善するための人的要因とチーム文化に関する研究
- アプリケーションの作成中の信頼の優先順位付け
- 復元力の構築:インシデントから詳細を学ぶ方法
- 2つのポスト死後の物語:人的要因の見解
- 可用性 - 9を超えて考えています
- 自動化の皮肉:3つの部分のコメディ
- サーバーレスのOPS
ミロ
ブログ投稿
- Prometheus高可用性とフォールトトレランス戦略、Victoriametricsによる長期保管
- 負荷テスト用の数百のサーバーの管理:自動焦点、カスタム監視、DevOpsカルチャー
- 予期しないニュアンスに関する信頼できる負荷テスト
モンゾ
ブログ投稿
- 自動化学モンゾ:プラットフォームを適切なサイズにする方法を最適化する方法
- Monzoでオンコールをどのように進化させたか
- インシデントへの対応方法
- Monzoを監視する方法
ビデオ
ツール
Netflix
ブログ投稿
- 非同期ワークフローでの観察性を実現します
- Netflixの分散トレースインフラストラクチャを構築します
- Netflixで観測可能性ツールを構築することからのレッスン
- エドガー:観察可能性で謎をより速く解決します
- telltale:Netflixアプリケーション監視が簡素化されました
- 顧客のストリーミングを維持する - Netflixでの集中サイトの信頼性の実践
- 発送の紹介
- Netflix DevOpsパターンをWindowsに適用します
- Chap:Chaos Automation Platform
- 雪崩を開始します
- Netflix Chaos Monkeyアップグレード
- カオスエンジニアリングがアップグレードされました
- 自動障害テスト
- カオスから制御へ - Netflixのコンテンツディスカバリープラットフォームの弾力性をテストする
- Atlasの紹介:Netflixの主要なテレメトリープラットフォーム
- FIT:故障噴射テスト
- セキュリティモンキーの発表 - AWSセキュリティ構成の監視と分析
- AWSの停止から学んだNetflixのレッスン
- Scryer:Netflixの予測自動スケーリングエンジン
主要なインシデントと分析レポート
ビデオ
- AWS Re:Invent 2019:Netflixエンジニアの生活の1日(NFX202)
- /bin /sh攻撃時:「すべてのものを自動化する」を再訪する
- どうやって物事はうまくいきましたか?インシデントからもっと学ぶ
- 監視とトレース@netflixデータインフラストラクチャ
- Netflixスケールでの実際のユーザーパフォーマンス監視 - マーティンスパイ
- AWS Re:Invent 2017-ノラジョーンズは、なぜ私たちがより多くのカオスを必要とするのかを説明しています - カオスエンジニアリング、つまり
- AWS Re:Invent 2017:Netflixスケールでカオスを実行する(dev334)
- Netflix:多地域の回復力とAmazon Route 53
- レジリエンスのためのサービスの設計:Netflixレッスン
- South Bay SRE Meetup -Netflix Cloud Performanceチーム
- AWS Re:Invent 2017:NetflixエンジニアIIIの生活の1日(ARC209)
- NetflixがKinesisストリームを使用してアプリケーションを監視し、10億のトラフィックフローを分析する方法
- カオスのマスター - マイクロサービスのNetflixガイド
- AWS RE:Invent 2016:ResilienceからUbiquityまで - #NetFlixEverywhere Global Architecture(ARC204)
- SRECON 2016 -Netflix:190か国と5つのコアSRES
- SYS管理者からNetflix SREまで
- Hystrixを使用したNetflixでのアプリケーションの回復力エンジニアリングと運用
- Netflixで障害を注入します
- LISA13-Netflixが回復力を向上させ、可用性を最大化することの失敗をどのように採用するか
- Netflix Velocityでのインシデント管理
ポッドキャスト
- Netflixでのインシデント、SREの役割、社会技術システムの学習に関するライアンキッチン
ツール
新しい遺物
ブログ投稿
- 最新のソフトウェアの役割の定義:New RelicのSRES
- 誰もがサイトの信頼性エンジニアリング(SRE)について知っておくべき10のこと
- サイトの信頼性エンジニアはどのツールを使用していますか?
- 新しい遺物sreの人生の一日
- 7非常に成功したサイト信頼性エンジニアの習慣
- SREの実践を採用します
- 最新の観測可能性を使用して、データ駆動型の文化を確立します
ヌバンク
ブログ投稿
- エンジニアリング運用の卓越性、継続的な改善のケース
- 技術的なインシデントへの対処方法
- Nubankでのオンコールローテーションの方法
- データプラットフォームを効率的かつ確実にスケーリングする方法
- エンドツーエンドのテストスイートを殺した理由
- 機械学習モデルの自動再訓練:学んだヒントとレッスン
Openai
ブログ投稿
- 3月20日ChatGptの停止:これが起こったことです
- Openai SREとスケーリングは簡単に説明しました。
- Kubernetesを2,500ノードにスケーリングします
- Kubernetesを7,500ノードにスケーリングします
- OpenaiのAIインフラストラクチャのスケーリング
PayPal
ブログ投稿
- トリガー:インシデント#1234(インシデントプロセスの修正が必要)
- サービスメッシュに観察可能性を実装します
- ScaleのPostgreSQL:データベーススキーマはダウンタイムなしで変更されます
- PayPalでGraphQLをスケーリングします
ビデオ
- SRECON会話アジア/太平洋Karthikeyan SelvarajとRajesh Ramachandran、Paypal
- SRE vs SRE Now:PayPalでの反射と直感的な本能との間のバランスをとる行為
- 分散ログ処理を通じて、サービスの劣化と規模の障害の検出
- Elasticsearchを大規模に簡単に動作させます
- セキュリティ管理を通じてサイトの信頼性を確保します
ピクニック
ブログ投稿
- マイクロメーターと最新の観測可能性スタック
- ピクニックでの監視と観察可能性
Pinterest
ブログ投稿
- 広告のリアルタイムストリーミングサービスの高可用性を確保します
- S3読み取り最適化を使用して、効率を改善し、ランタイムを削減します
- Pinterestでの保証でKubernetesのスケーリング
- iOSアプリOOMSインシデントから学んだこと
- 継続的な統合システムを50%以上速くするように設計する方法
- Webデプロイを簡素化します
- Pinterest運用指標のアップグレード
- 新しいオープンソースツールを使用して、Pinterestでの分散トレース
- Pinterestの自動スケーリング
ビデオ
- 実用的なコード所有権を構築します
- Pinterestでの観測可能性ツールの進化
- サービス所有者のOS/プラットフォームのアップグレードを自動化します
郵便配達員
ブログ投稿
- GremlinとGrafanaを使用して、Kubernetesクラスターが障害にどのように反応するかを学びます
prezi
ブログ投稿
- グローバルな停止を回避する方法 - シームレスに移行するデイモンセットラベル
- 速度を求めて - Elasticsearchのパフォーマンスのデバッグ
- PreziのPrometheus:10年間の反パターンを交換します
赤い帽子
ブログ投稿
- OPSからSREへ:OpenShiftの進化献身的なチーム
- 5つのアジャイルプラクティスすべてのSREチームが採用する必要があります
- Kubernetesオペレーターを書くための7つのベストプラクティス:SREの視点
暴動ゲーム
ブログ投稿
- Reneterra CI/CDパイプラインのLegends
- 不確実なシステムで作業するための戦略
- オペレーティングサービスの開発者エクスペリエンスの向上
- Valorantのスケーラビリティと負荷テスト
- ゲーム開発と運用のためのGolangの活用
- 断層注入検査で制御されたカオス
- パフォーマンス監視のウサギの穴を下ってください
- プロファイリング:不足しているミリ秒の場合
- プロファイリング:リーグでの現実世界のパフォーマンス
- プロファイリング:最適化
- プロファイリング:測定と分析
- Riotでオンラインサービスを実行する:パートI
- Riotでオンラインサービスの実行:パートII
- Riotでオンラインサービスの実行:パートIII
- Riotでのオンラインサービスの実行:パートIII:パートDeux
- Riotでのオンラインサービスの実行:パートIV
- Riotでオンラインサービスの実行:パートv
- 暴動のセキュリティの進化
- リーグクライアントアップデート用の自動テストパイプラインの実行
- League of Legendsの自動テスト
Salesforce
ブログ投稿
- マルチテナンシー用のKubernetesコントロールプレーンを見る
- eksネットワーキングのスケールの最適化
- Kubernetesクラスターでのゼロダウンタイムノードパッチング
- どうして、理由ではない:死後の5つの理由に代わる
- Kubernetes用の一般的なサイドカーインジェクター
- マイクロサービスに基づく製品の監視戦略の実装
- 実際に使用するインシデント対応計画を作成するための10のステップ
- ほぼ完璧なログパイプラインへの旅
- Webワーカーとのパフォーマンスの最適化
- 少し焦点を合わせてください
Schibsted Media
ブログ投稿
- スカンジナビアのトップ10サイトのいくつかの信頼性エンジニアリング
scribd
ブログ投稿
- インシデントから学ぶ:sidekiqを10億の仕事に奉仕する準備をする
- ScribdでPagerdutyを使用するための証言
- 開発者へのポケットベルの義務の割り当て
Shopify
ブログ投稿
- 交通量の多いイベントの回復力計画
- 大規模な容量計画
- DNSトラフィック管理を使用して、Shopifyのサービスに回復力を追加する
- 効果的なゲームデイテストを作成するための4つのステップ
- Chatopsをインシデント管理手順に実装します
- Shopifyのstatsd
ビデオ
- ネットワークモニター:観察可能性のギャップを認める物語
- 予期しないことを期待する:新しい失敗に対応するためにSREチームを準備する
- 高度なナプキン数学:最初の原則からシステムのパフォーマンスを推定します
空の賭けとゲーム
ブログ投稿
- それは単なる監視の変更です
- 「起こりうる最悪の事態は何ですか?」:ライブインシデントに対処する方法の実用的な例
- 灰から立ち上がる
- クラッシュ!強打!ワロップ!練習は完璧になります
- パフォーマンスは左右に左右
スラック
ブログ投稿
- 2-22-22にSlackの事件
- 支出曲線を変更するためのインフラストラクチャの観測可能性
- 2021年1月4日のSlackの停止
- ひどく、恐ろしく、無駄な、非常に悪い日、スラックで
- Slackで展開します
- 災害劇場:親しみやすいカオス工学のためのSlackのプロセス
ビデオ
- 端でスラック
- 私たちのシステムを壊すもの:ブラックスワンの分類
Slalom Build
ブログ投稿
- 新しいRelic APMにサービスレベルの目標を実装する方法
- DevOpsへの初心者ガイド:業界に登場する方法
- GitHubアクション:CI/CDを超えて
- すべてのテスト自動化がパイプラインで実行されないのはなぜですか?
- サイト信頼性エンジニアリングの多くの形状
- デフォルトでセキュアを構築する方法kubernetesクラスターは、AWSに基本的なCI/CDパイプラインを備えています
- 秘密の管理アーキテクチャ:セキュリティと複雑さのバランスを見つける
- Keras&Tensorflowで悪意のあるリクエストを検出します
- レゴモノリス - モノリスマイクロサービスの概念実証
- Hashicorp Vaultを使用した秘密の管理
- Kubernetesでの展開用のパッケージスプリングブートアプリケーション
- 不変のインフラストラクチャとクラウドでの継続的な配信
soundcloud
ブログ投稿
- システムを正常に引き渡す方法
- 健康的なオンコール文化を構築します
- プロのようなスロで警告します
- カナリアとのハンドオフの展開
- プロメテウスは年齢になりました - オープンソースプロジェクトの開発に関する反映
- プロメテウス:SoundCloudでの監視
- SREの研修生として1年で学んだこと
- 拡大レンズの下のテスト
Spotify
ブログ投稿
- Matt Clarke:シニアバックエンドインフラストラクチャエンジニア
- 開発者向けのより良いKubernetesエクスペリエンスを設計する
- TechBytes:業界がインシデントについて見逃していることとあなたができること
- GCPの自動インシデント応答インフラストラクチャ
ビデオ
- トレース、速くて遅い:Webサービスのパフォーマンスを掘り下げて改善する
Squarespace
ブログ投稿
ビデオ
- 摩擦を押し通します
- すべてがすでに燃えているときにsreする方法
- Case Study: Implementing SLOs for a New Service
- Creating a Code Review Culture
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
ビデオ
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
ストライプ
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
ビデオ
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
ターゲット
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Tinder
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
トリバゴ
Blog Posts
- How To Get Fooled By Metrics
トワイリオ
Blog Posts
- Twilio SRE Gameday Template
ツイッター
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Uber
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
ビデオ
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
ビデオ
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
ビデオ
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Yelp
Blog Posts
- The process: Implementing Yelp's failover strategy
ビデオ
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
ゾマト
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
ビデオ
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
リソース
本
- 新しい! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
イベント
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Other Resources
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
ニュースレター
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
クレジット
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
貢献者
貢献する
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
ライセンス
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.