download howtheysre - howtheysre source code download

Bagaimana mereka sre

Perkenalan

Bagaimana mereka SRE How Es SRE adalah repositori pengetahuan yang dikuratori dari praktik, alat, teknik, dan budaya terbaik keandalan Situs (SRE) yang diadopsi oleh teknologi terkemuka atau organisasi yang paham teknologi.

Banyak organisasi sering berbagi wawasan dan keahlian mereka, mencakup praktik, alat, dan teknik terbaik yang membentuk budaya teknik mereka. Mereka melakukan ini melalui berbagai platform publik seperti blog teknik, konferensi, dan pertemuan. Repositori ini menyusun dan menyajikan konten yang dikumpulkan dari sumber -sumber ini.

Topik

Rekayasa Keandalan Situs
Mempekerjakan dan Membangun Tim SRE
Budaya SRE
Devop
Pemantauan & Pengamatan
Peringatan
Respons Insiden & post-mortem
On-call
Pengujian dalam produksi
Teknik Kekacauan
Otomatisasi
Pertunjukan
Rekayasa Platform

Organisasi

Orang yang berprestasi

Posting Blog

Masukkan The Hardir - Building 'à la carte' Gitops Tooling
Produksi penskalaan secara global-Layanan Mesh Facelift (Bagian-1)
Produksi Penskalaan Secara Global - Memecahkan Masalah Observabilitas untuk Pengembang (Bagian -2)
Pengujian Muat Kubernetes: Membangun Kerangka (Bagian-1)
Pengujian Muat Kubernetes: Menyelesaikan bottleneck dan meningkatkan kinerja (Bagian-2)

Airbnb

Posting Blog

Manajemen Insiden Otomatis Melalui Slack
Mendeteksi kerentanan dengan vulnotture
Kerangka kerja peringatan di Airbnb
Saat awan menjadi gelap - bagaimana pemadaman Amazon mempengaruhi Airbnb
Platform Otomasi Cerdas: Memberdayakan AI Conversational dan Beyond di Airbnb
Manajemen Rahasia Produksi di Airbnb
Mengotomatisasi Perlindungan Data pada Skala, Bagian 1
Mengotomatisasi Perlindungan Data pada Skala, Bagian 2
Mengotomatisasi Perlindungan Data pada Skala, Bagian 3
Penskalaan kluster Kubernetes dinamis di Airbnb

Algolia

Posting Blog

Insiden SSL 30 Mei
Perjalanan ke SRE
CI/Cday 2024: Apa yang membuat platform CI/CD yang bagus?

ALIBABA Cloud

Posting Blog

Mengapa perusahaan internet teratas memilih SRE daripada O&M tradisional?
Arsitektur dan praktik platform real-time Bilibili

Asana

Posting Blog

Bagaimana Asana Menggunakan Asana: Respons Insiden Keamanan
Bagaimana Asana mengirimkan rilis aplikasi web yang stabil
Analisis downtime terbaru & apa yang kami lakukan untuk mencegah insiden di masa depan
Lingkungan Pengembang: Mencapai keandalan dengan membuatnya cepat untuk mereset
Tiga taktik keamanan untuk setiap pemimpin TI untuk mempertimbangkan musim gugur ini

Asos

Posting Blog

Bermain game yang kurang menyalahkan
Suatu Hari dalam Kehidupan ... Kucing (Kepala Rekayasa Keandalan)
Perjalanan Kinerja AKS: Bagian 1 - Mengukur semuanya
Perjalanan Kinerja AKS: Bagian 2 - Jaringan Keluar
Keamanan cyber @ asos.com
Operasi Keamanan 24x7
Keterampilan yang kami cari dalam respons insiden keamanan dunia maya

Atlassian

Posting Blog

Praktik terbaik untuk manajemen perubahan di zaman DevOps
Pengujian Otomatis: 5 Pelajaran dari Tim Kubernetes Atlassian tentang Infrastruktur Pengujian Sebagai Kode
Cara mengekspor peristiwa kubernetes untuk observabilitas dan peringatan
Insiden Template Postmortem

Backmarket

Posting Blog

Bagaimana SRE Pasar Kembali Disiapkan untuk Black Friday

Baidu

Video

Deteksi anomali pada sinyal emas
Netradar: Memantau jaringan pusat data
Biarkan kekacauan dimulai - rekayasa kekacauan semata bertemu dengan keamanan siber

Basecamp

Posting Blog

Di dalam kode merah: Edisi Jaringan
Tiga pemadaman basecamp. Seminggu. Apa yang telah terjadi?
Laporan Pemadaman Pencarian Basecamp 2 dan Basecamp 3
Mengurangi eskalasi insiden di Basecamp

Buku

Berlatih

Bloomberg

Video

Perencanaan Kapasitas dan Peningkatan Kinerja dengan Pengambilan Sampel Referensi Halaman
Mengapa SRES Tidak Mampu Tidak Melakukan Kekacauan Rekayasa
Menelusuri sistem terdistribusi real-time
The Bloomberg Story: Building SRE Teams dalam organisasi "tak terukur"
Visibilitas ke dalam penebang (dan layanan tingkat rendah lainnya) - melihat pohon dari hutan

Booking.com

Posting Blog

Bagaimana Keandalan dan Tim Produk Berkolaborasi di Booking.com
Insiden, perbaikan, dan hari sesudahnya
Pemecahan Masalah: Perjalanan ke yang Tidak Diketahui

Video

Slos untuk layanan intensif data
Manfaat mengambil jalan yang kurang dilalui dengan infrastruktur wadah

Modal Satu

Posting Blog

Mengotomatiskan pemantauan aplikasi dengan slack
Otomatis Infrastruktur AWS dengan Boto 3: AWS Health Check
Arsitektur basis data yang tidak aktif-aktif-aktif
The 3 R's Sres: Resiliency, Recovery & Reliability
5 langkah untuk menyiapkan kekacauan aplikasi Anda
4 skenario dunia nyata yang dibaca seperti eksperimen rekayasa kekacauan
Rangkul kekacauan… teknik
3 Pelajaran yang Dipetik Dari Menerapkan Rekayasa Kekacauan di Enterprise
Penyelaman dalam ke dalam penyebaran biru/hijau mulus menggunakan codedeploy AWS
Wadah Docker yang aman memerlukan aplikasi yang aman
4 langkah untuk memasangkan cloud dan devops untuk meningkatkan ketahanan
Aplikasi siap kontainer dengan aplikasi dua belas faktor dan arsitektur layanan mikro
Menyebarkan dengan Keyakinan - Minimalkan Risiko, Maksimalkan Ketahanan dengan Penyebaran Canary di AWS
Arsitek untuk Ketahanan
Kekacauan berkelanjutan - Memperkenalkan rekayasa kekacauan ke dalam praktik DevOps
The Mon-Ifesto Bagian 1: Metrik

Laporan Insiden & Analisis Utama

Informasi tentang Insiden Cyber Capital One
Studi kasus pelanggaran data Capital One

Video

Perbankan tentang Pengiriman Berkelanjutan - Modal Satu
Kekacauan berkelanjutan di DevOps - Capital One
DevOps at Capital One: Fokus pada pipa dan pengukuran
Mengotomatisasi Manajemen Kesehatan Operasional Akun Cloud pada Skala

Coinbase

Posting Blog

Pipa Penerapan Aman Koinbase Sumber Terbuka

Dazn

Posting Blog

Keandalan situs di Dazn

DBS

Posting Blog

Mempresentasikan di Konferensi SRE Ithome: Perjalanan Transformasi SRE DBS kami sejauh ini
Banggahan Tujuh Mitos Rekayasa Keandalan Situs Paling Populer
Cara menggunakan SRE untuk menumbuhkan budaya tanpa bersalah di tempat kerja
Rekayasa Keandalan Situs di DBS Bank
Mengotomatiskan Manajemen Konfigurasi pada Skala
Bagaimana DBS menghilangkan mitos rekayasa kekacauan
Ganda, kerja keras ganda dan masalah

Video

Percakapan Srecon Asia/Pasifik dengan Koon Seng Lim, DBS

Deepsource

Posting Blog

REDIS Diskless Replication: Apa, bagaimana, mengapa dan peringatan
Cara mengatur lemari besi dengan kubernetes
Meruntuhkan penyebaran waktu henti nol di Kubernetes

Mimpi11

Posting Blog

Penyebaran pada skala: cerita di balik platform penyebaran biru-hijau Dream11 'OneClick'.
Meningkatkan keamanan dan kepercayaan dengan AWS WAFV2
Pelajaran yang Dipetik Dari Menjalankan GraphQL Pada Skala
Break Circuits, Save Kong?
Menemukan Pesanan dalam Kekacauan: Bagaimana kami mengotomatiskan pengujian kinerja dengan torsi
Mempertahankan pelepasan hiper-sonik di Dream11
Untuk skala atau skala keluar? Begini cara kami skala di Dream11
Membangun analisis waktu nyata yang dapat diskalakan, arsitektur deteksi peringatan, dan anomali di Dream11

Dropbox

Posting Blog

Kerangka Karier Rekayasa Dropbox - Reliability Engineer (SRE)
Atlas: Perjalanan kami dari monolith Python ke platform yang dikelola
Memantau aplikasi server dengan vortex
Athena: Sistem Manajemen Kesehatan Bangunan Otomatis kami
Tertarik untuk menjadi insinyur keandalan situs?

Video

Tantangan Penemuan Layanan dalam Skala

eBay

Posting Blog

Ketahanan dan pemulihan bencana dengan kafka
Studi Kasus SRE: Triaging Non-Hap JVM Out of Memory Issue
Studi Kasus SRE: Ketidakseimbangan Lalu Lintas Misterius
Nol downtime, penyebaran instan dan rollback
Bagaimana platform pemberitahuan eBay menggunakan suntikan kesalahan dengan cara baru

Video

Madaari: Memesan Monyet

Game Epik

Video

AWS Re: Invent 2018: Epic Games menggunakan AWS untuk mengirimkan Fortnite ke 200 juta pemain

Etsy

Posting Blog

Meningkatkan pengalaman penyebaran aplikasi berusia sepuluh tahun
Bagaimana Etsy Bersiap untuk Volume Lalu Lintas Liburan Bersejarah Pada tahun 2020
Otak Anda saat kemajuan
Panduan Fasilitasi Debriefing Etsy untuk postmortems yang tidak bersalah
Opsweekly: Mengukur pengalaman panggilan dengan klasifikasi peringatan
Pemadaman Situs Demistifik
Postmortems tanpa bersalah dan budaya yang adil
Ukur apapun, ukur semuanya

Video

Velocity 09: John Allspaw dan Paul Hammond, "10+ Menyebarkan PE
Migrasi monolit ke awan

Expedia

Posting Blog

Mengotomatiskan standar kinerja
Kebijakan Anggaran Kesalahan - Bagian 1 - Adopsi di Expedia Group
Kebijakan Anggaran Kesalahan - Bagian 2 - Praktik di Expedia Group
Menggunakan injeksi kesalahan untuk meningkatkan keandalan platform runtime baru kami
Belajar dari insiden di Expedia Group
Meningkatkan pengalaman pemuatan beranda VRBO
Memecahkan Masalah 502 Kesalahan: Daftar Periksa ECS
Memulai dengan Elasticsearch
Semua tentang masalah 5xx Istio-Proxy
Autoscaling di Kubernetes: Mengapa pod autoscaler horizontal tidak berfungsi untuk saya?
Cara menjaga penyebaran kubernet Anda seimbang di beberapa zona
Apakah metrik latensi dropwizard Anda menyesatkan Anda?
Biaya keandalan 100%
Membuat dasbor pemantauan
Menggunakan bash untuk devops

Dengan cepat

Video

SRE & MANAJEMEN PRODUK: Bagaimana cara meningkatkan tim Anda (dan karier!) Dengan berpikir seperti manajer produk
Mythbusting rekayasa ketahanan

G-Research

Posting Blog

Perjalanan SRE kami di G-Research
Perjalanan SRE berlanjut
OpentsDB Meta Cache-Trade-off untuk Kinerja

Getaround

Posting Blog

Bagaimana kami menangani insiden di getaround
Evolusi proses pengiriman berkelanjutan kami

GitHub

Posting Blog

Bagaimana kami meningkatkan ketersediaan melalui penyederhanaan berulang
Bagaimana kami meningkatkan pemrosesan dorongan di github
Bagaimana GitHub Menggunakan Gabungan Antrian untuk mengirimkan ratusan perubahan setiap hari
Memperbaiki kerentanan keamanan dengan AI
Program Fundamental Teknik GitHub: Bagaimana kami memenuhi ketersediaan, keamanan, dan aksesibilitas
Bagaimana GitHub Menggunakan Tindakan dan Tindakan GitHub Pelari yang lebih besar untuk membangun dan menguji github.com
Perjalanan Lab Keamanan GitHub untuk mengungkapkan 500 CVE di proyek open source
Tim CodeQL menggunakan AI untuk mendeteksi kerentanan daya dalam kode
Menangani masalah ketersediaan baru -baru ini
Membangun tata kelola organisasi di seluruh dan penggunaan kembali untuk CI/CD dan otomatisasi dengan tindakan github
Mengaktifkan penyebaran cabang melalui edisiops dengan tindakan github
Menggunakan chatops untuk membantu tindakan insinyur panggilan
Mempartisi database relasional GitHub untuk menangani skala
Meningkatkan kebahagiaan pengembang dengan pemindaian kode github
Mengapa (dan bagaimana) GitHub mengadopsi OpenTelemetry
Meningkatkan kinerja monorepo besar di github
Keandalan penyebaran di github
Meningkatkan cara kami menggunakan github
Membangun budaya panggilan di github
Mengurangi bangunan bersisik dengan 18x
Peran Operasi yang Berkembang di DevOps
Memulai dengan Otomasi DevOps
MySQL Ketersediaan Tinggi di GitHub

Laporan Insiden & Analisis Utama

Laporan Ketersediaan GitHub: Agustus 2024
Laporan Ketersediaan GitHub: Juli 2024
Laporan Ketersediaan GitHub: Juni 2024
Laporan Ketersediaan GitHub: Mei 2024
Laporan Ketersediaan GitHub: April 2024
Laporan Ketersediaan GitHub: Maret 2024
Laporan Ketersediaan GitHub: Februari 2024
Laporan Ketersediaan GitHub: Januari 2024
Laporan Ketersediaan GitHub: Desember 2023
Laporan Ketersediaan GitHub: November 2023
Laporan Ketersediaan GitHub: Oktober 2023
Laporan Ketersediaan GitHub: September 2023
Laporan Ketersediaan GitHub: Agustus 2023
Laporan Ketersediaan GitHub: Juli 2023
Laporan Ketersediaan GitHub: Juni 2023
Laporan Ketersediaan GitHub: Mei 2023
Laporan Ketersediaan GitHub: April 2023
Laporan Ketersediaan GitHub: Maret 2023
Laporan Ketersediaan GitHub: Februari 2023
Laporan Ketersediaan GitHub: Januari 2023
Laporan Ketersediaan GitHub: Desember 2022
Laporan Ketersediaan GitHub: November 2022
Laporan Ketersediaan GitHub: Oktober 2022
Laporan Ketersediaan GitHub: September 2022
Laporan Ketersediaan GitHub: Agustus 2022
Laporan Ketersediaan GitHub: Juli 2022
Laporan Ketersediaan GitHub: Juni 2022
Laporan Ketersediaan GitHub: Mei 2022
Laporan Ketersediaan GitHub: April 2022
Laporan Ketersediaan GitHub: Maret 2022
Laporan Ketersediaan GitHub: Februari 2022
Laporan Ketersediaan GitHub: Januari 2022
Laporan Ketersediaan GitHub: Desember 2021
Laporan Ketersediaan GitHub: November 2021
Laporan Ketersediaan GitHub: Oktober 2021
Laporan Ketersediaan GitHub: September 2021
Laporan Ketersediaan GitHub: Agustus 2021
Laporan Ketersediaan GitHub: Juli 2021
Laporan Ketersediaan GitHub: Juni 2021
Laporan Ketersediaan GitHub: Mei 2021
Laporan Ketersediaan GitHub: April 2021
Laporan Ketersediaan GitHub: Maret 2021
Laporan Ketersediaan GitHub: Februari 2021
Laporan Ketersediaan GitHub: Januari 2021
Laporan Ketersediaan GitHub: Desember 2020
Laporan Ketersediaan GitHub: November 2020
Laporan Ketersediaan GitHub: Agustus 2020
Laporan Ketersediaan GitHub: Juli 2020
Memperkenalkan Laporan Ketersediaan GitHub
Gangguan Layanan Februari Analisis pasca-insiden
21 Oktober Analisis pasca-insiden
Laporan Insiden DDOS 28 Februari
Laporan Insiden: Pengungkapan Repositori Privat yang tidak disengaja

Video

Satu lawan satu sre

Gitlab

Posting Blog

SRE ini berusaha untuk meluncurkan perubahan konfigurasi yang sedang dimusnahkan. Anda tidak akan percaya apa yang terjadi selanjutnya ...
Minggu saya membayangi insinyur reliabilitas situs gitlab
Pembaruan: Pelajaran Elasticsearch Dipetik untuk Pencarian Global Lanjutan
Pelajaran dalam iterasi dari tim baru dalam infrastruktur
Bagaimana kami mengoptimalkan pengeluaran infrastruktur di gitlab
Bagaimana kami meningkatkan pemrosesan beban kerja async di gitlab.com menggunakan Sidekiq
Inside Gitlab: Bagaimana Kami Merilis Patch Perangkat Lunak
Apa yang melacak Keepalives TCP yang hilang mengajari saya tentang Docker, Golang, dan Gitlab
Bagaimana kami menggunakan replikasi tertunda untuk pemulihan bencana dengan postgresql

Gocardless

Posting Blog

Menyebarkan Perangkat Lunak di Gocardless: Tutorial Open-Sourcing "Memulai" kami
Bagaimana kami mengompres pesan pub/sub dan banyak lagi, menyimpan banyak uang
Migrasi PostgreSQL bebas ketakutan untuk rel
Observability at Gocardless: Kisah Peningkatan Kinerja API
Debugging PostgreSQL Query Planner
Migrasi Postgres Zero -Downtime - bagian yang sulit
Mencari kinerja - Bagaimana kami mencukur 200 ms dari setiap permintaan posting

Laporan Insiden & Analisis Utama

Ulasan Insiden: Layanan Pemadaman pada 25 Oktober 2020, Vault TLS Expiry
Ulasan Insiden: API dan Outage Dashboard pada 10 Oktober 2017

Godaddy

Posting Blog

Penyebaran Kubernetes Gated
Kubernetes Rahasia Eksternal
Kubernetes - Pendahuluan Praktis untuk Pengembang Aplikasi
Klien Node.js intuitif untuk API Kubernetes

Gojek

Posting Blog

Memperkenalkan Skynet: Infrastruktur sebagai Kode untuk Gojek
Menskalakan layanan geo-pencarian kami untuk beban 10x
Mengapa kami bersumpah dengan RCA
Bagaimana kami meningkatkan Kubernet di GKE
Bagaimana kami memantau aliran udara apache dalam produksi

Goldman Sachs

Posting Blog

Perjalanan Observabilitas SECDB
Kekacauan Menguji aplikasi di AWS
Pemadaman kapasitas peramalan menggunakan pembelajaran mesin untuk meningkatkan ketahanan aplikasi
Memberikan 99,9% ketersediaan dan waktu respons sub-detik dengan multipleks Sybase IQ dengan menggunakan Haproxy
Membangun ketahanan multi-wilayah dengan Amazon RDS dan Amazon Aurora
Mengaktifkan Cluster Trino yang sangat tersedia di Goldman Sachs
Observabilitas pada skala
Infrastruktur dan pola rantai perintah
Mobile CICD dengan MacOS EC2
Mengumumkan Catchit - Pemindai Rahasia Kode Sumber
Membangun platform untuk rekayasa data

Google

Posting Blog

Percepatan respons insiden menggunakan AI generatif
Jebakan dan pola dalam manajemen ketergantungan layanan mikro
Praktik & Proses SRE
Keandalan situs Google menggunakan GO
Tiga Bulan, 30x Permintaan: Bagaimana Kami Meningkatkan Google Meet selama COVID-19
SRE Classroom: Pubsub Terdistribusi
Bagaimana tim SRE terorganisir, dan bagaimana memulai

Video

Apa perbedaan antara DevOps dan SRE? Dengan Seth Vargo dan Liz Fong-Jones dari Google
Anggaran Risiko dan Kesalahan 'dengan Seth Vargo dan Liz Fong-Jones dari Google
Otomasi Pragmatis 'dengan Max Luebbe dari GCP
Harus menonton! - Daftar Putar Google SRE YouTube
Squish Level Tujuan: Bagaimana SRE dapat membantu menyelaraskan pekerjaan teknis dengan manfaat pengguna
Menerapkan konsensus terdistribusi
Sre I bercita -cita
SRE Classroom, OR, Cara Merancang Sistem Terdistribusi yang Dapat Diandalkan dalam 3 Jam
Zero Touch Prod: Menuju lingkungan produksi yang lebih aman dan lebih aman
Semua ide ML kami buruk (dan kami harus merasa buruk)
Peta bukan wilayah: bagaimana slos membuat kita tersesat, dan apa yang bisa kita lakukan tentang itu
Menyebarkan Praktik Terbaik Pelatihan SRE untuk Produksi: Bagaimana Kami Sre'ed Program Pendidikan SRE kami
BigTable: Perjalanan dari biner ke layanan dan pelajaran yang dipetik sepanjang jalan
Instrumentasi praktis untuk observabilitas
Apa itu ML Ops: Solusi dan Praktik Terbaik untuk DevOps of Production ML Services
Pelaporan Keandalan Layanan Terpadu
Cara menukar pemanfaatan server dan latensi ekor
Menjaga keseimbangan: Demystifiked Loadsalible Skala Internet
Dari kotak hitam ke kuantitas yang diketahui: cara membangun layanan berbasis ML yang dapat diprediksi dan andal
Mindfulness in SRE: Memantau dan memperingatkan diri sendiri
Otomatisasi pragmatis
Penskalaan Sublinear dalam Praktek: Proyek SRE 1K
Strategi untuk mengedit data produksi
Kutukan otonomi SRE dan cara mengelolanya
Meningkatkan Organisasi SRE: Perjalanan dari 1 ke banyak tim
SRE Classroom - Cara merancang sistem terdistribusi dalam 3 jam
Menggunakan PRD dan perjalanan pengguna untuk merancang alat yang ramah pengguna
Bagaimana Google SRE dan Pengembang bekerja sama
SRECON21 - Eksperimen untuk SRE

Merebut

Posting Blog

Perjalanan kami ke pengiriman berkelanjutan di Grab (Bagian 1)
Perjalanan kami ke Pengiriman Berkelanjutan di Grab (Bagian 2)
Mendesain Sistem Tangguh: Pemutus Sirkuit atau Retries? (Bagian 1)
Mendesain Sistem Tangguh: Pemutus Sirkuit atau Retries? (Bagian 2)
Mendesain Sistem Tangguh Di Beyond Retries (Bagian 3): Pola Arsitektur dan Rekayasa Kekacauan
Mengatur kekacauan menggunakan platform eksperimen Grab
Bagaimana kami merancang kuota microservice untuk mencegah penyalahgunaan sumber daya
Bagaimana kami menskalakan cache kami dan tidur nyenyak

Tata bahasa

Posting Blog

SCALING AWS Infrastructure untuk mendukung berbagai wilayah
Operasi Keamanan di Lingkungan AWS

Semangat

Posting Blog

Tujuan Tingkat Layanan untuk Ketenangan Pikiran
Debugging Sidekiq Poison Pills

Halodoc

Posting Blog

Rekayasa Keandalan Situs untuk Aplikasi Seluler Asli

Heroku

Posting Blog

Petualangan pertemuan dalam arsitektur baru Heroku
Respons Insiden di Heroku

IBM

Posting Blog

Apa itu Rekayasa Keandalan Situs (SRE)?
Alat dan solusi AIOPS

Memang

Posting Blog

Memang sre: tampilan bagian dalam
Menjadi cukup dapat diandalkan
Mengotomatiskan proses rilis memang
Sloth, alat untuk mendorong kegagalan jaringan 'dengan Preetha Appan dari Memang.com

Video

Apakah kita menjadi lebih baik lagi? Kemajuan menuju operasi yang lebih aman

Memang

Posting Blog

SRE Playbook - Panduan Praktis

Akademi Khan

Posting Blog

Bagaimana Khan Academy berhasil menangani 2.5x lalu lintas dalam seminggu
Mengembangkan infrastruktur konten kami

Posting Blog

Memikirkan kembali proyeksi kapasitas situs dengan penganalisa kapasitas
Wawasan ke dalam tim produk SRE di LinkedIn
Mempekerjakan SRE di LinkedIn
Pembaruan Sumber Terbuka: Sekolah SRE
Memperbaiki regresi kinerja sistem file linux
Pengujian produksi dengan dark canaries
Peringatan Cerdas di ThirdEye, platform pemantauan real-time LinkedIn
Iris Mobile: Antarmuka Open Source, Seluler untuk Manajemen Insiden
Tautan: Kerangka Injeksi Kegagalan Tingkat Permintaan
Menghilangkan kerja keras dengan pengujian beban otomatis sepenuhnya
Riasan tim SRE yang didistribusikan secara geografis yang sukses: Bagian 1
Riasan tim SRE yang didistribusikan secara geografis yang sukses: Bagian 2
Project Star*: merampingkan proses panggilan kami
Mengotomatisasi Oncall Anda: Buka Sourcing Fossor dan Ascii Etch
Teknik ketahanan di LinkedIn dengan Project Waterbear
Mempekerjakan SRE di LinkedIn, 2017
Buka Sumber Iris dan Oncall
Membangun Budaya SRE di LinkedIn
Kegagalan bukanlah suatu pilihan
MTTD dan MTTR adalah kuncinya
Apa yang diukur akan diperbaiki

Video

Menumbuhkan Tim Keandalan Situs di LinkedIn: Hiring is Sust - Greg Leffler
9 tahun kegagalan: Bagaimana balap mobil jelek membuat saya menjadi lebih baik
Weathering the Storm: Bagaimana peringatan dini menyelamatkan pertanian
Unconference: Masalah yang belum terpecahkan di SRE
Memimpin tanpa mengelola: menjadi pemimpin teknis SRE
Mengapa pemantauan (saya) payah?
Infrastruktur peramalan dan pengujian stres lalu lintas
Mindfulness kolektif untuk keputusan yang lebih baik di SRE
TCP - Arsitektur, Peningkatan, dan Tuning
Lebih dari 600 juta anggota dan ratusan layanan mikro: Bagaimana kami meningkatkan sistem pemantauan kami untuk mengimbangi
Memahami Metrik Bisnis dapat membuat Anda menjadi SRE yang lebih baik
Kode-kuning: Membantu Operasi Top-Heavy Teams Dengan Cara Cerdas
Perbedaan dalam implementasi SRE di seluruh perusahaan

Peralatan

On-call

LOGGI

Posting Blog

Model Manajer Rilis
Tim SRE #8: Loggi

LoveHolidays

Posting Blog

Perutean Peringatan Dinamis dengan Prometheus dan AlertManager
Making LoveHolidays 18% lebih cepat dengan HTTP/3
Menegakkan praktik terbaik pada infrastruktur swalayan dengan terraform, atlantis dan kebijakan sebagai kode
5 prinsip yang membantu skala lovolidays
Realtime dengan cepat mencatat dengan Grafana Loki dengan harga di bawah $ 1 per hari

Macquarie

Posting Blog

Perjalanan devsecops kami dengan golang
Konfigurasi pipa sebagai kode dengan Kotlin
Devops dan pemisahan tugas
Macquarie merangkul DevOps
Menskalakan platform Kubernetes di seluruh perusahaan

Paling penting

Posting Blog

Memantau lingkungan awan dalam skala dengan Prometheus dan Thanos
Bagaimana kami menggunakan sloth untuk melakukan pemantauan slo dan waspada dengan prometheus

Meituan (美团)

Posting Blog

Pengembangan dan Praktek SRE di Cloud (云端的 SRE 发展与实践)

Mercari

Posting Blog

Siapa yang mengawasi penjaga? Mengawasi sistem pemantauan kami
Apa yang dilakukan tim Microservices SRE sebagai penginjil SRE
Bagaimana rasanya bekerja sebagai layanan microservices tertanam
Tim Merpay SRE: Masa Lalu dan Masa Depan
Tertanam sre di mercari
Apa yang ingin dicapai oleh tim SRE dengan tim pengembangan
DevSecops: Apa itu dan mengapa ia mendapatkan momentum di industri ini?
Bagaimana kita berbagi keterampilan pemecahan masalah
Dasbor datadog pada skala dengan terraform

Posting Blog

Memanfaatkan AI untuk respons insiden yang efisien
Meningkatkan alur kerja SLO meta dengan anotasi data
Slick: Mengadopsi SLO untuk peningkatan keandalan
Rincian lebih lanjut tentang pemadaman 4 Oktober
Perbarui tentang pemadaman 4 Oktober

Video

Pendekatan Layanan Pelanggan ke SRE
Bagaimana (tidak) skala proyek: post-mortem
Melepaskan situs Python terbesar di dunia setiap 7 menit
Menggunakan ML untuk mengotomatiskan kategorisasi kesalahan dinamis

Microsoft

Video

SLI & Reliabilitas Deep-Dive 'dengan David N. Blank-Edelman dari Microsoft
Besi Otomatisasi: Komedi dalam Tiga Bagian 'dengan Tanner Lund dari Microsoft
Rekayasa Perangkat Lunak Berkelanjutan & SRES
Studi tentang faktor manusia dan budaya tim untuk meningkatkan kelelahan pager
Memprioritaskan kepercayaan saat membuat aplikasi
Membangun Ketahanan: Cara Belajar Lebih Banyak Dari Insiden
Kisah Dua Postmortem: Pandangan Faktor Manusia
Ketersediaan - Berpikir lebih dari 9s
Ironi Otomatisasi: Komedi dalam Tiga Bagian
Ops di serverless

Miro

Posting Blog

Prometheus strategi ketersediaan tinggi dan toleransi kesalahan, penyimpanan jangka panjang dengan victoriametrics
Mengelola ratusan server untuk pengujian beban: autoscaling, pemantauan khusus, kultur DevOps
Pengujian beban yang andal sehubungan dengan nuansa yang tidak terduga

Monzo

Posting Blog

Autoscaling Monzo: Bagaimana kami mengoptimalkan platform kami menjadi ukuran yang tepat
Bagaimana kami telah berevolusi di Monzo
Bagaimana kami menanggapi insiden
Bagaimana Kami Memantau Monzo

Video

Akhirnya penemuan layanan yang konsisten

Peralatan

Tanggapan

Netflix

Posting Blog

Mencapai observabilitas dalam alur kerja async
Membangun Infrastruktur Penelusuran Terdistribusi Netflix
Pelajaran dari membangun alat observabilitas di Netflix
Edgar: Memecahkan misteri lebih cepat dengan kemampuan observasi
Telltale: Pemantauan Aplikasi Netflix Sederhana
Menjaga pelanggan tetap streaming - Praktik Keandalan Situs Terpusat di Netflix
Memperkenalkan pengiriman
Menerapkan pola Netflix DevOps ke Windows
Bab: Platform Otomasi Chaos
Memulai longsoran salju
Netflix Chaos Monkey ditingkatkan
Chaos Engineering ditingkatkan
Pengujian Kegagalan Otomatis
Dari Kekacauan ke Kontrol - Menguji Ketahanan Platform Penemuan Konten Netflix
Memperkenalkan Atlas: Platform telemetri utama Netflix
Fit: Tes Injeksi Kegagalan
Mengumumkan Keamanan Monyet - Pemantauan dan Analisis Konfigurasi Keamanan AWS
Pelajaran yang dipelajari Netflix dari pemadaman AWS
Scryer: Mesin penskalaan otomatis prediktif Netflix

Laporan Insiden & Analisis Utama

Post-Mortem 22 Oktober 2012 Degradasi AWS

Video

AWS Re: Invent 2019: A Day in the Life of a Netflix Engineer (NFX202)
When /Bin /Sh Serangan: Meninjau "Mengotomatiskan Semua Hal"
Bagaimana keadaannya? Belajar lebih banyak dari insiden
Infrastruktur Data Streaming @NetFlix @NetFlix
Pemantauan Kinerja Pengguna Nyata pada Skala Netflix - Martin Spier
AWS Re: Invent 2017 - Nora Jones menjelaskan mengapa kita membutuhkan lebih banyak kekacauan - rekayasa kekacauan, yaitu
AWS Re: Invent 2017: Melakukan Kekacauan di Skala Netflix (DEV334)
Netflix: Resiliensi Multi-Regional dan Rute Amazon 53
Merancang Layanan untuk Ketahanan: Pelajaran Netflix
South Bay SRE Meetup - Tim Kinerja Cloud Netflix
AWS Re: Invent 2017: A Day in the Life of a Netflix Engineer III (ARC209)
Bagaimana Netflix Menggunakan Aliran Kinesis untuk Memantau Aplikasi dan Menganalisis Miliaran Aliran Lalu Lintas
Menguasai Kekacauan - Panduan Netflix untuk Layanan Microser
AWS Re: Invent 2016: Dari Resilience to Ubiquity - #netflixeverywhere Global Architecture (ARC204)
Srecon 2016 - Netflix: 190 negara dan 5 inti SRES
Dari SYS Admin ke Netflix SRE
Teknik dan Operasi Ketahanan Aplikasi di Netflix dengan Hystrix
Menyuntikkan kegagalan di Netflix
LISA13 - Bagaimana Netflix mencakup kegagalan untuk meningkatkan ketahanan dan memaksimalkan ketersediaan
Manajemen Insiden di Netflix Velocity

Podcast

Ryan Kitchens tentang Pembelajaran Dari Insiden di Netflix, Peran SRE, dan Sistem Sosioteknik

Peralatan

Menugaskan

Relik baru

Posting Blog

Mendefinisikan Peran Perangkat Lunak Modern: SRES at New Relic
10 hal yang perlu diketahui semua orang tentang rekayasa reliabilitas situs (SRE)
Alat apa yang digunakan oleh insinyur keandalan situs?
Suatu hari dalam kehidupan peninggalan baru
7 Kebiasaan Insinyur Keandalan Situs yang Sangat Sukses
Mengadopsi Praktek SRE
Menggunakan observabilitas modern untuk membangun budaya berbasis data

Nubank

Posting Blog

Keunggulan operasional rekayasa, kasus peningkatan berkelanjutan
Bagaimana kita menangani insiden teknis
Bagaimana kami melakukan rotasi panggilan di Nubank
Bagaimana kami mengukur platform data kami secara efisien dan andal
Mengapa kami membunuh suite uji ujung ke ujung kami
Pelatihan ulang otomatis untuk model pembelajaran mesin: tips dan pelajaran yang dipetik

Openai

Posting Blog

20 Maret Pemadaman Chatgpt: Inilah yang Terjadi
Openai sre dan scaling dijelaskan dengan mudah.
Menskalakan kubernet ke 2.500 node
Menskalakan Kubernetes ke 7.500 node
Menskalakan infrastruktur AI di openai

Paypal

Posting Blog

Dipicu: insiden #1234 (proses insiden perlu diperbaiki)
Menerapkan observabilitas dalam mesh layanan
PostgreSQL pada skala: Skema database berubah tanpa downtime
Menskalakan GraphQL di PayPal

Video

Percakapan Srecon Asia/Pasifik dengan Karthikeyan Selvaraj dan Rajesh Ramachandran, Paypal
SRE Lalu vs SRE Sekarang: Tindakan penyeimbang antara refleks dan naluri intuitif di PayPal
Mendeteksi degradasi dan kegagalan layanan pada skala melalui pemrosesan log terdistribusi
Operasi Elasticsearch dengan mudah dalam skala
Memastikan keandalan situs melalui kontrol keamanan

Piknik

Posting Blog

Mikrometer dan tumpukan observabilitas modern
Pemantauan dan pengamatan saat piknik

Posting Blog

Memastikan ketersediaan tinggi layanan streaming realtime iklan
Meningkatkan efisiensi dan mengurangi runtime menggunakan optimasi baca S3
Menskalakan Kubernetes dengan jaminan di Pinterest
Apa yang kami pelajari dari insiden aplikasi iOS
Bagaimana kami merancang sistem integrasi berkelanjutan kami menjadi lebih dari 50% lebih cepat
Menyederhanakan penyebaran web
Meningkatkan metrik operasional pinterest
Penelusuran Terdistribusi Di Pinterest Dengan Alat Sumber Terbuka Baru
Pinterest penskalaan otomatis

Video

Membangun kepemilikan kode yang dapat ditindaklanjuti
Evolusi Alat Observabilitas Di Pinterest
Mengotomatiskan Peningkatan OS/Platform untuk Pemilik Layanan

Tukang pos

Posting Blog

Pelajari bagaimana kelompok kubernet Anda merespons kegagalan menggunakan Gremlin dan Grafana

Prezi

Posting Blog

Cara Menghindari Pemadaman Global - Label Daemonset yang Migrasi dengan Luas
Dalam mencari kecepatan - Kinerja Debugging Elasticsearch
Prometheus di Prezi: Mengganti 10 tahun anti-pola

Topi merah

Posting Blog

Dari Ops ke SRE: Evolusi Tim Dedikasi OpenShift
5 Praktik Agile yang harus diadopsi setiap tim SRE
7 Praktik Terbaik Untuk Menulis Operator Kubernetes: Perspektif SRE

Game Riot

Posting Blog

Legenda Pipa Runeterra CI/CD
Strategi untuk bekerja di sistem yang tidak pasti
Meningkatkan pengalaman pengembang untuk layanan operasi
Skalabilitas dan pengujian beban untuk keberanian
Memanfaatkan Golang untuk Pengembangan dan Operasi Game
Kekacauan terkontrol dengan pengujian injeksi kesalahan
Turun lubang kelinci pemantauan kinerja
Profil: Kasus milidetik yang hilang
Profil: Kinerja Dunia Nyata di Liga
Profil: Optimalisasi
Profil: Pengukuran dan Analisis
Menjalankan Layanan Online di Riot: Bagian I
Menjalankan Layanan Online di Riot: Bagian II
Menjalankan Layanan Online di Riot: Bagian III
Menjalankan Layanan Online di Riot: Bagian III: Bagian Deux
Menjalankan Layanan Online di Riot: Bagian IV
Menjalankan Layanan Online di Riot: Bagian V
Evolusi keamanan di kerusuhan
Menjalankan pipa uji otomatis untuk pembaruan klien liga
Pengujian Otomatis untuk League of Legends

Salesforce

Posting Blog

Melihat Pesawat Kontrol Kubernetes untuk multi-tenancy
Mengoptimalkan jaringan EKS untuk skala
Nol Node Downtime Penambalan di kluster Kubernetes
Bagaimana, bukan mengapa: alternatif untuk lima mengapa untuk post-mortem
Injektor sespan generik untuk Kubernetes
Implementasi Strategi Pemantauan untuk Produk Berdasarkan Layanan Mikro
10 langkah untuk mengembangkan rencana respons insiden yang benar -benar Anda gunakan
Perjalanan kami ke pipa log yang hampir sempurna
Mengoptimalkan kinerja dengan pekerja web
Luangkan waktu sejenak untuk memfokuskan kembali

Schibsted Media

Posting Blog

Rekayasa Keandalan untuk beberapa situs teratas di Skandinavia

Scribd

Posting Blog

Belajar dari insiden: Mendapatkan Sidekiq siap melayani satu miliar pekerjaan
Testimonial untuk menggunakan pagerduty di Scribd
Menetapkan tugas pager untuk pengembang

Shopify

Posting Blog

Perencanaan ketahanan untuk acara lalu lintas tinggi
Perencanaan Kapasitas dalam Skala
Menggunakan DNS Traffic Management untuk menambah ketahanan pada layanan Shopify
Empat Langkah untuk Membuat Tes Hari Permainan yang Efektif
Menerapkan chatops ke dalam prosedur manajemen insiden kami
Statsd di Shopify

Video

Monitor Jaringan: Kisah Mengakui Kesenjangan Observability
Harapkan yang tidak terduga: Mempersiapkan tim SRE untuk menanggapi kegagalan baru
Lanjutan Napkin Math: memperkirakan kinerja sistem dari prinsip pertama

Taruhan Sky dan Gaming

Posting Blog

Itu hanya perubahan pemantauan
“Apa yang terburuk yang bisa terjadi?”: Contoh yang dikerjakan tentang bagaimana kita menghadapi insiden langsung
Bangkit dari abu
Menabrak! Bang! Pukulan keras! Latihan membuat sempurna
Kinerja kiri kanan dan tengah

Kendur

Posting Blog

Insiden Slack pada 2-22-22
Observabilitas infrastruktur untuk mengubah kurva pengeluaran
Pemadaman Slack pada 4 Januari 2021
Hari yang mengerikan, mengerikan, tidak baik, sangat buruk di Slack
Menyebarkan di Slack
Teater Disasterpiece: Proses Slack untuk Rekayasa Kekacauan yang Dapat Didukung

Video

Kendur di tepi
Apa yang merusak sistem kami: taksonomi angsa hitam

Slalom Build

Posting Blog

Cara mengimplementasikan tujuan tingkat layanan di Relic APM baru
Panduan Pemula untuk DevOps: Cara membuatnya menjadi industri
Tindakan GitHub: Beyond CI/CD
Mengapa semua otomatisasi uji tidak berjalan di pipa?
Banyak bentuk rekayasa keandalan situs
Cara membangun cluster Kubernetes yang aman secara default dengan pipa CI/CD dasar di AWS
Arsitektur Manajemen Rahasia: Menemukan keseimbangan antara keamanan dan kompleksitas
Mendeteksi permintaan berbahaya dengan keras & tensorflow
The Lego Monolith - Bukti Konsep Microservice Monolith
Mengelola Rahasia Menggunakan Hashicorp Vault
Pengemasan Aplikasi Spring Boot untuk Penempatan di Kubernetes
Infrastruktur abadi dan pengiriman berkelanjutan di cloud

Soundcloud

Posting Blog

Bagaimana berhasil menyerahkan sistem
Membangun Budaya Panggilan yang Sehat
Memperingatkan slos seperti pro
Penyebaran hands-off dengan Canary
Prometheus telah menjadi usia-refleksi tentang pengembangan proyek open-source
Prometheus: Pemantauan di SoundCloud
Apa yang saya pelajari dalam satu tahun sebagai peserta pelatihan SRE
Tes di bawah lensa pembesar

Spotify

Posting Blog

Matt Clarke: Insinyur Infrastruktur Backend Senior
Merancang pengalaman kubernet yang lebih baik untuk pengembang
Techbytes: Apa yang dilewatkan industri tentang insiden dan apa yang dapat Anda lakukan
Infrastruktur Respons Insiden Otomatis di GCP

Video

Menelusuri, Cepat dan Lambat: Menggali dan Meningkatkan Kinerja Layanan Web Anda

Squarespace

Posting Blog

Di bawah kap: memastikan keandalan situs

Video

Mendorong gesekan
Bagaimana cara sre saat semuanya sudah terbakar
Case Study: Implementing SLOs for a New Service
Creating a Code Review Culture

Stack Overflow

Blog Posts

“This should never happen. If it does, call the developers.”
Infrastructure as code: Create and configure infrastructure elements in seconds
Fulfilling the promise of CI/CD
A deeper dive into our May 2019 security incident
Guest Post - Failing over without falling over
How We Built Our Blog
Stack Overflow Frees Up Engineering Time with Netlify

Video

Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline

Strava

Blog Posts

Scaling Club Leaderboard Infrastructure for Millions of Users
Distributed Tracing at Strava

Garis

Blog Posts

Fast and flexible observability with canonical log lines
Fast builds, secure builds. Choose two.
Introducing Veneur: high performance and global aggregation for Datadog

Video

How Stripe Invests in Technical Infrastructure
The AWS Billing Machine and Optimizing Cloud Costs

Target

Blog Posts

Ɔhaos Ǝnginǝǝring @ Target - Part 2
Ɔhaos Ǝnginǝǝring @ Target - Part 1
GoAlert - Your Future Open Source, On-Call Notification Product

Teads

Blog Posts

Scaling your on-duty team

Rabuk

Blog Posts

The Ultimate Load Test
How We Improved Our Performance Using ElasticSearch Plugins: Part 1
How We Improved Our Performance Using ElasticSearch Plugins: Part 2
Tinder's move to Kubernetes

Tokopedia

Blog Posts

Benefits of benchmarking with Go
Simulating Customized Chaos in Golang using Toxiproxy
How Tokopedia Rank Millions of Products in Search Page

Trivago

Blog Posts

How To Get Fooled By Metrics

Twilio

Blog Posts

Twilio SRE Gameday Template

Twitter

Blog Posts

Logging at Twitter: Updated
Deleting data distributed throughout your microservices architecture
Deterministic Aperture: A distributed, load balancing algorithm
MetricsDB: TimeSeries Database for storing metrics at Twitter
The Infrastructure Behind Twitter: Scale
The infrastructure behind Twitter: efficiency and optimization

Uber

Blog Posts

Founding Uber SRE
Disaster Recovery for Multi-Region Kafka at Uber
Engineering Failover Handling in Uber's Mobile Networking Infrastructure
Optimizing Observability with Jaeger, M3, and XYS at Uber

Video

A Tale of Two Rotations: Building a Humane & Effective On-Call
Testing in Production at Scale
A History of SRE at Uber' with Rick Boone of Uber

Udemy

Blog Posts

Blameless Incident Reviews at Udemy
How Udemy does Build Engineering

upGrad

Blog Posts

Web Performance and Related Stories — upgrad.com
Beginner's guide to web analytics
iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad

VGW

Blog Posts

The SRE Incident Response game

Video

Level Up Your Incident Response With Gameplay

Wikimedia Foundation

Video

Testing Encyclopedias in Production
What Happens When You Type en.wikipedia.org?

Wix

Blog Posts

How We Improved Website Performance by Evolving Our Infrastructure
Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
Making Order in CI/CD Mess

Menyalak

Blog Posts

The process: Implementing Yelp's failover strategy

Video

Yelp - What I Wish I Knew before Going On-Call

Zalando

Blog Posts

Tracing SRE's journey in Zalando - Part I
Tracing SRE's journey in Zalando - Part II
Tracing SRE's journey in Zalando - Part III

Zerodha

Blog Posts

Infrastructure monitoring with Prometheus at Zerodha
Logging at Zerodha

Zomato

Blog Posts

Huddle Diaries – DevOps and Data Platform

SRECon Mix Playlist

Video

Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
Alaska Airlines - Capacity Prediction in External Services
BuzzFeed - Optimizing for Learning
BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
Cloudlock - My Life as a Solo SRE
Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
IBM - Why Automating Everything Adds to Your Toil
Genesys - The Smallest Possible SRE Team
Grafana Labs - SRE in the Third Age
Kenna Security - Building a Scalable Monitoring System
Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
MessageBird - Autopsy of a MySQL Automation Disaster
Netlify - Perks and Pitfalls of Building a Remote First Team
ReactiveOps - Zero to SRE
Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
Twitter - Hiring Great SREs
United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
Unity Technologies - Being Reasonable about SRE
Udemy - How to Do SRE When You Have No SRE
Vanguard - Cloudy with a Chance of Chaos
WeWork - Learning from Learnings: Anatomy of Three Incidents
Zendesk - Latency and Availability Error Budgets Done Right at Scale

Sumber daya

Buku

Baru! Enterprise Roadmap to SRE
Building Secure & Reliable Systems | Read free online version hosted by Google
Site Reliability Engineering | Read free online version hosted by Google
The Site Reliability Workbook from Google | Read free online version hosted by Google
Training Site Reliability Engineers | Read free online version hosted by Google
97 Things Every SRE Should Know | Complimentary Copy from Nginx
SLO Adoption and Usage in Site Reliability Engineering
Practical Site Reliability Engineering
Implementing Service Level Objectives
Chaos Engineering
Seeking SRE
Security Chaos Engineering
Chaos Engineering Observability
Database Reliability Engineering
What Is SRE?
Database Reliability Engineering: What, Why, and How?
Observability Engineering
Chaos Engineering: Site reliability through controlled disruption
Incident Metrics in SRE | Read free online version hosted by Google
Engineering Reliable Mobile Applications
Monitoring the SRE Golden Signals
Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
97 Things Every Cloud Engineer Should Know
Real-World SRE
Hands-on Site Reliability Engineering