Bagaimana mereka sre

Perkenalan
Bagaimana mereka SRE How Es SRE adalah repositori pengetahuan yang dikuratori dari praktik, alat, teknik, dan budaya terbaik keandalan Situs (SRE) yang diadopsi oleh teknologi terkemuka atau organisasi yang paham teknologi.
Banyak organisasi sering berbagi wawasan dan keahlian mereka, mencakup praktik, alat, dan teknik terbaik yang membentuk budaya teknik mereka. Mereka melakukan ini melalui berbagai platform publik seperti blog teknik, konferensi, dan pertemuan. Repositori ini menyusun dan menyajikan konten yang dikumpulkan dari sumber -sumber ini.
Topik
- Rekayasa Keandalan Situs
- Mempekerjakan dan Membangun Tim SRE
- Budaya SRE
- Devop
- Pemantauan & Pengamatan
- Peringatan
- Respons Insiden & post-mortem
- On-call
- Pengujian dalam produksi
- Teknik Kekacauan
- Otomatisasi
- Pertunjukan
- Rekayasa Platform
Organisasi
Orang yang berprestasi
Posting Blog
- Masukkan The Hardir - Building 'à la carte' Gitops Tooling
- Produksi penskalaan secara global-Layanan Mesh Facelift (Bagian-1)
- Produksi Penskalaan Secara Global - Memecahkan Masalah Observabilitas untuk Pengembang (Bagian -2)
- Pengujian Muat Kubernetes: Membangun Kerangka (Bagian-1)
- Pengujian Muat Kubernetes: Menyelesaikan bottleneck dan meningkatkan kinerja (Bagian-2)
Airbnb
Posting Blog
- Manajemen Insiden Otomatis Melalui Slack
- Mendeteksi kerentanan dengan vulnotture
- Kerangka kerja peringatan di Airbnb
- Saat awan menjadi gelap - bagaimana pemadaman Amazon mempengaruhi Airbnb
- Platform Otomasi Cerdas: Memberdayakan AI Conversational dan Beyond di Airbnb
- Manajemen Rahasia Produksi di Airbnb
- Mengotomatisasi Perlindungan Data pada Skala, Bagian 1
- Mengotomatisasi Perlindungan Data pada Skala, Bagian 2
- Mengotomatisasi Perlindungan Data pada Skala, Bagian 3
- Penskalaan kluster Kubernetes dinamis di Airbnb
Algolia
Posting Blog
- Insiden SSL 30 Mei
- Perjalanan ke SRE
- CI/Cday 2024: Apa yang membuat platform CI/CD yang bagus?
ALIBABA Cloud
Posting Blog
- Mengapa perusahaan internet teratas memilih SRE daripada O&M tradisional?
- Arsitektur dan praktik platform real-time Bilibili
Asana
Posting Blog
- Bagaimana Asana Menggunakan Asana: Respons Insiden Keamanan
- Bagaimana Asana mengirimkan rilis aplikasi web yang stabil
- Analisis downtime terbaru & apa yang kami lakukan untuk mencegah insiden di masa depan
- Lingkungan Pengembang: Mencapai keandalan dengan membuatnya cepat untuk mereset
- Tiga taktik keamanan untuk setiap pemimpin TI untuk mempertimbangkan musim gugur ini
Asos
Posting Blog
- Bermain game yang kurang menyalahkan
- Suatu Hari dalam Kehidupan ... Kucing (Kepala Rekayasa Keandalan)
- Perjalanan Kinerja AKS: Bagian 1 - Mengukur semuanya
- Perjalanan Kinerja AKS: Bagian 2 - Jaringan Keluar
- Keamanan cyber @ asos.com
- Operasi Keamanan 24x7
- Keterampilan yang kami cari dalam respons insiden keamanan dunia maya
Atlassian
Posting Blog
- Praktik terbaik untuk manajemen perubahan di zaman DevOps
- Pengujian Otomatis: 5 Pelajaran dari Tim Kubernetes Atlassian tentang Infrastruktur Pengujian Sebagai Kode
- Cara mengekspor peristiwa kubernetes untuk observabilitas dan peringatan
- Insiden Template Postmortem
Backmarket
Posting Blog
- Bagaimana SRE Pasar Kembali Disiapkan untuk Black Friday
Baidu
Video
- Deteksi anomali pada sinyal emas
- Netradar: Memantau jaringan pusat data
- Biarkan kekacauan dimulai - rekayasa kekacauan semata bertemu dengan keamanan siber
Basecamp
Posting Blog
- Di dalam kode merah: Edisi Jaringan
- Tiga pemadaman basecamp. Seminggu. Apa yang telah terjadi?
- Laporan Pemadaman Pencarian Basecamp 2 dan Basecamp 3
- Mengurangi eskalasi insiden di Basecamp
Buku
Bloomberg
Video
- Perencanaan Kapasitas dan Peningkatan Kinerja dengan Pengambilan Sampel Referensi Halaman
- Mengapa SRES Tidak Mampu Tidak Melakukan Kekacauan Rekayasa
- Menelusuri sistem terdistribusi real-time
- The Bloomberg Story: Building SRE Teams dalam organisasi "tak terukur"
- Visibilitas ke dalam penebang (dan layanan tingkat rendah lainnya) - melihat pohon dari hutan
Booking.com
Posting Blog
- Bagaimana Keandalan dan Tim Produk Berkolaborasi di Booking.com
- Insiden, perbaikan, dan hari sesudahnya
- Pemecahan Masalah: Perjalanan ke yang Tidak Diketahui
Video
- Slos untuk layanan intensif data
- Manfaat mengambil jalan yang kurang dilalui dengan infrastruktur wadah
Modal Satu
Posting Blog
- Mengotomatiskan pemantauan aplikasi dengan slack
- Otomatis Infrastruktur AWS dengan Boto 3: AWS Health Check
- Arsitektur basis data yang tidak aktif-aktif-aktif
- The 3 R's Sres: Resiliency, Recovery & Reliability
- 5 langkah untuk menyiapkan kekacauan aplikasi Anda
- 4 skenario dunia nyata yang dibaca seperti eksperimen rekayasa kekacauan
- Rangkul kekacauan… teknik
- 3 Pelajaran yang Dipetik Dari Menerapkan Rekayasa Kekacauan di Enterprise
- Penyelaman dalam ke dalam penyebaran biru/hijau mulus menggunakan codedeploy AWS
- Wadah Docker yang aman memerlukan aplikasi yang aman
- 4 langkah untuk memasangkan cloud dan devops untuk meningkatkan ketahanan
- Aplikasi siap kontainer dengan aplikasi dua belas faktor dan arsitektur layanan mikro
- Menyebarkan dengan Keyakinan - Minimalkan Risiko, Maksimalkan Ketahanan dengan Penyebaran Canary di AWS
- Arsitek untuk Ketahanan
- Kekacauan berkelanjutan - Memperkenalkan rekayasa kekacauan ke dalam praktik DevOps
- The Mon-Ifesto Bagian 1: Metrik
Laporan Insiden & Analisis Utama
- Informasi tentang Insiden Cyber Capital One
- Studi kasus pelanggaran data Capital One
Video
- Perbankan tentang Pengiriman Berkelanjutan - Modal Satu
- Kekacauan berkelanjutan di DevOps - Capital One
- DevOps at Capital One: Fokus pada pipa dan pengukuran
- Mengotomatisasi Manajemen Kesehatan Operasional Akun Cloud pada Skala
Coinbase
Posting Blog
- Pipa Penerapan Aman Koinbase Sumber Terbuka
Dazn
Posting Blog
DBS
Posting Blog
- Mempresentasikan di Konferensi SRE Ithome: Perjalanan Transformasi SRE DBS kami sejauh ini
- Banggahan Tujuh Mitos Rekayasa Keandalan Situs Paling Populer
- Cara menggunakan SRE untuk menumbuhkan budaya tanpa bersalah di tempat kerja
- Rekayasa Keandalan Situs di DBS Bank
- Mengotomatiskan Manajemen Konfigurasi pada Skala
- Bagaimana DBS menghilangkan mitos rekayasa kekacauan
- Ganda, kerja keras ganda dan masalah
Video
- Percakapan Srecon Asia/Pasifik dengan Koon Seng Lim, DBS
Deepsource
Posting Blog
- REDIS Diskless Replication: Apa, bagaimana, mengapa dan peringatan
- Cara mengatur lemari besi dengan kubernetes
- Meruntuhkan penyebaran waktu henti nol di Kubernetes
Mimpi11
Posting Blog
- Penyebaran pada skala: cerita di balik platform penyebaran biru-hijau Dream11 'OneClick'.
- Meningkatkan keamanan dan kepercayaan dengan AWS WAFV2
- Pelajaran yang Dipetik Dari Menjalankan GraphQL Pada Skala
- Break Circuits, Save Kong?
- Menemukan Pesanan dalam Kekacauan: Bagaimana kami mengotomatiskan pengujian kinerja dengan torsi
- Mempertahankan pelepasan hiper-sonik di Dream11
- Untuk skala atau skala keluar? Begini cara kami skala di Dream11
- Membangun analisis waktu nyata yang dapat diskalakan, arsitektur deteksi peringatan, dan anomali di Dream11
Dropbox
Posting Blog
- Kerangka Karier Rekayasa Dropbox - Reliability Engineer (SRE)
- Atlas: Perjalanan kami dari monolith Python ke platform yang dikelola
- Memantau aplikasi server dengan vortex
- Athena: Sistem Manajemen Kesehatan Bangunan Otomatis kami
- Tertarik untuk menjadi insinyur keandalan situs?
Video
- Tantangan Penemuan Layanan dalam Skala
eBay
Posting Blog
- Ketahanan dan pemulihan bencana dengan kafka
- Studi Kasus SRE: Triaging Non-Hap JVM Out of Memory Issue
- Studi Kasus SRE: Ketidakseimbangan Lalu Lintas Misterius
- Nol downtime, penyebaran instan dan rollback
- Bagaimana platform pemberitahuan eBay menggunakan suntikan kesalahan dengan cara baru
Video
Game Epik
Video
- AWS Re: Invent 2018: Epic Games menggunakan AWS untuk mengirimkan Fortnite ke 200 juta pemain
Etsy
Posting Blog
- Meningkatkan pengalaman penyebaran aplikasi berusia sepuluh tahun
- Bagaimana Etsy Bersiap untuk Volume Lalu Lintas Liburan Bersejarah Pada tahun 2020
- Otak Anda saat kemajuan
- Panduan Fasilitasi Debriefing Etsy untuk postmortems yang tidak bersalah
- Opsweekly: Mengukur pengalaman panggilan dengan klasifikasi peringatan
- Pemadaman Situs Demistifik
- Postmortems tanpa bersalah dan budaya yang adil
- Ukur apapun, ukur semuanya
Video
- Velocity 09: John Allspaw dan Paul Hammond, "10+ Menyebarkan PE
- Migrasi monolit ke awan
Expedia
Posting Blog
- Mengotomatiskan standar kinerja
- Kebijakan Anggaran Kesalahan - Bagian 1 - Adopsi di Expedia Group
- Kebijakan Anggaran Kesalahan - Bagian 2 - Praktik di Expedia Group
- Menggunakan injeksi kesalahan untuk meningkatkan keandalan platform runtime baru kami
- Belajar dari insiden di Expedia Group
- Meningkatkan pengalaman pemuatan beranda VRBO
- Memecahkan Masalah 502 Kesalahan: Daftar Periksa ECS
- Memulai dengan Elasticsearch
- Semua tentang masalah 5xx Istio-Proxy
- Autoscaling di Kubernetes: Mengapa pod autoscaler horizontal tidak berfungsi untuk saya?
- Cara menjaga penyebaran kubernet Anda seimbang di beberapa zona
- Apakah metrik latensi dropwizard Anda menyesatkan Anda?
- Biaya keandalan 100%
- Membuat dasbor pemantauan
- Menggunakan bash untuk devops
Dengan cepat
Video
- SRE & MANAJEMEN PRODUK: Bagaimana cara meningkatkan tim Anda (dan karier!) Dengan berpikir seperti manajer produk
- Mythbusting rekayasa ketahanan
G-Research
Posting Blog
- Perjalanan SRE kami di G-Research
- Perjalanan SRE berlanjut
- OpentsDB Meta Cache-Trade-off untuk Kinerja
Getaround
Posting Blog
- Bagaimana kami menangani insiden di getaround
- Evolusi proses pengiriman berkelanjutan kami
GitHub
Posting Blog
- Bagaimana kami meningkatkan ketersediaan melalui penyederhanaan berulang
- Bagaimana kami meningkatkan pemrosesan dorongan di github
- Bagaimana GitHub Menggunakan Gabungan Antrian untuk mengirimkan ratusan perubahan setiap hari
- Memperbaiki kerentanan keamanan dengan AI
- Program Fundamental Teknik GitHub: Bagaimana kami memenuhi ketersediaan, keamanan, dan aksesibilitas
- Bagaimana GitHub Menggunakan Tindakan dan Tindakan GitHub Pelari yang lebih besar untuk membangun dan menguji github.com
- Perjalanan Lab Keamanan GitHub untuk mengungkapkan 500 CVE di proyek open source
- Tim CodeQL menggunakan AI untuk mendeteksi kerentanan daya dalam kode
- Menangani masalah ketersediaan baru -baru ini
- Membangun tata kelola organisasi di seluruh dan penggunaan kembali untuk CI/CD dan otomatisasi dengan tindakan github
- Mengaktifkan penyebaran cabang melalui edisiops dengan tindakan github
- Menggunakan chatops untuk membantu tindakan insinyur panggilan
- Mempartisi database relasional GitHub untuk menangani skala
- Meningkatkan kebahagiaan pengembang dengan pemindaian kode github
- Mengapa (dan bagaimana) GitHub mengadopsi OpenTelemetry
- Meningkatkan kinerja monorepo besar di github
- Keandalan penyebaran di github
- Meningkatkan cara kami menggunakan github
- Membangun budaya panggilan di github
- Mengurangi bangunan bersisik dengan 18x
- Peran Operasi yang Berkembang di DevOps
- Memulai dengan Otomasi DevOps
- MySQL Ketersediaan Tinggi di GitHub
Laporan Insiden & Analisis Utama
- Laporan Ketersediaan GitHub: Agustus 2024
- Laporan Ketersediaan GitHub: Juli 2024
- Laporan Ketersediaan GitHub: Juni 2024
- Laporan Ketersediaan GitHub: Mei 2024
- Laporan Ketersediaan GitHub: April 2024
- Laporan Ketersediaan GitHub: Maret 2024
- Laporan Ketersediaan GitHub: Februari 2024
- Laporan Ketersediaan GitHub: Januari 2024
- Laporan Ketersediaan GitHub: Desember 2023
- Laporan Ketersediaan GitHub: November 2023
- Laporan Ketersediaan GitHub: Oktober 2023
- Laporan Ketersediaan GitHub: September 2023
- Laporan Ketersediaan GitHub: Agustus 2023
- Laporan Ketersediaan GitHub: Juli 2023
- Laporan Ketersediaan GitHub: Juni 2023
- Laporan Ketersediaan GitHub: Mei 2023
- Laporan Ketersediaan GitHub: April 2023
- Laporan Ketersediaan GitHub: Maret 2023
- Laporan Ketersediaan GitHub: Februari 2023
- Laporan Ketersediaan GitHub: Januari 2023
- Laporan Ketersediaan GitHub: Desember 2022
- Laporan Ketersediaan GitHub: November 2022
- Laporan Ketersediaan GitHub: Oktober 2022
- Laporan Ketersediaan GitHub: September 2022
- Laporan Ketersediaan GitHub: Agustus 2022
- Laporan Ketersediaan GitHub: Juli 2022
- Laporan Ketersediaan GitHub: Juni 2022
- Laporan Ketersediaan GitHub: Mei 2022
- Laporan Ketersediaan GitHub: April 2022
- Laporan Ketersediaan GitHub: Maret 2022
- Laporan Ketersediaan GitHub: Februari 2022
- Laporan Ketersediaan GitHub: Januari 2022
- Laporan Ketersediaan GitHub: Desember 2021
- Laporan Ketersediaan GitHub: November 2021
- Laporan Ketersediaan GitHub: Oktober 2021
- Laporan Ketersediaan GitHub: September 2021
- Laporan Ketersediaan GitHub: Agustus 2021
- Laporan Ketersediaan GitHub: Juli 2021
- Laporan Ketersediaan GitHub: Juni 2021
- Laporan Ketersediaan GitHub: Mei 2021
- Laporan Ketersediaan GitHub: April 2021
- Laporan Ketersediaan GitHub: Maret 2021
- Laporan Ketersediaan GitHub: Februari 2021
- Laporan Ketersediaan GitHub: Januari 2021
- Laporan Ketersediaan GitHub: Desember 2020
- Laporan Ketersediaan GitHub: November 2020
- Laporan Ketersediaan GitHub: Agustus 2020
- Laporan Ketersediaan GitHub: Juli 2020
- Memperkenalkan Laporan Ketersediaan GitHub
- Gangguan Layanan Februari Analisis pasca-insiden
- 21 Oktober Analisis pasca-insiden
- Laporan Insiden DDOS 28 Februari
- Laporan Insiden: Pengungkapan Repositori Privat yang tidak disengaja
Video
Gitlab
Posting Blog
- SRE ini berusaha untuk meluncurkan perubahan konfigurasi yang sedang dimusnahkan. Anda tidak akan percaya apa yang terjadi selanjutnya ...
- Minggu saya membayangi insinyur reliabilitas situs gitlab
- Pembaruan: Pelajaran Elasticsearch Dipetik untuk Pencarian Global Lanjutan
- Pelajaran dalam iterasi dari tim baru dalam infrastruktur
- Bagaimana kami mengoptimalkan pengeluaran infrastruktur di gitlab
- Bagaimana kami meningkatkan pemrosesan beban kerja async di gitlab.com menggunakan Sidekiq
- Inside Gitlab: Bagaimana Kami Merilis Patch Perangkat Lunak
- Apa yang melacak Keepalives TCP yang hilang mengajari saya tentang Docker, Golang, dan Gitlab
- Bagaimana kami menggunakan replikasi tertunda untuk pemulihan bencana dengan postgresql
Gocardless
Posting Blog
- Menyebarkan Perangkat Lunak di Gocardless: Tutorial Open-Sourcing "Memulai" kami
- Bagaimana kami mengompres pesan pub/sub dan banyak lagi, menyimpan banyak uang
- Migrasi PostgreSQL bebas ketakutan untuk rel
- Observability at Gocardless: Kisah Peningkatan Kinerja API
- Debugging PostgreSQL Query Planner
- Migrasi Postgres Zero -Downtime - bagian yang sulit
- Mencari kinerja - Bagaimana kami mencukur 200 ms dari setiap permintaan posting
Laporan Insiden & Analisis Utama
- Ulasan Insiden: Layanan Pemadaman pada 25 Oktober 2020, Vault TLS Expiry
- Ulasan Insiden: API dan Outage Dashboard pada 10 Oktober 2017
Godaddy
Posting Blog
- Penyebaran Kubernetes Gated
- Kubernetes Rahasia Eksternal
- Kubernetes - Pendahuluan Praktis untuk Pengembang Aplikasi
- Klien Node.js intuitif untuk API Kubernetes
Gojek
Posting Blog
- Memperkenalkan Skynet: Infrastruktur sebagai Kode untuk Gojek
- Menskalakan layanan geo-pencarian kami untuk beban 10x
- Mengapa kami bersumpah dengan RCA
- Bagaimana kami meningkatkan Kubernet di GKE
- Bagaimana kami memantau aliran udara apache dalam produksi
Goldman Sachs
Posting Blog
- Perjalanan Observabilitas SECDB
- Kekacauan Menguji aplikasi di AWS
- Pemadaman kapasitas peramalan menggunakan pembelajaran mesin untuk meningkatkan ketahanan aplikasi
- Memberikan 99,9% ketersediaan dan waktu respons sub-detik dengan multipleks Sybase IQ dengan menggunakan Haproxy
- Membangun ketahanan multi-wilayah dengan Amazon RDS dan Amazon Aurora
- Mengaktifkan Cluster Trino yang sangat tersedia di Goldman Sachs
- Observabilitas pada skala
- Infrastruktur dan pola rantai perintah
- Mobile CICD dengan MacOS EC2
- Mengumumkan Catchit - Pemindai Rahasia Kode Sumber
- Membangun platform untuk rekayasa data
Google
Posting Blog
- Percepatan respons insiden menggunakan AI generatif
- Jebakan dan pola dalam manajemen ketergantungan layanan mikro
- Praktik & Proses SRE
- Keandalan situs Google menggunakan GO
- Tiga Bulan, 30x Permintaan: Bagaimana Kami Meningkatkan Google Meet selama COVID-19
- SRE Classroom: Pubsub Terdistribusi
- Bagaimana tim SRE terorganisir, dan bagaimana memulai
Video
- Apa perbedaan antara DevOps dan SRE? Dengan Seth Vargo dan Liz Fong-Jones dari Google
- Anggaran Risiko dan Kesalahan 'dengan Seth Vargo dan Liz Fong-Jones dari Google
- Otomasi Pragmatis 'dengan Max Luebbe dari GCP
- Harus menonton! - Daftar Putar Google SRE YouTube
- Squish Level Tujuan: Bagaimana SRE dapat membantu menyelaraskan pekerjaan teknis dengan manfaat pengguna
- Menerapkan konsensus terdistribusi
- Sre I bercita -cita
- SRE Classroom, OR, Cara Merancang Sistem Terdistribusi yang Dapat Diandalkan dalam 3 Jam
- Zero Touch Prod: Menuju lingkungan produksi yang lebih aman dan lebih aman
- Semua ide ML kami buruk (dan kami harus merasa buruk)
- Peta bukan wilayah: bagaimana slos membuat kita tersesat, dan apa yang bisa kita lakukan tentang itu
- Menyebarkan Praktik Terbaik Pelatihan SRE untuk Produksi: Bagaimana Kami Sre'ed Program Pendidikan SRE kami
- BigTable: Perjalanan dari biner ke layanan dan pelajaran yang dipetik sepanjang jalan
- Instrumentasi praktis untuk observabilitas
- Apa itu ML Ops: Solusi dan Praktik Terbaik untuk DevOps of Production ML Services
- Pelaporan Keandalan Layanan Terpadu
- Cara menukar pemanfaatan server dan latensi ekor
- Menjaga keseimbangan: Demystifiked Loadsalible Skala Internet
- Dari kotak hitam ke kuantitas yang diketahui: cara membangun layanan berbasis ML yang dapat diprediksi dan andal
- Mindfulness in SRE: Memantau dan memperingatkan diri sendiri
- Otomatisasi pragmatis
- Penskalaan Sublinear dalam Praktek: Proyek SRE 1K
- Strategi untuk mengedit data produksi
- Kutukan otonomi SRE dan cara mengelolanya
- Meningkatkan Organisasi SRE: Perjalanan dari 1 ke banyak tim
- SRE Classroom - Cara merancang sistem terdistribusi dalam 3 jam
- Menggunakan PRD dan perjalanan pengguna untuk merancang alat yang ramah pengguna
- Bagaimana Google SRE dan Pengembang bekerja sama
- SRECON21 - Eksperimen untuk SRE
Merebut
Posting Blog
- Perjalanan kami ke pengiriman berkelanjutan di Grab (Bagian 1)
- Perjalanan kami ke Pengiriman Berkelanjutan di Grab (Bagian 2)
- Mendesain Sistem Tangguh: Pemutus Sirkuit atau Retries? (Bagian 1)
- Mendesain Sistem Tangguh: Pemutus Sirkuit atau Retries? (Bagian 2)
- Mendesain Sistem Tangguh Di Beyond Retries (Bagian 3): Pola Arsitektur dan Rekayasa Kekacauan
- Mengatur kekacauan menggunakan platform eksperimen Grab
- Bagaimana kami merancang kuota microservice untuk mencegah penyalahgunaan sumber daya
- Bagaimana kami menskalakan cache kami dan tidur nyenyak
Tata bahasa
Posting Blog
- SCALING AWS Infrastructure untuk mendukung berbagai wilayah
- Operasi Keamanan di Lingkungan AWS
Semangat
Posting Blog
- Tujuan Tingkat Layanan untuk Ketenangan Pikiran
- Debugging Sidekiq Poison Pills
Halodoc
Posting Blog
- Rekayasa Keandalan Situs untuk Aplikasi Seluler Asli
Heroku
Posting Blog
- Petualangan pertemuan dalam arsitektur baru Heroku
- Respons Insiden di Heroku
IBM
Posting Blog
- Apa itu Rekayasa Keandalan Situs (SRE)?
- Alat dan solusi AIOPS
Memang
Posting Blog
- Memang sre: tampilan bagian dalam
- Menjadi cukup dapat diandalkan
- Mengotomatiskan proses rilis memang
- Sloth, alat untuk mendorong kegagalan jaringan 'dengan Preetha Appan dari Memang.com
Video
- Apakah kita menjadi lebih baik lagi? Kemajuan menuju operasi yang lebih aman
Memang
Posting Blog
- SRE Playbook - Panduan Praktis
Akademi Khan
Posting Blog
- Bagaimana Khan Academy berhasil menangani 2.5x lalu lintas dalam seminggu
- Mengembangkan infrastruktur konten kami
LinkedIn
Posting Blog
- Memikirkan kembali proyeksi kapasitas situs dengan penganalisa kapasitas
- Wawasan ke dalam tim produk SRE di LinkedIn
- Mempekerjakan SRE di LinkedIn
- Pembaruan Sumber Terbuka: Sekolah SRE
- Memperbaiki regresi kinerja sistem file linux
- Pengujian produksi dengan dark canaries
- Peringatan Cerdas di ThirdEye, platform pemantauan real-time LinkedIn
- Iris Mobile: Antarmuka Open Source, Seluler untuk Manajemen Insiden
- Tautan: Kerangka Injeksi Kegagalan Tingkat Permintaan
- Menghilangkan kerja keras dengan pengujian beban otomatis sepenuhnya
- Riasan tim SRE yang didistribusikan secara geografis yang sukses: Bagian 1
- Riasan tim SRE yang didistribusikan secara geografis yang sukses: Bagian 2
- Project Star*: merampingkan proses panggilan kami
- Mengotomatisasi Oncall Anda: Buka Sourcing Fossor dan Ascii Etch
- Teknik ketahanan di LinkedIn dengan Project Waterbear
- Mempekerjakan SRE di LinkedIn, 2017
- Buka Sumber Iris dan Oncall
- Membangun Budaya SRE di LinkedIn
- Kegagalan bukanlah suatu pilihan
- MTTD dan MTTR adalah kuncinya
- Apa yang diukur akan diperbaiki
Video
- Menumbuhkan Tim Keandalan Situs di LinkedIn: Hiring is Sust - Greg Leffler
- 9 tahun kegagalan: Bagaimana balap mobil jelek membuat saya menjadi lebih baik
- Weathering the Storm: Bagaimana peringatan dini menyelamatkan pertanian
- Unconference: Masalah yang belum terpecahkan di SRE
- Memimpin tanpa mengelola: menjadi pemimpin teknis SRE
- Mengapa pemantauan (saya) payah?
- Infrastruktur peramalan dan pengujian stres lalu lintas
- Mindfulness kolektif untuk keputusan yang lebih baik di SRE
- TCP - Arsitektur, Peningkatan, dan Tuning
- Lebih dari 600 juta anggota dan ratusan layanan mikro: Bagaimana kami meningkatkan sistem pemantauan kami untuk mengimbangi
- Memahami Metrik Bisnis dapat membuat Anda menjadi SRE yang lebih baik
- Kode-kuning: Membantu Operasi Top-Heavy Teams Dengan Cara Cerdas
- Perbedaan dalam implementasi SRE di seluruh perusahaan
Peralatan
LOGGI
Posting Blog
- Model Manajer Rilis
- Tim SRE #8: Loggi
LoveHolidays
Posting Blog
- Perutean Peringatan Dinamis dengan Prometheus dan AlertManager
- Making LoveHolidays 18% lebih cepat dengan HTTP/3
- Menegakkan praktik terbaik pada infrastruktur swalayan dengan terraform, atlantis dan kebijakan sebagai kode
- 5 prinsip yang membantu skala lovolidays
- Realtime dengan cepat mencatat dengan Grafana Loki dengan harga di bawah $ 1 per hari
Macquarie
Posting Blog
- Perjalanan devsecops kami dengan golang
- Konfigurasi pipa sebagai kode dengan Kotlin
- Devops dan pemisahan tugas
- Macquarie merangkul DevOps
- Menskalakan platform Kubernetes di seluruh perusahaan
Paling penting
Posting Blog
- Memantau lingkungan awan dalam skala dengan Prometheus dan Thanos
- Bagaimana kami menggunakan sloth untuk melakukan pemantauan slo dan waspada dengan prometheus
Meituan (美团)
Posting Blog
- Pengembangan dan Praktek SRE di Cloud (云端的 SRE 发展与实践)
Mercari
Posting Blog
- Siapa yang mengawasi penjaga? Mengawasi sistem pemantauan kami
- Apa yang dilakukan tim Microservices SRE sebagai penginjil SRE
- Bagaimana rasanya bekerja sebagai layanan microservices tertanam
- Tim Merpay SRE: Masa Lalu dan Masa Depan
- Tertanam sre di mercari
- Apa yang ingin dicapai oleh tim SRE dengan tim pengembangan
- DevSecops: Apa itu dan mengapa ia mendapatkan momentum di industri ini?
- Bagaimana kita berbagi keterampilan pemecahan masalah
- Dasbor datadog pada skala dengan terraform
Meta
Posting Blog
- Memanfaatkan AI untuk respons insiden yang efisien
- Meningkatkan alur kerja SLO meta dengan anotasi data
- Slick: Mengadopsi SLO untuk peningkatan keandalan
- Rincian lebih lanjut tentang pemadaman 4 Oktober
- Perbarui tentang pemadaman 4 Oktober
Video
- Pendekatan Layanan Pelanggan ke SRE
- Bagaimana (tidak) skala proyek: post-mortem
- Melepaskan situs Python terbesar di dunia setiap 7 menit
- Menggunakan ML untuk mengotomatiskan kategorisasi kesalahan dinamis
Microsoft
Video
- SLI & Reliabilitas Deep-Dive 'dengan David N. Blank-Edelman dari Microsoft
- Besi Otomatisasi: Komedi dalam Tiga Bagian 'dengan Tanner Lund dari Microsoft
- Rekayasa Perangkat Lunak Berkelanjutan & SRES
- Studi tentang faktor manusia dan budaya tim untuk meningkatkan kelelahan pager
- Memprioritaskan kepercayaan saat membuat aplikasi
- Membangun Ketahanan: Cara Belajar Lebih Banyak Dari Insiden
- Kisah Dua Postmortem: Pandangan Faktor Manusia
- Ketersediaan - Berpikir lebih dari 9s
- Ironi Otomatisasi: Komedi dalam Tiga Bagian
- Ops di serverless
Miro
Posting Blog
- Prometheus strategi ketersediaan tinggi dan toleransi kesalahan, penyimpanan jangka panjang dengan victoriametrics
- Mengelola ratusan server untuk pengujian beban: autoscaling, pemantauan khusus, kultur DevOps
- Pengujian beban yang andal sehubungan dengan nuansa yang tidak terduga
Monzo
Posting Blog
- Autoscaling Monzo: Bagaimana kami mengoptimalkan platform kami menjadi ukuran yang tepat
- Bagaimana kami telah berevolusi di Monzo
- Bagaimana kami menanggapi insiden
- Bagaimana Kami Memantau Monzo
Video
- Akhirnya penemuan layanan yang konsisten
Peralatan
Netflix
Posting Blog
- Mencapai observabilitas dalam alur kerja async
- Membangun Infrastruktur Penelusuran Terdistribusi Netflix
- Pelajaran dari membangun alat observabilitas di Netflix
- Edgar: Memecahkan misteri lebih cepat dengan kemampuan observasi
- Telltale: Pemantauan Aplikasi Netflix Sederhana
- Menjaga pelanggan tetap streaming - Praktik Keandalan Situs Terpusat di Netflix
- Memperkenalkan pengiriman
- Menerapkan pola Netflix DevOps ke Windows
- Bab: Platform Otomasi Chaos
- Memulai longsoran salju
- Netflix Chaos Monkey ditingkatkan
- Chaos Engineering ditingkatkan
- Pengujian Kegagalan Otomatis
- Dari Kekacauan ke Kontrol - Menguji Ketahanan Platform Penemuan Konten Netflix
- Memperkenalkan Atlas: Platform telemetri utama Netflix
- Fit: Tes Injeksi Kegagalan
- Mengumumkan Keamanan Monyet - Pemantauan dan Analisis Konfigurasi Keamanan AWS
- Pelajaran yang dipelajari Netflix dari pemadaman AWS
- Scryer: Mesin penskalaan otomatis prediktif Netflix
Laporan Insiden & Analisis Utama
- Post-Mortem 22 Oktober 2012 Degradasi AWS
Video
- AWS Re: Invent 2019: A Day in the Life of a Netflix Engineer (NFX202)
- When /Bin /Sh Serangan: Meninjau "Mengotomatiskan Semua Hal"
- Bagaimana keadaannya? Belajar lebih banyak dari insiden
- Infrastruktur Data Streaming @NetFlix @NetFlix
- Pemantauan Kinerja Pengguna Nyata pada Skala Netflix - Martin Spier
- AWS Re: Invent 2017 - Nora Jones menjelaskan mengapa kita membutuhkan lebih banyak kekacauan - rekayasa kekacauan, yaitu
- AWS Re: Invent 2017: Melakukan Kekacauan di Skala Netflix (DEV334)
- Netflix: Resiliensi Multi-Regional dan Rute Amazon 53
- Merancang Layanan untuk Ketahanan: Pelajaran Netflix
- South Bay SRE Meetup - Tim Kinerja Cloud Netflix
- AWS Re: Invent 2017: A Day in the Life of a Netflix Engineer III (ARC209)
- Bagaimana Netflix Menggunakan Aliran Kinesis untuk Memantau Aplikasi dan Menganalisis Miliaran Aliran Lalu Lintas
- Menguasai Kekacauan - Panduan Netflix untuk Layanan Microser
- AWS Re: Invent 2016: Dari Resilience to Ubiquity - #netflixeverywhere Global Architecture (ARC204)
- Srecon 2016 - Netflix: 190 negara dan 5 inti SRES
- Dari SYS Admin ke Netflix SRE
- Teknik dan Operasi Ketahanan Aplikasi di Netflix dengan Hystrix
- Menyuntikkan kegagalan di Netflix
- LISA13 - Bagaimana Netflix mencakup kegagalan untuk meningkatkan ketahanan dan memaksimalkan ketersediaan
- Manajemen Insiden di Netflix Velocity
Podcast
- Ryan Kitchens tentang Pembelajaran Dari Insiden di Netflix, Peran SRE, dan Sistem Sosioteknik
Peralatan
Relik baru
Posting Blog
- Mendefinisikan Peran Perangkat Lunak Modern: SRES at New Relic
- 10 hal yang perlu diketahui semua orang tentang rekayasa reliabilitas situs (SRE)
- Alat apa yang digunakan oleh insinyur keandalan situs?
- Suatu hari dalam kehidupan peninggalan baru
- 7 Kebiasaan Insinyur Keandalan Situs yang Sangat Sukses
- Mengadopsi Praktek SRE
- Menggunakan observabilitas modern untuk membangun budaya berbasis data
Nubank
Posting Blog
- Keunggulan operasional rekayasa, kasus peningkatan berkelanjutan
- Bagaimana kita menangani insiden teknis
- Bagaimana kami melakukan rotasi panggilan di Nubank
- Bagaimana kami mengukur platform data kami secara efisien dan andal
- Mengapa kami membunuh suite uji ujung ke ujung kami
- Pelatihan ulang otomatis untuk model pembelajaran mesin: tips dan pelajaran yang dipetik
Openai
Posting Blog
- 20 Maret Pemadaman Chatgpt: Inilah yang Terjadi
- Openai sre dan scaling dijelaskan dengan mudah.
- Menskalakan kubernet ke 2.500 node
- Menskalakan Kubernetes ke 7.500 node
- Menskalakan infrastruktur AI di openai
Paypal
Posting Blog
- Dipicu: insiden #1234 (proses insiden perlu diperbaiki)
- Menerapkan observabilitas dalam mesh layanan
- PostgreSQL pada skala: Skema database berubah tanpa downtime
- Menskalakan GraphQL di PayPal
Video
- Percakapan Srecon Asia/Pasifik dengan Karthikeyan Selvaraj dan Rajesh Ramachandran, Paypal
- SRE Lalu vs SRE Sekarang: Tindakan penyeimbang antara refleks dan naluri intuitif di PayPal
- Mendeteksi degradasi dan kegagalan layanan pada skala melalui pemrosesan log terdistribusi
- Operasi Elasticsearch dengan mudah dalam skala
- Memastikan keandalan situs melalui kontrol keamanan
Piknik
Posting Blog
- Mikrometer dan tumpukan observabilitas modern
- Pemantauan dan pengamatan saat piknik
Pinterest
Posting Blog
- Memastikan ketersediaan tinggi layanan streaming realtime iklan
- Meningkatkan efisiensi dan mengurangi runtime menggunakan optimasi baca S3
- Menskalakan Kubernetes dengan jaminan di Pinterest
- Apa yang kami pelajari dari insiden aplikasi iOS
- Bagaimana kami merancang sistem integrasi berkelanjutan kami menjadi lebih dari 50% lebih cepat
- Menyederhanakan penyebaran web
- Meningkatkan metrik operasional pinterest
- Penelusuran Terdistribusi Di Pinterest Dengan Alat Sumber Terbuka Baru
- Pinterest penskalaan otomatis
Video
- Membangun kepemilikan kode yang dapat ditindaklanjuti
- Evolusi Alat Observabilitas Di Pinterest
- Mengotomatiskan Peningkatan OS/Platform untuk Pemilik Layanan
Tukang pos
Posting Blog
- Pelajari bagaimana kelompok kubernet Anda merespons kegagalan menggunakan Gremlin dan Grafana
Prezi
Posting Blog
- Cara Menghindari Pemadaman Global - Label Daemonset yang Migrasi dengan Luas
- Dalam mencari kecepatan - Kinerja Debugging Elasticsearch
- Prometheus di Prezi: Mengganti 10 tahun anti-pola
Topi merah
Posting Blog
- Dari Ops ke SRE: Evolusi Tim Dedikasi OpenShift
- 5 Praktik Agile yang harus diadopsi setiap tim SRE
- 7 Praktik Terbaik Untuk Menulis Operator Kubernetes: Perspektif SRE
Game Riot
Posting Blog
- Legenda Pipa Runeterra CI/CD
- Strategi untuk bekerja di sistem yang tidak pasti
- Meningkatkan pengalaman pengembang untuk layanan operasi
- Skalabilitas dan pengujian beban untuk keberanian
- Memanfaatkan Golang untuk Pengembangan dan Operasi Game
- Kekacauan terkontrol dengan pengujian injeksi kesalahan
- Turun lubang kelinci pemantauan kinerja
- Profil: Kasus milidetik yang hilang
- Profil: Kinerja Dunia Nyata di Liga
- Profil: Optimalisasi
- Profil: Pengukuran dan Analisis
- Menjalankan Layanan Online di Riot: Bagian I
- Menjalankan Layanan Online di Riot: Bagian II
- Menjalankan Layanan Online di Riot: Bagian III
- Menjalankan Layanan Online di Riot: Bagian III: Bagian Deux
- Menjalankan Layanan Online di Riot: Bagian IV
- Menjalankan Layanan Online di Riot: Bagian V
- Evolusi keamanan di kerusuhan
- Menjalankan pipa uji otomatis untuk pembaruan klien liga
- Pengujian Otomatis untuk League of Legends
Salesforce
Posting Blog
- Melihat Pesawat Kontrol Kubernetes untuk multi-tenancy
- Mengoptimalkan jaringan EKS untuk skala
- Nol Node Downtime Penambalan di kluster Kubernetes
- Bagaimana, bukan mengapa: alternatif untuk lima mengapa untuk post-mortem
- Injektor sespan generik untuk Kubernetes
- Implementasi Strategi Pemantauan untuk Produk Berdasarkan Layanan Mikro
- 10 langkah untuk mengembangkan rencana respons insiden yang benar -benar Anda gunakan
- Perjalanan kami ke pipa log yang hampir sempurna
- Mengoptimalkan kinerja dengan pekerja web
- Luangkan waktu sejenak untuk memfokuskan kembali
Schibsted Media
Posting Blog
- Rekayasa Keandalan untuk beberapa situs teratas di Skandinavia
Scribd
Posting Blog
- Belajar dari insiden: Mendapatkan Sidekiq siap melayani satu miliar pekerjaan
- Testimonial untuk menggunakan pagerduty di Scribd
- Menetapkan tugas pager untuk pengembang
Shopify
Posting Blog
- Perencanaan ketahanan untuk acara lalu lintas tinggi
- Perencanaan Kapasitas dalam Skala
- Menggunakan DNS Traffic Management untuk menambah ketahanan pada layanan Shopify
- Empat Langkah untuk Membuat Tes Hari Permainan yang Efektif
- Menerapkan chatops ke dalam prosedur manajemen insiden kami
- Statsd di Shopify
Video
- Monitor Jaringan: Kisah Mengakui Kesenjangan Observability
- Harapkan yang tidak terduga: Mempersiapkan tim SRE untuk menanggapi kegagalan baru
- Lanjutan Napkin Math: memperkirakan kinerja sistem dari prinsip pertama
Taruhan Sky dan Gaming
Posting Blog
- Itu hanya perubahan pemantauan
- “Apa yang terburuk yang bisa terjadi?”: Contoh yang dikerjakan tentang bagaimana kita menghadapi insiden langsung
- Bangkit dari abu
- Menabrak! Bang! Pukulan keras! Latihan membuat sempurna
- Kinerja kiri kanan dan tengah
Kendur
Posting Blog
- Insiden Slack pada 2-22-22
- Observabilitas infrastruktur untuk mengubah kurva pengeluaran
- Pemadaman Slack pada 4 Januari 2021
- Hari yang mengerikan, mengerikan, tidak baik, sangat buruk di Slack
- Menyebarkan di Slack
- Teater Disasterpiece: Proses Slack untuk Rekayasa Kekacauan yang Dapat Didukung
Video
- Kendur di tepi
- Apa yang merusak sistem kami: taksonomi angsa hitam
Slalom Build
Posting Blog
- Cara mengimplementasikan tujuan tingkat layanan di Relic APM baru
- Panduan Pemula untuk DevOps: Cara membuatnya menjadi industri
- Tindakan GitHub: Beyond CI/CD
- Mengapa semua otomatisasi uji tidak berjalan di pipa?
- Banyak bentuk rekayasa keandalan situs
- Cara membangun cluster Kubernetes yang aman secara default dengan pipa CI/CD dasar di AWS
- Arsitektur Manajemen Rahasia: Menemukan keseimbangan antara keamanan dan kompleksitas
- Mendeteksi permintaan berbahaya dengan keras & tensorflow
- The Lego Monolith - Bukti Konsep Microservice Monolith
- Mengelola Rahasia Menggunakan Hashicorp Vault
- Pengemasan Aplikasi Spring Boot untuk Penempatan di Kubernetes
- Infrastruktur abadi dan pengiriman berkelanjutan di cloud
Soundcloud
Posting Blog
- Bagaimana berhasil menyerahkan sistem
- Membangun Budaya Panggilan yang Sehat
- Memperingatkan slos seperti pro
- Penyebaran hands-off dengan Canary
- Prometheus telah menjadi usia-refleksi tentang pengembangan proyek open-source
- Prometheus: Pemantauan di SoundCloud
- Apa yang saya pelajari dalam satu tahun sebagai peserta pelatihan SRE
- Tes di bawah lensa pembesar
Spotify
Posting Blog
- Matt Clarke: Insinyur Infrastruktur Backend Senior
- Merancang pengalaman kubernet yang lebih baik untuk pengembang
- Techbytes: Apa yang dilewatkan industri tentang insiden dan apa yang dapat Anda lakukan
- Infrastruktur Respons Insiden Otomatis di GCP
Video
- Menelusuri, Cepat dan Lambat: Menggali dan Meningkatkan Kinerja Layanan Web Anda
Squarespace
Posting Blog
- Di bawah kap: memastikan keandalan situs
Video
- Mendorong gesekan
- Bagaimana cara sre saat semuanya sudah terbakar
- Case Study: Implementing SLOs for a New Service
- Creating a Code Review Culture
Stack Overflow
Blog Posts
- “This should never happen. If it does, call the developers.”
- Infrastructure as code: Create and configure infrastructure elements in seconds
- Fulfilling the promise of CI/CD
- A deeper dive into our May 2019 security incident
- Guest Post - Failing over without falling over
- How We Built Our Blog
- Stack Overflow Frees Up Engineering Time with Netlify
Video
- Low Context DevOps: Improving SRE Team Culture through Defaults, Documentation, and Discipline
Strava
Blog Posts
- Scaling Club Leaderboard Infrastructure for Millions of Users
- Distributed Tracing at Strava
Garis
Blog Posts
- Fast and flexible observability with canonical log lines
- Fast builds, secure builds. Choose two.
- Introducing Veneur: high performance and global aggregation for Datadog
Video
- How Stripe Invests in Technical Infrastructure
- The AWS Billing Machine and Optimizing Cloud Costs
Target
Blog Posts
- Ɔhaos Ǝnginǝǝring @ Target - Part 2
- Ɔhaos Ǝnginǝǝring @ Target - Part 1
- GoAlert - Your Future Open Source, On-Call Notification Product
Teads
Blog Posts
- Scaling your on-duty team
Rabuk
Blog Posts
- The Ultimate Load Test
- How We Improved Our Performance Using ElasticSearch Plugins: Part 1
- How We Improved Our Performance Using ElasticSearch Plugins: Part 2
- Tinder's move to Kubernetes
Tokopedia
Blog Posts
- Benefits of benchmarking with Go
- Simulating Customized Chaos in Golang using Toxiproxy
- How Tokopedia Rank Millions of Products in Search Page
Trivago
Blog Posts
- How To Get Fooled By Metrics
Twilio
Blog Posts
- Twilio SRE Gameday Template
Twitter
Blog Posts
- Logging at Twitter: Updated
- Deleting data distributed throughout your microservices architecture
- Deterministic Aperture: A distributed, load balancing algorithm
- MetricsDB: TimeSeries Database for storing metrics at Twitter
- The Infrastructure Behind Twitter: Scale
- The infrastructure behind Twitter: efficiency and optimization
Uber
Blog Posts
- Founding Uber SRE
- Disaster Recovery for Multi-Region Kafka at Uber
- Engineering Failover Handling in Uber's Mobile Networking Infrastructure
- Optimizing Observability with Jaeger, M3, and XYS at Uber
Video
- A Tale of Two Rotations: Building a Humane & Effective On-Call
- Testing in Production at Scale
- A History of SRE at Uber' with Rick Boone of Uber
Udemy
Blog Posts
- Blameless Incident Reviews at Udemy
- How Udemy does Build Engineering
upGrad
Blog Posts
- Web Performance and Related Stories — upgrad.com
- Beginner's guide to web analytics
- iOS Continuous Deployment with Bitbucket, Jenkins and Fastlane at UpGrad
VGW
Blog Posts
- The SRE Incident Response game
Video
- Level Up Your Incident Response With Gameplay
Wikimedia Foundation
Video
- Testing Encyclopedias in Production
- What Happens When You Type en.wikipedia.org?
Wix
Blog Posts
- How We Improved Website Performance by Evolving Our Infrastructure
- Wix Inbox Journey: 3 Approaches for Zero Downtime Database Migration
- Moving Velo to Multiple Container Sites: The Why, The How and The Lessons Learned
- Making Order in CI/CD Mess
Menyalak
Blog Posts
- The process: Implementing Yelp's failover strategy
Video
- Yelp - What I Wish I Knew before Going On-Call
Zalando
Blog Posts
- Tracing SRE's journey in Zalando - Part I
- Tracing SRE's journey in Zalando - Part II
- Tracing SRE's journey in Zalando - Part III
Zerodha
Blog Posts
- Infrastructure monitoring with Prometheus at Zerodha
- Logging at Zerodha
Zomato
Blog Posts
- Huddle Diaries – DevOps and Data Platform
SRECon Mix Playlist
Video
- Adobe - The Good, the Bad and the Ugly: The 3 Learnings of an SRE
- Amdocs - SREs at Telecom and Media Industry: Bridging between Legacy and Cloud Native Apps
- Amazon - Confessions of a Systems Engineer: Learning from My 20+ Years of Failure
- Alaska Airlines - Capacity Prediction in External Services
- BuzzFeed - Optimizing for Learning
- BT - Challenges of Starting an SRE Team from Scratch in an Enterprise
- Cloudflare - Support Operations Engineering: Scaling Developer Products to the Millions
- Cloudlock - My Life as a Solo SRE
- Hudson River Trading - Fixing On-Call When Nobody Thinks It's (Too) Broken
- IBM - Why Automating Everything Adds to Your Toil
- Genesys - The Smallest Possible SRE Team
- Grafana Labs - SRE in the Third Age
- Kenna Security - Building a Scalable Monitoring System
- Lightstep - Building Service Ownership Using Documentation, Telemetry, and a Chance to Make Things Better
- MessageBird - Autopsy of a MySQL Automation Disaster
- Netlify - Perks and Pitfalls of Building a Remote First Team
- ReactiveOps - Zero to SRE
- Salesforce - Incident Response in Unfamiliar Sociotechnical Systems: One Incident Commander's Challenges Supporting Inter-organizational Anomaly Response in the Age of COVID-19
- Sprax - From Nothing to SRE: Practical Guidance on Implementing SRE in Smaller Organisations
- The New York Times - SRE by Influence, Not Authority: How the New York Times Prepares for Large-Scale Events
- Twitter - Hiring Great SREs
- United States Digital Service - Lessons Learned in Black Box Monitoring 25,000 Endpoints and Proving the SRE Team's Value
- Unity Technologies - Being Reasonable about SRE
- Udemy - How to Do SRE When You Have No SRE
- Vanguard - Cloudy with a Chance of Chaos
- WeWork - Learning from Learnings: Anatomy of Three Incidents
- Zendesk - Latency and Availability Error Budgets Done Right at Scale
Sumber daya
Buku
- Baru! Enterprise Roadmap to SRE
- Building Secure & Reliable Systems | Read free online version hosted by Google
- Site Reliability Engineering | Read free online version hosted by Google
- The Site Reliability Workbook from Google | Read free online version hosted by Google
- Training Site Reliability Engineers | Read free online version hosted by Google
- 97 Things Every SRE Should Know | Complimentary Copy from Nginx
- SLO Adoption and Usage in Site Reliability Engineering
- Practical Site Reliability Engineering
- Implementing Service Level Objectives
- Chaos Engineering
- Seeking SRE
- Security Chaos Engineering
- Chaos Engineering Observability
- Database Reliability Engineering
- What Is SRE?
- Database Reliability Engineering: What, Why, and How?
- Observability Engineering
- Chaos Engineering: Site reliability through controlled disruption
- Incident Metrics in SRE | Read free online version hosted by Google
- Engineering Reliable Mobile Applications
- Monitoring the SRE Golden Signals
- Site Reliability Engineering: Philosophies, habits, and tools for SRE success | Portable version
- 97 Things Every Cloud Engineer Should Know
- Real-World SRE
- Hands-on Site Reliability Engineering
Acara
- SRECon Past Events
- ChaosConf
- SLOConf
- cdCon
- cdCon 2021 Playlist
- cdCon 2020 Playlist
- Conf42
Sumber daya lainnya
Awesome Lists
- Awesome SRE
- Awesome Site Reliability Engineering Tools
- Awesome Chaos Engineering
- Awesome Monitoring
- Awesome Observability
- Awesome MLOps
- ML-Ops.org
SRE Resources from various organizations
- Google SRE Page
- Google SRE Classroom
- Google Cloud SRE Page
- Microsoft SRE Page
- School of SRE from LinkedIn
- Stripe Increment Magazine Issue 16 on Reliability
- AWS Observability Recipes
- Awesome Sysadmin
Incidents & postmortems
- The Verica Open Incident Database
- Postmortem Templates
- Incident Review and Postmortem Best Practices
Nawala
- SRE Weekly Newsletter
- Chaos Engineering Newsletter
- DevOps Weekly Newsletter
Kredit
- Inspired by Howtheytest from Abhijeet Vaikar
- The list of organizations is referred from my other repo awesome-engineering
- Banner image Cartoon vector created by vectorjuice - www.freepik.com
Other How They... repos
- Howtheytest
- Howtheydevops
- Howtheyaws
Kontributor
Menyumbang
Contributions welcome! Read the contribution guidelines first.
Stargazers Over Time
Lisensi
To the extent possible under law, Unmesh Gundecha has waived all copyright and related or neighboring rights to this work.
If you decide to use this anywhere, please credit @upgundecha on X. Also, if you like my work, check out my other projects on GitHub.