Unduh post mortems - Unduh Kode Sumber post mortems

post mortems

Kode sumber lainnya

1.0.0

Unduh

Daftar post-mortem!

Daftar isi

Kesalahan konfigurasi
Kegagalan perangkat keras/daya
Konflik
Waktu
Database
Tidak dikategorikan
Daftar postmortem lainnya
Analisa
Kontributor

Kesalahan konfigurasi

Alegro. Situs e-commerce turun setelah lonjakan lalu lintas mendadak yang disebabkan oleh kampanye pemasaran. Pemadaman disebabkan oleh kesalahan konfigurasi dalam manajemen sumber daya cluster yang mencegah lebih banyak instance layanan untuk memulai meskipun sumber daya perangkat keras tersedia.

Cloudflare. Konfigurasi yang buruk (aturan router) menyebabkan semua router tepi mereka macet, mencatat semua Cloudflare.

Cloudflare. Selama pemeliharaan jaringan backbone pribadi mereka, seorang insinyur membuat kesalahan ketik dalam konfigurasi jaringan pusat data Atlanta, menyebabkan semua lalu lintas yang berasal dari Amerika dan Eropa mengalir ke pusat data yang hanya ini, menghancurkannya.

Cloudflare. Pemesanan yang salah dari awalan yang diiklankan BGP yang dinonaktifkan menyebabkan kerusakan pada 19 pusat data.

Cloudflare. Perubahan pada sistem cache bertingkat kami menyebabkan beberapa permintaan gagal untuk pengguna dengan kode status 530. Dampaknya berlangsung selama hampir enam jam total. Kami memperkirakan bahwa sekitar 5% dari semua permintaan gagal di puncaknya. Karena kompleksitas sistem kami dan titik buta dalam pengujian kami, kami tidak menemukan ini ketika perubahan dirilis ke lingkungan pengujian kami.

Cloudflare. Beberapa layanan CloudFlare menjadi tidak tersedia selama 121 menit pada 24 Januari 2023 karena kesalahan pelepasan kode yang mengelola token layanan. Insiden ini menurunkan berbagai produk CloudFlare termasuk aspek platform pekerja kami, solusi nol kepercayaan kami, dan fungsi pesawat kontrol dalam jaringan pengiriman konten kami (CDN).

Cloudflare. Pada 4 Oktober 2023, Cloudflare mengalami masalah resolusi DNS mulai pukul 07:00 UTC dan berakhir pada pukul 11:00 UTC. Beberapa pengguna 1.1.1.1 atau produk seperti Warp, Nol Trust, atau Resolvers DNS pihak ketiga yang menggunakan 1.1.1.1 mungkin telah menerima respons DNS ServFail untuk kueri yang valid. Kami sangat menyesal atas pemadaman ini. Pemadaman ini adalah kesalahan perangkat lunak internal dan bukan hasil dari serangan. Di blog ini, kita akan berbicara tentang apa kegagalan itu, mengapa itu terjadi, dan apa yang kita lakukan untuk memastikan ini tidak terjadi lagi.

Datadog. Konfigurasi penemuan layanan yang buruk di salah satu klien yang menurunkan penemuan layanan secara global ketika klien yang tergantung turun.

Enom. Pada 15 Januari 2022, jam 9:00 ET, tim teknik Tucows memulai pekerjaan pemeliharaan yang direncanakan untuk memigrasi platform ENOM ke infrastruktur cloud baru. Karena kompleksitas pemotongan, tim mengalami banyak masalah yang mengakibatkan penundaan terus menerus. Jendela pemeliharaan diperpanjang beberapa kali untuk mengatasi masalah yang terkait dengan replikasi data, perutean jaringan, dan masalah resolusi DNS yang memengaruhi aksesibilitas situs web dan pengiriman email.

Etsy. Mengirim lalu lintas multicast tanpa mengonfigurasi sakelar dengan benar menyebabkan pemadaman global Etsy.

Facebook. Perubahan konfigurasi ke router backbone Facebook menyebabkan pemadaman global dari semua properti Facebook dan alat internal.

Facebook. Konfigurasi yang buruk mencatat Facebook dan Instagram.

Firefox. Pada 13 Januari 2022, jalur kode spesifik dalam tumpukan jaringan Firefox memicu masalah dalam implementasi protokol HTTP/3. Komunikasi jaringan yang diblokir ini dan membuat Firefox tidak responsif, tidak dapat memuat konten web selama hampir dua jam.

Gocardless. Konfigurasi buruk yang dikombinasikan dengan serangkaian kegagalan yang tidak umum menyebabkan pemadaman kluster database, mengambil API dan dasbor offline.

[Google] (https://cloud.google.com/blog/products/infrastructure/details-of-google-cloud-gcve-incident). Penyediaan GCVE awal dilakukan dengan opsi warisan, yang mengarah pada kontrak 'istilah tetap' dengan penghapusan otomatis pada akhir periode itu.

Google. Konfigurasi yang buruk (Autogenerated) menghapus semua blok IP Google Compute Engine dari pengumuman BGP.

Google. Konfigurasi yang buruk (Autogenerated) menurunkan sebagian besar layanan Google.

Google. Konfigurasi yang buruk menyebabkan layanan kuota gagal, yang menyebabkan banyak layanan gagal (termasuk Gmail).

Google. / Diperiksa ke dalam daftar hitam URL, menyebabkan setiap URL menunjukkan peringatan.

Google. Bug dalam peluncuran konfigurasi ke penyeimbang beban menyebabkan peningkatan tingkat kesalahan selama 22 menit.

Google. Perubahan konfigurasi yang dimaksudkan untuk mengatasi peningkatan permintaan untuk penyimpanan metadata, yang kelebihan beban dari sistem pencarian gumpalan, yang menyebabkan kegagalan cascading dengan dampak layanan yang terlihat pengguna ke Gmail, foto Google, Google Drive, dan layanan GCP lainnya tergantung pada penyimpanan gumpalan.

Google. Dua salah konfigurasi, ditambah bug perangkat lunak, menyebabkan kegagalan jaringan cloud Google besar -besaran di Pantai Timur AS.

Google. Layanan penyeimbang beban ujung depan Google mengalami kegagalan yang menghasilkan dampak pada beberapa layanan cloud Google hilir di Eropa. Dari analisis pendahuluan, akar penyebab masalah ini disebabkan oleh fitur infrastruktur baru yang memicu masalah laten dalam kode penyeimbang beban jaringan internal.

Google. Google Cloud Networking mengalami masalah dengan layanan Google Cloud Load Balancing (GCLB) yang mengakibatkan dampak terhadap beberapa layanan Google Cloud hilir. Pelanggan yang terkena dampak mengamati kesalahan Google 404 di situs web mereka. Dari analisis awal, akar penyebab masalah ini adalah bug laten dalam layanan konfigurasi jaringan yang dipicu selama operasi sistem rutin.

Google. Google Cloud Networking mengalami penurunan kapasitas untuk lalu lintas prioritas yang lebih rendah seperti operasi batch, streaming dan transfer mulai 19:30 AS/Pasifik pada hari Kamis, 14 Juli 2022, hingga 15:02 AS/Pasifik pada hari Jumat, 15 Juli 2022. Lalu lintas yang menghadap pengguna prioritas tinggi tidak terpengaruh. Gangguan layanan ini dihasilkan dari masalah yang dihadapi selama kombinasi pekerjaan perbaikan dan peluncuran peningkatan perangkat lunak jaringan rutin. Karena sifat kemampuan gangguan dan ketahanan produk Google Cloud, daerah yang terkena dampak dan jendela dampak individu bervariasi secara substansial.

Heroku. Perubahan konfigurasi jarak jauh otomatis tidak merambat sepenuhnya. Web Dyno tidak bisa dimulai.

Heroku. Proses penyebaran yang salah menyebabkan variabel konfigurasi baru tidak digunakan ketika kode memerlukannya.

Keepthescore. Insinyur menghapus basis data produksi secara tidak sengaja. Database adalah database yang dikelola dari DigitalOcean dengan cadangan sekali sehari. 30 menit setelah bencana, kembali online, namun 7 jam data papan skor hilang selamanya.

Microsoft. Konfigurasi yang buruk menurunkan penyimpanan Azure.

NPM. Perubahan konfigurasi yang cepat menyebabkan masalah perutean backend. Tepatnya, masalahnya adalah bahwa kami sedang mengatur req.backend dalam fungsi vcl_fetch, dan kemudian memanggil restart untuk memisahkan kembali aturan. Namun, panggilan restart akan mengatur ulang req.backend ke yang pertama kali didukung dalam daftar, yang dalam kasus ini kebetulan adalah manta, daripada server couchdb load seimbang.

Owasa. Dorongan yang salah dari tombol menyebabkan pabrik pengolahan air ditutup karena kadar fluoride yang terlalu tinggi.

Pagerduty. Pada tanggal 15 Desember 2021 di 00:17 UTC, kami menggunakan perubahan konfigurasi DNS dalam infrastruktur PagerDuty yang memengaruhi cluster orkestrasi kontainer kami. Perubahan itu berisi cacat, yang kami tidak mendeteksi di lingkungan pengujian kami, yang segera menyebabkan semua layanan berjalan di kluster orkestrasi kontainer tidak dapat menyelesaikan DNS.

Razorpay. Kegagalan perangkat keras RDS menyoroti konfigurasi MySQL yang salah yang mengakibatkan kehilangan data utama dalam sistem keuangan.

Rust-lang. Pada hari Rabu, 2023-01-25 di 09:15 UTC, kami menggunakan perubahan pada infrastruktur produksi untuk Crates.io. Selama penyebaran, catatan DNS untuk static.crates.io gagal menyelesaikan waktu yang diperkirakan 10-15 menit. Itu karena fakta bahwa kedua sertifikat dan catatan DNS diciptakan kembali selama downtime.

Rust-lang. Pada 2023-07-20 antara 12:17 dan 12:30 UTC Semua unduhan peti dari Crates.io rusak karena penyebaran yang berisi bug dalam generasi URL unduhan. Selama waktu ini kami memiliki rata -rata permintaan 4,71k per detik ke Crates.io, menghasilkan sekitar 3,7 juta permintaan gagal, termasuk upaya coba lagi dari kargo.

Stack overflow. Konfigurasi firewall yang buruk diblokir stackexchange/stackoverflow.

Penjaga. Pengaturan Amazon S3 yang salah pada cadangan menyebabkan kebocoran data.

Travisci. Masalah konfigurasi (rotasi kata sandi yang tidak lengkap) menyebabkan VM "bocor", yang mengarah ke waktu antrian pembuatan yang ditinggikan.

Travisci. Masalah konfigurasi (pekerjaan pembersihan gambar Google Compute Engine VM berbasis usia otomatis) menyebabkan gambar VM dasar yang stabil dihapus.

Travisci. Perubahan konfigurasi yang dibuat bangunan mulai gagal. Rollback manual pecah.

Travisci. Variabel lingkungan yang tidak disengaja membuat tes memotong database produksi.

Tui. Sebelum penerbangan insiden, sistem reservasi dari mana lembar beban diproduksi telah ditingkatkan. Kesalahan dalam sistem menyebabkan penumpang wanita check -in dengan judul 'Miss' dihitung sebagai anak -anak. Sistem ini mengalokasikan berat standar anak 35 kg sebagai lawan dari berat standar wanita yang benar 69 kg. Akibatnya, dengan 38 wanita diperiksa secara tidak benar dan salah diidentifikasi sebagai anak-anak, massa lepas landas G-tawg dari lembar beban adalah 1.244 kg di bawah massa pesawat yang sebenarnya.

Turso. Pengidentifikasi cadangan DB yang dikonfigurasi secara tidak benar menyebabkan kebocoran data untuk pelanggan tingkat gratis, dan perbaikan selanjutnya mengakibatkan kemungkinan kehilangan data.

Katup. Meskipun tidak ada postmortem resmi, itu terlihat seperti koneksi BGP Config Suteed Valve yang buruk ke Level 3, Telia, dan Abovenet/Zayo, yang mengakibatkan pemadaman uap global.

Kegagalan perangkat keras/daya

Amazon. Peristiwa yang tidak diketahui menyebabkan transformator gagal. Salah satu PLC yang memeriksa bahwa daya generator dalam fase gagal karena alasan yang tidak diketahui, yang mencegah serangkaian generator cadangan untuk online. Ini mempengaruhi EC2, EBS, dan RDS di UE West.

Amazon. Cuaca buruk menyebabkan kegagalan daya di seluruh AWS US East. Generator cadangan tunggal gagal memberikan daya yang stabil ketika daya dialihkan ke cadangan dan generator dimuat. Ini meskipun telah lulus tes beban dua bulan sebelumnya, dan lulus tes daya mingguan.

Amazon. Pada pukul 22:25 PDT pada 4 Juni, kehilangan daya di fasilitas AWS Sydney yang dihasilkan dari cuaca buruk di daerah itu menyebabkan gangguan pada sejumlah besar contoh di zona ketersediaan. Karena tanda tangan kehilangan daya, pemutus isolasi daya tidak terlibat, menghasilkan cadangan energi cadangan yang mengalir ke jaringan listrik yang terdegradasi.

Arpanet. Data routing yang rusak (prosesor pesan antarmuka) rusak, perangkat lunak checksum yang merambat merambat data buruk dengan checksum yang baik, nomor urutan yang salah menyebabkan buffer untuk diisi, buffer penuh menyebabkan hilangnya paket kiper dan node melepas diri dari jaringan. Dari 1980.

Cloudflare. Perilaku sakelar parsial menyebabkan kegagalan Bizantium yang mengalir yang memengaruhi ketersediaan API dan dasbor selama enam jam dan 33 menit.

Cloudflare. Kegagalan Daya Pusat Data Lentur. Posting ini menguraikan peristiwa yang menyebabkan kejadian ini.

FirstEnergy / General Electric. FirstEnergy mengalami kegagalan lokal ketika beberapa saluran transmisi menghantam dedaunan yang tidak terputus. Proses normal adalah melakukan alarm berbunyi, yang menyebabkan operator manusia mendistribusikan kembali daya. Tetapi sistem GE yang memantau ini memiliki bug yang mencegah alarm dipicu, yang akhirnya menyebabkan kegagalan cascading yang akhirnya mempengaruhi 55 juta orang.

GitHub. Pada tanggal 28 Januari 2016 GitHub mengalami gangguan kekuatan di pusat data utama mereka.

Google. Sogapan petir yang berurutan pada pusat data Eropa mereka (Eropa-West1-B) menyebabkan hilangnya daya pada Google menghitung sistem penyimpanan mesin di dalam wilayah itu. Kesalahan I/O diamati pada subset standar disk persisten (HDD) dan kehilangan data permanen diamati pada sebagian kecil dari itu.

Google. Pada hari Selasa, 19 Juli 2022 pukul 06:33 AS/Pasifik, kegagalan simultan dari beberapa sistem pendingin yang berlebihan di salah satu pusat data yang meng-host zona Eropa-West2-A yang terkena dampak beberapa layanan cloud Google. Ini mengakibatkan beberapa pelanggan mengalami layanan tidak tersedianya untuk produk yang terkena dampak.

Pythonanywhere. Kegagalan volume penyimpanan pada salah satu server penyimpanan menyebabkan sejumlah pemadaman, dimulai dengan situs Pythonanywhere dan juga dengan program pengguna kami (termasuk situs web) yang bergantung pada volume itu, dan kemudian menyebar ke situs yang di -host lainnya.

Matahari. Sun terkenal tidak memasukkan ECC dalam beberapa generasi bagian server. Ini mengakibatkan korupsi data dan mogok. Mengikuti MO khas Sun, mereka membuat pelanggan yang melaporkan tanda bug NDA sebelum menjelaskan masalah tersebut.

Konflik

Game PKC. Konflik kesalahan ketik dan nama menyebabkan pemasang terkadang menghapus file boot.ini pada pemasangan ekspansi untuk Eve Online - dengan konsekuensi.

GitHub. Partisi jaringan 43 detik selama pemeliharaan menyebabkan MySQL Master Failover, tetapi master baru tidak memiliki beberapa detik penulisan yang disusun untuk itu karena latensi lintas benua. 24+ jam kerja restorasi untuk mempertahankan integritas data.

Gocardless. Semua pertanyaan pada tabel PostgreSQL yang kritis diblokir oleh kombinasi migrasi basis data yang sangat cepat dan permintaan baca yang sudah berjalan lama, menyebabkan 15 detik downtime.

Google. Banyak perubahan pada penyeimbang beban yang jarang dimodifikasi diterapkan melalui jalur kode yang sangat lambat. Ini membeku semua perubahan membahas publik selama ~ 2 jam.

Google. Kegagalan komponen pada jalur serat dari salah satu kampus gateway AS di tulang punggung produksi Google menyebabkan penurunan bandwidth jaringan yang tersedia antara gateway dan beberapa lokasi tepi, menyebabkan kehilangan paket sementara tulang punggung secara otomatis memindahkan lalu lintas ke jalur yang tersisa.

Knight Capital. Kombinasi dari versi yang dikerahkan dan menggunakan kembali bit yang sebelumnya digunakan menyebabkan kerugian $ 460 juta. Lihat juga tulisan yang lebih lama.

Repositori Kode WebKit. Repositori WebKit, repositori subversi yang dikonfigurasi untuk menggunakan deduplikasi, menjadi tidak tersedia setelah dua file dengan hash SHA-1 yang sama diperiksa sebagai data uji, dengan maksud menerapkan pemeriksaan keselamatan untuk tabrakan. Kedua file tersebut memiliki jumlah MD5 yang berbeda sehingga checkout akan gagal dalam pemeriksaan konsistensi. Untuk konteks, tabrakan hash SHA-1 publik pertama baru-baru ini diumumkan, dengan contoh dua file bertabrakan.

Waktu

Biru langit. Sertifikat yang berlaku selama satu tahun dibuat. Alih -alih menggunakan pustaka yang sesuai, seseorang menulis kode yang menghitung satu tahun menjadi tanggal saat ini ditambah satu tahun. Pada tanggal 29 Februari 2012, ini mengakibatkan pembuatan sertifikat dengan tanggal kedaluwarsa 29 Februari 2013, yang ditolak karena tanggal yang tidak valid. Ini menyebabkan pemadaman global Azure yang berlangsung hampir sepanjang hari.

Cloudflare. Aliran waktu mundur dari melacak lompatan ke-27 kedua pada 2016-12-31T23: 59: 60Z menyebabkan pemilihan rentang bundar DNS (RRDNs) yang tertimbang menjadi panik dan gagal pada beberapa pencarian cName. Go's time.Now() secara tidak benar dianggap monotonik; Ini menyuntikkan nilai negatif ke dalam panggilan ke rand.Int63n() , yang panik dalam kasus itu.

Linux. LEAP Kode Kedua dipanggil dari Timer Interrupt Handler, yang dimiliki xtime_lock . Kode itu melakukan printk untuk mencatat lompatan kedua. printk membangunkan klogd , yang kadang -kadang bisa mencoba mendapatkan waktu, yang menunggu di xtime_lock , menyebabkan kebuntuan.

Linux. Ketika lompatan kedua terjadi, CLOCK_REALTIME diputar ulang satu detik. Ini tidak dilakukan melalui mekanisme yang akan memperbarui hrtimer base.offset . Ini berarti bahwa ketika interupsi timer terjadi, Timer_abstime Clock_realtime Timer berakhir satu detik lebih awal, termasuk timer yang ditetapkan kurang dari satu detik. Hal ini menyebabkan aplikasi yang menggunakan tidur kurang dari satu detik dalam satu loop untuk spinwait tanpa tidur, menyebabkan beban tinggi pada banyak sistem. Ini menyebabkan sejumlah besar layanan web turun pada tahun 2012.

Mozilla. Sebagian besar add-on Firefox berhenti bekerja sekitar 4 Mei 2019 ketika sertifikat berakhir. Firefox membutuhkan rantai sertifikat yang valid untuk mencegah malware. Sekitar sembilan jam kemudian, Mozilla mendorong add-on istimewa yang menyuntikkan sertifikat yang valid ke toko sertifikat Firefox, membuat rantai yang valid dan membatalkan blocking add-on. Ini dinonaktifkan secara efektif semua add-on, sekitar 15.000, dan resolusi memakan waktu sekitar 15-21 jam untuk sebagian besar pengguna. Beberapa data pengguna hilang. Sebelumnya Mozilla memposting tentang detail teknis.

Database

GitHub. Platform GitHub menghadapi mode kegagalan baru saat memproses migrasi skema pada tabel MySQL yang besar. Migrasi skema adalah tugas umum di GitHub dan sering membutuhkan waktu berminggu -minggu untuk menyelesaikannya. Langkah terakhir dalam migrasi adalah melakukan ganti nama untuk memindahkan tabel yang diperbarui ke tempat yang benar. Selama langkah terakhir dari migrasi ini sebagian besar replika baca MySQL kami memasuki kebuntuan semaphore. Cluster MySQL kami terdiri dari simpul utama untuk lalu lintas menulis, beberapa replika baca untuk lalu lintas produksi, dan beberapa replika yang melayani lalu lintas baca internal untuk tujuan cadangan dan analitik. Replika yang dibaca yang menghantam kebuntuan memasuki negara pemulihan tabrakan yang menyebabkan peningkatan beban pada replika baca yang sehat. Karena sifat cascading dari skenario ini, tidak ada cukup replika baca aktif untuk menangani permintaan produksi yang memengaruhi ketersediaan layanan inti gitub.

Heroku. Pada 15:05 UTC pada 8 Juni 2023, kesalahan database terjadi di mana kunci asing menggunakan tipe data yang lebih kecil daripada kunci utama yang dirujuk. Kesalahan ini menyebabkan luapan ketika kunci utama melebihi nilai yang diijinkan, menghasilkan ketidakmampuan untuk membuat otorisasi baru dalam Heroku. Kesalahan ini juga mencegah pelanggan membuat penyebaran baru. Operasi Oncall kemudian memicu pemadaman penuh Heroku API.

Tidak dikategorikan

Alegro. Platform Allegro menderita kegagalan subsistem yang bertanggung jawab untuk pemrosesan tugas terdistribusi asinkron. Masalahnya mempengaruhi banyak area, misalnya fitur seperti membeli banyak penawaran melalui cart dan pengeditan penawaran massal (termasuk pengeditan daftar harga) tidak berfungsi sama sekali. Selain itu, sebagian gagal mengirim buletin harian dengan penawaran baru. Juga beberapa bagian panel administrasi internal terpengaruh.

Amazon. Kesalahan manusia. Pada 28 Februari 2017 9:37 PST, tim Amazon S3 men -debug masalah kecil. Meskipun menggunakan buku pedoman yang mapan, salah satu perintah yang ingin menghapus sejumlah kecil server dikeluarkan dengan kesalahan ketik, secara tidak sengaja menyebabkan serangkaian server yang lebih besar dihapus. Server ini mendukung sistem S3 kritis. Akibatnya, sistem dependen memerlukan restart penuh untuk beroperasi dengan benar, dan sistem mengalami pemadaman luas untuk AS-East-1 (Virginia Utara) hingga resolusi akhir pada pukul 1:54 PM PST. Karena layanan Amazon sendiri seperti EC2 dan EBS mengandalkan S3 juga, itu menyebabkan kegagalan besar yang mempengaruhi ratusan perusahaan.

Amazon. Pesan korupsi menyebabkan fungsi negara server terdistribusi membanjiri sumber daya pada armada pemrosesan permintaan S3.

Amazon. Kesalahan manusia selama peningkatan jaringan rutin menyebabkan krisis sumber daya, diperburuk oleh bug perangkat lunak, yang pada akhirnya mengakibatkan pemadaman di seluruh zona ketersediaan AS Timur serta hilangnya 0,07% volume.

Amazon. Ketidakmampuan untuk menghubungi server pengumpulan data memicu bug kebocoran memori laten di agen pelaporan di server penyimpanan. Dan tidak ada penanganan degradasi anggun, sehingga agen pelaporan terus menghubungi server pengumpulan dengan cara yang secara perlahan mengkonsumsi memori sistem. Juga sistem pemantauan gagal mengkhawatirkan kebocoran memori server EBS ini, juga server EBS umumnya menggunakan semua memori yang sangat dinamis. Pada Senin pagi, laju kehilangan memori menjadi cukup tinggi dan memori yang cukup membingungkan pada server penyimpanan yang terpengaruh yang tidak dapat mengikuti proses penanganan permintaan. Kesalahan ini semakin terputus oleh ketidakmampuan untuk melakukan failover, yang mengakibatkan pemadaman.

Amazon. Penyeimbang beban elastis mengalami masalah ketika "proses pemeliharaan yang secara tidak sengaja dijalankan terhadap data negara bagian ELB State".

Amazon. "Gangguan jaringan" menyebabkan layanan metadata mengalami beban yang menyebabkan waktu respons melebihi nilai batas waktu, menyebabkan node penyimpanan menurunkan diri. Node yang mengambil diri mereka terus mencoba lagi, memastikan bahwa beban pada layanan metadata tidak dapat berkurang.

Amazon. Menskalakan armada cache front-end untuk kinesis menyebabkan semua server dalam armada melebihi jumlah maksimum utas yang diizinkan oleh konfigurasi sistem operasi. Beberapa layanan hilir kritis terpengaruh, dari Cognito ke Lambda ke CloudWatch.

Amazon. Pada pukul 7:30 pagi PST, aktivitas otomatis untuk skala kapasitas salah satu layanan AWS yang di -host di jaringan AWS utama memicu perilaku yang tidak terduga dari sejumlah besar klien di dalam jaringan internal. Ini menghasilkan lonjakan besar aktivitas koneksi yang membanjiri perangkat jaringan antara jaringan internal dan jaringan AWS utama, yang mengakibatkan keterlambatan komunikasi antara jaringan ini. Keterlambatan ini meningkatkan latensi dan kesalahan untuk layanan yang berkomunikasi antara jaringan -jaringan ini, menghasilkan lebih banyak upaya koneksi dan coba lagi. Hal ini menyebabkan masalah kemacetan dan kinerja yang terus -menerus pada perangkat yang menghubungkan kedua jaringan.

AppNexus. Ganda bebas yang diungkapkan oleh pembaruan database menyebabkan semua server "Bus Impression" jatuh secara bersamaan. Ini tidak terperangkap dalam pementasan dan membuatnya menjadi produksi karena waktu penundaan diperlukan untuk memicu bug, dan periode pementasan tidak memiliki penundaan bawaan.

AT&T. Jajaran kode C yang buruk memperkenalkan bahaya balapan yang pada waktunya runtuh jaringan telepon. Setelah pemadaman yang direncanakan, pesan pemulihan QuickFire memicu balapan, menyebabkan lebih banyak reboot yang menarik kembali masalah tersebut. "Masalahnya berulang secara iteratif di seluruh 114 sakelar di jaringan, memblokir lebih dari 50 juta panggilan dalam sembilan jam yang diperlukan untuk menstabilkan sistem." Dari tahun 1990.

Atlassian. Pada hari Selasa, 5 April 2022, mulai dari 7:38 UTC, 775 pelanggan Atlassian kehilangan akses ke produk Atlassian mereka. Pemadaman berlangsung hingga 14 hari untuk subset dari pelanggan ini, dengan set pelanggan pertama dipulihkan pada 8 April dan semua situs pelanggan secara progresif dipulihkan pada 18 April.

Basecamp, lihat juga. Jaringan Basecamp berada di bawah serangan DDOS selama jendela 100 menit pada 24 Maret 2014.

Basecamp, lihat juga. Pada bulan November 2018, sebuah database mencapai batas integer, meninggalkan layanan dalam mode read-only.

BBC Online. Pada bulan Juli 2014, BBC Online mengalami pemadaman yang sangat panjang dari beberapa layanan online populernya termasuk BBC iPlayer. Ketika backend database kelebihan beban, itu sudah mulai memenuhi permintaan dari berbagai layanan. Layanan yang tidak menyimpan respons basis data secara lokal mulai menghitung waktu dan akhirnya gagal sepenuhnya.

Bintray. Pada Juli 2017 beberapa paket Maven berbahaya dimasukkan dalam JCenter dengan serangan peniruan. Paket -paket itu tinggal di JCenter selama lebih dari setahun dan konon mempengaruhi beberapa aplikasi Android yang mengakibatkan kode malware disuntikkan oleh dependensi dari JCenter.

Bityly. Repo kode sumber yang di -host berisi kredensial yang memberikan akses ke cadangan bitly, termasuk kata sandi hash.

BrowserStack. Mesin prototipe lama dengan kerentanan shellshock yang masih aktif memiliki kunci rahasia yang pada akhirnya menyebabkan pelanggaran keamanan sistem produksi.

Buildkite. Kapasitas Database Downgrade Dalam upaya untuk meminimalkan pengeluaran AWS mengakibatkan kurangnya kapasitas untuk mendukung pelanggan Buildkite di puncaknya, yang menyebabkan keruntuhan server dependen.

Bungie. Efek samping dari perbaikan bug untuk cap waktu yang salah menyebabkan kehilangan data; Kesalahan konfigurasi server untuk perbaikan panas menyebabkan kehilangan data muncul kembali di beberapa server dalam pembaruan berikut.

Game PKC. Saluran logging yang bermasalah menyebabkan node cluster mati selama urutan start cluster setelah meluncurkan tambalan game baru.

Game PKC. Mendokumentasikan kenangan Python yang tidak bertumpuk menggunakan bug yang membutuhkan waktu bertahun -tahun untuk melacak.

Chef.io. Supermarket situs komunitas resep jatuh dua jam setelah peluncuran karena tidak responsif intermiten dan peningkatan latensi. Salah satu alasan utama kegagalan yang diidentifikasi dalam post mortem adalah batas waktu pemeriksaan kesehatan yang sangat rendah.

Circleci. Pemadaman dan pemulihan GitHub menyebabkan beban masuk yang besar secara tak terduga. Untuk alasan yang tidak ditentukan, beban besar menyebabkan sistem antrian Circleci melambat, dalam hal ini menangani satu transaksi per menit.

Circleci. Pada 4 Januari 2023, penyelidikan internal kami telah menentukan ruang lingkup intrusi oleh pihak ketiga yang tidak sah dan jalur masuk serangan. Sampai saat ini, kami telah belajar bahwa malware pihak ketiga yang tidak sah yang dikerahkan ke laptop insinyur Circleci untuk mencuri sesi SSO yang valid dan didukung 2FA. Mesin ini dikompromikan pada 16 Desember 2022. Malware tidak terdeteksi oleh perangkat lunak antivirus kami. Investigasi kami menunjukkan bahwa malware dapat menjalankan pencurian cookie sesi, memungkinkan mereka untuk menyamar sebagai karyawan yang ditargetkan di lokasi terpencil dan kemudian meningkatkan akses ke subset sistem produksi kami.

Cloudflare. Bug parser menyebabkan server CloudFlare Edge mengembalikan memori yang berisi informasi pribadi seperti cookie HTTP, token otentikasi, badan pos HTTP, dan data sensitif lainnya.

Cloudflare. Kelelahan CPU disebabkan oleh aturan WAF tunggal yang berisi ekspresi reguler yang ditulis dengan buruk yang akhirnya menciptakan backtracking yang berlebihan. Aturan ini dikerahkan dengan cepat untuk produksi dan serangkaian peristiwa mengarah ke downtime global 27 menit dari Layanan CloudFlare.

Datadog. Setelah peningkatan otomatis, semua aturan jaringan dihapus dan menyebabkan pemadaman durasi 24 jam dari semua cluster Kubernetes yang dilindungi oleh cilium mereka di semua wilayah dan penyedia cloud mereka.

Perselisihan. Layanan yang mengepakkan mengarah ke kawanan petir yang terhubung kembali begitu muncul. Ini menyebabkan kesalahan cascading di mana layanan frontend kehabisan memori karena antrian internal diisi.

Perselisihan. "Pada sekitar 14:01, contoh Redis yang bertindak sebagai yang utama untuk kelompok yang sangat tersedia yang digunakan oleh layanan API Discord dimigrasi secara otomatis oleh platform cloud Google. Migrasi ini menyebabkan node tidak benar-benar turun offline, memaksa kluster untuk menyeimbangkan dan memicu masalah yang diketahui dengan cara pemasangan API yang tidak diketahui menangani redis yang menangani redis. Sistem waktu nyata Discord.

Dropbox. Postmortem ini cukup tipis dan saya tidak yakin apa yang terjadi. Kedengarannya, mungkin, peningkatan OS yang dijadwalkan entah bagaimana menyebabkan beberapa mesin terhapus, yang mengeluarkan beberapa database.

Duo. Kegagalan cascading karena permintaan antrian yang berlebihan berlebihan kapasitas basis data yang ada dan tidak mencukupi. Perencanaan dan pemantauan kapasitas yang tidak memadai juga dapat dikaitkan.

Game Epik. Beban ekstrem (puncak baru 3,4 juta pengguna bersamaan) menghasilkan campuran gangguan sebagian dan total layanan.

Badan Antariksa Eropa. Overflow terjadi ketika mengonversi angka 16-bit menjadi angka 64-bit dalam sistem bimbingan interial Ariane 5, menyebabkan roket jatuh. Luapan yang sebenarnya terjadi dalam kode yang tidak diperlukan untuk operasi tetapi tetap berjalan. Menurut satu akun, ini menyebabkan pesan kesalahan diagnostik dicetak, dan pesan kesalahan diagnostik entah bagaimana ditafsirkan sebagai data yang valid aktual. Menurut akun lain, tidak ada penangan jebakan yang diinstal untuk overflow.

Elastis. Pelanggan awan elastis dengan penyebaran di wilayah AWS EU-West-1 (Irlandia) mengalami akses yang sangat terdegradasi ke kelompok mereka selama sekitar 3 jam. Selama jangka waktu yang sama ini, ada sekitar 20 menit periode di mana semua penyebaran di wilayah ini sama sekali tidak tersedia.

Elastis. Pelanggan awan elastis dengan penyebaran di wilayah AWS US-East-1 mengalami akses terdegradasi ke kelompok mereka.

Eslint. Pada 12 Juli 2018, seorang penyerang mengkompromikan akun NPM dari seorang pemelihara ESLINT dan menerbitkan paket berbahaya ke registri NPM.

Etsy. Pertama, penyebaran yang seharusnya menjadi penyebaran perbaikan bug kecil juga menyebabkan basis data langsung ditingkatkan pada menjalankan mesin produksi. Untuk memastikan bahwa ini tidak menyebabkan korupsi, Etsy berhenti melayani lalu lintas untuk menjalankan pemeriksaan integritas. Kedua, overflow dalam ID (ditandatangani ints 32-bit) menyebabkan beberapa operasi basis data gagal. Etsy tidak percaya bahwa ini tidak akan mengakibatkan korupsi data dan menurunkan situs sementara peningkatan didorong.

Dengan cepat. Pemadaman global karena bug perangkat lunak yang belum ditemukan yang muncul pada 8 Juni ketika dipicu oleh perubahan konfigurasi pelanggan yang valid.

Flowdock. Pesan instan Flowdock tidak tersedia selama sekitar 24 jam antara 21-22 April 2020. Pandemi Covid-19 menyebabkan peningkatan yang tiba-tiba dan drastis dalam bekerja dari rumah, yang menyebabkan penggunaan flowdock yang lebih tinggi, yang menyebabkan penggunaan CPU tinggi, yang menyebabkan basis data aplikasi menggantung. Beberapa data pengguna hilang secara permanen.

Empat persegi. MongoDB jatuh di bawah beban saat kehabisan memori. Kegagalan itu adalah bencana besar dan tidak anggun karena pola kueri AA yang melibatkan beban baca dengan tingkat lokal yang rendah (setiap check-in pengguna menyebabkan bacaan semua check-in untuk riwayat pengguna, dan catatan adalah 300 byte tanpa lokalitas spasial, yang berarti bahwa sebagian besar data yang ditarik dari setiap halaman tidak perlu). Kurangnya pemantauan pada contoh MongoDB menyebabkan beban tinggi tidak terdeteksi sampai beban menjadi bencana, menyebabkan 17 jam downtime mencakup dua insiden dalam dua hari.

Gentoo. Suatu entitas memperoleh akses ke organisasi Gentoo GitHub, menghapus akses ke semua pengembang dan mulai menambahkan komit di berbagai repositori.

GitHub. Pada 28 Februari 2018, GitHub mengalami serangan DDOS, mengenai situs web dengan 1,35tbps lalu lintas.

Gitlab. Setelah primer terkunci dan dimulai kembali, itu dibawa kembali dengan sistem file yang salah, menyebabkan pemadaman global. Lihat juga Diskusi HN.

Gitlab. Masuknya permintaan kelebihan basis data, menyebabkan replikasi lag, admin lelah menghapus direktori yang salah, enam jam data hilang. Lihat juga laporan sebelumnya dan diskusi HN.

Google. Sistem surat mengirim email kepada orang lebih dari 20 kali. Ini terjadi karena surat dikirim dengan pekerjaan cron batch yang mengirim surat kepada semua orang yang ditandai sebagai menunggu surat. Ini adalah operasi non-atom dan pekerjaan batch tidak menandai orang tidak menunggu sampai semua pesan dikirim.

Google. Filestore memberlakukan batasan global pada permintaan API untuk membatasi dampak dalam skenario kelebihan beban. Pemadaman dipicu ketika layanan internal Google yang mengelola sejumlah besar proyek GCP tidak berfungsi dan membebani API Filestore dengan permintaan, menyebabkan pelambatan global API Filestore. Ini berlanjut sampai layanan internal dijeda secara manual. Sebagai hasil dari pelambatan ini, akses API hanya tidak tersedia untuk semua pelanggan. Ini memengaruhi pelanggan di semua lokasi, karena kuota global yang berlaku untuk Filestore. Akses konsol, gCloud dan API (daftar, getOperation, dll.) Semua gagal selama 3 jam, 12 menit. Mutate operations (CreateInstance, UpdateInstance, CreateBackup, etc.) still succeeded, but customers were unable to check on operation progress.

Google. The Google Meet Livestream feature experienced disruptions that caused intermittent degraded quality of experience for a small subset of viewers, starting 25 October 2021 0400 PT and ending 26 October 2021 1000 PT. Quality was degraded for a total duration of 4 hours (3 hours on 25 October and 1 hour on 26 October). During this time, no more than 15% of livestream viewers experienced higher rebuffer rates and latency in livestream video playback. We sincerely apologize for the disruption that may have affected your business-critical events. We have identified the cause of the issue and have taken steps to improve our service.

Google. On 13 October 2022 23:30 US/Pacific, there was an unexpected increase of incoming and logging traffic combined with a bug in Google's internal streaming RPC library that triggered a deadlock and caused the Write API Streaming frontend to be overloaded. And BigQuery Storage WriteAPI observed elevated error rates in the US Multi-Region for a period of 5 hours.

GPS/GLONASS. A bad update that caused incorrect orbital mechanics calculations caused GPS satellites that use GLONASS to broadcast incorrect positions for 10 hours. The bug was noticed and rolled back almost immediately due to (?) this didn't fix the issue.

Healthcare.gov. A large organizational failure to build a website for United States healthcare.

Heroku. Having a system that requires scheduled manual updates resulted in an error which caused US customers to be unable to scale, stop or restart dynos, or route HTTP traffic, and also prevented all customers from being able to deploy.

Heroku. An upgrade silently disabled a check that was meant to prevent filesystem corruption in running containers. A subsequent deploy caused filesystem corruption in running containers.

Heroku. An upstream apt update broke pinned packages which lead to customers experiencing write permission failures to /dev .

Heroku. Private tokens were leaked, and allowed attackers to retrieve data, both in internal databases, in private repositories and from customers accounts.

Heroku. A change to the core application that manages the underlying infrastructure for the Common Runtime included a dependency upgrade that caused a timing lock issue that greatly reduced the throughput of our task workers. This dependency change, coupled with a failure to appropriately scale up due to increased workload scheduling, caused the application's work queue to build up. Contributing to the issue, the team was not alerted immediately that new router instances were not being initialized correctly on startup largely because of incorrectly configured alerts. These router instances were serving live traffic already but were shown to be in the wrong boot state, and they were deleted via our normal processes due to failing readiness checks. The deletion caused a degradation of the associated runtime cluster while the autoscaling group was creating new instances. This reduced pool of router instances caused requests to fail as more requests were coming in faster than the limited number of routers could handle. This is when customers started noticing issues with the service.

Homebrew. A GitHub personal access token with recently elevated scopes was leaked from Homebrew's Jenkins that allowed access to git push on several Homebrew repositories.

Sarang madu. A tale of multiple incidents, happening mostly due to fast growth.

Sarang madu. Another story of multiple incidents that ended up impacting query performance and alerting via triggers and SLOs. These incidents were notable because of how challenging their investigation turned out to be.

Sarang madu. On September 8th, 2022, our ingest system went down repeatedly and caused interruptions for over eight hours. We will first cover the background behind the incident with a high-level view of the relevant architecture, how we tried to investigate and fix the system, and finally, we'll go over some meaningful elements that surfaced from our incident review process.

Sarang madu. On July 25th, 2023, we experienced a total Honeycomb outage. It impacted all user-facing components from 1:40 pm UTC to 2:48 pm UTC, during which no data could be processed or accessed. The full details of incident triage process is covered in here.

incident.io. A bad event (poison pill) in the async workers queue triggered unhandled panics that repeatedly crashed the app. This combined poorly with Heroku infrastructure, making it difficult to find the source of the problem. Applied mitigations that are generally interesting to people running web services, such as catching corner cases of Go panic recovery and splitting work by type/class to improve reliability.

Indian Electricity Grid. One night in July 2012, a skewed electricity supply-demand profile developed when the northern grid drew a tremendous amount of power from the western and eastern grids. Following a series of circuit breakers tripping by virtue of under-frequency protection, the entire NEW (northern-eastern-western) grid collapsed due to the absence of islanding mechanisms. While the grid was reactivated after over 8 hours, similar conditions in the following day caused the grid to fail again. However, the restoration effort concluded almost 24 hours after the occurrence of the latter incident.

Instapaper. Also this. Limits were hit for a hosted database. It took many hours to migrate over to a new database.

Intel. A scripting bug caused the generation of the divider logic in the Pentium to very occasionally produce incorrect results. The bug wasn't caught in testing because of an incorrect assumption in a proof of correctness. (See the Wikipedia article on 1994 FDIV bug for more information.)

Joyent. Operations on Manta were blocked because a lock couldn't be obtained on their PostgreSQL metadata servers. This was due to a combination of PostgreSQL's transaction wraparound maintenance taking a lock on something, and a Joyent query that unnecessarily tried to take a global lock.

Joyent. An operator used a tool with lax input validation to reboot a small number of servers undergoing maintenance but forgot to type -n and instead rebooted all servers in the datacenter. This caused an outage that lasted 2.5 hours, rebooted all customer instances, put tremendous load on DHCP/TFTP PXE boot systems, and left API systems requiring manual intervention. See also Bryan Cantrill's talk.

Kickstarter. Primary DB became inconsistent with all replicas, which wasn't detected until a query failed. This was caused by a MySQL bug which sometimes caused order by to be ignored.

Kings College London. 3PAR suffered catastrophic outage which highlighted a failure in internal process.

Launchdarkly. Rule attribute selector causing flag targeting web interface to crash.

Mailgun. Secondary MongoDB servers became overloaded and while troubleshooting accidentally pushed a change that sent all secondary traffic to the primary MongoDB server, overloading it as well and exacerbating the problem.

Mandrill. Transaction ID wraparound in Postgres caused a partial outage lasting a day and a half.

Sedang. Polish users were unable to use their "Ś" key on Medium.

Metrist. Azure published a breaking change that affected downstream systems like Metrist's service without warning them, the post covers how to identify the issue and how to recover from it.

NASA. A design flaw in the Apollo 11 rendezvous radar produced excess CPU load, causing the spacecraft computer to restart during lunar landing.

NASA. Use of different units of measurement (metric vs. English) caused Mars Climate Orbiter to fail. There were also organizational and procedural failures[ref] and defects in the navigation software[ref].

NASA. NASA's Mars Pathfinder spacecraft experienced system resets a few days after landing on Mars (1997). Debugging features were remotely enabled until the cause was found: a priority inversion problem in the VxWorks operating system. The OS software was remotely patched (all the way to Mars) to fix the problem by adding priority inheritance to the task scheduler.

Netflix. An EBS outage in one availability zone was mitigated by migrating to other availability zones.

North American Electric Power System. A power outage in Ohio around 1600h EDT cascaded up through a web of systemic vulnerabilities and process failures and resulted in an outage in the power grid affecting ~50,000,000 people for ~4 days in some areas, and caused rolling blackouts in Ontario for about a week thereafter.

Okta. A hackers group got access to a third-party support engineer's laptop.

OpenAI. Queues for requests and responses in a Redis cache became corrupted and out of sequence, leading to some requests revealing other people's user data to some users, including app activity data and some billing info.

Pagerduty. In April 2013, Pagerduty, a cloud service proving application uptime monitoring and real-time notifications, suffered an outage when two of its three independent cloud deployments in different data centers began experiencing connectivity issues and high network latency. It was found later that the two independent deployments shared a common peering point which was experiencing network instability. While the third deployment was still operational, Pagerduty's applications failed to establish quorum due to to high network latency and hence failed in their ability to send notifications.

PagerDuty. A third party service for sending SMS and making voice calls experienced an outage due to AWS having issues in a region.

Keseimbangan. $30 million of cryptocurrency value was diverted (stolen) with another $150 million diverted to a safe place (rescued), after a 4000-line software change containing a security bug was mistakenly labeled as a UI change, inadequately reviewed, deployed, and used by various unsuspecting third parties. See also this analysis.

Platform.sh. Outage during a scheduled maintenance window because there were too much data for Zookeeper to boot.

Reddit. Experienced an outage for 1.5 hours, followed by another 1.5 hours of degraded performance on Thursday August 11 2016. This was due to an error during a migration of a critical backend system.

Reddit. Outage for over 5 hours when a critical Kubernetes cluster upgrade failed. The failure was caused by node metadata that changed between versions which brought down workload networking.

Roblox. Roblox end Oct 2021 73 hours outage. Issues with Consul streaming and BoltDB.

Salesforce. Initial disruption due to power failure in one datacenter led to cascading failures with a database cluster and file discrepancies resulting in cross data center failover issues.

Salesforce. On September 20, 2023, a service disruption affected a subset of customers across multiple services beginning at 14:48 Coordinated Universal Time (UTC). As a result, some customers were unable to login and access their services. A policy change executed as a part of our standard security controls review and update cycle to be the trigger of this incident. This change inadvertently blocked access to resources beyond its intended scope.

Sentry. Transaction ID Wraparound in Postgres caused Sentry to go down for most of a working day.

Shapeshift. Poor security practices enabled an employee to steal $200,000 in cryptocurrency in 3 separate hacks over a 1 month period. The company's CEO expanded upon the story in a blog post.

Skyliner. A memory leak in a third party library lead to Skyliner being unavailable on two occasions.

Kendur. A combination of factor results in a large number of Slack's users being disconnected to the server. The subsequent massive disconnection-reconnection process exceeded the database capacity and caused cascading connection failures, leading to 5% of Slack's users not being able to connect to the server for up to 2 hours.

Kendur. Network saturation in AWS's traffic gateways caused packet loss. An attempt to scale up caused more issues.

Kendur. Cache nodes removal caused the high workload on the vitness cluster, which in turn cased the service outage.

Spotify. Lack of exponential backoff in a microservice caused a cascading failure, leading to notable service degradation.

Persegi. A cascading error from an adjacent service lead to merchant authentication service being overloaded. This impacted merchants for ~2 hours.

Stackdriver. In October 2013, Stackdriver, experienced an outage, when its Cassandra cluster crashed. Data published by various services into a message bus was being injested into the Cassandra cluster. When the cluster failed, the failure percolated to various producers, that ended up blocking on queue insert operations, eventually leading to the failure of the entire application.

Stack Exchange. Enabling StackEgg for all users resulted in heavy load on load balancers and consequently, a DDoS.

Stack Exchange. Backtracking implementation in the underlying regex engine turned out to be very expensive for a particular post leading to health-check failures and eventual outage.

Stack Exchange. Porting old Careers 2.0 code to the new Developer Story caused a leak of users' information.

Stack Exchange. The primary SQL-Server triggered a bugcheck on the SQL Server process, causing the Stack Exchange sites to go into read only mode, and eventually a complete outage.

Strava. Hit the signed integer limit on a primary key, causing uploads to fail.

Garis. Manual operations are regularly executed on production databases. A manual operation was done incorrectly (missing dependency), causing the Stripe API to go down for 90 minutes.

Swedia. Use of different rulers by builders caused the Vasa to be more heavily built on its port side and the ship's designer, not having built a ship with two gun decks before, overbuilt the upper decks, leading to a design that was top heavy. Twenty minutes into its maiden voyage in 1628, the ship heeled to port and sank.

Tarsnap. A batch job which scans for unused blocks in Amazon S3 and marks them to be freed encountered a condition where all retries for freeing certain blocks would fail. The batch job logs its actions to local disk and this log grew without bound. When the filesystem filled, this caused other filesystem writes to fail, and the Tarsnap service stopped. Manually removing the log file restored service.

Telstra. A fire in a datacenter caused SMS text messages to be sent to random destinations. Corrupt messages were also experienced by customers.

Therac-25. The Therac-25 was a radiation therapy machine involved in at least six accidents between 1985 and 1987 in which patients were given massive overdoses of radiation. Because of concurrent programming errors, it sometimes gave its patients radiation doses that were thousands of times greater than normal, resulting in death or serious injury.

trivago. Due to a human error, all engineers lost access to the central source code management platform (GitHub organization). An Azure Active Directory Security group controls the access to the GitHub organization. This group was removed during the execution of a manual and repetitive task.

Twilio. In 2013, a temporary network partition in the redis cluster used for billing operations, caused a massive resynchronization from slaves. The overloaded master crashed and when it was restarted, it started up in read-only mode. The auto-recharge component in This resulted in failed transactions from Twilio's auto-recharge service, which unfortunately billed the customers before updating their balance internally. So the auto-recharge system continued to retry the transaction again and again, resulting in multiple charges to customer's credit cards.

Twilio. Twilio's incident of having high filtering on SMS towards AT&T Network In United States.

Katup. Steam's desktop client deleted all local files and directories. The thing I find most interesting about this is that, after this blew up on social media, there were widespread reports that this was reported to Valve months earlier. But Valve doesn't triage most bugs, resulting in an extremely long time-to-mitigate, despite having multiple bug reports on this issue.

Yeller. A network partition in a cluster caused some messages to get delayed, up to 6-7 hours. For reasons that aren't clear, a rolling restart of the cluster healed the partition. There's some suspicious that it was due to cached routes, but there wasn't enough logging information to tell for sure.

Zerodha. The Order Management System (OMS) provided to Zerodha, a stock broker, collapsed when an order for 1M units of a penny stock was divided into more than 0.1M individual trades against the typical few hundreds, triggering a collapse of the OMS, which was not encountered prior by its provider - Refinitiv (formerly Thomson Reuters), a subsidiary of the London Stock Exchange.

Zerodha. A failure of the primary leased line to a CTCL between a stock broker and a stock exchange led to the activation of a backup leased line that was operating sporadically over the following hour, affecting bracket and cover orders. Subsequently, the process of placing and validating orders had been modified to incorporate the unreliability of the CTCL's leased lines, but the reliability of the primary and the backup leased lines was not fundamentally improved by the providers.

Unfortunately, most of the interesting post-mortems I know about are locked inside confidential pages at Google and Microsoft. Please add more links if you know of any interesting public post mortems! is a pretty good resource; other links to collections of post mortems are also appreciated.