أليغرو. انخفض موقع التجارة الإلكترونية بعد ارتفاع حركة المرور المفاجئة الناجمة عن حملة تسويقية. كان سبب انقطاع التيار الكهربائي خطأ في التكوين في إدارة موارد الكتلة التي منعت المزيد من مثيلات الخدمة من البدء على الرغم من توفر موارد الأجهزة.
CloudFlare. تسبب التكوين السيئ (قاعدة التوجيه) في تعطل جميع أجهزة توجيه الحافة الخاصة بهم ، مما يؤدي إلى إنزال كل من CloudFlare.
CloudFlare. أثناء صيانة شبكة العمود الفقري الخاص بهم ، قام مهندس بعمل مطبعي في تكوين شبكة Atlanta Datacenter ، مما تسبب في جميع حركة المرور القادمة من أمريكا وأوروبا تتدفق إلى هذا المركز الوطني فقط ، وسحقها.
CloudFlare. تسبب الطلب غير الصحيح للبادئات المعلنة في BGP المعطلة في عطل في 19 مركز بيانات.
CloudFlare. تسبب التغيير في نظام ذاكرة التخزين المؤقت المتدرج لدينا في فشل بعض الطلبات للمستخدمين الذين لديهم رمز الحالة 530. استمر التأثير لمدة ست ساعات تقريبًا. نحن نقدر أن حوالي 5 ٪ من جميع الطلبات فشل في الذروة. بسبب تعقيد نظامنا وبقعة عمياء في اختباراتنا ، لم نرصد هذا عندما تم إصدار التغيير في بيئة الاختبار الخاصة بنا.
CloudFlare. أصبحت العديد من خدمات CloudFlare غير متوفرة لمدة 121 دقيقة في 24 يناير 2023 بسبب خطأ في إطلاق الرمز الذي يدير رموز الخدمة. قام الحادث بتدهور مجموعة واسعة من منتجات CloudFlare بما في ذلك جوانب منصة العمال لدينا ، وحلنا Zero Trust ، ووظائف التحكم في طائرة التحكم في شبكة توصيل المحتوى الخاصة بنا (CDN).
CloudFlare. في 4 أكتوبر 2023 ، شهدت CloudFlare مشاكل في حل DNS بدءًا من الساعة 07:00 بالتوقيت العالمي وتنتهي في الساعة 11:00 بالتوقيت العالمي. بعض المستخدمين من 1.1.1.1 أو منتجات مثل Warp أو Zero Trust أو Resolvers من طرف ثالث والتي تستخدم 1.1.1.1 قد تتلقى ردود ServFail DNS على استعلامات صالحة. نحن آسفون للغاية على هذا الانقطاع. كان هذا الانقطاع خطأ في البرامج الداخلية وليس نتيجة هجوم. في هذه المدونة ، سنتحدث عن الفشل ، ولماذا حدث ، وما نفعله للتأكد من أن هذا لا يحدث مرة أخرى.
datadog. قام تكوين اكتشاف الخدمة السيئة في أحد العملاء بإسقاط اكتشاف الخدمة على مستوى العالم عندما سقط عميل معال.
enom. في 15 كانون الثاني (يناير) 2022 ، الساعة 9:00 صباحًا بتوقيت شرق الولايات المتحدة ، بدأ فريق هندسة Tucows أعمال الصيانة المخطط له لترحيل منصة Enom إلى بنية تحتية سحابة جديدة. بسبب تعقيد القطع ، واجه الفريق العديد من القضايا مما أدى إلى تأخير مستمر. تم تمديد نافذة الصيانة عدة مرات لمعالجة المشكلات المتعلقة بتكرار البيانات ، وتوجيه الشبكة ، ومشكلات دقة DNS التي تؤثر على إمكانية الوصول إلى الموقع وتسليم البريد الإلكتروني.
etsy. تسبب إرسال حركة مرور البث المتعدد دون تكوين المفاتيح بشكل صحيح في انقطاع عالمي Etsy.
فيسبوك. تسببت تغييرات التكوين في أجهزة توجيه العمود الفقري على Facebook في انقطاع عالمي لجميع خصائص Facebook والأدوات الداخلية.
فيسبوك. قام تكوين سيء بإسقاط كل من Facebook و Instagram.
Firefox. في 13 يناير 2022 ، أثار مسار رمز معين في مكدس شبكة Firefox مشكلة في تطبيق بروتوكول HTTP/3. هذا هو اتصال الشبكة المحظور وجعل Firefox غير مستجيب ، غير قادر على تحميل محتوى الويب لمدة ساعتين تقريبًا.
Gocardless. أدى التكوين السيئ إلى جانب مجموعة غير مألوفة من الإخفاقات إلى انقطاع مجموعة قاعدة البيانات ، مع أخذ واجهة برمجة التطبيقات ولوحة القيادة دون اتصال.
[Google] (https://cloud.google.com/blog/products/infracture/details-of-google-cloud-gcve-incident). تم تنفيذ توفير GCVE الأولي مع خيار قديم ، مما يؤدي إلى عقد "مدة ثابتة" مع الحذف التلقائي في نهاية تلك الفترة.
جوجل. أدى التهيئة السيئة (المتمثل في تلقائي) بإزالة جميع كتل IP للمحرك من Google Compute من إعلانات BGP.
جوجل. قام تكوين سيء (AutoGenerated) بإسقاط معظم خدمات Google.
جوجل. تسبب التكوين السيئ في فشل خدمة الحصص ، مما تسبب في فشل خدمات متعددة (بما في ذلك Gmail).
جوجل. / تم فحصه في القائمة السوداء عناوين URL ، مما تسبب في إظهار كل عنوان URL تحذيرًا.
جوجل. يؤدي وجود خطأ في تكوين تكوين إلى موازن التحميل إلى زيادة معدلات الخطأ لمدة 22 دقيقة.
جوجل. يهدف تغيير التكوين الذي يهدف إلى معالجة الطلب في الطلب على تخزين البيانات الوصفية ، والذي زاد جزءًا من نظام البحث ، والذي تسبب في فشل متتالي مع تأثير الخدمة المرئية للمستخدم على Gmail وصور Google و Google Drive وخدمات GCP الأخرى التي تعتمد على تخزين Blob.
جوجل. تسببت اثنين من عمليات التكوين الخاطئة ، بالإضافة إلى خطأ في البرمجيات ، في فشل شبكة Google Cloud ضخمة على الساحل الشرقي الأمريكي.
جوجل. شهدت خدمة موازنة التحميل الأمامية من Google إخفاقات مما أدى إلى تأثير على العديد من خدمات Google Cloud في أوروبا. من التحليل الأولي ، كان السبب الجذري للمسألة ناتجًا عن ميزة البنية التحتية الجديدة التي تؤدي إلى مشكلة كامنة ضمن رمز موازنة تحميل الشبكة الداخلية.
جوجل. تواجه Google Cloud Networking مشكلات مع خدمة توازن Google Cloud Load (GCLB) مما يؤدي إلى تأثير على العديد من خدمات Google Cloud. لاحظ العملاء المتأثرون أخطاء Google 404 على مواقع الويب الخاصة بهم. من التحليل الأولي ، كان السبب الجذري للقضية خطأ كامن في خدمة تكوين الشبكة التي تم تشغيلها أثناء تشغيل النظام الروتيني.
جوجل. شهدت شبكة Google Cloud Networking انخفاض سعة حركة مرور ذات أولوية أقل مثل عمليات الدفعة والبث والنقل من الساعة 19:30 من الولايات المتحدة/المحيط الهادئ يوم الخميس ، 14 يوليو 2022 ، حتى 15:02 الولايات المتحدة/المحيط الهادئ يوم الجمعة ، 15 يوليو 2022. لم تتأثر حركة المرور عالية الأولوية. نتج عن تعطيل الخدمة هذا عن مشكلة تمت مواجهتها خلال مجموعة من أعمال الإصلاح وترتيب ترقية برامج الشبكة الروتينية. نظرًا لطبيعة إمكانات الاضطراب والمرونة لمنتجات Google Cloud ، تختلف المناطق المتأثرة ونوافذ التأثير الفردية بشكل كبير.
هيروكو. لم ينشر تغيير التكوين عن بُعد الآلي بالكامل. لا يمكن أن تبدأ Web Dynos.
هيروكو. تسببت عملية النشر غير الصحيحة في عدم استخدام متغيرات التكوين الجديدة عند عدم استخدام الرمز.
KeepTheScore. حذف المهندسون قاعدة بيانات الإنتاج عن طريق الحادث. قاعدة البيانات عبارة عن قاعدة بيانات مُدارة من DigitaloCean مع نسخ احتياطية مرة واحدة في اليوم. بعد 30 دقيقة من الكارثة ، عادت عبر الإنترنت ، ومع ذلك فقدت 7 ساعات من بيانات لوحة النتائج إلى الأبد.
Microsoft. قام تكوين سيء بتسجيل التخزين Azure.
NPM. تسبب تغيير التكوين بسرعة في مشكلة توجيه الواجهة الخلفية. على وجه الدقة ، المشكلة هي أننا كنا نضع req.backend في وظيفة VCL_Fetch ، ثم استدعاء إعادة التشغيل لإعادة تجديد القواعد. ومع ذلك ، فإن استدعاء إعادة التشغيل ستعيد تعيين req.backend إلى الأول المدعوم في القائمة ، والتي في هذه الحالة كانت مانتا ، بدلاً من خوادم CouchDB المتوازنة.
أواسا. يؤدي الضغط الخاطئ للزر إلى إغلاق محطة معالجة المياه بسبب مستويات عالية جدًا من الفلوريد.
PAGERDUTY. في 15 ديسمبر ، 2021 في 00:17 UTC ، قمنا بنشر تغيير تكوين DNS في البنية التحتية لـ PagerDuty التي أثرت على مجموعة أولاد الحاويات الخاصة بنا. احتوى التغيير على عيب ، لم نكتشفه في بيئات الاختبار الخاصة بنا ، والتي تسببت على الفور في عدم قدرة جميع الخدمات التي تعمل في مجموعة أحواض الحاويات على حل DNS.
رازورباي. أبرز فشل أجهزة RDS تكوين MySQL غير صحيح والذي أدى إلى فقدان البيانات الرئيسية في نظام مالي.
الصدأ. في يوم الأربعاء ، 2023-01-25 في 09:15 بالتوقيت العالمي ، قمنا بنشر تغييرات على البنية التحتية للإنتاج لـ Cates.io. أثناء النشر ، فشل سجل DNS لـ static.crates.io في حلها لفترة تقديرية من 10 إلى 15 دقيقة. كان بسبب حقيقة أن كل من الشهادات وسجلات DNS تم إعادة إنشاءها خلال فترة التوقف.
الصدأ. في 2023-07-20 بين الساعة 12:17 و 12:30 UTC ، تم كسر جميع تنزيلات CRAT من Cattes.io بسبب النشر الذي يحتوي على خطأ في توليد URL للتنزيل. خلال هذا الوقت ، كان لدينا ما معدله 4.71 ألف طلب في الثانية إلى Cats.io ، مما أدى إلى حوالي 3.7 مليون طلبات فاشلة ، بما في ذلك محاولات إعادة المحاولة من الشحن.
مكدس فائض. تهيئة جدار الحماية السيئ منعت stackexchange/stackoverflow.
خفير. تؤدي إعدادات Amazon S3 الخاطئة على النسخ الاحتياطية إلى تسرب البيانات.
ترافيسي. أدت مشكلة التكوين (دوران كلمة المرور غير المكتملة) إلى "تسرب" VMs ، مما يؤدي إلى ارتفاع أوقات قائمة انتظار البناء.
ترافيسي. تسبب مشكلة التكوين (وظيفة تنظيف صورة Google Compute Agated Aguated VEN VM) التي تسببت في حذف صور VM قاعدة مستقرة.
ترافيسي. تغيير التكوين الذي جعل البناء يبدأ في الفشل. اندلعت التراجع اليدوي.
ترافيسي. متغير البيئة العرضية التي أجريت اختبارات تقطيع قاعدة بيانات الإنتاج.
توي. قبل الرحلة الحادث ، تم ترقية نظام الحجز الذي تم إنتاج ورقة الحمل منه. تسبب خطأ في النظام في فحص المسافرين من خلال عنوان "Miss" كأطفال. خصصهم النظام وزنًا قياسيًا للطفل يبلغ 35 كجم بدلاً من الوزن القياسي للإناث الصحيح البالغ 69 كجم. وبالتالي ، مع فحص 38 إناثًا بشكل غير صحيح وسوء المعرفة كأطفال ، كانت كتلة الإقلاع G-Tawg من ورقة الحمل 1،244 كجم تحت الكتلة الفعلية للطائرة.
TURSO. أدت معرفات النسخ الاحتياطي DB المكونة بشكل غير صحيح إلى تسرب بيانات لعملاء الطبقة المجانية ، وأدى الإصلاح اللاحق إلى فقدان البيانات المحتمل.
صمام. على الرغم من عدم وجود الوفاة الرسمية بعد الوفاة ، إلا أنه يبدو أن تكوين BGP سيئ قطع اتصال Valve إلى المستوى 3 و Telia و Abovenet/Zayo ، مما أدى إلى انقطاع البخار العالمي.
أمازون. تسبب حدث غير معروف في فشل المحول. فشلت إحدى PLCs التي تتحقق من أن قوة المولد في المرحلة لسبب غير معروف ، مما منع مجموعة من المولدات الاحتياطية من الحضور عبر الإنترنت. هذا أثر على EC2 و EBS و RDS في غرب الاتحاد الأوروبي.
أمازون. تسبب سوء الأحوال الجوية في فشل الطاقة في جميع أنحاء الشرق. فشل مولد نسخ احتياطي واحد في توصيل طاقة مستقرة عندما يتم تحويل الطاقة إلى النسخ الاحتياطي وتم تحميل المولد. هذا على الرغم من اجتياز اختبارات الحمل قبل شهرين ، وتم اجتياز اختبارات الطاقة الأسبوعية.
أمازون. في الساعة 10:25 مساءً PDT في 4 يونيو ، يؤدي فقدان الطاقة في منشأة AWS Sydney الناتجة عن الطقس القاسي في تلك المنطقة إلى تعطيل إلى عدد كبير من الحالات في منطقة التوفر. نظرًا لتوقيع فقدان الطاقة ، لم تنخرط عزلات الطاقة ، مما أدى إلى استنزاف احتياطيات الطاقة الاحتياطية في شبكة الطاقة المتدهورة.
Arpanet. تعطل بيانات التوجيه التالفة (معالج رسالة الواجهة) التالف ، تم إعادة حساب البرامج التي تم إعادة صياغتها التي تنشر البيانات السيئة مع عمليات فحص جيدة ، وتسبب أرقام التسلسل غير الصحيحة في ملء المخازن المؤقتة ، وتسبب المخازن المؤقتة الكاملة في فقدان حزم Keepalive والعقد من الشبكة. من 1980.
CloudFlare. تسبب مفتاح سوء التصرف الجزئي في فشل بيزنطي متتالي أثر على توافر واجهة برمجة التطبيقات ولوحة القيادة لمدة ست ساعات و 33 دقيقة.
CloudFlare. انقطاع طاقة مركز البيانات المرن. يحدد هذا المنشور الأحداث التي تسببت في هذا الحادث.
FirstEnergy / General Electric. كان لدى FirstEnergy فشلًا محليًا عندما ضربت بعض خطوط النقل أوراق الشجر غير المتطورة. تتمثل العملية العادية في أن ينفجر إنذار ، مما يجعل المشغلين البشريين يعيدون توزيع القوة. لكن نظام GE الذي كان يراقب هذا كان له خطأ منع التنبيه من التشغيل ، مما تسبب في نهاية المطاف في فشل متتالي أثر في النهاية على 55 مليون شخص.
جيثب. في 28 يناير 2016 ، عانى Github من اضطراب في الطاقة في مركز البيانات الأساسي.
جوجل. تسببت ضربات البرق المتتالية على مركز البيانات الأوروبي (أوروبا-ويست 1-ب) في فقدان الطاقة لأنظمة تخزين محركات حساب Google داخل تلك المنطقة. وقد لوحظت أخطاء الإدخال/الإخراج على مجموعة فرعية من الأقراص المستمرة القياسية (HDDs) ولوحظ فقدان البيانات الدائمة على جزء صغير من هؤلاء.
جوجل. في يوم الثلاثاء ، 19 يوليو 2022 في الساعة 06:33 ، فإن الفشل المتزامن في أنظمة التبريد المتعددة والمتكررة في أحد مراكز البيانات التي تستضيف منطقة أوروبا-ويست 2-A تتأثر بخدمات Google Cloud المتعددة. وقد أدى ذلك إلى بعض العملاء الذين يعانون من عدم توفر الخدمة للمنتجات المتأثرة.
بيثوناني في أي مكان. تسبب فشل حجم التخزين على أحد خوادم التخزين في عدد من انقطاع التيار ، بدءًا من موقع Pythonanywhere وأيضًا مع برامج المستخدمين (بما في ذلك مواقع الويب) التي كانت تعتمد على هذا المجلد ، وانتشر لاحقًا إلى مواقع مضيفة أخرى.
شمس. لم يشمل Sun الشهيرة ECC في أجيال زوجين من أجزاء الخادم. هذا أدى إلى فساد البيانات وتحطمها. بعد MO النموذجي لـ Sun ، قاموا بعمل العملاء الذين أبلغوا عن علامة على NDA قبل شرح المشكلة.
ألعاب CCP. تسببت خطأ الأخطاء المطبعية والاسم في حذف التثبيت في بعض الأحيان ملف التمهيد .
جيثب. تسبب قسم الشبكة 43 ثانية أثناء الصيانة في MySQL Master Failover ، لكن السيد الجديد لم يكن لديه عدة ثوانٍ من الكتابة المقترحة به بسبب الكمون عبر القارة. 24+ ساعة من أعمال الترميم للحفاظ على سلامة البيانات.
Gocardless. تم حظر جميع الاستعلامات على جدول PostgreSQL الحرج من خلال مزيج من ترحيل قاعدة البيانات السريعة للغاية واستعلام قراءة طويلة الأمد ، مما تسبب في 15 ثانية من التوقف.
جوجل. تم تطبيق العديد من التغييرات على موازن التحميل الذي نادراً ما تم تعديله من خلال مسار رمز بطيء للغاية. تجمدت هذا كل التغييرات المعالجة العامة لمدة ساعتين تقريبًا.
جوجل. أدى فشل أحد المكونات على مسار الألياف من أحد حرم البوابة الأمريكية المركزية في العمود الفقري لإنتاج Google إلى انخفاض في نطاق النطاق الترددي للشبكة بين البوابة ومواقع حافة متعددة ، مما تسبب في فقدان الحزمة أثناء نقل العمود الفقري تلقائيًا على حركة المرور على المسارات المتبقية.
نايت كابيتال. مزيج من الإصدارات المتضاربة المنشورة وإعادة استخدام بت المستخدمة مسبقًا تسببت في خسارة بقيمة 460 مليون دولار. انظر أيضا كتابة أطول.
مستودع رمز WebKit. أصبح مستودع WebKit ، وهو مستودع تخريب تم تكوينه لاستخدام إلغاء البيانات المستهلكة ، غير متاح بعد أن تم التحقق من ملفين مع تجزئة SHA-1 كبيانات اختبار ، بقصد تنفيذ فحص السلامة للتصادمات. كان للملفين مبالغ MD5 مختلفة ، وبالتالي فإن الخروج سيفشل في فحص الاتساق. بالنسبة للسياق ، تم الإعلان عن أول تصادم تجزئة SHA-1 العام مؤخرًا ، مع مثال على ملفين تصادمين.
أزور. تم إنشاء الشهادات التي كانت صالحة لمدة عام واحد. بدلاً من استخدام مكتبة مناسبة ، كتب شخص ما رمزًا يحسب سنة واحدة ليكون التاريخ الحالي بالإضافة إلى سنة واحدة. في 29 فبراير 2012 ، أدى ذلك إلى إنشاء شهادات بتاريخ انتهاء الصلاحية في 29 فبراير 2013 ، والتي تم رفضها بسبب التاريخ غير الصحيح. تسبب هذا في انقطاع Azure العالمي الذي استمر لمعظم اليوم.
CloudFlare. يتدفق الوقت المتخلف من تتبع القفزة السابعة والعشرين في 2016-12-31T23: 59: 60Z تسبب في اختيار مستدير روبن مرجح لمحلول DNS (RRDNs) للذعر والفشل في بعض عمليات البحث CNAME. كان من المفترض أن يكون Go's time.Now() بشكل غير صحيح ؛ هذا حقن القيم السلبية في مكالمات إلى rand.Int63n() ، والتي الذعر في هذه الحالة.
Linux. تم استدعاء رمز LEAP الثاني من معالج المقاطعة الموقت ، والذي عقد xtime_lock . قام هذا الرمز بعمل printk لتسجيل القفزة الثانية. يستيقظ printk على klogd ، والذي قد يحاول أحيانًا الحصول على الوقت ، الذي ينتظر على xtime_lock ، مما تسبب في طريق مسدود.
Linux. عندما حدثت قفزة ثانية ، تم إعادة تشغيل CLOCK_REALTIME بمقدار ثانية واحدة. لم يتم ذلك عبر آلية من شأنها تحديث hrtimer base.offset . هذا يعني أنه عند حدوث مقاطعة مؤقت ، تم انتهاء صلاحية توقيت Timer_abstime Clock_Realtime في وقت مبكر ، بما في ذلك أجهزة ضبط الوقت لأقل من ثانية واحدة. تسبب هذا في التطبيقات التي استخدمت النوم لأقل من ثانية واحدة في حلقة إلى Spinwait دون النوم ، مما تسبب في حمولة عالية على العديد من الأنظمة. تسبب هذا في انخفاض عدد خدمات الويب في عام 2012.
موزيلا. توقفت معظم الوظائف الإضافية Firefox عن العمل في 4 مايو 2019 عندما انتهت صلاحية شهادة. يتطلب Firefox سلسلة شهادة صالحة لمنع البرامج الضارة. بعد حوالي تسع ساعات ، دفعت Mozilla إضافة مميزة تم حقن شهادة صالحة في متجر شهادات Firefox ، وإنشاء سلسلة صالحة وإضفاء الطابع الإضافي. هذه المعاقين بشكل فعال جميع الإضافات ، حوالي 15000 ، واستغرق القرار حوالي 15-21 ساعة لمعظم المستخدمين. تم فقد بعض بيانات المستخدم. سبق أن نشرت موزيلا حول التفاصيل الفنية.
جيثب. واجهت منصة Github وضع فشل جديد عند معالجة ترحيل المخطط على جدول MySQL كبير. تعتبر ترحيل المخطط مهمة مشتركة في Github وغالبًا ما تستغرق أسابيع لإكمالها. الخطوة الأخيرة في الترحيل هي إجراء تسمية لنقل الجدول المحدث إلى المكان الصحيح. خلال الخطوة الأخيرة من هذه الترحيل ، دخل جزء كبير من MySQL Read REPLICAS إلى طريق مسدود. تتكون مجموعات MySQL الخاصة بنا من عقدة أولية لحركة الكتابة ، ومواد النسخ المتماثلة القراءة المتعددة لحركة الإنتاج ، والعديد من النسخ المتماثلة التي تخدم حركة المرور الداخلية لأغراض النسخ الاحتياطي والتحليلات. دخلت النسخ المتماثلة القراءة التي وصلت إلى حالة readlock إلى حالة استرداد الحادث مما تسبب في زيادة الحمل على النسخ المتماثلة للقراءة الصحية. نظرًا للطبيعة المتتالية لهذا السيناريو ، لم يكن هناك ما يكفي من النسخ المتماثلة للقراءة النشطة للتعامل مع طلبات الإنتاج التي أثرت على توفر خدمات الجيثب الأساسية.
هيروكو. في 15:05 UTC في 8 يونيو 2023 ، حدث خطأ في قاعدة البيانات حيث استخدم مفتاح خارجي نوع بيانات أصغر من المفتاح الأساسي الذي أشار إليه. تسبب هذا الخطأ في تدفق فائض عندما تجاوز المفتاح الأساسي القيمة المسموح بها ، مما أدى إلى عدم القدرة على إنشاء تراخيص جديدة داخل Heroku. هذا الخطأ يمنع العملاء أيضًا من إنشاء عمليات نشر جديدة. ثم أدت عمليات Oncall بعد ذلك إلى انقطاع API Heroku.
أليغرو. عانت منصة Allegro من فشل نظام فرعي مسؤول عن معالجة المهام الموزعة غير المتزامنة. أثرت المشكلة على العديد من المجالات ، مثل ميزات مثل شراء العديد من العروض عبر CART و STERNED EDIDE (بما في ذلك تحرير قائمة الأسعار) لم تنجح على الإطلاق. علاوة على ذلك ، فشلت جزئيا في إرسال النشرة الإخبارية اليومية مع عروض جديدة. أيضا تأثرت بعض أجزاء لجنة الإدارة الداخلية.
أمازون. خطأ بشري. في 28 فبراير 2017 9:37 AM PST ، كان فريق Amazon S3 يصحح قضية بسيطة. على الرغم من استخدام كتاب اللعب المعمول به ، تم إصدار أحد الأوامر التي تنوي إزالة عدد صغير من الخوادم باستخدام خطأ مطبعي ، مما تسبب في إزالة مجموعة أكبر من الخوادم. دعمت هذه الخوادم أنظمة S3 الحرجة. نتيجة لذلك ، تتطلب الأنظمة المعتمدة إعادة تشغيل كامل للعمل بشكل صحيح ، وخضع النظام على انقطاع واسع النطاق لـ US-East-1 (شمال فرجينيا) حتى القرار النهائي في 1:54 مساءً بتوقيت المحيط الهادئ. نظرًا لأن خدمات Amazon الخاصة مثل EC2 و EBS تعتمد على S3 أيضًا ، فقد تسببت في فشل متتالي شاسع أثر على مئات الشركات.
أمازون. تسبب فساد الرسائل في أن وظيفة حالة الخادم الموزعة تتغلب على الموارد على أسطول معالجة طلب S3.
أمازون. أدى الخطأ البشري أثناء ترقية الشبكات الروتينية إلى أزمة موارد ، تفاقمت بواسطة أخطاء البرمجيات ، والتي أدت في النهاية إلى انقطاع في جميع مناطق توافر الشرق في الولايات المتحدة بالإضافة إلى فقدان 0.07 ٪ من المجلدات.
أمازون. أدى عدم القدرة على الاتصال بخادم جمع البيانات إلى ظل تسرب الذاكرة الكامن في وكيل التقارير على خوادم التخزين. وليس هناك معالجة تدهور رشيقة ، وبالتالي اتصل وكيل التقارير باستمرار بخادم المجموعة بطريقة تستهلك ببطء ذاكرة النظام. كما فشل نظام المراقبة في إنذار تسرب ذاكرة خادم EBS هذا ، كما أن خوادم EBS تستخدم عمومًا استخدامًا ديناميكيًا للغاية لجميع الذاكرة. بحلول صباح الاثنين ، أصبح معدل فقدان الذاكرة مرتفعًا جدًا وخلط ما يكفي من الذاكرة على خوادم التخزين المتأثرة التي لا يمكنها الحفاظ على عملية معالجة الطلبات. تم قطع هذا الخطأ بشكل أكبر بسبب عدم القدرة على القيام بالفشل ، مما أدى إلى انقطاع التيار الكهربائي.
أمازون. واجهت موازن الحمل المرن مشكلات عندما "عملية الصيانة التي تم تشغيلها عن غير قصد ضد بيانات ولاية ELB الإنتاج".
أمازون. تسببت "تعطيل الشبكة" في تولي خدمات البيانات الوصفية التي تسببت في تجاوز أوقات الاستجابة قيم المهلة ، مما تسبب في انخفاض عقد التخزين. واصلت العقد التي أسقطت أنفسهم في إعادة إعادة المحاولة ، مما يضمن عدم انخفاض التحميل على خدمات البيانات الوصفية.
أمازون. تسبب تحجيم أسطول ذاكرة التخزين المؤقت في الواجهة الأمامية لـ Kinesis في أن يتجاوز جميع الخوادم في الأسطول الحد الأقصى لعدد مؤشرات الترابط المسموح به بواسطة تكوين نظام التشغيل. العديد من خدمات المصب الحرجة المتأثرة ، من Cognito إلى Lambda إلى CloudWatch.
أمازون. في الساعة 7:30 صباحًا بتوقيت المحيط الهادي ، أدى النشاط الآلي لتوسيع نطاق إحدى خدمات AWS المستضافة في شبكة AWS الرئيسية إلى سلوك غير متوقع من عدد كبير من العملاء داخل الشبكة الداخلية. وقد أدى ذلك إلى زيادة كبيرة في نشاط الاتصال الذي طغى على أجهزة الشبكات بين الشبكة الداخلية وشبكة AWS الرئيسية ، مما أدى إلى تأخير التواصل بين هذه الشبكات. هذه التأخير زيادة الكمون والأخطاء في الخدمات التي تواصل بين هذه الشبكات ، مما يؤدي إلى مزيد من محاولات الاتصال وإعادة المحاكاة. أدى ذلك إلى قضايا الازدحام والأداء المستمرة على الأجهزة التي تربط الشبكتين.
appnexus. تسبب حرة مزدوجة كشفت في تحديث قاعدة البيانات في جميع خوادم "الانطباع" في الانهيار في وقت واحد. لم يتم القبض على هذا في التدريج وجعله قيد الإنتاج لأن التأخير الزمني مطلوب لإثارة الخلل ، ولم يكن لدى فترة التدريج تأخير مدمج.
AT&T. أدخل خط سيء من رمز C خطراً على السباق الذي انهار في الوقت المناسب لشبكة الهاتف. بعد انقطاع مخطط ، أثارت رسائل استئناف Quickfire السباق ، مما تسبب في المزيد من عمليات إعادة التشغيل التي أعادت إعادة المشكلة. "تكررت المشكلة بشكل تكراري خلال 114 مفتاحًا في الشبكة ، حيث تمنع أكثر من 50 مليون مكالمة في الساعات التسع التي استغرقتها لتحقيق الاستقرار في النظام." من 1990.
أتلاسيان. في يوم الثلاثاء ، 5 أبريل ، 2022 ، ابتداءً من الساعة 7:38 UTC ، فقد 775 عميلًا من أتلاسيا الوصول إلى منتجاتهم في أتلاسيا. امتدت انقطاع التيار الكهربائي لمدة تصل إلى 14 يومًا لمجموعة فرعية من هؤلاء العملاء ، حيث يتم استعادة المجموعة الأولى من العملاء في 8 أبريل وجميع مواقع العملاء التي تم استعادتها تدريجياً بحلول 18 أبريل.
Basecamp ، انظر أيضا. كانت شبكة BaseCamp في هجوم DDOS خلال نافذة مدتها 100 دقيقة في 24 مارس 2014.
Basecamp ، انظر أيضا. في نوفمبر 2018 ، ضربت قاعدة بيانات الحد الأقصى ، تاركًا الخدمة في وضع القراءة فقط.
بي بي سي على الانترنت. في يوليو 2014 ، شهدت BBC Online انقطاعًا طويلًا جدًا للعديد من خدماتها الشهيرة عبر الإنترنت بما في ذلك BBC IPlayer. عندما تم تحميل الواجهة الخلفية لقاعدة البيانات ، بدأت في خنق الطلبات من مختلف الخدمات. بدأت الخدمات التي لم تتوقف عن استجابات قاعدة البيانات محليًا في التوقيت وفشلت في النهاية تمامًا.
Bintray. في يوليو 2017 ، تم تضمين العديد من حزم Maven الضارة في Jcenter مع هجوم الانتحال. عاشت تلك الحزم في JCenter لأكثر من عام وتؤثر على العديد من تطبيقات Android التي أدت إلى حقن رمز البرمجيات الخبيثة من قبل تلك التبعيات من JCenter.
قليلا. تحتوي رمز المصدر المستضاف على بيانات اعتماد تمنح الوصول إلى نسخ احتياطية قامة ، بما في ذلك كلمات مرور شلز.
التصفح. كان لآلة النموذج الأولي القديم مع ثغرة الأمن التي لا تزال نشطة على مفاتيح سرية عليها والتي أدت في النهاية إلى خرق أمني لنظام الإنتاج.
BuildKite. أدى تقليل طاقة قاعدة البيانات في محاولة لتقليل إنفاق AWS إلى نقص القدرة على دعم عملاء BuildKite في Peak ، مما أدى إلى انهيار متتالي للخوادم التابعة.
بونجي. الآثار الجانبية لإصلاح الأخطاء لمضادات الزمن الخاطئة تسبب فقدان البيانات ؛ يؤدي تشكيل خادم الخادم لإصلاح HOT إلى ظهور فقدان البيانات في العديد من الخوادم في تحديث التالي.
ألعاب CCP. تسببت قناة التسجيل الإشكالية في تموت عقد الكتلة أثناء تسلسل بدء المجموعة بعد طرح رقعة لعبة جديدة.
ألعاب CCP. يوثق خطأ في ذاكرة بيثون بدون تكديس استغرق تعقب سنوات.
شيف. تحطمت سوبر ماركت موقع وصفة المجتمع بعد ساعتين بسبب عدم الاستجابة المتقطعة وزيادة الكمون. كان أحد الأسباب الرئيسية للفشل المحددة في مرحلة ما بعد الوفاة منخفضة للغاية مهلة التحقق من الصحة.
circleci. تسببت انقطاع GitHub والانتعاش في حمولة كبيرة واردة بشكل غير متوقع. لأسباب لم يتم تحديدها ، يؤدي الحمل الكبير إلى إبطاء نظام قائمة انتظار Circleci ، في هذه الحالة للتعامل مع معاملة واحدة في الدقيقة.
circleci. بحلول 4 يناير 2023 ، حدد تحقيقنا الداخلي نطاق التسلل من قبل الطرف الثالث غير المصرح به ومسار دخول الهجوم. حتى الآن ، تعلمنا أن البرامج الضارة غير المصرح بها من طرف ثالث تم نشرها في كمبيوتر محمول من مهندس Circleci من أجل سرقة جلسة SSO صالحة ومدعومة 2FA. تم اختراق هذا الجهاز في 16 ديسمبر 2022. لم يتم اكتشاف البرامج الضارة بواسطة برنامج مكافحة الفيروسات لدينا. يشير تحقيقنا إلى أن البرامج الضارة كانت قادرة على تنفيذ سرقة ملفات تعريف الارتباط للجلسة ، مما يتيح لهم انتحال شخصية الموظف المستهدف في موقع بعيد ومن ثم تصعيد الوصول إلى مجموعة فرعية من أنظمة الإنتاج الخاصة بنا.
CloudFlare. تسبب حشرة المحللون في إرجاع خوادم Cloudflare Edge للذاكرة التي تحتوي على معلومات خاصة مثل ملفات تعريف الارتباط HTTP ورموز المصادقة وأجسام Post HTTP وغيرها من البيانات الحساسة.
CloudFlare. سبب استنفاد وحدة المعالجة المركزية بسبب قاعدة WAF واحدة تحتوي على تعبير منتظم مكتوب بشكل سيء انتهى به الأمر إلى خلق التراجع المفرط. تم نشر هذه القاعدة بسرعة للإنتاج وتؤدي سلسلة من الأحداث إلى تعطل 27 دقيقة من خدمات CloudFlare.
datadog. بعد ترقية تلقائية ، تمت إزالة جميع قواعد الشبكة وتسببت في انقطاع مدة 24 ساعة لجميع مجموعات Kubernetes المحمية Cilium في جميع مناطقهم ومقدمي الخدمات السحابية.
خلاف. تؤدي خدمة الرفع إلى إعادة الاتصال بها بمجرد ظهورها. يؤدي هذا إلى خطأ متتالي حيث نفدت خدمات الواجهة الأمامية بسبب ملء قوائم الانتظار الداخلية.
خلاف. "في حوالي الساعة 14:01 ، تم ترحيل مثيل redis الذي يعمل كمجموعة أساسية متوفرة للغاية تستخدمها خدمات API الخاصة بـ Discord تلقائيًا بواسطة منصة السحابة من Google. تسببت هذه الترحيل في انخفاض العقدة بشكل غير صحيح في وضع غير صحيح ، مما يجبر هذا المجموعة على إعادة التوثيق وتشغيل المشكلات المعروفة في طريقة عدم وجود عروض API. تسبب نظام Discord في الوقت الفعلي.
Dropbox. هذا ما بعد الوفاة رفيع جدًا ولست متأكدًا مما حدث. يبدو الأمر ، ربما ، ترقية نظام التشغيل المجدولة تسببت بطريقة أو بأخرى في القضاء على بعض الآلات ، والتي أخرجت بعض قواعد البيانات.
الثنائي. فشل متتالي بسبب قائمة انتظار الطلب الزائدة عن سعة قاعدة البيانات الحالية غير الكافية. يمكن أن يعزى التخطيط والرصد غير الكافي أيضًا.
ألعاب ملحمية. أدى الحمل المتطرف (ذروة جديدة قدرها 3.4 مليون مستخدم متزامن) إلى مزيج من اضطرابات الخدمة الجزئية والإجمالية.
وكالة الفضاء الأوروبية. حدث تدفق فائض عند تحويل رقم 16 بت إلى رقم 64 بت في نظام التوجيه بين Ariane 5 ، مما تسبب في تعطل الصاروخ. حدث الفائض الفعلي في الكود الذي لم يكن ضروريًا للتشغيل ولكنه كان يعمل على أي حال. وفقًا لحساب واحد ، تسبب هذا في طباعة رسالة خطأ تشخيصية ، وتم تفسير رسالة الخطأ التشخيصية بطريقة أو بأخرى على أنها بيانات صالحة فعلية. وفقا لحساب آخر ، لم يتم تثبيت أي معالج فخ للتفوق.
مرنة. شهد عملاء السحابة المرنة الذين لديهم عمليات نشر في منطقة AWS EU-West-1 (أيرلندا) وصولًا شديدًا إلى مجموعاتهم لمدة 3 ساعات تقريبًا. خلال هذا الإطار الزمني نفسه ، كانت هناك فترة 20 دقيقة تقريبًا لم تكن فيها جميع عمليات النشر في هذه المنطقة متاحة تمامًا.
مرنة. شهد عملاء السحابة المرنة الذين لديهم عمليات نشر في منطقة AWS US-East-1 وصولًا متدهورًا إلى مجموعاتهم.
eslint. في 12 يوليو 2018 ، تعرض أحد المهاجمين للخطر على حساب NPM لمرئيس ESLINT وحزم ضارة نشر في سجل NPM.
etsy. أولاً ، تسبب النشر الذي كان من المفترض أن يكون نشر Bugfix صغير أيضًا في ترقية قواعد البيانات الحية على تشغيل آلات الإنتاج. للتأكد من أن هذا لم يتسبب في أي فساد ، توقف Etsy عن خدمة حركة المرور لتشغيل عمليات فحص النزاهة. ثانياً ، تسببت التدفق في المعرفات (موقعة 32 بت) في فشل بعض عمليات قاعدة البيانات. لم يثق Etsy في أن هذا لن يؤدي إلى فساد البيانات وإنزال الموقع أثناء دفع الترقية.
بسرعة. انقطاع عالمي بسبب خطأ في البرامج غير المكتشفة الذي ظهر في 8 يونيو عندما تم تشغيله من خلال تغيير تكوين العملاء الصحيح.
FlowDock. لم تكن المراسلة الفورية FlowDock غير متوفرة لمدة 24 ساعة تقريبًا بين 21 و 22 أبريل 2020. تسببت جائحة Covid-19 في زيادة مفاجئة وجذرية في العمل من المنزل ، مما تسبب في زيادة استخدام FlowDock ، مما تسبب في استخدام وحدة المعالجة المركزية عالية ، مما تسبب في تعليق قاعدة بيانات التطبيق. فقدت بعض بيانات المستخدم بشكل دائم.
فالصبع القدمين. سقط Mongodb تحت الحمل عندما نفد الذاكرة. كان الفشل كارثيًا وليس رشيقًا بسبب نمط الاستعلام AA الذي تضمن تحميلًا مع مستويات منخفضة من الموقع (تسبب كل تسجيل الوصول في كل مستخدم في قراءة جميع عمليات الشيكات الخاصة بتاريخ المستخدم ، وكانت السجلات 300 بايت بدون موقع لموقع مكاني ، مما يعني أن معظم البيانات التي تم سحبها من كل صفحة كانت غير ضرورية). تسبب الافتقار إلى المراقبة على مثيلات MongoDB في عدم اكتشاف الحمل المرتفع حتى يصبح الحمل كارثيًا ، مما تسبب في 17 ساعة من التوقف عن الحوادث في يومين.
جنتو. حصل كيان على إمكانية الوصول إلى منظمة Gentoo Github ، وإزالة الوصول إلى جميع المطورين وبدأ في إضافة ارتباطات في مختلف المستودعات.
جيثب. في 28 فبراير 2018 ، شهدت Github هجوم DDOS ، وضرب موقع الويب بـ 1.35TBPS من حركة المرور.
جيتلاب. بعد قفل الأساسي وتم إعادة تشغيله ، تم طرحه مع نظام الملفات الخاطئ ، مما تسبب في انقطاع عالمي. انظر أيضا مناقشة HN.
جيتلاب. تسبب تدفق الطلبات في قاعدة البيانات ، وتسبب في تأخر النسخ المتماثل ، وحذف المسؤول المتعب الدليل الخطأ ، ست ساعات من البيانات المفقودة. انظر أيضًا التقرير السابق ومناقشة HN.
جوجل. أرسل نظام البريد عبر البريد الإلكتروني أشخاصًا أكثر من 20 مرة. حدث هذا لأنه تم إرسال البريد مع وظيفة كرون الدُفعة التي أرسلت بريدًا إلى كل من تم تمييزه على أنه في انتظار البريد. كانت هذه عملية غير آلية ولم تميز مهمة الدُفعات الناس على أنها لا تنتظر حتى يتم إرسال جميع الرسائل.
جوجل. يقوم Filestore بفرض حد عالمي لطلبات API للحد من التأثير في سيناريوهات الحمل الزائد. تم تشغيل انقطاع التيار الكهربائي عندما تعطلت خدمة Google الداخلية التي تدير عددًا كبيرًا من مشاريع GCP وتفوقها على واجهة برمجة تطبيقات Filestore مع الطلبات ، مما تسبب في اختناق عالمي لواجهة برمجة تطبيقات Filestore. استمر هذا حتى تم إيقاف الخدمة الداخلية يدويًا. نتيجة لهذا الاختناق ، لم يكن وصول API للقراءة فقط متاحًا لجميع العملاء. لقد أثر هذا العملاء في جميع المواقع ، بسبب الحصة العالمية التي تنطبق على Flestore. Console, gcloud and API access (List, GetOperation, etc.) calls all failed for a duration of 3 hours, 12 minutes. Mutate operations (CreateInstance, UpdateInstance, CreateBackup, etc.) still succeeded, but customers were unable to check on operation progress.
جوجل. The Google Meet Livestream feature experienced disruptions that caused intermittent degraded quality of experience for a small subset of viewers, starting 25 October 2021 0400 PT and ending 26 October 2021 1000 PT. Quality was degraded for a total duration of 4 hours (3 hours on 25 October and 1 hour on 26 October). During this time, no more than 15% of livestream viewers experienced higher rebuffer rates and latency in livestream video playback. We sincerely apologize for the disruption that may have affected your business-critical events. We have identified the cause of the issue and have taken steps to improve our service.
جوجل. On 13 October 2022 23:30 US/Pacific, there was an unexpected increase of incoming and logging traffic combined with a bug in Google's internal streaming RPC library that triggered a deadlock and caused the Write API Streaming frontend to be overloaded. And BigQuery Storage WriteAPI observed elevated error rates in the US Multi-Region for a period of 5 hours.
GPS/GLONASS. A bad update that caused incorrect orbital mechanics calculations caused GPS satellites that use GLONASS to broadcast incorrect positions for 10 hours. The bug was noticed and rolled back almost immediately due to (?) this didn't fix the issue.
Healthcare.gov. A large organizational failure to build a website for United States healthcare.
Heroku. Having a system that requires scheduled manual updates resulted in an error which caused US customers to be unable to scale, stop or restart dynos, or route HTTP traffic, and also prevented all customers from being able to deploy.
Heroku. An upgrade silently disabled a check that was meant to prevent filesystem corruption in running containers. A subsequent deploy caused filesystem corruption in running containers.
Heroku. An upstream apt update broke pinned packages which lead to customers experiencing write permission failures to /dev .
Heroku. Private tokens were leaked, and allowed attackers to retrieve data, both in internal databases, in private repositories and from customers accounts.
Heroku. A change to the core application that manages the underlying infrastructure for the Common Runtime included a dependency upgrade that caused a timing lock issue that greatly reduced the throughput of our task workers. This dependency change, coupled with a failure to appropriately scale up due to increased workload scheduling, caused the application's work queue to build up. Contributing to the issue, the team was not alerted immediately that new router instances were not being initialized correctly on startup largely because of incorrectly configured alerts. These router instances were serving live traffic already but were shown to be in the wrong boot state, and they were deleted via our normal processes due to failing readiness checks. The deletion caused a degradation of the associated runtime cluster while the autoscaling group was creating new instances. This reduced pool of router instances caused requests to fail as more requests were coming in faster than the limited number of routers could handle. This is when customers started noticing issues with the service.
Homebrew. A GitHub personal access token with recently elevated scopes was leaked from Homebrew's Jenkins that allowed access to git push on several Homebrew repositories.
Honeycomb. A tale of multiple incidents, happening mostly due to fast growth.
Honeycomb. Another story of multiple incidents that ended up impacting query performance and alerting via triggers and SLOs. These incidents were notable because of how challenging their investigation turned out to be.
Honeycomb. On September 8th, 2022, our ingest system went down repeatedly and caused interruptions for over eight hours. We will first cover the background behind the incident with a high-level view of the relevant architecture, how we tried to investigate and fix the system, and finally, we'll go over some meaningful elements that surfaced from our incident review process.
Honeycomb. On July 25th, 2023, we experienced a total Honeycomb outage. It impacted all user-facing components from 1:40 pm UTC to 2:48 pm UTC, during which no data could be processed or accessed. The full details of incident triage process is covered in here.
incident.io. A bad event (poison pill) in the async workers queue triggered unhandled panics that repeatedly crashed the app. This combined poorly with Heroku infrastructure, making it difficult to find the source of the problem. Applied mitigations that are generally interesting to people running web services, such as catching corner cases of Go panic recovery and splitting work by type/class to improve reliability.
Indian Electricity Grid. One night in July 2012, a skewed electricity supply-demand profile developed when the northern grid drew a tremendous amount of power from the western and eastern grids. Following a series of circuit breakers tripping by virtue of under-frequency protection, the entire NEW (northern-eastern-western) grid collapsed due to the absence of islanding mechanisms. While the grid was reactivated after over 8 hours, similar conditions in the following day caused the grid to fail again. However, the restoration effort concluded almost 24 hours after the occurrence of the latter incident.
Instapaper. Also this. Limits were hit for a hosted database. It took many hours to migrate over to a new database.
Intel. A scripting bug caused the generation of the divider logic in the Pentium to very occasionally produce incorrect results. The bug wasn't caught in testing because of an incorrect assumption in a proof of correctness. (See the Wikipedia article on 1994 FDIV bug for more information.)
Joyent. Operations on Manta were blocked because a lock couldn't be obtained on their PostgreSQL metadata servers. This was due to a combination of PostgreSQL's transaction wraparound maintenance taking a lock on something, and a Joyent query that unnecessarily tried to take a global lock.
Joyent. An operator used a tool with lax input validation to reboot a small number of servers undergoing maintenance but forgot to type -n and instead rebooted all servers in the datacenter. This caused an outage that lasted 2.5 hours, rebooted all customer instances, put tremendous load on DHCP/TFTP PXE boot systems, and left API systems requiring manual intervention. See also Bryan Cantrill's talk.
Kickstarter. Primary DB became inconsistent with all replicas, which wasn't detected until a query failed. This was caused by a MySQL bug which sometimes caused order by to be ignored.
Kings College London. 3PAR suffered catastrophic outage which highlighted a failure in internal process.
Launchdarkly. Rule attribute selector causing flag targeting web interface to crash.
Mailgun. Secondary MongoDB servers became overloaded and while troubleshooting accidentally pushed a change that sent all secondary traffic to the primary MongoDB server, overloading it as well and exacerbating the problem.
Mandrill. Transaction ID wraparound in Postgres caused a partial outage lasting a day and a half.
واسطة. Polish users were unable to use their "Ś" key on Medium.
Metrist. Azure published a breaking change that affected downstream systems like Metrist's service without warning them, the post covers how to identify the issue and how to recover from it.
ناسا. A design flaw in the Apollo 11 rendezvous radar produced excess CPU load, causing the spacecraft computer to restart during lunar landing.
ناسا. Use of different units of measurement (metric vs. English) caused Mars Climate Orbiter to fail. There were also organizational and procedural failures[ref] and defects in the navigation software[ref].
ناسا. NASA's Mars Pathfinder spacecraft experienced system resets a few days after landing on Mars (1997). Debugging features were remotely enabled until the cause was found: a priority inversion problem in the VxWorks operating system. The OS software was remotely patched (all the way to Mars) to fix the problem by adding priority inheritance to the task scheduler.
Netflix. An EBS outage in one availability zone was mitigated by migrating to other availability zones.
North American Electric Power System. A power outage in Ohio around 1600h EDT cascaded up through a web of systemic vulnerabilities and process failures and resulted in an outage in the power grid affecting ~50,000,000 people for ~4 days in some areas, and caused rolling blackouts in Ontario for about a week thereafter.
Okta. A hackers group got access to a third-party support engineer's laptop.
OpenAI. Queues for requests and responses in a Redis cache became corrupted and out of sequence, leading to some requests revealing other people's user data to some users, including app activity data and some billing info.
Pagerduty. In April 2013, Pagerduty, a cloud service proving application uptime monitoring and real-time notifications, suffered an outage when two of its three independent cloud deployments in different data centers began experiencing connectivity issues and high network latency. It was found later that the two independent deployments shared a common peering point which was experiencing network instability. While the third deployment was still operational, Pagerduty's applications failed to establish quorum due to to high network latency and hence failed in their ability to send notifications.
PagerDuty. A third party service for sending SMS and making voice calls experienced an outage due to AWS having issues in a region.
Parity. $30 million of cryptocurrency value was diverted (stolen) with another $150 million diverted to a safe place (rescued), after a 4000-line software change containing a security bug was mistakenly labeled as a UI change, inadequately reviewed, deployed, and used by various unsuspecting third parties. See also this analysis.
Platform.sh. Outage during a scheduled maintenance window because there were too much data for Zookeeper to boot.
Reddit. Experienced an outage for 1.5 hours, followed by another 1.5 hours of degraded performance on Thursday August 11 2016. This was due to an error during a migration of a critical backend system.
Reddit. Outage for over 5 hours when a critical Kubernetes cluster upgrade failed. The failure was caused by node metadata that changed between versions which brought down workload networking.
Roblox. Roblox end Oct 2021 73 hours outage. Issues with Consul streaming and BoltDB.
Salesforce. Initial disruption due to power failure in one datacenter led to cascading failures with a database cluster and file discrepancies resulting in cross data center failover issues.
Salesforce. On September 20, 2023, a service disruption affected a subset of customers across multiple services beginning at 14:48 Coordinated Universal Time (UTC). As a result, some customers were unable to login and access their services. A policy change executed as a part of our standard security controls review and update cycle to be the trigger of this incident. This change inadvertently blocked access to resources beyond its intended scope.
خفير. Transaction ID Wraparound in Postgres caused Sentry to go down for most of a working day.
Shapeshift. Poor security practices enabled an employee to steal $200,000 in cryptocurrency in 3 separate hacks over a 1 month period. The company's CEO expanded upon the story in a blog post.
Skyliner. A memory leak in a third party library lead to Skyliner being unavailable on two occasions.
Slack. A combination of factor results in a large number of Slack's users being disconnected to the server. The subsequent massive disconnection-reconnection process exceeded the database capacity and caused cascading connection failures, leading to 5% of Slack's users not being able to connect to the server for up to 2 hours.
Slack. Network saturation in AWS's traffic gateways caused packet loss. An attempt to scale up caused more issues.
Slack. Cache nodes removal caused the high workload on the vitness cluster, which in turn cased the service outage.
Spotify. Lack of exponential backoff in a microservice caused a cascading failure, leading to notable service degradation.
مربع. A cascading error from an adjacent service lead to merchant authentication service being overloaded. This impacted merchants for ~2 hours.
Stackdriver. In October 2013, Stackdriver, experienced an outage, when its Cassandra cluster crashed. Data published by various services into a message bus was being injested into the Cassandra cluster. When the cluster failed, the failure percolated to various producers, that ended up blocking on queue insert operations, eventually leading to the failure of the entire application.
Stack Exchange. Enabling StackEgg for all users resulted in heavy load on load balancers and consequently, a DDoS.
Stack Exchange. Backtracking implementation in the underlying regex engine turned out to be very expensive for a particular post leading to health-check failures and eventual outage.
Stack Exchange. Porting old Careers 2.0 code to the new Developer Story caused a leak of users' information.
Stack Exchange. The primary SQL-Server triggered a bugcheck on the SQL Server process, causing the Stack Exchange sites to go into read only mode, and eventually a complete outage.
Strava. Hit the signed integer limit on a primary key, causing uploads to fail.
شريط. Manual operations are regularly executed on production databases. A manual operation was done incorrectly (missing dependency), causing the Stripe API to go down for 90 minutes.
Sweden. Use of different rulers by builders caused the Vasa to be more heavily built on its port side and the ship's designer, not having built a ship with two gun decks before, overbuilt the upper decks, leading to a design that was top heavy. Twenty minutes into its maiden voyage in 1628, the ship heeled to port and sank.
Tarsnap. A batch job which scans for unused blocks in Amazon S3 and marks them to be freed encountered a condition where all retries for freeing certain blocks would fail. The batch job logs its actions to local disk and this log grew without bound. When the filesystem filled, this caused other filesystem writes to fail, and the Tarsnap service stopped. Manually removing the log file restored service.
Telstra. A fire in a datacenter caused SMS text messages to be sent to random destinations. Corrupt messages were also experienced by customers.
Therac-25. The Therac-25 was a radiation therapy machine involved in at least six accidents between 1985 and 1987 in which patients were given massive overdoses of radiation. Because of concurrent programming errors, it sometimes gave its patients radiation doses that were thousands of times greater than normal, resulting in death or serious injury.
trivago. Due to a human error, all engineers lost access to the central source code management platform (GitHub organization). An Azure Active Directory Security group controls the access to the GitHub organization. This group was removed during the execution of a manual and repetitive task.
Twilio. In 2013, a temporary network partition in the redis cluster used for billing operations, caused a massive resynchronization from slaves. The overloaded master crashed and when it was restarted, it started up in read-only mode. The auto-recharge component in This resulted in failed transactions from Twilio's auto-recharge service, which unfortunately billed the customers before updating their balance internally. So the auto-recharge system continued to retry the transaction again and again, resulting in multiple charges to customer's credit cards.
Twilio. Twilio's incident of having high filtering on SMS towards AT&T Network In United States.
صمام. Steam's desktop client deleted all local files and directories. The thing I find most interesting about this is that, after this blew up on social media, there were widespread reports that this was reported to Valve months earlier. But Valve doesn't triage most bugs, resulting in an extremely long time-to-mitigate, despite having multiple bug reports on this issue.
Yeller. A network partition in a cluster caused some messages to get delayed, up to 6-7 hours. For reasons that aren't clear, a rolling restart of the cluster healed the partition. There's some suspicious that it was due to cached routes, but there wasn't enough logging information to tell for sure.
Zerodha. The Order Management System (OMS) provided to Zerodha, a stock broker, collapsed when an order for 1M units of a penny stock was divided into more than 0.1M individual trades against the typical few hundreds, triggering a collapse of the OMS, which was not encountered prior by its provider - Refinitiv (formerly Thomson Reuters), a subsidiary of the London Stock Exchange.
Zerodha. A failure of the primary leased line to a CTCL between a stock broker and a stock exchange led to the activation of a backup leased line that was operating sporadically over the following hour, affecting bracket and cover orders. Subsequently, the process of placing and validating orders had been modified to incorporate the unreliability of the CTCL's leased lines, but the reliability of the primary and the backup leased lines was not fundamentally improved by the providers.
Unfortunately, most of the interesting post-mortems I know about are locked inside confidential pages at Google and Microsoft. Please add more links if you know of any interesting public post mortems! is a pretty good resource; other links to collections of post mortems are also appreciated.
AWS Post-Event Summaries
Availability Digest website.
Postmortems community (with imported archive from the now-dead G+ community).
John Daily's list of postmortems (in json).
Jeff Hammerbacher's list of postmortems.
NASA lessons learned database.
Tim Freeman's list of postmortems
Wikimedia's postmortems.
Autopsy.io's list of Startup failures.
SRE Weekly usually has an Outages section at the end.
Lorin Hochstein's list of major incidents.
Awesome Tech Postmortems.
Nat Welch's parsed postmortems is an attempt to build a database out of this markdown file.
Postmortem Templates is a collection of postmortem templates from various sources.
How Complex Systems Fail
John Allspaw on Resilience Engineering