Аллегро. Сайт электронной коммерции упал после внезапного всплеска трафика, вызванного маркетинговой кампанией. Отключение было вызвано ошибкой конфигурации в управлении ресурсами кластера, которая предотвращала запуск большего количества экземпляров службы, даже если были доступны аппаратные ресурсы.
Cloudflare. Плохая конфигурация (правило маршрутизатора) привела к сбою всех своих краевых маршрутизаторов, сняв все CloudFlare.
Cloudflare. Во время обслуживания своей частной сети магистралей инженер сделал опечатку в конфигурации сети обработки данных Атланты, в результате чего весь трафик поступает из Америки и Европы, поступающим в этот единственный обратный центр, раздавив его.
Cloudflare. Неправильный заказ отключенных BGP -рекламируемых префиксов вызвал неисправность на 19 обработке данных.
Cloudflare. Изменение нашей многоуровневой системы кэша привело к тому, что некоторые запросы не удались для пользователей с кодом состояния 530. Всего воздействие длилось почти шесть часов. Мы оцениваем, что около 5% всех запросов не удалось на пике. Из -за сложности нашей системы и слепой пятно в наших тестах мы не заметили этого, когда изменение было выпущено в нашу тестовую среду.
Cloudflare. Несколько сервисов CloudFlare стали недоступными в течение 121 минуты 24 января 2023 года из -за ошибки, выпускающей код, который управляет токенами обслуживания. Инцидент ухудшил широкий спектр продуктов CloudFlare, включая аспекты нашей платформы для работников, нашего нулевого доверительного решения и функций плоскости управления в нашей сети доставки контента (CDN).
Cloudflare. 4 октября 2023 года Cloudflare сталкивались с проблемами разрешения DNS, начиная с 07:00 UTC и заканчивались в 11:00 UTC. Некоторые пользователи 1.1.1.1 или таких продуктов, как Warp, Zero Trust или сторонние DNS Resolroders, которые используют 1.1.1.1, могли получить ответы DNS Servfail DNS на действительные запросы. Мы очень сожалеем об этом отключении. Этот сбой был внутренней ошибкой программного обеспечения, а не результатом атаки. В этом блоге мы собираемся поговорить о том, что это за неудача, почему это произошло, и что мы делаем, чтобы убедиться, что это не повторится снова.
DataDog. Плохая конфигурация Service Discovery в одном из клиентов сняла обнаружение услуг по всему миру, когда ушел зависимый клиент.
Enom. 15 января 2022 года, в 9:00 по восточному времени, инженерная команда Tucows начала запланированные работы по техническому обслуживанию, чтобы перенести платформу ENOM в новую облачную инфраструктуру. Из -за сложности сокращения команда столкнулась со многими проблемами, что привело к непрерывным задержкам. Окно обслуживания было расширено несколько раз для решения проблем, связанных с репликацией данных, сетевой маршрутизацией и проблемами разрешения DNS, влияющих на доступность веб -сайта и доставку электронной почты.
Etsy. Отправка многоадресного трафика без надлежащей настройки коммутаторов вызвала глобальную отключение ETSY.
Facebook. Изменения в конфигурации на магистральные маршрутизаторы Facebook вызвали глобальный отключение всех свойств Facebook и внутренних инструментов.
Facebook. Плохая конфигурация сняла и Facebook, и Instagram.
Firefox. 13 января 2022 года определенный путь кода в сетевом стеке Firefox вызвал проблему в реализации протокола HTTP/3. Это заблокировало сетевую связь и заставило Firefox без реагирования, неспособным загружать веб -контент почти два часа.
Gocardless. Плохая конфигурация в сочетании с необычным набором сбоев привела к отключению кластера базы данных, сняв API и панель панели.
[Google] (https://cloud.google.com/blog/products/infrastructure/details-of-google-cloud-gcve-incidident). Первоначальное обеспечение GCVE было выполнено с помощью Legacy Option, что приводило к контракту с фиксированным сроком с автоматическим удалением в конце этого периода.
Google. Плохая конфигурация (автогенерированная) удалила все блоки IP Engine Google из объявлений BGP.
Google. Плохая конфигурация (автогенерирование) сняла большинство сервисов Google.
Google. Плохая конфигурация привела к выходу из строя квот, что привело к выходу из строя нескольких служб (включая Gmail).
Google. / был зарегистрирован в черный список URL, заставляя каждый URL -адрес показать предупреждение.
Google. Ошибка в развертывании конфигурации в балансировку нагрузки приводит к увеличению частоты ошибок в течение 22 минут.
Google. Изменение конфигурации, предназначенное для решения повышения спроса на хранилище метаданных, которое перегружено часть системы поиска Blob, что вызвало каскадную сбой с воздействием пользователя с помощью службы Gmail, Google Photos, Google Drive и другими услугами GCP, зависимым от хранилища Blob.
Google. Два неправильных конфигурации, плюс программная ошибка, вызвали огромный сбой Google Cloud Network на восточном побережье США.
Google. Служба балансировки Google Front Cond Balancing Explication, приводящие к воздействию на несколько нижестоящих облачных сервисов Google в Европе. Из предварительного анализа основная причина проблемы была вызвана новой инфраструктурной функцией, запускающей скрытую проблему в коде внутренней сетевой балансировщики нагрузки.
Google. Google Cloud Networking Опытные проблемы с сервисом Google Cloud Load Balancing (GCLB), что привело к влиянию на несколько нижестоящих облачных сервисов Google. Пострадавшие клиенты наблюдали ошибки Google 404 на своих веб -сайтах. Из предварительного анализа основной причиной проблемы была скрытая ошибка в службе конфигурации сети, которая была вызвана во время обычной работы системы.
Google. Google Cloud Networking имела ущерб пониженной емкостью для трафика с более низким приоритетом, такими как пакетная, потоковая и трансферная операции с 19:30 США/Тихоокеанский регион в четверг, 14 июля 2022 года, по 15:02 США/Тихоокеанский регион в пятницу, 15 июля 2022 года. Высокий пользовательский трафик не был затронут. Это нарушение услуг возникло из -за проблемы, возникшей во время комбинации ремонтных работ и обычного развертывания сетевого программного обеспечения. Из -за характера сбоев и устойчивости продуктов Google облачных продуктов, затронутые регионы и индивидуальные окна воздействия существенно варьировались.
Хероку. Автоматизированное изменение удаленной конфигурации не распространялось полностью. Веб -диноры нельзя было начать.
Хероку. Неверный процесс развертывания вызвал новые переменные конфигурации, которые не использовались, когда код потребовался им.
KeepThescore. Инженеры удалили производственную базу данных случайно. База данных - это управляемая база данных от DigitaloCean с резервным копированием один раз в день. Через 30 минут после катастрофы он вернулся в Интернет, однако 7 часов данных о табло ушли навсегда.
Microsoft. Плохая конфигурация сняла лазурное хранилище.
Npm. Быстрое изменение конфигурации вызвало проблему маршрутизации. Точнее, проблема в том, что мы устанавливали req.backend в функции vcl_fetch, а затем вызовы перезагрузки для повторного применения правил. Тем не менее, перезапуск на вызов сбросит req.backend в первую поддержку в списке, который в данном случае оказался Манта, а не сбалансированными серверами CouchDB нагрузки.
Оваса. Неправильное нажатие кнопки приводит к выключению водоочистной станции из -за слишком высокого уровня фтора.
PAGERDUTY. 15 декабря 2021 года в 00:17 UTC мы развернули изменение конфигурации DNS в инфраструктуре Pagerduty, которая повлияла на наш кластер оркестровки контейнеров. Изменение содержало дефект, который мы не обнаружили в наших средах тестирования, что сразу же заставило все услуги, работающие в кластере оркестровки контейнеров, не смогли разрешить DNS.
Razorpay. Ошибка оборудования RDS выявила неверную конфигурацию MySQL, которая привела к серьезной потере данных в финансовой системе.
ржаво-ланг. В среду, 2023-01-25 в 09:15 UTC, мы внесли изменения в производственную инфраструктуру для Crates.io. Во время развертывания запись DNS для static.crates.io не удалось разрешить в течение приблизительно 10-15 минут. Это было связано с тем, что как сертификаты, так и записи DNS были воссозданы во время простоя.
ржаво-ланг. 2023-07-20 с 12:17 и 12:30 UTC Загрузки ящиков с Crates.io были сломаны из-за развертывания, в котором содержалась ошибка в поколении URL-адреса загрузки. В течение этого времени у нас было в среднем 4,71 тыс. Запрос в секунду на Crates.io, что привело к примерно 3,7 -метровым неудачам запросам, включая попытки повторения от груза.
Переполнение стека. Плохой конфигуратор брандмауэра заблокировал Stackexchange/Stackoverflow.
Часовой. Неправильные настройки Amazon S3 в резервном копировании приводят к утечке данных.
Трэвиска. Проблема конфигурации (неполное вращение пароля) привела к «протекающей» виртуальной машине, что привело к повышению времени очереди сборки.
Трэвиска. Проблема конфигурации (автоматизированный возраст Google Compute Engine VM Уборка изображений) вызвала удаление стабильных базовых виртуальных машин.
Трэвиска. Изменение конфигурации, сделанные сборщиками, начинают сбой. Ручной откат сломался.
Трэвиска. Случайная переменная среды
Туа Перед падением инцидента система резервирования, из которой был произведен нагрузочный лист, была обновлена. Ошибка в системе заставила женщин -пассажиров зарегистрироваться с заголовком «Мисс», чтобы они были подсчитаны как дети. Система выделяла их стандартный вес ребенка 35 кг, в отличие от правильного женского стандартного веса 69 кг. Следовательно, с 38 женщинами, проверенными неправильно и неверно идентифицированными в качестве детей, масса взлета G-Tawg из нагрузочного листа была на 1244 кг ниже фактической массы самолета.
Турсо. Неправильно настроенные идентификаторы резервного копирования DB привели к утечкам данных для бесплатных клиентов, а последующее исправление привело к возможной потере данных.
Клапан. Несмотря на то, что официальной посмертной среды нет, это выглядит как плохое соединение конфигурации BGP Config Taled с уровнем 3, Telia и Abovenet/Zayo, что привело к глобальному отключению пар.
Амазонка. Неизвестное событие заставило трансформатор провалиться. Один из ПЛК, который проверяет, что мощность генератора находится в фазе, не удалась по неизвестной причине, которая помешала набору резервных генераторов выйти в Интернет. Это повлияло на EC2, EBS и RDS на западе ЕС.
Амазонка. Плохая погода вызвала сбои в силе на протяжении всего востока AWS. Один резервный генератор не смог обеспечить стабильную питание при переключении питания на резервную копию, и генератор был загружен. Это несмотря на то, что они прошли тесты нагрузку двумя месяцами ранее, и проходя еженедельные тесты с питанием.
Амазонка. В 10:25 вечера PDT 4 июня потеря власти на объекте AWS Sydney в результате суровой погоды в этой области приводит к нарушению до значительного количества случаев в зоне доступности. Из -за подписи потери мощности выключатели изоляции мощности не участвовали, что привело к тому, что резервные энергетические резервы сливались в деградированную сетку мощности.
Арпанет. Неисправные данные IMP (процессор интерфейсного сообщения) поврежденные данные маршрутизации, программное обеспечение, пережавшие контрольные суммы, распространяющие плохие данные с хорошими контрольными суммами, неверные номера последовательностей вызвали заполнение буферов, полные буферы вызвали потерю пакетов KeepAlive, а узлы вышли из сети. С 1980 года.
Cloudflare. Переключатель частичного выключателя вызвал каскадный византийский сбой, который повлиял на доступность API и приборной панели в течение шести часов и 33 минут.
Cloudflare. Факультетный сбой центра обработки данных. В этом посте описываются события, которые вызвали этот инцидент.
FirstEnergy / General Electric. FirstEnergy имел локальный сбой, когда некоторые линии передачи попадали в невысоку. Обычный процесс состоит в том, чтобы сработать тревогу, что заставляет человеческих операторов переосмыслить власть. Но система GE, которая контролировала это, имела ошибку, которая мешала вызвать сигнал тревоги, что в конечном итоге вызвало каскадный сбой, который в конечном итоге затронул 55 миллионов человек.
GitHub. 28 января 2016 года GitHub пережил нарушение власти в их первичном обратном центре.
Google. Последовательные молния наносит удар по европейскому обратному центру (Европа-Вест1-B), вызвавшую потерю питания в Google Compute Systems хранения двигателей в этом регионе. Ошибки ввода/вывода наблюдались на подмножестве стандартных постоянных дисков (HDD), и постоянная потеря данных наблюдалась на небольшой доли их.
Google. Во вторник, 19 июля 2022 года, в 06:33 США/Pacific, одновременный сбой множественных, избыточных систем охлаждения в одном из центров обработки данных, в которых находится зона Europe-West2-A, повлияло на несколько облачных сервисов Google. Это привело к тому, что некоторые клиенты испытывали услуги недоступны для пострадавших продуктов.
Pythonanywhere. Отказ объема хранения на одном из серверов хранения вызвал ряд сбоев, начиная с сайта Pythonanywhere, а также с программами наших пользователей (включая веб -сайты), которые зависели от этого тома, а затем распространяются на другие размещенные сайты.
Солнце. Sun, как известно, не включил ECC в пару поколений серверных частей. Это привело к повреждению данных и сбое. После типичного MO Sun они сделали клиентов, которые сообщили о том, что он знаком с ошибкой NDA, прежде чем объяснить проблему.
CCP Games. Опечатка и конфликт имени заставили установщику иногда удалять файл boot.ini при установке расширения для Eve Online - с последствиями.
GitHub. 43-секундное сетевое разделение во время технического обслуживания вызвало аварийное переключение MySQL Master, но у нового мастера не было нескольких секунд записей, пропорционаленных ему из-за задержки перекрестного континента. 24+ часа восстановления работы по поддержанию целостности данных.
Gocardless. Все запросы на критической таблице PostgreSQL были заблокированы комбинацией чрезвычайно быстрой миграции базы данных и долгосрочного запроса чтения, вызывая 15 секунд простоя.
Google. Многие изменения в редко модифицированном балансировщике нагрузки были применены через очень медленный путь кода. Это заморозило все общедоступные изменения в изменениях за ~ 2 часа.
Google. Отказ компонента на волоконной дорожке от одного из центральных кампусов США Gateway в производственной основе Google привел к уменьшению доступной пропускной способности сети между шлюзом и множественными краями, что привело к потере пакетов, в то время как основание автоматически перемещает трафик на оставшиеся пути.
Knight Capital. Комбинация конфликтующих развернутых версий и повторного использования ранее используемого бита вызвала 460 миллионов долларов. Смотрите также более длинную рецензию.
Репозиторий кода Webkit. Репозиторий Webkit, репозиторий подрывного действия, настроенный для использования дедупликации, стал недоступным после того, как два файла с одинаковым хэшем SHA-1 были зарегистрированы в качестве тестовых данных с намерением реализовать проверку безопасности на столкновения. У двух файлов были разные суммы MD5, и поэтому проверка проверки не выполнила проверку согласованности. Для контекста, первое публичное столкновение хеша SHA-1 было объявлено совсем недавно с примером двух столкновений.
Лазур. Сертификаты, которые были действительными в течение одного года, были созданы. Вместо того, чтобы использовать подходящую библиотеку, кто -то написал код, который вычислял один год, чтобы быть текущей датой плюс один год. 29 февраля 2012 года это привело к созданию сертификатов с датой истечения срока действия 29 февраля 2013 года, которые были отклонены из -за неверной даты. Это вызвало глобальное отключение в лазуре, которое длилось большую часть дня.
Cloudflare. Время обратного времени от отслеживания 27-го прыжка секунды на 2016-12-31t23: 59: 60Z привел к тому, что взвешенный выбор круглосуточных резиновых резоклеров (RRDNS) паникует и провалился при некоторых поисках CNAME. time.Now() было неправильно предполагается, что это монотонное; Это вводило отрицательные значения в призывы к rand.Int63n() , который паникует в этом случае.
Linux. Второй код Leap был вызван из обработчика прерываний таймера, который держал xtime_lock . Этот код сделал printk для регистрации второго скачка. printk просыпается klogd , который иногда может попытаться получить время, которое ждет на xtime_lock , вызывая тупик.
Linux. Когда произошел второй прыжок, CLOCK_REALTIME был перемещен на одну секунду. Это не было сделано с помощью механизма, который обновил бы hrtimer base.offset . Это означало, что когда произошло прерывание таймера, таймеры Timer_abstime Clock_Realtime Timers истек на один секунду, включая таймеры, установленные менее чем на одну секунду. Это вызвало приложения, которые использовали сон менее чем на одну секунду в петле до спинваита без сна, вызывая высокую нагрузку на многие системы. Это привело к тому, что большое количество веб -сервисов сократилось в 2012 году.
Мозилла. Большинство надстройки Firefox перестали работать 4 мая 2019 года, когда истек срок действия сертификата. Firefox требует действительной цепочки сертификатов для предотвращения вредоносного ПО. Примерно через девять часов Mozilla выдвинула привилегированное дополнение, которое вводило действительный сертификат в магазин сертификатов Firefox, создав действительную цепочку и разблокировать дополнения. Это отключило эффективно все дополнения, около 15 000, и резолюция заняла около 15-21 часов для большинства пользователей. Некоторые пользовательские данные были потеряны. Ранее Мозилла писала о технических деталях.
GitHub. Платформа Github столкнулась с новым режимом отказа при обработке миграции схемы на большой таблице MySQL. Миграции схемы являются общей задачей на Github и часто требуют недель. Последний шаг в миграции состоит в том, чтобы выполнить переименование, чтобы переместить обновленную таблицу в правильное место. На последнем этапе этой миграции значительная часть наших реплик MySQL вступила в тупик в семафоре. Наши кластеры MySQL состоят из первичного узла для записи трафика, множественных реплик чтения для производственного трафика и нескольких копий, которые служат внутренним чтением трафика в целях резервного копирования и аналитики. Реплики для чтения, попавшие в тупик, вошли в состояние повторного поступления, вызывая повышенную нагрузку на здоровые реплики чтения. Из -за каскадного характера этого сценария не было достаточно активных реплик чтения для обработки производственных запросов, которые повлияли на наличие сервисов Core GitHub.
Хероку. В 15:05 UTC 8 июня 2023 года произошла ошибка в базе данных, когда иностранный ключ использовал меньший тип данных, чем первичный ключ, на который она ссылалась. Эта ошибка вызвала переполнение, когда первичный ключ превышал допустимое значение, что привело к неспособности создать новые разрешения в Heroku. Эта ошибка также помешала клиентам создавать новые развертывания. Затем операции Oncall вызвали отключение API Heroku.
Аллегро. Платформа Allegro потерпела неудачу подсистемы, ответственной за асинхронную обработку распределенной задачи. Проблема повлияла на многие области, например, такие функции, как покупка многочисленных предложений с помощью редактирования корзины и массовых предложений (включая редактирование прайс -листа), вообще не сработало. Более того, он частично не смог отправить ежедневную рассылку с новыми предложениями. Также были затронуты некоторые части внутренней панели администрирования.
Амазонка. Человеческая ошибка. 28 февраля 2017 года, 9:37 утра по PST, команда Amazon S3 отлаживала незначительную проблему. Несмотря на использование устоявшейся игровой книги, одной из команд, намеревавшихся удалить небольшое количество серверов, была выдана опечатка, непреднамеренно приводя к удалению большего набора серверов. Эти серверы поддерживали критические системы S3. В результате, зависимые системы требовали полного перезапуска для правильной работы, и система подвергалась широко распространенным отключениям для США-Востока-1 (Северная Вирджиния) до окончательного разрешения в 13:54 PST. Поскольку собственные услуги Amazon, такие как EC2 и EBS, также полагаются на S3, это вызвало огромный каскадный провал, который повлиял на сотни компаний.
Амазонка. Коррупция сообщений заставила функцию распределенного состояния сервера перегружать ресурсы на парке обработки запросов S3.
Амазонка. Человеческая ошибка во время обычного обновления сетей привела к кризисе ресурсов, усугубленных программными ошибками, что в конечном итоге привело к отключению во всех зонах доступности США, а также потерю 0,07% объемов.
Амазонка. Невозможность связаться с сервером сбора данных запустила ошибку утечки скрытой памяти в агенте отчетности на серверах хранения. И нет никакой изящной обработки деградации, поэтому агент отчетности постоянно связывался с сервером сбора таким образом, чтобы медленно потреблять системную память. Также система мониторинга не удалась тревожить утечку памяти сервера EBS, а также серверы EBS, как правило, очень динамично используют всю память. К утру понедельника показатель потери памяти стал довольно высоким и смущенной памятью на пораженных серверах хранения, которые не могут сохранить процесс обработки запросов. Эта ошибка была еще более разорвана из -за неспособности сделать аварий, что привело к отключению.
Амазонка. Упругая балансировщика нагрузки сталкивается с проблемами, когда «процесс обслуживания, который непреднамеренно работал против данных состояния производственного ELB».
Амазонка. «Разрушение сети» заставило службы метаданных испытать нагрузку, которая заставила время отклика превышать значения тайм -аута, что привело к снижению узлов хранения. Узлы, которые сняли себя, продолжали повторить, гарантируя, что нагрузка на услуги метаданных не может уменьшить.
Амазонка. Масштабирование фронтального флота кеша для кинезиса привели к тому, что все серверы во флоте превышают максимальное количество потоков, разрешенных конфигурацией операционной системы. Многочисленные критические услуги вниз по течению затронуты, от Cognito до Lambda до CloudWatch.
Амазонка. В 7:30 утра по PST, автоматизированная деятельность по масштабированию емкости одной из служб AWS, размещенных в основной сети AWS, вызвало неожиданное поведение от большого количества клиентов внутри внутренней сети. Это привело к большому всплеску активности подключения, который ошеломил сетевые устройства между внутренней сетью и основной сетью AWS, что привело к задержкам для связи между этими сетями. Эти задержки увеличивали задержку и ошибки для услуг, общающихся между этими сетями, что приводит к еще большему количеству попыток соединения и повторения. Это привело к постоянным проблемам заторов и производительности на устройствах, соединяющих две сети.
AppNexus. Двойной свободный, раскрытый обновлением базы данных, вызвал одновременно сбой всех серверов «Impression Bus». Это не попало в постановку и превратилось в производство, потому что для задержки требуется задержка во времени, чтобы вызвать ошибку, а период постановки не имел встроенной задержки.
AT & T. Плохая линия C -кода представила опасность для гонки, которая в надлежащем пути рухнула по телефонной сети. После запланированного отключения сообщения QuickFire Resmorcement запустили гонку, что привело к большему количеству перезагрузков, которые пережили проблему. «Проблема повторялась итеративно на протяжении 114 коммутаторов в сети, блокируя более 50 миллионов вызовов за те девять часов, которые потребовались для стабилизации системы». С 1990 года.
Atlassian. Во вторник, 5 апреля 2022 года, начиная с 7:38 UTC, 775 клиентов Atlassian потеряли доступ к своим продуктам Atlassian. Отключение длилось до 14 дней для подмножества этих клиентов, причем первый набор клиентов был восстановлен 8 апреля, а все сайты клиентов постепенно восстанавливались до 18 апреля.
Базовый лагерь, см. Также. Сеть Basecamp находилась под атакой DDOS во время 100-минутного окна 24 марта 2014 года.
Базовый лагерь, см. Также. В ноябре 2018 года база данных достигла целочисленного лимита, оставив службу в режиме только для чтения.
BBC онлайн. В июле 2014 года BBC Online испытала очень длинный отключение нескольких его популярных онлайн -сервисов, включая BBC IPlayer. Когда бэкэнд базы данных был перегружен, он начал запрашивать запросы из различных служб. Услуги, которые не кэшировали ответы базы данных локально, начали выходить на работу и в конечном итоге полностью потерпели неудачу.
Бинтрай. В июле 2017 года в JCenter было включено несколько злонамеренных пакетов Maven с подражательной атакой. Эти пакеты жили в JCenter более года и предположительно затронули несколько приложений для Android, которые привели к тому, что код вредоносного ПО, введенный в эти зависимости от JCenter.
Много. Разделенный исходный код Repo содержал учетные данные, предоставляющие доступ к биту резервным копиям, включая хэшированные пароли.
Браузрстук. Старая прототипная машина с уязвимостью Shellshock все еще была активна секретные ключи, что в конечном итоге привело к нарушению безопасности производственной системы.
BUILDKITE. Понижение емкости базы данных в попытке минимизировать расходы на AWS привело к отсутствию способности поддерживать клиентов Buildkite на пике, что привело к каскадному коллапсу зависимых серверов.
Bungie. Побочные эффекты исправления ошибки для неправильных временных метров вызывает потерю данных; Неспособность сервера для HotFix приводит к появлению потери данных на нескольких серверах в следующем обновлении.
CCP Games. Проблемный канал ведения журнала вызвал умирание кластерных узлов во время последовательности начала кластера после того, как выпустил новый игровой патч.
CCP Games. Документирует ошибку повторного использования памяти Python Python, которая занимала годы, чтобы отследить.
Шеф. Супермаркет сайта сообщества рецептов разбился через два часа после запуска из -за прерывистой нереактивности и повышенной задержки. Одной из основных причин сбоя, выявленной в пост -наборе, была очень низкая тайм -ауты проверки здоровья.
Circleci. Отключение и восстановление GitHub вызвали неожиданно большую входящую нагрузку. По причинам, которые не указаны, большая нагрузка приводит к замедлению системы очередей Circleci, в данном случае обрабатывает одну транзакцию в минуту.
Circleci. К 4 января 2023 года наше внутреннее расследование определило масштаб вторжения несанкционированной третьей стороной и пути въезда атаки. На сегодняшний день мы узнали, что несанкционированная третья сторона, которую вредоносное программное обеспечение, развернутое на ноутбуке инженера Circleci, чтобы украсть действительную сеанс SSO, поддерживаемого 2FA. Эта машина была скомпрометирована 16 декабря 2022 года. Удолошение не было обнаружено нашим антивирусным программным обеспечением. Наше расследование указывает на то, что вредоносное ПО смогло выполнить кражу файлов cookie с сеансом, что позволило им выдать себя за целевого сотрудника в удаленном месте, а затем увеличить доступ к подмножеству наших производственных систем.
Cloudflare. Ошибка анализатора заставила серверы Edge CloudFlare вернуть память, в которой содержалась личная информация, такая как файлы cookie HTTP, токены аутентификации, тела HTTP и другие конфиденциальные данные.
Cloudflare. Истощение процессора было вызвано одним правилом WAF, которое содержало плохо написанное регулярное выражение, которое в конечном итоге создало чрезмерную отступа. Это правило было быстро развернуто для производства, и серия событий приводит к глобальному простоям 27 -минутному простоям сервиса CloudFlare.
DataDog. После автоматического обновления все правила сети были удалены и вызвали 24 -часовую продолжительность отключения продолжительности всех их Cilium, защищенных кластерами Kubernetes во всех их регионах и облачных поставщиках.
Раздор. Служба смачивания приводит к громоподобному стаду, воссоединяющемуся с ним, как только он появится. Это приводит к каскадной ошибке, когда Frontend Services закончилась из -за заполнения внутренних очередей.
Раздор. «Примерно в 14:01 экземпляр REDIS, действующий в качестве основного для высокодоступного кластера, используемого услугами Discord API, автоматически мигрировали с помощью облачной платформы Google. Эта миграция заставила узел неправильно снизить в автономном режиме, вынуждая кластер для перебалансий и вызвало известные проблемы с тем, как Discord Api выступает в REDIS. Неудача в режиме реального времени.
Dropbox. Эта посмертная среда довольно тонкая, и я не уверен, что случилось. Похоже, может быть, запланированное обновление ОС каким -то образом заставило некоторые машины вытекать, что вытащило некоторые базы данных.
Дуэт. Каскадный сбой из -за очереди запроса, перегружая существующую, недостаточную емкость базы данных. Неадекватное планирование и мониторинг и мониторинг также можно отнести.
Эпические игры. Extreme Load (новый пик в 3,4 миллиона одновременных пользователей) привел к сочетанию частичных и общих сбоев в обслуживании.
Европейское космическое агентство. Переполнение произошло при преобразовании 16-битного числа в 64-разрядное число в межтегенной системе Ariane 5, что приводит к сбою ракета. Фактический переполнение произошло в коде, который не был необходим для работы, но все равно работал. Согласно одной учетной записи, это вызвало распечатанное сообщение об ошибке диагностики, а сообщение об ошибке диагностики было каким -то образом интерпретировано как фактические допустимые данные. Согласно другой учетной записи, для переполнения не было установлено никакого обработчика ловушек.
Эластичный. Клиенты Elastic Cloud с развертываниями в регионе AWS EU-WEST-1 (Ирландия) испытали сильно ухудшенный доступ к своим кластерам в течение примерно 3 часов. В течение того же периода времени было приблизительно 20 минут, в течение которого все развертывания в этом регионе были совершенно недоступны.
Эластичный. Elastic Cloud клиенты с развертываниями в регионе AWS US-EAST-1 испытали деградированный доступ к своим кластерам.
Эслинт. 12 июля 2018 года злоумышленник скомпрометировал счет NPM, сопровождающего ESLINT и опубликовал вредоносные пакеты в реестр NPM.
Etsy. Во -первых, развертывание, которое должно было быть небольшим развертыванием ошибок, также вызвало обновления в реальных базах данных на управлении производственными машинами. Чтобы убедиться, что это не вызвало никакой коррупции, Etsy перестала подавать трафик для выполнения проверки целостности. Во-вторых, переполнение в идентификаторах (подписанные 32-битные INT) привели к сбою некоторых операций базы данных. Etsy не верил, что это не приведет к повреждению данных, и сняло сайт, пока обновление было наточено.
Быстро. Глобальный отключение из -за невооткрытой программной ошибки, которая появилась 8 июня, когда она была вызвана действительным изменением конфигурации клиента.
Проточный родок. Мгновенный обмен сообщениями проточного рода был недоступен в течение приблизительно 24 часов в период с 21 по 22 апреля 2020 года. Пандемия Covid-19 вызвало внезапное и резкое увеличение работы из дома, что вызвало более высокое использование проточного родового рода, что вызвало высокое использование ЦП, что привело к висе в базу данных применения. Некоторые пользовательские данные были навсегда потеряны.
Foursquare. MongoDB упал под нагрузкой, когда у него закончилась память. Отказ был катастрофическим и не изящным из-за шаблона запроса AA, который включал в себя загрузку чтения с низкими уровнями локальности (каждый регистрация пользователя вызывала чтение всех проверок для истории пользователя, а записи составляли 300 байтов без пространственной локальности, что означает, что большинство данных, полученных с каждой страницы, были ненужными). Отсутствие мониторинга на экземплярах MongoDB привело к тому, что высокая нагрузка осталась незамеченной, пока нагрузка не станет катастрофической, что привело к 17 часов простоя, охватывающего два инцидента за два дня.
Дженто. Сущность получила доступ к организации Gentoo Github, сняла доступ ко всем разработчикам и начала добавлять коммиты в различных репозиториях.
GitHub. 28 февраля 2018 года Github пережил атаку DDOS, попав на веб -сайт с 1,35 Тбирб трафика.
Гитлаб. После первичного заблокированного и перезагрузки он был восстановлен с неверной файловой системы, что привело к глобальному отключению. Смотрите также обсуждение HN.
Гитлаб. Приток запросов перегружена базой данных, вызвал репликацию до отставания, усталый администратор удалил неправильный каталог, шесть часов потерянных данных. См. Также Ранее отчет и обсуждение HN.
Google. Почтовая система по электронной почте по электронной почте более 20 раз. Это произошло, потому что почта была отправлена с партийной работой Cron, которая отправила почту всем, кто был помечен как ожидание почты. Это была неатомная операция, и партийная работа не помечала людей, которые не ожидали, пока все сообщения не будут отправлены.
Google. Filestore обеспечивает соблюдение глобального ограничения на запросы API, чтобы ограничить воздействие в сценариях перегрузки. Отключение было вызвано, когда внутренняя служба Google, управляющая большим количеством проектов GCP, неисправна и перегружена API Filestore с помощью запросов, что привело к глобальной дросселизму API Filestore. Это продолжалось до тех пор, пока внутренняя служба не была сделана вручную. В результате этого дросселирования доступ только для чтения API был недоступен для всех клиентов. Это затронуло клиентов во всех местах, из -за глобальной квоты, которая применяется к Filestore. Консоль, GCLOUD и API Access (список, GetoPeration и т. Д.) Все вызовы не удались в течение 3 часов, 12 минут. Операции MUTATE (CreateInstance, UpdateInstance, CreateBackup и т. Д.) По -прежнему преуспели, но клиенты не смогли проверить прогресс в работе.
Google. The Google Meet Livestream feature experienced disruptions that caused intermittent degraded quality of experience for a small subset of viewers, starting 25 October 2021 0400 PT and ending 26 October 2021 1000 PT. Quality was degraded for a total duration of 4 hours (3 hours on 25 October and 1 hour on 26 October). During this time, no more than 15% of livestream viewers experienced higher rebuffer rates and latency in livestream video playback. We sincerely apologize for the disruption that may have affected your business-critical events. We have identified the cause of the issue and have taken steps to improve our service.
Google. On 13 October 2022 23:30 US/Pacific, there was an unexpected increase of incoming and logging traffic combined with a bug in Google's internal streaming RPC library that triggered a deadlock and caused the Write API Streaming frontend to be overloaded. And BigQuery Storage WriteAPI observed elevated error rates in the US Multi-Region for a period of 5 hours.
GPS/GLONASS. A bad update that caused incorrect orbital mechanics calculations caused GPS satellites that use GLONASS to broadcast incorrect positions for 10 hours. The bug was noticed and rolled back almost immediately due to (?) this didn't fix the issue.
Healthcare.gov. A large organizational failure to build a website for United States healthcare.
Heroku. Having a system that requires scheduled manual updates resulted in an error which caused US customers to be unable to scale, stop or restart dynos, or route HTTP traffic, and also prevented all customers from being able to deploy.
Heroku. An upgrade silently disabled a check that was meant to prevent filesystem corruption in running containers. A subsequent deploy caused filesystem corruption in running containers.
Heroku. An upstream apt update broke pinned packages which lead to customers experiencing write permission failures to /dev .
Heroku. Private tokens were leaked, and allowed attackers to retrieve data, both in internal databases, in private repositories and from customers accounts.
Heroku. A change to the core application that manages the underlying infrastructure for the Common Runtime included a dependency upgrade that caused a timing lock issue that greatly reduced the throughput of our task workers. This dependency change, coupled with a failure to appropriately scale up due to increased workload scheduling, caused the application's work queue to build up. Contributing to the issue, the team was not alerted immediately that new router instances were not being initialized correctly on startup largely because of incorrectly configured alerts. These router instances were serving live traffic already but were shown to be in the wrong boot state, and they were deleted via our normal processes due to failing readiness checks. The deletion caused a degradation of the associated runtime cluster while the autoscaling group was creating new instances. This reduced pool of router instances caused requests to fail as more requests were coming in faster than the limited number of routers could handle. This is when customers started noticing issues with the service.
Homebrew. A GitHub personal access token with recently elevated scopes was leaked from Homebrew's Jenkins that allowed access to git push on several Homebrew repositories.
Honeycomb. A tale of multiple incidents, happening mostly due to fast growth.
Honeycomb. Another story of multiple incidents that ended up impacting query performance and alerting via triggers and SLOs. These incidents were notable because of how challenging their investigation turned out to be.
Honeycomb. On September 8th, 2022, our ingest system went down repeatedly and caused interruptions for over eight hours. We will first cover the background behind the incident with a high-level view of the relevant architecture, how we tried to investigate and fix the system, and finally, we'll go over some meaningful elements that surfaced from our incident review process.
Honeycomb. On July 25th, 2023, we experienced a total Honeycomb outage. It impacted all user-facing components from 1:40 pm UTC to 2:48 pm UTC, during which no data could be processed or accessed. The full details of incident triage process is covered in here.
incident.io. A bad event (poison pill) in the async workers queue triggered unhandled panics that repeatedly crashed the app. This combined poorly with Heroku infrastructure, making it difficult to find the source of the problem. Applied mitigations that are generally interesting to people running web services, such as catching corner cases of Go panic recovery and splitting work by type/class to improve reliability.
Indian Electricity Grid. One night in July 2012, a skewed electricity supply-demand profile developed when the northern grid drew a tremendous amount of power from the western and eastern grids. Following a series of circuit breakers tripping by virtue of under-frequency protection, the entire NEW (northern-eastern-western) grid collapsed due to the absence of islanding mechanisms. While the grid was reactivated after over 8 hours, similar conditions in the following day caused the grid to fail again. However, the restoration effort concluded almost 24 hours after the occurrence of the latter incident.
Instapaper. Also this. Limits were hit for a hosted database. It took many hours to migrate over to a new database.
Intel. A scripting bug caused the generation of the divider logic in the Pentium to very occasionally produce incorrect results. The bug wasn't caught in testing because of an incorrect assumption in a proof of correctness. (See the Wikipedia article on 1994 FDIV bug for more information.)
Joyent. Operations on Manta were blocked because a lock couldn't be obtained on their PostgreSQL metadata servers. This was due to a combination of PostgreSQL's transaction wraparound maintenance taking a lock on something, and a Joyent query that unnecessarily tried to take a global lock.
Joyent. An operator used a tool with lax input validation to reboot a small number of servers undergoing maintenance but forgot to type -n and instead rebooted all servers in the datacenter. This caused an outage that lasted 2.5 hours, rebooted all customer instances, put tremendous load on DHCP/TFTP PXE boot systems, and left API systems requiring manual intervention. See also Bryan Cantrill's talk.
Kickstarter. Primary DB became inconsistent with all replicas, which wasn't detected until a query failed. This was caused by a MySQL bug which sometimes caused order by to be ignored.
Kings College London. 3PAR suffered catastrophic outage which highlighted a failure in internal process.
Launchdarkly. Rule attribute selector causing flag targeting web interface to crash.
Mailgun. Secondary MongoDB servers became overloaded and while troubleshooting accidentally pushed a change that sent all secondary traffic to the primary MongoDB server, overloading it as well and exacerbating the problem.
Mandrill. Transaction ID wraparound in Postgres caused a partial outage lasting a day and a half.
Середина. Polish users were unable to use their "Ś" key on Medium.
Metrist. Azure published a breaking change that affected downstream systems like Metrist's service without warning them, the post covers how to identify the issue and how to recover from it.
НАСА. A design flaw in the Apollo 11 rendezvous radar produced excess CPU load, causing the spacecraft computer to restart during lunar landing.
НАСА. Use of different units of measurement (metric vs. English) caused Mars Climate Orbiter to fail. There were also organizational and procedural failures[ref] and defects in the navigation software[ref].
НАСА. NASA's Mars Pathfinder spacecraft experienced system resets a few days after landing on Mars (1997). Debugging features were remotely enabled until the cause was found: a priority inversion problem in the VxWorks operating system. The OS software was remotely patched (all the way to Mars) to fix the problem by adding priority inheritance to the task scheduler.
Netflix. An EBS outage in one availability zone was mitigated by migrating to other availability zones.
North American Electric Power System. A power outage in Ohio around 1600h EDT cascaded up through a web of systemic vulnerabilities and process failures and resulted in an outage in the power grid affecting ~50,000,000 people for ~4 days in some areas, and caused rolling blackouts in Ontario for about a week thereafter.
Okta. A hackers group got access to a third-party support engineer's laptop.
OpenAI. Queues for requests and responses in a Redis cache became corrupted and out of sequence, leading to some requests revealing other people's user data to some users, including app activity data and some billing info.
Pagerduty. In April 2013, Pagerduty, a cloud service proving application uptime monitoring and real-time notifications, suffered an outage when two of its three independent cloud deployments in different data centers began experiencing connectivity issues and high network latency. It was found later that the two independent deployments shared a common peering point which was experiencing network instability. While the third deployment was still operational, Pagerduty's applications failed to establish quorum due to to high network latency and hence failed in their ability to send notifications.
PagerDuty. A third party service for sending SMS and making voice calls experienced an outage due to AWS having issues in a region.
Parity. $30 million of cryptocurrency value was diverted (stolen) with another $150 million diverted to a safe place (rescued), after a 4000-line software change containing a security bug was mistakenly labeled as a UI change, inadequately reviewed, deployed, and used by various unsuspecting third parties. See also this analysis.
Platform.sh. Outage during a scheduled maintenance window because there were too much data for Zookeeper to boot.
Reddit. Experienced an outage for 1.5 hours, followed by another 1.5 hours of degraded performance on Thursday August 11 2016. This was due to an error during a migration of a critical backend system.
Reddit. Outage for over 5 hours when a critical Kubernetes cluster upgrade failed. The failure was caused by node metadata that changed between versions which brought down workload networking.
Roblox. Roblox end Oct 2021 73 hours outage. Issues with Consul streaming and BoltDB.
Salesforce. Initial disruption due to power failure in one datacenter led to cascading failures with a database cluster and file discrepancies resulting in cross data center failover issues.
Salesforce. On September 20, 2023, a service disruption affected a subset of customers across multiple services beginning at 14:48 Coordinated Universal Time (UTC). As a result, some customers were unable to login and access their services. A policy change executed as a part of our standard security controls review and update cycle to be the trigger of this incident. This change inadvertently blocked access to resources beyond its intended scope.
Часовой. Transaction ID Wraparound in Postgres caused Sentry to go down for most of a working day.
Shapeshift. Poor security practices enabled an employee to steal $200,000 in cryptocurrency in 3 separate hacks over a 1 month period. The company's CEO expanded upon the story in a blog post.
Skyliner. A memory leak in a third party library lead to Skyliner being unavailable on two occasions.
Slack. A combination of factor results in a large number of Slack's users being disconnected to the server. The subsequent massive disconnection-reconnection process exceeded the database capacity and caused cascading connection failures, leading to 5% of Slack's users not being able to connect to the server for up to 2 hours.
Slack. Network saturation in AWS's traffic gateways caused packet loss. An attempt to scale up caused more issues.
Slack. Cache nodes removal caused the high workload on the vitness cluster, which in turn cased the service outage.
Spotify. Lack of exponential backoff in a microservice caused a cascading failure, leading to notable service degradation.
Квадрат. A cascading error from an adjacent service lead to merchant authentication service being overloaded. This impacted merchants for ~2 hours.
Stackdriver. In October 2013, Stackdriver, experienced an outage, when its Cassandra cluster crashed. Data published by various services into a message bus was being injested into the Cassandra cluster. When the cluster failed, the failure percolated to various producers, that ended up blocking on queue insert operations, eventually leading to the failure of the entire application.
Stack Exchange. Enabling StackEgg for all users resulted in heavy load on load balancers and consequently, a DDoS.
Stack Exchange. Backtracking implementation in the underlying regex engine turned out to be very expensive for a particular post leading to health-check failures and eventual outage.
Stack Exchange. Porting old Careers 2.0 code to the new Developer Story caused a leak of users' information.
Stack Exchange. The primary SQL-Server triggered a bugcheck on the SQL Server process, causing the Stack Exchange sites to go into read only mode, and eventually a complete outage.
Strava. Hit the signed integer limit on a primary key, causing uploads to fail.
Stripe. Manual operations are regularly executed on production databases. A manual operation was done incorrectly (missing dependency), causing the Stripe API to go down for 90 minutes.
Швеция. Use of different rulers by builders caused the Vasa to be more heavily built on its port side and the ship's designer, not having built a ship with two gun decks before, overbuilt the upper decks, leading to a design that was top heavy. Twenty minutes into its maiden voyage in 1628, the ship heeled to port and sank.
Tarsnap. A batch job which scans for unused blocks in Amazon S3 and marks them to be freed encountered a condition where all retries for freeing certain blocks would fail. The batch job logs its actions to local disk and this log grew without bound. When the filesystem filled, this caused other filesystem writes to fail, and the Tarsnap service stopped. Manually removing the log file restored service.
Telstra. A fire in a datacenter caused SMS text messages to be sent to random destinations. Corrupt messages were also experienced by customers.
Therac-25. The Therac-25 was a radiation therapy machine involved in at least six accidents between 1985 and 1987 in which patients were given massive overdoses of radiation. Because of concurrent programming errors, it sometimes gave its patients radiation doses that were thousands of times greater than normal, resulting in death or serious injury.
trivago. Due to a human error, all engineers lost access to the central source code management platform (GitHub organization). An Azure Active Directory Security group controls the access to the GitHub organization. This group was removed during the execution of a manual and repetitive task.
Twilio. In 2013, a temporary network partition in the redis cluster used for billing operations, caused a massive resynchronization from slaves. The overloaded master crashed and when it was restarted, it started up in read-only mode. The auto-recharge component in This resulted in failed transactions from Twilio's auto-recharge service, which unfortunately billed the customers before updating their balance internally. So the auto-recharge system continued to retry the transaction again and again, resulting in multiple charges to customer's credit cards.
Twilio. Twilio's incident of having high filtering on SMS towards AT&T Network In United States.
Клапан. Steam's desktop client deleted all local files and directories. The thing I find most interesting about this is that, after this blew up on social media, there were widespread reports that this was reported to Valve months earlier. But Valve doesn't triage most bugs, resulting in an extremely long time-to-mitigate, despite having multiple bug reports on this issue.
Yeller. A network partition in a cluster caused some messages to get delayed, up to 6-7 hours. For reasons that aren't clear, a rolling restart of the cluster healed the partition. There's some suspicious that it was due to cached routes, but there wasn't enough logging information to tell for sure.
Zerodha. The Order Management System (OMS) provided to Zerodha, a stock broker, collapsed when an order for 1M units of a penny stock was divided into more than 0.1M individual trades against the typical few hundreds, triggering a collapse of the OMS, which was not encountered prior by its provider - Refinitiv (formerly Thomson Reuters), a subsidiary of the London Stock Exchange.
Zerodha. A failure of the primary leased line to a CTCL between a stock broker and a stock exchange led to the activation of a backup leased line that was operating sporadically over the following hour, affecting bracket and cover orders. Subsequently, the process of placing and validating orders had been modified to incorporate the unreliability of the CTCL's leased lines, but the reliability of the primary and the backup leased lines was not fundamentally improved by the providers.
Unfortunately, most of the interesting post-mortems I know about are locked inside confidential pages at Google and Microsoft. Please add more links if you know of any interesting public post mortems! is a pretty good resource; other links to collections of post mortems are also appreciated.
AWS Post-Event Summaries
Availability Digest website.
Postmortems community (with imported archive from the now-dead G+ community).
John Daily's list of postmortems (in json).
Jeff Hammerbacher's list of postmortems.
NASA lessons learned database.
Tim Freeman's list of postmortems
Wikimedia's postmortems.
Autopsy.io's list of Startup failures.
SRE Weekly usually has an Outages section at the end.
Lorin Hochstein's list of major incidents.
Awesome Tech Postmortems.
Nat Welch's parsed postmortems is an attempt to build a database out of this markdown file.
Postmortem Templates is a collection of postmortem templates from various sources.
How Complex Systems Fail
John Allspaw on Resilience Engineering