Allegro. 전자 상거래 사이트는 마케팅 캠페인으로 인한 갑작스런 트래픽 스파이크 후에 다운되었습니다. 중단은 클러스터 리소스 관리의 구성 오류로 인해 발생하여 하드웨어 리소스를 사용할 수 있더라도 더 많은 서비스 인스턴스가 시작되는 것을 방지했습니다.
Cloudflare. 잘못된 구성 (라우터 규칙)으로 인해 모든 Edge 라우터가 충돌하여 모든 CloudFlare를 중단했습니다.
Cloudflare. 개인 백본 네트워크를 유지하는 동안 엔지니어는 애틀랜타 데이터 센터 네트워크 구성에서 오타를 만들어 미국과 유럽에서 오는 모든 트래픽 이이 데이터 센터로 유입되어 분쇄됩니다.
Cloudflare. 장애인 BGP 광고 접두사를 잘못 주문하면 19 개의 데이터 센터에서 오작동이 발생했습니다.
Cloudflare. 계층화 된 캐시 시스템으로 변경하면 상태 코드 530이있는 사용자에게는 일부 요청이 실패했습니다. 그 영향은 총 6 시간 동안 지속되었습니다. 우리는 모든 요청의 약 5%가 정점에 실패한 것으로 추정합니다. 테스트에서 시스템의 복잡성과 사각 지대 때문에 변경 사항이 테스트 환경으로 공개되었을 때이를 발견하지 못했습니다.
Cloudflare. 서비스 토큰을 관리하는 코드를 출시하는 오류로 인해 2023 년 1 월 24 일에 121 분 동안 여러 CloudFlare 서비스를 사용할 수 없었습니다. 이 사건으로 인해 작업자 플랫폼의 측면, 제로 트러스트 솔루션 및 콘텐츠 전달 네트워크 (CDN)의 제어 평면 기능을 포함한 광범위한 CloudFlare 제품이 저하되었습니다.
Cloudflare. 2023 년 10 월 4 일, CloudFlare는 07:00 UTC에서 시작하여 11:00 UTC에 끝나는 DNS 해결 문제를 경험했습니다. 1.1.1.1의 일부 사용자 또는 1.1.1.1을 사용하는 Warp, Zero Trust 또는 타사 DNS Resolvers와 같은 제품은 유효한 쿼리에 대한 Servfail DNS 응답을 받았을 수 있습니다. 이 정전에 대해 정말 죄송합니다. 이 정전은 내부 소프트웨어 오류였으며 공격의 결과가 아닙니다. 이 블로그에서 우리는 실패가 무엇인지, 왜 발생했는지, 그리고 이것이 다시 일어나지 않도록하는 일에 대해 이야기 할 것입니다.
Datadog. 고객 중 하나의 잘못된 서비스 검색 구성은 부양 가족이 다운되었을 때 전 세계적으로 서비스 검색을 중단했습니다.
enom. 2022 년 1 월 15 일, 동부 표준시 오전 9시, Tucows의 엔지니어링 팀은 Enom 플랫폼을 새로운 클라우드 인프라로 마이그레이션하기 위해 계획된 유지 보수 작업을 시작했습니다. 컷 오버의 복잡성으로 인해 팀은 많은 문제에 직면하여 지속적인 지연이 발생했습니다. 유지 보수 창은 데이터 복제, 네트워크 라우팅 및 웹 사이트 접근성 및 이메일 제공에 영향을 미치는 DNS 해결 문제와 관련된 문제를 해결하기 위해 여러 번 연장되었습니다.
Etsy. 스위치를 올바르게 구성하지 않고 멀티 캐스트 트래픽을 보내면 Etsy Global 중단이 발생했습니다.
페이스 북. Facebook의 백본 라우터에 대한 구성 변경으로 인해 모든 Facebook 속성 및 내부 도구가 전 세계적으로 중단되었습니다.
페이스 북. 나쁜 구성은 Facebook과 Instagram을 모두 다운했습니다.
파이어 폭스. 2022 년 1 월 13 일, Firefox 네트워크 스택의 특정 코드 경로는 HTTP/3 프로토콜 구현에서 문제를 일으켰습니다. 이로 인해 네트워크 통신이 차단되었고 Firefox가 응답하지 않아 거의 2 시간 동안 웹 컨텐츠를로드 할 수 없었습니다.
Gocardless. 드문 실패 세트와 결합 된 잘못된 구성으로 인해 데이터베이스 클러스터가 중단되어 API 및 대시 보드를 오프라인으로 수행했습니다.
[Google] (https://cloud.google.com/blog/products/infrastructure/details-of-google-cloud-gcve-incident). 초기 GCVE 프로비저닝은 레거시 옵션으로 수행되었으며,이 기간이 끝날 때 자동 삭제와 함께 '고정 용어'계약으로 이어집니다.
Google. BGP 공지에서 모든 Google Compute Engine IP 블록을 제거했습니다.
Google. 잘못된 구성 (자가 생성)은 대부분의 Google 서비스를 중단했습니다.
Google. 잘못된 구성으로 인해 할당량 서비스가 실패하여 여러 서비스가 실패했습니다 (Gmail 포함).
Google. / URL 블랙리스트에 체크인하여 모든 URL이 경고를 표시합니다.
Google. 로드 밸런서로 구성 롤아웃의 버그는 22 분 동안 오류율이 증가합니다.
Google. 구성 변경은 메타 데이터 스토리지에 대한 수요가 상승하기위한 것으로, Blob Lookup 시스템의 일부를 과부하시키기 위해 Gmail, Google 사진, Google 드라이브 및 기타 GCP 서비스에 대한 사용자가 가시 가능한 서비스 영향으로 계단식 실패를 일으켰습니다.
Google. 두 가지 오해와 소프트웨어 버그로 인해 미국 동부 해안에서 대규모 Google 클라우드 네트워크 실패가 발생했습니다.
Google. Google의 프론트 엔드로드 밸런싱 서비스는 실패를 경험하여 유럽의 여러 다운 스트림 Google 클라우드 서비스에 영향을 미칩니다. 예비 분석에서,이 문제의 근본 원인은 내부 네트워크로드 밸런서 코드 내에서 잠재 문제를 일으키는 새로운 인프라 기능으로 인해 발생했습니다.
Google. GCLB (Google Cloud Networking) GCLB (Google Cloud Load Balancing) 서비스와 관련된 문제로 인해 여러 다운 스트림 Google 클라우드 서비스에 영향을 미칩니다. 영향을받은 고객은 웹 사이트에서 Google 404 오류를 관찰했습니다. 예비 분석에서 문제의 근본 원인은 일상적인 시스템 작동 중에 트리거 된 네트워크 구성 서비스의 잠재 버그였습니다.
Google. Google Cloud Networking은 2022 년 7 월 14 일 목요일에 미국/태평양에서 일괄, 스트리밍 및 전송 작업과 같은 우선 순위가 낮은 트래픽의 용량을 감소 시켰습니다. 이 서비스 중단은 수리 작업과 일상적인 네트워크 소프트웨어 업그레이드 롤아웃의 조합 동안 발생하는 문제로 인해 발생했습니다. Google Cloud 제품의 파괴 및 탄력성 기능의 특성으로 인해 영향을받은 지역 및 개별 영향 Windows는 실질적으로 다양합니다.
헤로쿠. 자동 원격 구성 변경은 완전히 전파되지 않았습니다. 웹 다이 노스를 시작할 수 없었습니다.
헤로쿠. 배포 프로세스가 잘못되면 코드가 필요할 때 새로운 구성 변수를 사용하지 못했습니다.
일시적으로 유지하십시오. 엔지니어는 우연히 생산 데이터베이스를 삭제했습니다. 데이터베이스는 하루에 한 번 백업이있는 DigitalOcean의 관리되는 데이터베이스입니다. 재난 후 30 분 후에 온라인으로 돌아 왔지만 7 시간의 스코어 보드 데이터는 영원히 사라졌습니다.
마이크로 소프트. 잘못된 구성은 Azure Storage를 중단했습니다.
NPM. 빠르게 구성 변경으로 인해 백엔드 라우팅 문제가 발생했습니다. 정확히 말해서, 문제는 vcl_fetch 함수에서 req.backend를 설정 한 다음 재시작을 호출하여 규칙을 재구성한다는 것입니다. 그러나 호출 재시작은 목록의 첫 번째 백업으로 Req.backend를 재설정합니다.이 경우로드 균형 CouchDB 서버가 아닌 Manta가 발생했습니다.
오 와사. 버튼의 잘못된 푸시는 너무 높은 수준의 불소로 인해 수처리 공장이 닫히게됩니다.
Pagerduty. 2021 년 12 월 15 일 00:17 UTC, 우리는 컨테이너 오케스트레이션 클러스터에 영향을 미치는 PagerDuty의 인프라에 DNS 구성 변경을 배포했습니다. 변화에는 결함이 포함되어있어 테스트 환경에서 감지하지 못했기 때문에 컨테이너 오케스트레이션 클러스터에서 실행되는 모든 서비스가 DNS를 해결할 수 없었습니다.
Razorpay. RDS 하드웨어 실패는 잘못된 MySQL 구성을 강조하여 금융 시스템의 주요 데이터 손실을 초래했습니다.
녹슬. 2023-01-25 년 수요일 09:15 UTC에서 Crates.io의 생산 인프라에 대한 변경 사항을 배포했습니다. 배치하는 동안 STATIC.CRATES.IO의 DNS 레코드는 10-15 분의 추정 시간 동안 해결하지 못했습니다. 다운 타임 중에 인증서와 DNS 레코드가 모두 재생 되었기 때문입니다.
녹슬. 12:17에서 12:30 사이의 2023-07-20에서 UTC Crates.io의 모든 상자 다운로드는 다운로드 URL 생성에 버그가 포함 된 배치로 인해 깨졌습니다. 이 기간 동안 우리는 Crates.io에 초당 평균 4.71k 요청을 받았으며,화물의 재 시도 시도를 포함하여 약 3.7m의 요청이 실패했습니다.
스택 오버플로. 불량 방화벽 구성이 차단 된 StackexChange/StackoverFlow.
보초. 백업의 잘못된 아마존 S3 설정은 데이터 유출로 이어집니다.
트라 비스시. 구성 문제 (불완전한 비밀번호 회전)로 인해 "누출"VM이 발생하여 빌드 대기열 시간이 높아졌습니다.
트라 비스시. 구성 문제 (자동화 된 연령 기반 Google Compute Engine VM 이미지 정리 작업)로 인해 안정적인 기본 VM 이미지가 삭제되었습니다.
트라 비스시. 구성 변경이 빌드가 실패하기 시작합니다. 수동 롤백이 깨졌습니다.
트라 비스시. 우발적 인 환경 변수 테스트는 생산 데이터베이스를 잘라냅니다.
Tui. 입사 비행 전에로드 시트가 생성 된 예약 시스템이 업그레이드되었습니다. 이 시스템의 결함으로 인해 여성 승객은 타이틀 '미스'로 체크인하는 것이 어린이로 계산되었습니다. 이 시스템은 69kg의 올바른 여성 표준 중량과 달리 어린이의 표준 중량 35kg을 할당했습니다. 결과적으로, 38 명의 여성이 잘못된 체크인을 확인하고 어린이로서 잘못 식별하면, 하중 시트의 G-TAWG 이륙 질량은 항공기의 실제 질량보다 1,244kg보다 1,244kg이었다.
TURSO. 잘못 구성된 DB 백업 식별자로 인해 무료 계층 고객의 데이터 유출이 발생했으며 후속 수정으로 인해 데이터 손실이 발생했습니다.
판막. 공식적인 사후 사후가 없지만 BGP 구성 밸브가 레벨 3, Telia 및 Abovenet/Zayo에 대한 밸브의 연결이 잘못되어 전 세계 스팀 중단이 발생했습니다.
아마존. 알 수없는 이벤트로 변압기가 실패했습니다. 발전기 전원이 위상 상태인지 확인하는 PLC 중 하나는 알려지지 않은 이유로 실패하여 백업 생성기 세트가 온라인으로 오는 것을 방지했습니다. 이것은 EU West의 EC2, EBS 및 RD에 영향을 미쳤습니다.
아마존. 악천후는 AWS US East 전역에서 전력 고장을 일으켰습니다. 전원이 백업으로 전환되고 발전기가로드되었을 때 단일 백업 생성기가 안정적인 전력을 전달하지 못했습니다. 이것은 2 개월 전에 부하 테스트를 통과하고 주간 전원 온 테스트를 통과 했음에도 불구하고입니다.
아마존. 6 월 4 일 오후 10시 25 분 PDT, AWS 시드니 시설에서의 전력 손실로 인해 해당 지역의 심한 날씨로 인해 가용 영역의 상당수의 사례가 중단됩니다. 전력 손실의 시그니처로 인해 전력 분리 차단기는 관여하지 않았으므로 백업 에너지 매장량이 저하 된 전력망으로 배출됩니다.
Arpanet. 오작동 IMP (인터페이스 메시지 프로세서)가 손상된 라우팅 데이터, 소프트웨어 재수 계산 체크섬이 양호한 체크섬으로 잘못된 데이터를 전파하고, 잘못된 시퀀스 숫자가 버퍼를 채우고, 완전한 버퍼가 Keepalive 패킷을 잃어 버렸을 때 네트워크에서 벗어났습니다. 1980 년부터.
Cloudflare. 부분 스위치 오작동으로 인해 계단식 비잔틴 고장이 발생하여 6 시간 33 분 동안 API 및 대시 보드의 가용성에 영향을 미쳤습니다.
Cloudflare. 유연성 데이터 센터 정전. 이 게시물은이 사건을 일으킨 사건을 간략하게 설명합니다.
FirstEnergy / General Electric. FirstEnergy는 일부 변속기 라인이 트리밍되지 않은 단풍에 부딪히면 국소 실패를 가졌습니다. 정상적인 프로세스는 알람이 꺼져있어 인간 운영자가 전원을 재배치하게하는 것입니다. 그러나 이것을 모니터링하는 GE 시스템에는 버그가 발생하여 경보가 트리거되는 것을 방지하여 결국 캐스케이드 실패가 결국 5 천 5 백만 명에게 영향을 미쳤습니다.
github. 2016 년 1 월 28 일 Github는 1 차 데이터 센터의 전력이 중단되었습니다.
Google. 유럽 데이터 센터 (Europe-West1-B)에서 연속적인 번개가 발생하면 해당 지역의 Google 컴퓨팅 엔진 저장 시스템에 전력 손실이 발생했습니다. I/O 오차는 표준 영구 디스크 (HDD)의 서브 세트에서 관찰되었으며, 이들의 작은 분획에서 영구 데이터 손실이 관찰되었다.
Google. 2022 년 7 월 19 일 화요일 06:33 US/Pacific에, Zone Europe-WEST2-A를 호스팅하는 데이터 센터 중 하나에서 여러 개의 중복 냉각 시스템이 동시에 실패했습니다. 이로 인해 일부 고객은 영향을받는 제품에 대한 서비스를 이용할 수 없게되었습니다.
Pythonannywhere. 스토리지 서버 중 하나의 스토리지 볼륨 고장으로 인해 Pythonannywhere 사이트와 해당 볼륨에 의존하는 사용자의 프로그램 (웹 사이트 포함)을 시작하여 나중에 다른 호스팅 된 사이트로 퍼져 나갔습니다.
해. Sun은 몇 세대의 서버 부품에 ECC를 포함하지 않았습니다. 이로 인해 데이터 손상과 충돌이 발생했습니다. Sun의 전형적인 MO에 이어 그들은 문제를 설명하기 전에 버그 사인을 NDA로보고 한 고객을 만들었습니다.
CCP 게임. 오타와 이름 충돌로 인해 설치 프로그램은 때때로 Eve Online 의 확장 설치시 Boot.ini 파일을 삭제했습니다.
github. 유지 보수 중 43 초 네트워크 파티션으로 인해 MySQL 마스터 장애 조치가 발생했지만 New Mas 24 시간 이상의 복원은 데이터 무결성을 유지하기 위해 작동합니다.
Gocardless. 중요한 PostgreSQL 테이블의 모든 쿼리는 매우 빠른 데이터베이스 마이그레이션과 장기 실행 쿼리의 조합으로 차단되어 15 초의 다운 타임을 유발했습니다.
Google. 거의 수정되지 않은로드 밸런서에 대한 많은 변화가 매우 느린 코드 경로를 통해 적용되었습니다. 이것은 ~ 2 시간 동안 모든 공개 주소 변경 사항을 얼립니다.
Google. Google 생산 백본의 Central US Gateway 캠퍼스 중 하나의 섬유 경로에서 구성 요소가 실패하면 게이트웨이와 여러 에지 위치 사이의 사용 가능한 네트워크 대역폭이 감소하여 패킷 손실이 발생하는 반면 백본은 자동으로 트래픽이 남은 경로로 이동했습니다.
기사 캐피탈. 충돌하는 배포 된 버전과 이전에 사용 된 비트를 재사용하면 $ 460m 손실이 발생했습니다. 더 긴 글쓰기도 참조하십시오.
WebKit 코드 저장소. 중복 제거로 구성된 전복 저장소 인 WebKit 저장소는 동일한 SHA-1 해시를 갖는 두 파일을 테스트 데이터로 체크인 한 후 충돌에 대한 안전 점검을 구현할 의도로 사용할 수 없었습니다. 두 파일의 MD5 합계가 다르므로 체크 아웃이 일관성 검사에 실패합니다. 맥락에서, 최초의 공개 SHA-1 해시 충돌은 최근에 두 개의 충돌 파일의 예와 함께 발표되었습니다.
하늘빛. 1 년 동안 유효한 인증서가 만들어졌습니다. 적절한 라이브러리를 사용하는 대신 누군가는 1 년을 계산 한 코드를 현재 날짜와 1 년으로 작성했습니다. 2012 년 2 월 29 일, 이로 인해 2013 년 2 월 29 일 만료일로 인증서가 생성되었으며, 이는 잘못된 날짜로 인해 거부되었습니다. 이로 인해 하루 종일 지속 된 Azure Global 중단이 발생했습니다.
Cloudflare. 2016-12-31T23 : 59 : 60Z에서 27 번째 도약 2 위를 추적하는 거꾸로 시간 흐름으로 인해 DNS Resolvers (RRDN)의 가중 라운드 로빈 선택이 공황 상태에 빠졌고 일부 CNAME 조회에서 실패했습니다. Go 's time.Now() 는 단조로운 것으로 잘못 가정했습니다. 이것은 음수 값을 rand.Int63n() 에 대한 호출에 주입했으며,이 경우 당황합니다.
리눅스. xtime_lock 보유한 타이머 인터럽트 핸들러에서 도약 두 번째 코드가 호출되었습니다. 그 코드는 도약을 2 초로 기록하기 위해 printk 사용했습니다. printk klogd 깨우고 때로는 시간을 얻으려고 노력할 수 있습니다. xtime_lock 에서 기다려 교착 상태가 발생합니다.
리눅스. 도약 두 번째가 발생하면 CLOCK_REALTIME 1 초 만에 다시 wound되었습니다. 이것은 hrtimer base.offset 업데이트하는 메커니즘을 통해 수행되지 않았습니다. 이는 타이머 인터럽트가 발생했을 때 Timer_AbStime Clock_RealTime 타이머가 1 초 미만의 타이머를 포함하여 1 초 일찍 만료되었음을 의미했습니다. 이로 인해 잠을 자지 않고 스핀 웨이프로 루프에서 1 초 미만의 수면을 사용한 응용 프로그램이 발생하여 많은 시스템에서 높은 하중이 발생했습니다. 이로 인해 2012 년에는 많은 웹 서비스가 다운되었습니다.
모질라. 대부분의 Firefox 추가 기능은 2019 년 5 월 4 일경 인증서가 만료 된 작업 중단을 중단했습니다. Firefox에는 맬웨어를 방지하기 위해 유효한 인증 체인이 필요합니다. 약 9 시간 후, Mozilla는 유효한 인증서를 Firefox의 인증서 저장소에 주입하여 유효한 체인을 만들고 차단 해제 된 추가 기능을 주입 한 권한있는 추가 기능을 추진했습니다. 이로 인해 모든 추가 기능, 약 15,000, 해상도는 대부분의 사용자에게는 약 15-21 시간이 걸렸습니다. 일부 사용자 데이터가 손실되었습니다. 이전에 Mozilla는 기술 세부 사항에 대해 게시했습니다.
github. Github 플랫폼은 큰 MySQL 테이블에서 스키마 마이그레이션을 처리 할 때 새로운 실패 모드가 발생했습니다. 스키마 마이그레이션은 Github에서 일반적인 작업이며 종종 완료하는 데 몇 주가 걸립니다. 마이그레이션의 마지막 단계는 업데이트 된 테이블을 올바른 위치로 옮기기 위해 이름 바꾸기를 수행하는 것입니다. 이 마이그레이션의 마지막 단계에서 MySQL Read Replicas의 상당 부분이 세마포어 교착 상태에 빠졌습니다. MySQL 클러스터는 쓰기 트래픽을위한 기본 노드, 생산 트래픽을위한 다중 읽기 복제본 및 백업 및 분석 목적으로 내부 읽기 트래픽을 제공하는 여러 복제본으로 구성됩니다. 교착 상태에 도달 한 읽기 복제본은 충돌 회복 상태에 들어가서 건강한 읽기 복제본에 부하가 증가했습니다. 이 시나리오의 계단식 특성으로 인해 핵심 GitHub 서비스의 가용성에 영향을 미치는 생산 요청을 처리하기에 충분한 활성 읽기 복제품이 없었습니다.
헤로쿠. 2023 년 6 월 8 일 UTC 15:05에, 외국 키가 참조 한 기본 키보다 작은 데이터 유형을 사용한 경우 데이터베이스 오류가 발생했습니다. 이 오류로 인해 기본 키가 허용 값을 초과하면 오류가 발생하여 Heroku 내에서 새로운 승인을 할 수 없습니다. 이 오류로 인해 고객은 고객이 새로운 배포를 생성하지 못했습니다. 그런 다음 OnCall 작업은 Heroku API를 완전히 중단했습니다.
Allegro. Allegro 플랫폼은 비동기 분산 작업 처리를 담당하는 서브 시스템의 실패를 겪었습니다. 문제는 많은 영역에 영향을 미쳤습니다. 예를 들어 카트를 통해 수많은 제안을 구매하고 대량 제안 편집 (가격 목록 편집 포함)과 같은 기능은 전혀 효과가 없었습니다. 또한 새로운 제안으로 일일 뉴스 레터를 부분적으로 보내지 못했습니다. 또한 내부 관리 패널의 일부가 영향을 받았습니다.
아마존. 인간 오류. 2017 년 2 월 28 일 오전 9시 37 분 PST, Amazon S3 팀은 사소한 문제를 디버깅하고있었습니다. 확립 된 플레이 북을 사용 함에도 불구하고 소수의 서버를 제거하려는 명령 중 하나가 오타로 발행되어 부주의하게 더 큰 서버 세트가 제거되었습니다. 이 서버는 중요한 S3 시스템을 지원했습니다. 결과적으로 종속 시스템은 올바르게 작동하기 위해 완전히 다시 시작해야했으며 시스템은 PST 1:54 PST에 최종 해상도까지 US-East-1 (북부 버지니아)에 대한 광범위한 정전을 거쳤습니다. EC2 및 EBS와 같은 Amazon의 자체 서비스는 S3에도 의존하기 때문에 수백 개의 회사에 영향을 미쳐 캐스케이드가 방대한 실패를 일으켰습니다.
아마존. 메시지 손상으로 인해 분산 서버 상태 기능이 S3 요청 처리 차량의 리소스를 압도하게 만들었습니다.
아마존. 일상적인 네트워킹 업그레이드 중에 인적 오류로 인해 소프트웨어 버그에 의해 악화 된 리소스 위기가 발생하여 궁극적으로 미국의 모든 이용 가능 영역에서 중단과 0.07%의 손실이 발생했습니다.
아마존. 데이터 수집 서버에 연락 할 수 없어 스토리지 서버의보고 에이전트에서 잠재 메모리 누출 버그가 트리거되었습니다. 그리고 우아한 저하 처리 처리는 없으므로보고 에이전트는 시스템 메모리를 천천히 소비하는 방식으로 컬렉션 서버에 지속적으로 연락했습니다. 또한 모니터링 시스템 이이 EBS 서버의 메모리 누출을 경고하지 못했으며 EBS 서버는 일반적으로 모든 메모리를 매우 역동적으로 사용합니다. 월요일 아침까지, 메모리 손실 속도는 상당히 높아지고 영향을받는 스토리지 서버에서 요청 처리 프로세스를 유지할 수없는 충분한 메모리가 혼란스러워졌습니다. 이 오류는 장애 조치를 수행 할 수 없어서 더욱 절단되어 정전이 발생했습니다.
아마존. 탄성로드 밸런서는 "생산 ELB 상태 데이터에 대해 부주의하게 실행되는 유지 보수 프로세스"에 문제가 발생했습니다.
아마존. "네트워크 중단"으로 인해 메타 데이터 서비스가 부하를 경험하게하여 응답 시간이 타임 아웃 값을 초과하여 스토리지 노드가 스스로 중단되었습니다. 스스로를 무너 뜨린 노드는 계속 재 시도되어 메타 데이터 서비스의 부하가 줄어들 수 없도록합니다.
아마존. Kinesis의 프론트 엔드 캐시 차량을 스케일링하면 차량의 모든 서버가 운영 체제 구성에서 허용하는 최대 스레드 수를 초과했습니다. Cognito에서 Lambda, CloudWatch에 이르기까지 여러 가지 중요한 다운 스트림 서비스가 영향을 받았습니다.
아마존. 오전 7시 30 분 PST에 메인 AWS 네트워크에서 호스팅 된 AWS 서비스 중 하나의 용량을 확장하기위한 자동화 된 활동은 내부 네트워크 내부의 많은 클라이언트로부터 예기치 않은 동작을 트리거했습니다. 이로 인해 내부 네트워크와 메인 AWS 네트워크 간의 네트워킹 장치를 압도하여 이러한 네트워크 간의 통신 지연이 발생했습니다. 이러한 지연은 이러한 네트워크간에 통신하는 서비스에 대한 대기 시간과 오류가 증가하여 더 많은 연결 시도와 검색을 초래합니다. 이로 인해 두 네트워크를 연결하는 장치의 지속적인 혼잡 및 성능 문제가 발생했습니다.
Appnexus. 데이터베이스 업데이트로 공개 된 이중 무료로 모든 "인상 버스"서버가 동시에 충돌하게되었습니다. 버그를 트리거하는 데 시간 지연이 필요하고 스테이징 기간에는 내장 지연이 없었기 때문에 스테이징에 포착되지 않았으며 생산으로 만들었습니다.
AT & T. C 코드의 나쁜 라인은 경주 위험을 도입하여 당연히 전화 네트워크가 무너졌습니다. 계획된 중단 후, 빠른 파산 재개 메시지가 레이스를 유발하여 더 많은 재부팅이 발생하여 문제를 다시 검색했습니다. "이 문제는 네트워크의 114 개 스위치에서 반복적으로 반복적으로 반복되어 시스템을 안정화시키는 데 걸리는 9 시간 동안 5 천만 건 이상의 통화를 차단했습니다." 1990 년부터.
아틀라 시안. 2022 년 4 월 5 일 화요일, 7시 38 분 UTC에서 시작하여 775 명의 아틀라 시안 고객이 아틀라 시안 제품에 대한 액세스를 잃었습니다. 이 고객의 하위 집합의 경우 최대 14 일이 걸렸으며, 첫 번째 고객 세트는 4 월 8 일에 복원되고 모든 고객 사이트는 4 월 18 일까지 점차 복원되었습니다.
베이스 캠프, 또한 참조하십시오. Basecamp의 네트워크는 2014 년 3 월 24 일에 100 분짜리 창에서 DDOS 공격을 받았습니다.
베이스 캠프, 또한 참조하십시오. 2018 년 11 월 데이터베이스가 정수 한도에 도달하여 서비스를 읽기 전용 모드로 남겨 둡니다.
BBC 온라인. 2014 년 7 월 BBC Online은 BBC IPLAYER를 포함한 인기있는 온라인 서비스 중 매우 오랜 시간이 걸렸습니다. 데이터베이스 백엔드가 과부하되면 다양한 서비스에서 요청을 스로틀로 시작했습니다. 데이터베이스 응답을 로컬로 캐시하지 않은 서비스는 시점을 시작하고 결국 완전히 실패했습니다.
빈트레이. 2017 년 7 월에 몇 가지 악의적 인 Maven 패키지가 사칭 공격과 함께 JCenter에 포함되었습니다. 이 패키지는 1 년 넘게 JCenter에서 살았으며 몇 가지 Android 앱에 영향을 미쳤으며 JCenter의 해당 종속성에 의해 맬웨어 코드가 주입되었습니다.
약간. 호스팅 된 소스 코드 Repo에는 해시 암호를 포함하여 Bitly Backup에 대한 액세스 권한을 부여하는 자격 증명이 포함되어 있습니다.
Browserstack. Shellshock 취약성이 여전히 활성화 된 오래된 프로토 타입 기계에는 비밀 키가있어 궁극적으로 생산 시스템의 보안 위반이 발생했습니다.
BuildKite. 데이터베이스 용량 다운 그레이드 AWS 지출을 최소화하려는 시도로 인해 BuildKite 고객을 지원할 수있는 용량이 부족하여 종속 서버의 계단식이 발생했습니다.
번지. 잘못된 타임 스탬프에 대한 버그 수정의 부작용으로 인해 데이터 손실이 발생합니다. 핫픽스에 대한 서버 오해로 인해 다음 업데이트에서 여러 서버에서 데이터 손실이 다시 나타납니다.
CCP 게임. 문제가있는 로깅 채널로 인해 새로운 게임 패치를 출시 한 후 클러스터 시작 시퀀스 중에 클러스터 노드가 사망했습니다.
CCP 게임. 추적하는 데 몇 년이 걸린 스택리스 파이썬 메모리 재사용 버그를 문서화합니다.
chef.io. 레시피 커뮤니티 사이트 슈퍼마켓은 간헐적 인 반응성과 대기 시간이 증가하여 출시 후 2 시간 후에 추락했습니다. 사후 사후에서 식별 된 실패의 주된 이유 중 하나는 건강 검사 시간 초과가 매우 낮았습니다.
Circleci. Github 중단 및 복구로 예기치 않게 큰 수신 부하가 발생했습니다. 지정되지 않은 이유로 큰 부하로 인해 Circleci의 큐 시스템이 느려지게됩니다.이 경우 분당 하나의 트랜잭션을 처리합니다.
Circleci. 2023 년 1 월 4 일까지, 우리의 내부 조사는 무단 제 3 자의 침입 범위와 공격의 진입 경로를 결정했습니다. 현재까지, 우리는 유효한 2FA 지원 SSO 세션을 훔치기 위해 무단 제 3 자 맬웨어가 Circleci 엔지니어의 랩톱에 배치되었음을 알게되었습니다. 이 기계는 2022 년 12 월 16 일에 손상되었습니다. 맬웨어는 바이러스 백신 소프트웨어에 의해 감지되지 않았습니다. 우리의 조사에 따르면 맬웨어가 세션 쿠키 도난을 실행하여 원격 위치에서 대상 직원을 사칭 한 다음 생산 시스템의 하위 집합으로 액세스 할 수 있습니다.
Cloudflare. 파서 버그로 인해 CloudFlare Edge 서버는 HTTP 쿠키, 인증 토큰, HTTP 포스트 본문 및 기타 민감한 데이터와 같은 개인 정보가 포함 된 메모리를 반환했습니다.
Cloudflare. CPU 소진은 단일 WAF 규칙에 의해 발생하여 과도한 역 추적을 일으켰던 정규 표현이 제대로 작성되었습니다. 이 규칙은 제작에 빠르게 배치되었으며 일련의 이벤트는 CloudFlare 서비스의 전 세계 27 분 다운 타임으로 이어집니다.
Datadog. 자동 업그레이드 후, 모든 네트워크 규칙이 제거되어 모든 영역 및 클라우드 제공 업체에서 모든 섬모 보호 Kubernetes 클러스터의 24 시간 동안 진행되었습니다.
불화. 플 래핑 서비스는 일단 등장한 무리를 다시 연결하게합니다. 이로 인해 내부 대기열이 채워져 프론트 엔드 서비스가 메모리가 떨어지는 계단식 오류가 발생합니다.
불화. "대략 14:01에서, Discord의 API 서비스가 사용하는 고도로 사용할 수있는 클러스터의 기본 역할을하는 Redis 인스턴스는 Google 클라우드 플랫폼에 의해 자동으로 마이그레이션되었습니다.이 마이그레이션은 노드가 잘못된 오프라인으로 잘못 드러워지면서 클러스터가 Rebalance와 Rebalance 및 Rebalance 및 Trigger를 유발하여 API 인스턴스가 Readis Services를 처리 한 후에도 불일치 한 문제를 해결했습니다. Discord의 실시간 시스템을 통한 실패로 인해 Discord의 엔지니어링 팀은 서비스를 완전히 다시 시작하여 20 분 동안 수백만 명의 고객을 다시 연결해야했습니다. "
드롭 박스. 이 사후 사후는 꽤 얇고 무슨 일이 있었는지 잘 모르겠습니다. 아마도 예정된 OS 업그레이드로 인해 일부 기계가 닦아 내려서 일부 데이터베이스를 꺼내는 것 같습니다.
듀오. 계단식 고장 요청 대기열로 인해 기존의 불충분 한 데이터베이스 용량을 과부하시킵니다. 용량 계획 및 모니터링도 부적절합니다.
서사시 게임. 극심한 부하 (340 만 동시 사용자의 새로운 피크)로 인해 부분 및 총 서비스 중단이 혼합되었습니다.
유럽 우주국. Ariane 5 Intertial Guidance System에서 16 비트 번호를 64 비트 숫자로 변환 할 때 오버플로가 발생하여 로켓이 충돌했습니다. 실제 오버플로는 작동에 필요하지 않았지만 어쨌든 실행중인 코드에서 발생했습니다. 하나의 계정에 따르면, 이로 인해 진단 오류 메시지가 인쇄되어 진단 오류 메시지가 실제 유효한 데이터로 해석되었습니다. 다른 계정에 따르면 오버플로를 위해 트랩 핸들러가 설치되지 않았습니다.
탄력 있는. AWS EU-WEST-1 (아일랜드) 지역에 배포 된 탄성 클라우드 고객은 대략 3 시간 동안 클러스터에 대한 심각하게 저하 된 액세스를 경험했습니다. 이 같은 기간 동안 약 20 분 동안이 지역의 모든 배포를 완전히 사용할 수 없었습니다.
탄력 있는. AWS US-East-1 지역에 배포 된 탄성 클라우드 고객은 클러스터에 대한 액세스가 저하되었습니다.
eslint. 2018 년 7 월 12 일, 공격자는 ESLINT 관리자의 NPM 계정을 타협하고 악의적 인 패키지를 NPM 레지스트리에 게시했습니다.
Etsy. 먼저, 작은 버그 픽스 배포로 여겨지는 배포로 인해 라이브 데이터베이스가 생산 머신 실행에 업그레이드되었습니다. 이것이 부패를 일으키지 않도록하기 위해 Etsy는 무결성 점검을 실행하기 위해 트래픽 서비스를 중단했습니다. 둘째, ID의 오버플로 (32 비트 INT)로 인해 일부 데이터베이스 작업이 실패했습니다. Etsy는 이것이 데이터 손상을 초래하지 않을 것이라고 믿지 않았고 업그레이드가 추진되는 동안 사이트를 중단했습니다.
빠르게. 6 월 8 일에 유효한 고객 구성 변경으로 인해 발생했을 때 발견되지 않은 소프트웨어 버그로 인한 글로벌 중단.
Flowdock. Flowdock Instant 메시징은 2020 년 4 월 21-22 일 사이에 약 24 시간 동안 사용할 수 없었습니다. Covid-19 Pandemic은 집에서 작업이 갑작스럽고 급격히 증가하여 Flowdock의 사용량이 높아져 CPU 사용량이 높아서 응용 프로그램 데이터베이스가 중단되었습니다. 일부 사용자 데이터는 영구적으로 손실되었습니다.
정사각형. MongoDB는 메모리가 부족할 때 하중으로 떨어졌습니다. 실패는 치명적이었고, 지역 수준이 낮은 판독로드와 관련된 AA 쿼리 패턴으로 인해 치명적이었고 우아하지 않았습니다 (각 사용자 체크인은 사용자 이력에 대한 모든 체크인을 읽었으며 레코드는 공간적 위치가없는 300 바이트로 각 페이지에서 가져온 대부분의 데이터가 불필요하다는 것을 의미합니다. MongoDB 인스턴스에 대한 모니터링 부족으로 인해 부하가 치명적이 될 때까지 높은 부하가 감지되지 않아 2 일 만에 2 건의 사건에 17 시간의 다운 타임이 발생했습니다.
젠투. 엔티티는 Gentoo Github 조직에 액세스하여 모든 개발자에 대한 액세스를 제거하고 다양한 저장소에 커밋을 추가하기 시작했습니다.
github. 2018 년 2 월 28 일, Github은 DDOS 공격을 경험하여 1.35Tbps의 트래픽으로 웹 사이트를 강타했습니다.
gitlab. 기본이 잠그고 다시 시작된 후, 그것은 잘못된 파일 시스템으로 다시 가져와 전 세계 중단을 일으켰습니다. HN 토론도 참조하십시오.
gitlab. 요청의 유입이 데이터베이스에 과부하가 걸렸고, 지연에 대한 복제를 일으켰고, 피곤한 관리자가 잘못된 디렉토리를 삭제하고 6 시간의 데이터 손실을 삭제했습니다. 이전 보고서 및 HN 토론도 참조하십시오.
Google. 메일 시스템은 사람들에게 20 번 이상 이메일을 보냈습니다. 우편물이 우편을 기다리는 것으로 표시된 모든 사람에게 메일을 보낸 배치 크론 작업으로 우편물이 전송 되었기 때문에 발생했습니다. 이것은 비 원자 작업이었고 배치 작업은 모든 메시지가 전송 될 때까지 기다리지 않는 것으로 사람들을 표시하지 않았습니다.
Google. Filestore는 과부하 시나리오의 영향을 제한하도록 API 요청에 대한 전역 제한을 시행합니다. 많은 수의 GCP 프로젝트를 관리하는 내부 Google 서비스가 오작동하고 Filestore API에 요청을 과부하하여 Filestore API의 글로벌 조절을 일으킬 때 중단이 시작되었습니다. 이것은 내부 서비스가 수동으로 일시 중지 될 때까지 계속되었습니다. 이 조절의 결과로 모든 고객에게 읽기 전용 API 액세스를 사용할 수 없었습니다. 이것은 Filestore에 적용되는 글로벌 할당량으로 인해 모든 위치의 고객에게 영향을 미쳤습니다. 콘솔, GCLOUD 및 API 액세스 (목록, GETOPERATION 등)는 3 시간 동안 12 분 동안 실패합니다. Mutate operations (CreateInstance, UpdateInstance, CreateBackup, etc.) still succeeded, but customers were unable to check on operation progress.
Google. The Google Meet Livestream feature experienced disruptions that caused intermittent degraded quality of experience for a small subset of viewers, starting 25 October 2021 0400 PT and ending 26 October 2021 1000 PT. Quality was degraded for a total duration of 4 hours (3 hours on 25 October and 1 hour on 26 October). During this time, no more than 15% of livestream viewers experienced higher rebuffer rates and latency in livestream video playback. We sincerely apologize for the disruption that may have affected your business-critical events. We have identified the cause of the issue and have taken steps to improve our service.
Google. On 13 October 2022 23:30 US/Pacific, there was an unexpected increase of incoming and logging traffic combined with a bug in Google's internal streaming RPC library that triggered a deadlock and caused the Write API Streaming frontend to be overloaded. And BigQuery Storage WriteAPI observed elevated error rates in the US Multi-Region for a period of 5 hours.
GPS/GLONASS. A bad update that caused incorrect orbital mechanics calculations caused GPS satellites that use GLONASS to broadcast incorrect positions for 10 hours. The bug was noticed and rolled back almost immediately due to (?) this didn't fix the issue.
Healthcare.gov. A large organizational failure to build a website for United States healthcare.
Heroku. Having a system that requires scheduled manual updates resulted in an error which caused US customers to be unable to scale, stop or restart dynos, or route HTTP traffic, and also prevented all customers from being able to deploy.
Heroku. An upgrade silently disabled a check that was meant to prevent filesystem corruption in running containers. A subsequent deploy caused filesystem corruption in running containers.
Heroku. An upstream apt update broke pinned packages which lead to customers experiencing write permission failures to /dev .
Heroku. Private tokens were leaked, and allowed attackers to retrieve data, both in internal databases, in private repositories and from customers accounts.
Heroku. A change to the core application that manages the underlying infrastructure for the Common Runtime included a dependency upgrade that caused a timing lock issue that greatly reduced the throughput of our task workers. This dependency change, coupled with a failure to appropriately scale up due to increased workload scheduling, caused the application's work queue to build up. Contributing to the issue, the team was not alerted immediately that new router instances were not being initialized correctly on startup largely because of incorrectly configured alerts. These router instances were serving live traffic already but were shown to be in the wrong boot state, and they were deleted via our normal processes due to failing readiness checks. The deletion caused a degradation of the associated runtime cluster while the autoscaling group was creating new instances. This reduced pool of router instances caused requests to fail as more requests were coming in faster than the limited number of routers could handle. This is when customers started noticing issues with the service.
Homebrew. A GitHub personal access token with recently elevated scopes was leaked from Homebrew's Jenkins that allowed access to git push on several Homebrew repositories.
벌집. A tale of multiple incidents, happening mostly due to fast growth.
벌집. Another story of multiple incidents that ended up impacting query performance and alerting via triggers and SLOs. These incidents were notable because of how challenging their investigation turned out to be.
벌집. On September 8th, 2022, our ingest system went down repeatedly and caused interruptions for over eight hours. We will first cover the background behind the incident with a high-level view of the relevant architecture, how we tried to investigate and fix the system, and finally, we'll go over some meaningful elements that surfaced from our incident review process.
벌집. On July 25th, 2023, we experienced a total Honeycomb outage. It impacted all user-facing components from 1:40 pm UTC to 2:48 pm UTC, during which no data could be processed or accessed. The full details of incident triage process is covered in here.
incident.io. A bad event (poison pill) in the async workers queue triggered unhandled panics that repeatedly crashed the app. This combined poorly with Heroku infrastructure, making it difficult to find the source of the problem. Applied mitigations that are generally interesting to people running web services, such as catching corner cases of Go panic recovery and splitting work by type/class to improve reliability.
Indian Electricity Grid. One night in July 2012, a skewed electricity supply-demand profile developed when the northern grid drew a tremendous amount of power from the western and eastern grids. Following a series of circuit breakers tripping by virtue of under-frequency protection, the entire NEW (northern-eastern-western) grid collapsed due to the absence of islanding mechanisms. While the grid was reactivated after over 8 hours, similar conditions in the following day caused the grid to fail again. However, the restoration effort concluded almost 24 hours after the occurrence of the latter incident.
Instapaper. Also this. Limits were hit for a hosted database. It took many hours to migrate over to a new database.
Intel. A scripting bug caused the generation of the divider logic in the Pentium to very occasionally produce incorrect results. The bug wasn't caught in testing because of an incorrect assumption in a proof of correctness. (See the Wikipedia article on 1994 FDIV bug for more information.)
Joyent. Operations on Manta were blocked because a lock couldn't be obtained on their PostgreSQL metadata servers. This was due to a combination of PostgreSQL's transaction wraparound maintenance taking a lock on something, and a Joyent query that unnecessarily tried to take a global lock.
Joyent. An operator used a tool with lax input validation to reboot a small number of servers undergoing maintenance but forgot to type -n and instead rebooted all servers in the datacenter. This caused an outage that lasted 2.5 hours, rebooted all customer instances, put tremendous load on DHCP/TFTP PXE boot systems, and left API systems requiring manual intervention. See also Bryan Cantrill's talk.
Kickstarter. Primary DB became inconsistent with all replicas, which wasn't detected until a query failed. This was caused by a MySQL bug which sometimes caused order by to be ignored.
Kings College London. 3PAR suffered catastrophic outage which highlighted a failure in internal process.
Launchdarkly. Rule attribute selector causing flag targeting web interface to crash.
Mailgun. Secondary MongoDB servers became overloaded and while troubleshooting accidentally pushed a change that sent all secondary traffic to the primary MongoDB server, overloading it as well and exacerbating the problem.
Mandrill. Transaction ID wraparound in Postgres caused a partial outage lasting a day and a half.
중간. Polish users were unable to use their "Ś" key on Medium.
Metrist. Azure published a breaking change that affected downstream systems like Metrist's service without warning them, the post covers how to identify the issue and how to recover from it.
NASA. A design flaw in the Apollo 11 rendezvous radar produced excess CPU load, causing the spacecraft computer to restart during lunar landing.
NASA. Use of different units of measurement (metric vs. English) caused Mars Climate Orbiter to fail. There were also organizational and procedural failures[ref] and defects in the navigation software[ref].
NASA. NASA's Mars Pathfinder spacecraft experienced system resets a few days after landing on Mars (1997). Debugging features were remotely enabled until the cause was found: a priority inversion problem in the VxWorks operating system. The OS software was remotely patched (all the way to Mars) to fix the problem by adding priority inheritance to the task scheduler.
Netflix. An EBS outage in one availability zone was mitigated by migrating to other availability zones.
North American Electric Power System. A power outage in Ohio around 1600h EDT cascaded up through a web of systemic vulnerabilities and process failures and resulted in an outage in the power grid affecting ~50,000,000 people for ~4 days in some areas, and caused rolling blackouts in Ontario for about a week thereafter.
Okta. A hackers group got access to a third-party support engineer's laptop.
OpenAI. Queues for requests and responses in a Redis cache became corrupted and out of sequence, leading to some requests revealing other people's user data to some users, including app activity data and some billing info.
Pagerduty. In April 2013, Pagerduty, a cloud service proving application uptime monitoring and real-time notifications, suffered an outage when two of its three independent cloud deployments in different data centers began experiencing connectivity issues and high network latency. It was found later that the two independent deployments shared a common peering point which was experiencing network instability. While the third deployment was still operational, Pagerduty's applications failed to establish quorum due to to high network latency and hence failed in their ability to send notifications.
PagerDuty. A third party service for sending SMS and making voice calls experienced an outage due to AWS having issues in a region.
둥가. $30 million of cryptocurrency value was diverted (stolen) with another $150 million diverted to a safe place (rescued), after a 4000-line software change containing a security bug was mistakenly labeled as a UI change, inadequately reviewed, deployed, and used by various unsuspecting third parties. See also this analysis.
Platform.sh. Outage during a scheduled maintenance window because there were too much data for Zookeeper to boot.
Reddit. Experienced an outage for 1.5 hours, followed by another 1.5 hours of degraded performance on Thursday August 11 2016. This was due to an error during a migration of a critical backend system.
Reddit. Outage for over 5 hours when a critical Kubernetes cluster upgrade failed. The failure was caused by node metadata that changed between versions which brought down workload networking.
Roblox. Roblox end Oct 2021 73 hours outage. Issues with Consul streaming and BoltDB.
Salesforce. Initial disruption due to power failure in one datacenter led to cascading failures with a database cluster and file discrepancies resulting in cross data center failover issues.
Salesforce. On September 20, 2023, a service disruption affected a subset of customers across multiple services beginning at 14:48 Coordinated Universal Time (UTC). As a result, some customers were unable to login and access their services. A policy change executed as a part of our standard security controls review and update cycle to be the trigger of this incident. This change inadvertently blocked access to resources beyond its intended scope.
보초. Transaction ID Wraparound in Postgres caused Sentry to go down for most of a working day.
Shapeshift. Poor security practices enabled an employee to steal $200,000 in cryptocurrency in 3 separate hacks over a 1 month period. The company's CEO expanded upon the story in a blog post.
Skyliner. A memory leak in a third party library lead to Skyliner being unavailable on two occasions.
느슨하게. A combination of factor results in a large number of Slack's users being disconnected to the server. The subsequent massive disconnection-reconnection process exceeded the database capacity and caused cascading connection failures, leading to 5% of Slack's users not being able to connect to the server for up to 2 hours.
느슨하게. Network saturation in AWS's traffic gateways caused packet loss. An attempt to scale up caused more issues.
느슨하게. Cache nodes removal caused the high workload on the vitness cluster, which in turn cased the service outage.
Spotify. Lack of exponential backoff in a microservice caused a cascading failure, leading to notable service degradation.
정사각형. A cascading error from an adjacent service lead to merchant authentication service being overloaded. This impacted merchants for ~2 hours.
Stackdriver. In October 2013, Stackdriver, experienced an outage, when its Cassandra cluster crashed. Data published by various services into a message bus was being injested into the Cassandra cluster. When the cluster failed, the failure percolated to various producers, that ended up blocking on queue insert operations, eventually leading to the failure of the entire application.
Stack Exchange. Enabling StackEgg for all users resulted in heavy load on load balancers and consequently, a DDoS.
Stack Exchange. Backtracking implementation in the underlying regex engine turned out to be very expensive for a particular post leading to health-check failures and eventual outage.
Stack Exchange. Porting old Careers 2.0 code to the new Developer Story caused a leak of users' information.
Stack Exchange. The primary SQL-Server triggered a bugcheck on the SQL Server process, causing the Stack Exchange sites to go into read only mode, and eventually a complete outage.
Strava. Hit the signed integer limit on a primary key, causing uploads to fail.
줄무늬. Manual operations are regularly executed on production databases. A manual operation was done incorrectly (missing dependency), causing the Stripe API to go down for 90 minutes.
Sweden. Use of different rulers by builders caused the Vasa to be more heavily built on its port side and the ship's designer, not having built a ship with two gun decks before, overbuilt the upper decks, leading to a design that was top heavy. Twenty minutes into its maiden voyage in 1628, the ship heeled to port and sank.
Tarsnap. A batch job which scans for unused blocks in Amazon S3 and marks them to be freed encountered a condition where all retries for freeing certain blocks would fail. The batch job logs its actions to local disk and this log grew without bound. When the filesystem filled, this caused other filesystem writes to fail, and the Tarsnap service stopped. Manually removing the log file restored service.
Telstra. A fire in a datacenter caused SMS text messages to be sent to random destinations. Corrupt messages were also experienced by customers.
Therac-25. The Therac-25 was a radiation therapy machine involved in at least six accidents between 1985 and 1987 in which patients were given massive overdoses of radiation. Because of concurrent programming errors, it sometimes gave its patients radiation doses that were thousands of times greater than normal, resulting in death or serious injury.
trivago. Due to a human error, all engineers lost access to the central source code management platform (GitHub organization). An Azure Active Directory Security group controls the access to the GitHub organization. This group was removed during the execution of a manual and repetitive task.
Twilio. In 2013, a temporary network partition in the redis cluster used for billing operations, caused a massive resynchronization from slaves. The overloaded master crashed and when it was restarted, it started up in read-only mode. The auto-recharge component in This resulted in failed transactions from Twilio's auto-recharge service, which unfortunately billed the customers before updating their balance internally. So the auto-recharge system continued to retry the transaction again and again, resulting in multiple charges to customer's credit cards.
Twilio. Twilio's incident of having high filtering on SMS towards AT&T Network In United States.
판막. Steam's desktop client deleted all local files and directories. The thing I find most interesting about this is that, after this blew up on social media, there were widespread reports that this was reported to Valve months earlier. But Valve doesn't triage most bugs, resulting in an extremely long time-to-mitigate, despite having multiple bug reports on this issue.
Yeller. A network partition in a cluster caused some messages to get delayed, up to 6-7 hours. For reasons that aren't clear, a rolling restart of the cluster healed the partition. There's some suspicious that it was due to cached routes, but there wasn't enough logging information to tell for sure.
Zerodha. The Order Management System (OMS) provided to Zerodha, a stock broker, collapsed when an order for 1M units of a penny stock was divided into more than 0.1M individual trades against the typical few hundreds, triggering a collapse of the OMS, which was not encountered prior by its provider - Refinitiv (formerly Thomson Reuters), a subsidiary of the London Stock Exchange.
Zerodha. A failure of the primary leased line to a CTCL between a stock broker and a stock exchange led to the activation of a backup leased line that was operating sporadically over the following hour, affecting bracket and cover orders. Subsequently, the process of placing and validating orders had been modified to incorporate the unreliability of the CTCL's leased lines, but the reliability of the primary and the backup leased lines was not fundamentally improved by the providers.
Unfortunately, most of the interesting post-mortems I know about are locked inside confidential pages at Google and Microsoft. Please add more links if you know of any interesting public post mortems! is a pretty good resource; other links to collections of post mortems are also appreciated.
AWS Post-Event Summaries
Availability Digest website.
Postmortems community (with imported archive from the now-dead G+ community).
John Daily's list of postmortems (in json).
Jeff Hammerbacher's list of postmortems.
NASA lessons learned database.
Tim Freeman's list of postmortems
Wikimedia's postmortems.
Autopsy.io's list of Startup failures.
SRE Weekly usually has an Outages section at the end.
Lorin Hochstein's list of major incidents.
Awesome Tech Postmortems.
Nat Welch's parsed postmortems is an attempt to build a database out of this markdown file.
Postmortem Templates is a collection of postmortem templates from various sources.
How Complex Systems Fail
John Allspaw on Resilience Engineering