快板。在營銷活動引起的突然交通峰值之後,電子商務網站下降了。中斷是由集群資源管理中的配置錯誤引起的,該錯誤即使有可用的硬件資源,也阻止了更多的服務實例啟動。
Cloudflare。不良配置(路由器規則)導致其所有邊緣路由器崩潰,從而刪除了所有Cloudflare。
Cloudflare。在維護其私人骨幹網絡期間,工程師在亞特蘭大數據中心網絡配置中製作了錯字,從而導致所有來自美國和歐洲的流量流向這個唯一的數據中心,從而壓碎了它。
Cloudflare。殘疾BGP宣傳的前綴的不正確訂購造成了19個數據中心的故障。
Cloudflare。對我們的分層緩存系統的更改導致某些請求失敗了,該狀態代碼530的用戶總共持續了將近六個小時。我們估計所有請求中約有5%在高峰期失敗。由於我們的系統的複雜性和測試中的盲點,當更改發佈到我們的測試環境時,我們沒有發現這一點。
Cloudflare。由於釋放了服務令牌的錯誤,因此在2023年1月24日,在121分鐘內無法使用幾項CloudFlare服務。該事件降低了廣泛的Cloudflare產品,包括我們的工人平台的各個方面,我們的零信任解決方案以及我們內容輸送網絡(CDN)中的控制平面功能。
Cloudflare。 2023年10月4日,CloudFlare從UTC 07:00開始經歷DNS解決問題,並於11:00 UTC結束。一些1.1.1.1的用戶或使用1.1.1.1的紗,零信任或第三方DNS解析器等產品可能已經收到了對有效查詢的Servfail DNS響應。我們為此停電非常抱歉。此中斷是內部軟件錯誤,而不是攻擊的結果。在此博客中,我們將討論失敗是什麼,為什麼發生的原因以及我們正在做的事情以確保這不會再發生。
Datadog。當受撫養客戶端降低時,在一個客戶中,一個客戶發現的不良服務發現配置在全球範圍內發現了服務發現。
enom。 2022年1月15日,美國東部時間上午9:00,Tucows的工程團隊開始計劃進行維護工作,以將INOM平台遷移到新的雲基礎架構。由於剪裁的複雜性,團隊遇到了許多問題,導致延誤。維護窗口多次擴展,以解決與數據複製,網絡路由和DNS解決方案有關的問題,這些問題影響了網站可訪問性和電子郵件交付。
Etsy。在不正確配置開關的情況下發送多播流量會導致Etsy全局中斷。
Facebook。對Facebook的骨幹路由器的配置更改導致所有Facebook屬性和內部工具的全局停電。
Facebook。糟糕的配置都刪除了Facebook和Instagram。
Firefox。 2022年1月13日,Firefox網絡堆棧中的特定代碼路徑觸發了HTTP/3協議實現中的問題。這阻止了網絡通信,並使Firefox無反應,無法加載Web內容將近兩個小時。
無蓋。不良的配置與一組不常見的故障相結合,導致數據庫群集的中斷,將API和儀表板離線置於。
[Google](https://cloud.google.com/blog/products/infrastructure/details-of-google-cloud-gcve-incident)。最初的GCVE供應是使用舊式選項進行的,該選項在該期間結束時導致具有自動刪除的“固定期限”合同。
Google.不良的配置(自動化)從BGP公告中刪除了所有Google Compute Engine IP塊。
Google.不良的配置(自動化)刪除了大多數Google服務。
Google.不良配置導致配額服務失敗,這導致多個服務失敗(包括Gmail)。
Google. /被檢查到URL黑名單中,導致每個URL顯示警告。
Google.對負載平衡器的配置推出的錯誤導致錯誤率增加了22分鐘。
Google.配置更改旨在解決對元數據存儲的需求的提升,該存儲超載了BLOB查找系統的一部分,該系統造成了層疊失敗,並具有對Gmail,Google Photos,Google Photos,Google Drive和其他GCP服務依賴於Blob存儲的級聯故障。
Google.兩個錯誤的配置以及一個軟件錯誤,在美國東海岸造成了巨大的Google云網絡故障。
Google. Google的前端負載平衡服務經歷了失敗,從而對歐洲的幾種下游Google Cloud Services產生了影響。從初步分析中,該問題的根本原因是由新的基礎架構功能引起的,該功能觸發了內部網絡負載均衡器代碼中的潛在問題。
Google. Google Cloud Networking經歷了Google Cloud Load平衡(GCLB)服務的問題,從而對幾種下游的Google Cloud Services產生影響。受影響的客戶在其網站上觀察到Google 404錯誤。從初步分析中,該問題的根本原因是網絡配置服務中的一個潛在錯誤,該網絡配置服務是在常規系統操作期間觸發的。
Google. Google Cloud Networking從2022年7月14日(星期四)至2022年7月15日星期五美國/太平洋地區從19:30 US/Pacific開始,批量,流媒體和轉移運營的降低能力降低。這項服務中斷是由於維修工作和常規網絡軟件升級推出期間遇到的問題造成的。由於Google Cloud產品的破壞和彈性能力的性質,受影響的區域和個人影響窗口差異很大。
Heroku。自動遠程配置更改並未完全傳播。無法啟動Web Dynos。
Heroku。不正確的部署過程導致代碼需要時不使用新的配置變量。
keepthesthescore。工程師偶然地刪除了生產數據庫。數據庫是來自Digitalocean的託管數據庫,每天備份一次。災難發生30分鐘後,它返回在線,但是7小時的記分牌數據永遠消失了。
微軟。不良的配置刪除了Azure存儲。
NPM。迅速的配置更改引起了後端路由問題。確切地說,問題在於我們在vcl_fetch函數中設置了req.backend,然後調用重新啟動以重新遵循規則。但是,呼叫重新啟動會重置req。後面到列表中的第一個備份,在這種情況下,這恰好是Manta,而不是負載平衡的CouchDB服務器。
奧瓦薩。按鈕的錯誤按鈕導致水處理廠由於氟化物的水平過高而關閉。
Pagerduty。 2021年12月15日,UTC 00:17,我們在Pagerduty的基礎架構中部署了DNS配置更改,從而影響了我們的集裝箱編排集群。該更改包含一個缺陷,我們沒有在測試環境中檢測到,這立即導致容器編排集群中運行的所有服務無法解析DNS。
Razorpay。 RDS硬件故障突出了不正確的MySQL配置,從而導致金融系統的重大數據丟失。
銹lang。在2023-01-25的星期三,UTC 09:15,我們對Crates.io的生產基礎設施進行了更改。在部署期間,static.crates.io的DNS記錄未能在估計的10-15分鐘時間內解決。這是由於這兩個證書和DNS記錄都在停機時間重新創建。
銹lang。在2023-07-20的12:17到12:30 UTC之間,由於部署在下載URL生成中包含錯誤,因此從Crates.io中下載了所有板條箱。在此期間,我們平均每秒向Crates.io提出4.71k請求,導致大約370萬的請求,包括貨物的重試嘗試。
堆棧溢出。不良的防火牆配置阻止了stackexchange/stackoverflow。
哨兵。備份上的Amazon S3設置錯誤導致數據洩漏。
Travisci。配置問題(不完整的密碼旋轉)導致“洩漏” VM,導致構建隊列時間升高。
Travisci。配置問題(基於自動化年齡的Google Compute Engine VM圖像清理作業)導致穩定的基本VM圖像被刪除。
Travisci。配置更改使構建開始失敗。手動回滾破裂。
Travisci。意外環境變量使測試截斷了生產數據庫。
tui。事件飛行之前,已經升級了產生負載表的預訂系統。該系統的錯誤導致女性乘客以“小姐”為兒童入住了簽入。該系統分配了孩子的標準重量為35公斤,而正確的女性標準重量為69千克。因此,由於有38名女性被錯誤地檢查為兒童,因此從負載表中的G-Tawg起飛質量低於實際質量飛機的質量1,244公斤。
Turso。錯誤配置的DB備份標識符導致免費層客戶的數據洩漏,隨後的修復程序可能導致可能的數據丟失。
閥門。儘管沒有官方的驗屍,但看起來像是BGP配置不良的閥門與3級,Telia和Abovenet/Zayo的連接導致了全球蒸汽中斷。
亞馬遜。未知事件導致變壓器失敗。其中一個PLC檢查發電機電源是否由於未知原因而失敗,這阻止了一組備份發電機上網。這影響了歐盟西部的EC2,EBS和RDS。
亞馬遜。惡劣的天氣導致了整個AWS East的電力故障。當電源切換到備份並加載發電機時,單個備份發電機無法傳遞穩定的功率。儘管兩個月前已經通過了負載測試,並通過了每週的電動測試。
亞馬遜。在6月4日,PDT的10:25 PM,由於該地區惡劣天氣導致的AWS悉尼設施失去了電力,導致可造成可用性區域的大量實例。由於功率損耗的簽名,電源隔離破壞者沒有參與,從而導致備用能量儲備排入退化的功率網格。
Arpanet。一個故障的IMP(接口消息處理器)損壞的路由數據,軟件重新計算的校驗和用良好的校驗和傳播不良數據,錯誤的序列編號導致緩衝區填充,完整的緩衝區損失了存儲式數據包和節點使自己失去了網絡。從1980年開始。
Cloudflare。部分開關行為不當導致伴隨著拜占庭式失敗,這影響了API和儀表板的可用性六個小時33分鐘。
Cloudflare。屈曲數據中心功率故障。這篇文章概述了導致此事件的事件。
FirstEnergy / General Electric。當某些傳輸線撞到未修剪的葉子時,FirstEnergy局部失敗。正常的過程是發出警報,這會導致人類操作員重新分配功率。但是正在監視此的GE系統有一個錯誤,這阻止了警報被觸發,這最終導致了級聯的失敗,最終影響了5500萬人。
github。 2016年1月28日,Github在其主要數據中心遭受了動力的破壞。
Google.在其歐洲數據中心(Europe-West1-B)上,連續的閃電襲擊導致該地區內的Google計算發動機存儲系統失去了電力。在標準持續磁盤(HDD)的一部分中觀察到I/O誤差,並在其中一小部分觀察到永久性數據丟失。
Google. 2022年7月19日,星期二,美國/太平洋地區06:33,這是一個數據中心的多個冗餘冷卻系統的同時失敗,該數據中心託管歐洲歐洲歐洲地區2-a影響了多個Google Cloud Services。這導致一些客戶無法為受影響產品提供服務。
畢達尼亞的地方。一個存儲服務器上的存儲量故障引起了許多停電,從pythonanywhere站點開始,以及我們用戶的程序(包括網站),這些程序依賴於該卷,然後擴展到其他託管站點。
太陽。 Sun著名地不包括幾代服務器零件中的ECC。這導致數據損壞和崩潰。在Sun的典型MO之後,他們使客戶在解釋該問題之前報告了錯誤簽名NDA。
CCP遊戲。錯字和名稱衝突導致安裝程序有時在安裝Eve在線擴展時刪除boot.ini文件,並帶來後果。
github。維護過程中的43個第二個網絡分區導致MySQL Master故障轉移,但是由於跨陸續潛伏期,新的主人沒有幾秒鐘的寫入。 24小時以上的恢復工作以維持數據完整性。
無蓋。關鍵的PostgreSQL表上的所有查詢都通過非常快速的數據庫遷移和長期運行的讀取查詢的組合來阻止,從而導致停機時間為15秒。
Google.通過非常慢的代碼路徑應用了很少修改的負載平衡器的許多更改。這凍結了所有公共解決變化約2小時的變化。
Google. Google生產主鏈中美國中部網關校園之一的纖維路徑上的組件故障導致網關和多個邊緣位置之間可用的網絡帶寬下降,從而導致數據包丟失,而骨架自動將流量移動到剩餘路徑上。
騎士資本。相互矛盾的部署版本和重複使用先前使用的位的組合造成了4.6億美元的損失。另請參閱更長的文章。
WebKit代碼存儲庫。 WebKit存儲庫是一個配置為使用重複數據刪除的顛覆存儲庫,在兩個具有相同SHA-1哈希的文件作為測試數據的文件之後,無法使用,目的是實施碰撞的安全檢查。這兩個文件具有不同的MD5總和,因此結帳會失敗一致性檢查。在上下文中,最近宣布了第一個公共SHA-1哈希碰撞,其中有兩個相撞文件。
azure。創建了有效期一年的證書。有人不使用適當的庫,而是編寫了計算為一年的代碼,即當前日期加一年。 2012年2月29日,這導致創建證書,並在2013年2月29日到期日期,由於無效的日期而被拒絕。這導致了持續一天大部分時間的Azure全球停電。
Cloudflare。從跟踪2016-12-31T23:59:60Z的第27次LEAP第二次的後退時間流程導致加權的DNS解析器(RRDN)選擇加權旋轉旋轉,並在某些CNAME查找中失敗。 go's time.Now()被錯誤地認為是單調的;這將負值注入了對rand.Int63n()的調用,在這種情況下,這是恐慌的。
Linux。 LEAP第二代碼是從xtime_lock的計時器中斷處理程序中調用的。該代碼做了一個printk來記錄LEAP的第二個。 printk醒來了klogd ,有時可以嘗試獲得時間,這在xtime_lock上等待,造成僵局。
Linux。當leap秒發生時, CLOCK_REALTIME又倒了一秒鐘。這不是通過可以更新hrtimer base.offset機制來完成的。這意味著,當計時器中斷發生時,timer_abstime clock_realtime計時器提前一秒鐘到期,包括設置不到一秒鐘的計時器。這導致應用在循環中使用不到一秒鐘的睡眠的應用而無需睡覺而導致許多系統上的高負載。這導致大量的Web服務在2012年下降。
Mozilla。大多數Firefox附加組件在2019年5月4日左右停止工作。 Firefox需要有效的證書鏈以防止惡意軟件。大約九個小時後,Mozilla推了一個特權附加組件,將有效的證書注入了Firefox的證書商店,創建了有效的鏈條和解密的附加組件。這有效地將所有附加組件(約15,000個附加組件)進行,大多數用戶的分辨率大約需要15-21個小時。一些用戶數據丟失了。以前,Mozilla發布了有關技術細節的信息。
github。在處理大型MySQL表上的模式遷移時,GitHub平台遇到了一種新穎的故障模式。模式遷移是GitHub的常見任務,通常需要數週的時間才能完成。遷移的最後一步是執行重命名,以將更新的表移至正確的位置。在此遷移的最後一步中,我們的MySQL讀取複製品的很大一部分進入了信號量的僵局。我們的MySQL集群由一個用於寫流量的主要節點,用於生產流量的多個讀取複製品以及為備份和分析目的提供內部讀取流量的幾個複製品。襲擊僵局的讀取複製品進入了崩潰的狀態,導致健康讀取複製品的負載增加。由於這種情況的級聯性質,沒有足夠的主動讀取複製品來處理影響核心GitHub服務可用性的生產請求。
Heroku。在2023年6月8日UTC的15:05 UTC中,發生了一個數據庫錯誤,而外鍵使用的數據類型比引用的主要密鑰較小。當主鍵超過允許值時,此錯誤導致溢出,從而導致無法在Heroku內創建新的授權。此錯誤還阻止客戶創建新的部署。然後,OnCall操作觸發了Heroku API的全部中斷。
快板。 Allegro平台的子系統失敗了,負責異步分佈式任務處理。該問題影響了許多領域,例如通過購物車購買眾多優惠(包括價格清單編輯)等功能根本不起作用。此外,它部分未能通過新報價發送每日新聞通訊。內部管理小組的某些部分也受到影響。
亞馬遜。人為錯誤。 2017年2月28日上午9:37 PST,亞馬遜S3團隊正在調試一個小問題。儘管使用了一本已建立的劇本,但打算刪除少量服務器的命令之一是發出了錯字的,無意間刪除了較大的服務器。這些服務器支持關鍵的S3系統。結果,依賴的系統需要完整重新啟動才能正確操作,並且該系統對US-EAST-1(北弗吉尼亞州)進行了廣泛的中斷,直到PST下午1:54進行最終分辨率。由於亞馬遜自己自己的服務(例如EC2和EBS)也依靠S3,因此它導致了巨大的級聯失敗,影響了數百家公司。
亞馬遜。消息損壞導致分佈式服務器狀態功能淹沒了S3請求處理機隊的資源。
亞馬遜。在常規網絡升級期間的人為錯誤導致資源緊縮受到軟件錯誤的加劇,最終導致了所有東部東部可用性區域的中斷,損失了0.07%的捲。
亞馬遜。無法聯繫數據收集服務器在存儲服務器上的報告代理中觸發了潛在內存洩漏錯誤。而且沒有優美的退化處理,因此報告代理以緩慢消耗系統內存的方式連續聯繫收集服務器。此外,監視系統也無法警告該EBS服務器的內存洩漏,而且EBS服務器通常會非常動態使用所有內存。到星期一早上,在受影響的存儲服務器上,記憶力損失的速度變得很高,並且使得無法與請求處理過程保持一致。由於無法執行故障轉移而進一步切斷了此錯誤,這導致了停機。
亞馬遜。彈性負載平衡器在“無意中違背生產ELB狀態數據的維護過程”時遇到了問題。
亞馬遜。 “網絡中斷”導致元數據服務體驗負載,導致響應時間超過超時值,從而導致存儲節點降低了自己。使自己失敗的節點繼續重試,確保元數據服務的負載無法減少。
亞馬遜。縮放運動式的前端緩存機隊導致車隊中的所有服務器都超過了操作系統配置允許的最大線程數。從Cognito到Lambda再到CloudWatch的多個關鍵下游服務受到影響。
亞馬遜。 PST上午7:30,這是一項自動化活動,以擴展在Main AWS網絡中託管的AWS服務之一的容量,從而觸發了內部網絡中許多客戶端的出乎意料的行為。這導致了大量的連接活動激增,使內部網絡和主要AWS網絡之間的網絡設備不堪重負,從而導致這些網絡之間的通信延遲。這些延遲增加了這些網絡之間交流服務的延遲和錯誤,從而導致了更多的連接嘗試和回程。這導致連接兩個網絡的設備上的持續交通擁堵和性能問題。
AppNexus。數據庫更新揭示的雙免費揭示導致所有“印象總線”服務器同時崩潰。由於需要時間延遲才能觸發錯誤,而且登台期間沒有內置延遲,因此這並沒有陷入生產。
AT&T。一條糟糕的C代碼引入了種族危害,在適當的時候,電話網絡崩潰了。計劃中的停電後,QuickFire恢復消息觸發了比賽,導致了更多重新啟動,從而觸發了問題。 “問題在網絡中的114個開關中迭代重複,在穩定係統所花費的9個小時內阻止了超過5000萬個電話。”從1990年開始。
阿特拉斯利亞人。 2022年4月5日,星期二,從UTC開始7:38,有775個Atlassian客戶失去了對Atlassian產品的訪問。這些客戶中的一部分最多可達14天,其中第一組客戶將於4月8日恢復,所有客戶網站都在4月18日之前逐漸恢復。
BaseCamp,另請參閱。 BaseCamp的網絡在2014年3月24日的100分鐘窗口中受到了DDOS攻擊。
BaseCamp,另請參閱。 2018年11月,一個數據庫達到了整數限制,使該服務處於只讀模式。
BBC在線。 2014年7月,BBC Online在包括BBC iPlayer在內的幾項流行在線服務中經歷了很長時間。當數據庫後端超載時,它已經開始從各種服務中提出油門請求。尚未緩解當地數據庫響應的服務開始計時並最終完全失敗。
Bintray。 2017年7月,Jcenter中包括了一些惡意的毛茸茸的包裹,並進行了模仿攻擊。這些軟件包在Jcenter中居住了一年多,據說影響了幾個Android應用程序,導致Jcenter的這些依賴性注入了惡意軟件代碼。
咬人。託管源代碼回購包含憑證授予對位備份的訪問,包括密碼。
Browserstack。帶有殼牌漏洞的舊原型機器仍然有效,上面有秘密鍵,最終導致了對生產系統的安全違反。
buildkite。數據庫容量降級以最大程度地減少AWS支出,導致缺乏支持BuildKite客戶在峰值的能力,從而導致依賴服務器的崩潰。
邦吉。錯誤修復錯誤時間戳的副作用會導致數據丟失;在以下更新中,Hotfix的服務器錯誤配置導致數據丟失在多個服務器中重新出現。
CCP遊戲。有問題的記錄頻道導致群集節點在推出新遊戲補丁後群集開始序列中死亡。
CCP遊戲。記錄了一個無固定的Python內存重用錯誤,花了數年的時間才能追踪。
廚師食譜社區網站超市在發射後兩個小時墜毀,這是由於間歇性的無反應和延遲增加。驗屍後發現故障的主要原因之一是健康檢查超時。
Circleci。 GITHUB中斷和恢復引起了出乎意料的大量進來載荷。由於未指定的原因,大負載會導致Circleci的隊列系統減速,在這種情況下,每分鐘處理一項交易。
Circleci。到2023年1月4日,我們的內部調查已經確定了未經授權的第三方和襲擊的進入道路的入侵範圍。迄今為止,我們了解到,未經授權的第三方槓桿惡意軟件部署到了Circleci工程師的筆記本電腦,以竊取有效的2FA支持的SSO會話。該機器於2022年12月16日被妥協。我們的防病毒軟件未檢測到惡意軟件。我們的調查表明,惡意軟件能夠執行會話cookie盜竊,使他們能夠在遠程位置模仿目標員工,然後升級到我們生產系統的子集。
Cloudflare。解析器錯誤導致CloudFlare Edge服務器返回包含私人信息的內存,例如HTTP Cookie,身份驗證令牌,HTTP Post Bosties和其他敏感數據。
Cloudflare。 CPU疲憊是由單個WAF規則引起的,該規則包含書寫不良的正則表達式,最終產生了過多的回溯。該規則迅速部署到生產中,一系列事件導致Cloudflare服務的全球27分鐘停機時間。
Datadog。自動升級後,所有網絡規則被刪除,並在其所有地區和雲提供商中造成了所有纖毛保護的Kubernetes群集的持續時間24小時。
不和諧。一旦出現後,一場拍打的服務會導致雷鳴般的牛群重新連接。這導致級聯錯誤,由於內部隊列的填充,前端服務不記憶力。
不和諧。在大約14:01的大約14:01中,Redis實例充當了Discord的API服務使用的高度可用群集的主要群集,這是由Google的雲平台自動遷移的。這種遷移導致節點不正確地脫離離線,從而迫使群集重新啟動並觸發已知的問題,並觸發了該case case的解決方案,該問題逐漸解決了case的其他問題。 Discord的實時系統。
Dropbox。這個驗屍很瘦,我不確定發生了什麼。聽起來也許是計劃的OS升級以某種方式導致一些機器被刪除,從而刪除了一些數據庫。
二人由於請求隊列超載現有的數據庫容量而導致的級聯故障。能力規劃和監視不足也可以歸因於。
史詩般的遊戲。極端負載(340萬並髮用戶的新峰值)導致部分服務和全部服務中斷。
歐洲航天局。在Ariane 5 Intertial引導系統中將16位數字轉換為64位數字時,發生了溢出,從而導致火箭崩潰。實際的溢出發生在代碼中,這不是操作所必需的,但無論如何正在運行。根據一個帳戶,這導致診斷錯誤消息被打印出來,並且診斷錯誤消息以某種方式解釋為實際有效數據。根據另一個帳戶,沒有為溢出安裝陷阱處理程序。
鬆緊帶。在AWS EU-West-1(愛爾蘭)地區部署的彈性雲客戶大約3個小時,因此對群集的訪問嚴重下降。在同一時間範圍內,大約有20分鐘的時間內,該地區的所有部署都完全不可用。
鬆緊帶。在AWS US-EAST-1地區部署的彈性雲客戶經歷了降級訪問其群集的訪問權限。
eslint。 2018年7月12日,一名攻擊者損害了ESLINT維護者的NPM帳戶,並發布了NPM註冊表的惡意軟件包。
Etsy。首先,本來應該是小型錯誤文件部署的部署也導致實時數據庫在運行的生產機器上升級。為了確保這不會導致任何損壞,Etsy停止服務流量來運行完整性檢查。其次,ID中的溢出(已簽名的32位INT)導致某些數據庫操作失敗。 Etsy並不相信這不會導致數據損壞,並在升級時撤下了網站。
迅速。由於未被發現的軟件錯誤在6月8日被有效的客戶配置更改觸發時浮出水面。
Flowdock。 Flowdock即時消息傳遞在2020年4月21日至22日之間不可用約24小時。 COVID-19大流行導致家庭工作的突然和急劇增加,這導致了較高的流量,這導致CPU使用率較高,這導致了應用程序數據庫的懸掛。一些用戶數據被永久丟失。
foursquare。 MongoDB用完了記憶力時的負載下降。由於AA查詢模式,該故障是災難性的,而不是優雅的,該圖案涉及較低級別的讀取負載(每個用戶登機手續都會讀取用戶歷史記錄的所有檢查,並且記錄是300個字節,沒有空間位置,這意味著每個頁面中大部分數據都不需要。缺乏對MongoDB實例的監控導致高負載未被發現,直到負載變成災難性,導致兩天內發生了兩次事件的17個小時的停機時間。
Gentoo。一個實體可以訪問Gentoo Github組織,刪除了對所有開發人員的訪問權限,並開始在各種存儲庫中添加提交。
github。 2018年2月28日,GitHub經歷了DDOS攻擊,並以1.35TBP的流量訪問了網站。
GitLab。主要鎖定並重新啟動後,它被帶回錯誤的文件系統,導致全局中斷。另請參見HN討論。
GitLab。湧入請求超載數據庫,導致複製滯後,疲倦的管理員刪除了錯誤的目錄,丟失了六個小時的數據。另請參見早期的報告和HN討論。
Google.郵件系統向人們發送了20次以上的電子郵件。發生這種情況是因為發送了郵件,該郵件是通過批處理的cron工作發送的,該郵件將郵件發送給了被標記為等待郵件的每個人。這是一個非原子操作,批處理作業並沒有標記人們在發送所有消息之前才等待。
Google. FILESTORE對API請求進行了全球限制,以限製過載方案的影響。當管理大量GCP項目故障並用請求使FileStore API超載的內部Google服務觸發中斷,從而導致了Filestore API的全球節流。這一直持續到內部服務被手動暫停為止。由於這種節流,僅閱讀API訪問對於所有客戶來說都是不可讀取的。由於適用於文件的全球配額,這影響了所有位置的客戶。控制台,GCLOUD和API訪問(列表,GetOperation等)呼叫都失敗了3小時12分鐘。突變操作(CreateInstance,UpdateInstance,CreateBackup等)仍然成功,但客戶無法檢查操作進度。
Google. Google Meet Livestream功能經歷了中斷,從而導致一小部分觀眾的間歇性退化經驗質量,從2021年10月25日開始,下午2月26日結束並於2021年10月26日結束。質量的總持續時間為4小時(10月25日為3小時,10月26日1小時)。在此期間,在直播視頻播放中,不超過15%的直播觀眾經歷了更高的拒絕率和延遲。對於可能影響您關鍵業務事件的中斷,我們深表歉意。我們已經確定了問題的原因,並採取了措施來改善我們的服務。
Google.在2022年10月13日,美國/太平洋地區,傳入和記錄流量的意外增加以及Google內部流式RPC庫中的一個錯誤,該庫觸發了僵局,並導致寫入API流媒體前端過載。 BigQuery Storage Writeapi觀察到美國多區域的錯誤率升高了5小時。
GPS/GLONASS。導致錯誤的軌道力學計算的不良更新導致GPS衛星使用GLONASS廣播不正確的位置10小時。由於(?)這沒有解決該問題,因此註意到了該錯誤並幾乎立即回滾。
Healthcare.gov。大型組織未能為美國醫療保健建立網站。
Heroku。擁有需要計劃手動更新的系統導致錯誤,這導致我們的客戶無法擴展,停止或重新啟動Dynos或Route HTTP流量,並且還阻止了所有客戶的部署。
Heroku。升級默默地禁用了旨在防止運行容器中文件系統損壞的支票。隨後的部署在運行容器中導致文件系統損壞。
Heroku。上游apt更新打破了固定的軟件包,這導致客戶遇到寫入許可失敗/dev 。
Heroku。私有令牌被洩漏,並允許攻擊者在內部數據庫,私人存儲庫和客戶帳戶中檢索數據。
Heroku。更改對公共運行時管理基礎架構的核心應用程序的更改包括依賴關係升級,該升級導致正時鎖問題大大減少了我們的任務工作者的吞吐量。這種依賴性變化,加上由於工作量計劃的增加而無法適當擴大,這導致了應用程序的工作隊列的建立。為了解決這個問題,沒有立即提醒團隊,新的路由器實例在很大程度上沒有在啟動上正確初始化,這主要是因為配置了錯誤的警報。這些路由器實例已經服務於實時流量,但被證明處於錯誤的啟動狀態,並且由於準備就緒檢查,它們通過我們的正常過程被刪除。刪除會導致關聯的運行時群集的降解,而自動化組正在創建新實例。減少的路由器實例池導致請求失敗,因為更多的請求的收入比有限數量的路由器所能處理的更快。這是客戶開始注意到服務問題的時候。
自製。 GitHub的個人訪問令牌具有最近升高的範圍,從自製的詹金斯(Jenkins)洩漏,該jenkins允許在幾家自製倉庫中訪問git push 。
蜂窩。多次事件的故事,主要是由於快速增長。
蜂窩。另一個事件的另一個故事最終影響了查詢性能並通過觸發器和SLO提醒。這些事件值得注意,因為他們的調查有多麼挑戰。
蜂窩。 2022年9月8日,我們的攝入系統反復下降,並引起了八個多小時的干擾。我們將首先涵蓋事件背後的背景,並對相關架構的高級視圖,我們如何嘗試調查和修復系統,最後,我們將介紹一些有意義的元素,這些元素從我們的事件審查過程中浮出水面。
蜂窩。 2023年7月25日,我們總共經歷了蜂窩中斷。它影響了UTC下午1:40至2:48 PM UTC的所有面向用戶的組件,在此期間無法處理或訪問數據。此處介紹了事件分類過程的全部細節。
事件。異步工人隊列中的一個壞事件(毒藥)引發了無與倫比的恐慌,該恐慌反复崩潰了。這與Heroku基礎設施結合不佳,因此很難找到問題的根源。對運行Web服務的人員通常很有趣的應用緩解,例如捕獲恐慌恢復的角落案例,並按類型/類劃分工作以提高可靠性。
印度電網。 2012年7月的一個晚上,當北方電網從西部和東部電網中汲取了巨大的電力時,就會形成偏斜的電力供望。隨著一系列因頻率保護而絆倒的斷路器,由於缺乏島嶼機制,整個新的(北部 - 西部)網格崩潰了。雖然在8個小時後重新激活網格,但第二天的類似條件導致電網再次失敗。但是,恢復工作在後一種事件發生後將近24小時結束。
Instapaper。也是這樣。託管數據庫的限制被擊中。遷移到新數據庫花了很多小時。
英特爾。腳本錯誤導致奔騰中的分隔邏輯的產生非常有時會產生不正確的結果。由於正確性證明的假設不正確,因此該錯誤未被捕獲。 (有關更多信息,請參見1994年FDIV錯誤的Wikipedia文章。)
歡樂。由於無法在其PostgreSQL元數據服務器上獲得鎖定的鎖定,因此對麥塔的操作被封鎖了。這是由於PostgreSQL的交易環繞式維護的結合,鎖上了某些東西,以及一個不必要地試圖進行全球鎖定的歡樂查詢。
歡樂。操作員使用具有LAX輸入驗證的工具來重新啟動少量正在維護的服務器,但忘記了type -n ,而是重新啟動數據中心中的所有服務器。這導致了持續2.5個小時的停電,重新啟動了所有客戶實例,在DHCP/TFTP PXE啟動系統上加大了巨大的負擔,以及需要手動干預的左API系統。另請參閱Bryan Cantrill的演講。
Kickstarter。主要數據庫與所有復製品不一致,直到查詢失敗後才檢測到。這是由一個mysql錯誤引起的,有時會導致order by被忽略。
倫敦國王學院。 3PAR遭受了災難性的停電,這突出了內部過程的失敗。
發射台。規則屬性選擇器導致標誌定位Web接口崩潰。
Mailgun。次級MongoDB服務器被超載,並且在故障排除時意外地推動了將所有次級流量發送到主MongoDB服務器的更改,也將其超載並加劇了問題。
曼德里爾。 Postgres中的交易ID環繞導致部分中斷持續了一天半。
中等的。波蘭用戶無法在培養基上使用其“Ś”密鑰。
客戶。 Azure發表了一個破裂的變化,影響了像Metrist的服務這樣的下游系統而沒有警告它們,該帖子涵蓋瞭如何識別問題以及如何從中恢復。
NASA。 Apollo 11 Rendezvous Radar中的設計缺陷會產生過多的CPU負載,從而導致航天器計算機在月球著陸期間重新啟動。
NASA。使用不同單位的測量(公制與英語)導致火星氣候軌道軌道失敗。在導航軟件[參考]中也存在組織和程序失敗[REF]和缺陷。
NASA。 NASA的火星探路者航天器經歷了幾天在火星上(1997)降落後的幾天。調試功能將遠程啟用,直到找到原因為止:VXWorks操作系統中的優先反轉問題。通過在任務調度程序中添加優先級繼承,對OS軟件進行了遠程修補(一直到火星)以解決問題。
Netflix。通過遷移到其他可用性區域來減輕一個可用性區域中的EBS中斷。
北美電力系統。俄亥俄州大約1600小時EDT的停電通過系統性漏洞和過程故障的網絡上升,並導致在某些地區發生約4天的電力電網中的停電,並在安大略省在安大略省造成大約一周的滾動停電。
Okta。一個黑客小組可以訪問第三方支持工程師的筆記本電腦。
Openai。 REDIS緩存中請求和響應的隊列被損壞並且不順序,導致某些請求向某些用戶揭示其他人的用戶數據,包括App活動數據和一些計費信息。
Pagerduty。 2013年4月,Pagerduty是一項云服務,證明了應用程序正常運行時間監控和實時通知,當其在不同數據中心的三個獨立雲部署中有兩個開始遇到連通性問題和高網絡延遲時,其中斷遭受了中斷。後來發現,這兩個獨立的部署共享了一個常見的對等點,該點正在經歷網絡不穩定性。儘管第三個部署仍在運行中,但由於網絡延遲的高,Pagerduty的應用程序未能建立法定人數,因此未能發送通知的能力。
Pagerduty。由於AWS在一個地區存在問題,用於發送短信和發聲通話的第三方服務經歷了中斷。
平價。在4000線軟件更改包含安全錯誤的4000線軟件更改後,將3,000萬美元的加密貨幣價值轉移到了安全的地方(已被救出),將其標記為UI變更,並被各種不受歡迎的第三黨誤解,部署,部署和使用。另請參見此分析。
平台。預定的維護窗口中的中斷,因為Zookeeper的數據太多了。
reddit。在2016年8月11日(星期四)進行了1.5個小時的停電時間1.5小時,然後再進行1.5個小時的降級性能。這是由於關鍵後端系統遷移期間的錯誤。
reddit。當關鍵的Kubernetes群集升級失敗時,停電超過5個小時。故障是由節點元數據引起的,該節點元數據在版本之間發生了變化,從而降低了工作負載網絡。
羅布樂思。 Roblox 2021年10月73小時停電。領事流和BoltDB的問題。
Salesforce。由於一個數據中心中的功率故障引起的初步破壞導致數據庫群集和文件差異導致級聯故障,從而導致跨數據中心故障轉移問題。
Salesforce。 2023年9月20日,服務中斷影響了從14:48協調的通用時間(UTC)開始多個服務的一部分客戶。結果,一些客戶無法登錄並訪問其服務。作為我們標準安全控制審查和更新周期的一部分,執行的策略更改是該事件的觸發。這種變化無意間阻止了對資源預定範圍之外的資源的訪問。
哨兵。 Postgres中的交易ID環繞使Sentry在大部分工作日都下降了。
變形。不良的安全慣例使員工能夠在1個月的時間內在3個單獨的黑客中竊取200,000美元的加密貨幣。該公司的首席執行官在博客文章中擴展了故事。
滑雪者。第三方庫中的內存洩漏導致Skyliner兩次無法使用。
鬆弛。因子的組合導致大量Slack用戶被斷開連接到服務器。隨後的大規模斷開連接過程超出了數據庫容量並導致連接失敗,導致Slack的5%用戶無法連接到服務器長達2個小時。
鬆弛。 AWS交通網關中的網絡飽和導致數據包丟失。試圖擴大規模引起了更多問題。
鬆弛。緩存節點的刪除導致Vitness群集上的高工作量,進而導致服務中斷。
Spotify。微服務中缺乏指數向後導致級聯失敗,導致了顯著的服務退化。
正方形。相鄰服務中的級聯錯誤導致商人身份驗證服務被超載。這影響了商人約2小時。
StackDriver。 2013年10月,斯塔克特里弗(Stackdriver)發生了停電,當時其木炭集團墜毀。各種服務在消息總線中發布的數據已被拒絕進入Cassandra集群。當集群失敗時,失敗滲透到了各種生產者,最終阻止了隊列插入操作,最終導致了整個應用程序的故障。
堆棧交換。為所有用戶啟用Stackegg,從負載平衡器上造成了沉重的負載,因此是DDOS。
堆棧交換。對於特定的帖子而言,基礎發動機的回溯實現非常昂貴,導致健康檢查失敗和最終中斷。
堆棧交換。向新開發人員故事移植舊職業2.0代碼導致用戶信息洩漏。
堆棧交換。主SQL-Server在SQL Server進程上觸發了一個BugCheck,導致堆棧交換站點僅讀取模式,並最終發生完全停電。
Strava。點擊主鍵上的符號整數限制,導致上傳失敗。
條紋。手動操作定期在生產數據庫中執行。手動操作不正確(缺少依賴性),導致條紋API降低了90分鐘。
瑞典。建築商對不同的統治者的使用使VASA在其港口側和船上的設計師上建造了更大的建造,沒有在前兩個槍甲板上建造過船上的船,並過度建造了上層甲板,從而導致了最高的設計。 1628年,該船駛向港口二十分鐘後,駛向港口並沉沒。
tarsnap。批處理作業,掃描亞馬遜S3中未使用的塊,並標記了將其釋放出來的情況,遇到了一個釋放某些塊的所有試驗的條件。批處理作業將其操作記錄到本地磁盤,並且該日誌在沒有界限的情況下增長。當填充文件系統時,這會導致其他文件系統寫入失敗,而Tarsnap服務停止了。手動刪除日誌文件還原服務。
泰爾斯拉。數據中心中的火災導致SMS短信發送到隨機目的地。客戶也經歷了損壞的消息。
Therac-25。 Therac-25是1985年至1987年間至少涉及至少六次事故的放射治療機,其中患者被給予大量的過量輻射。由於同時發生的編程錯誤,有時會給患者放射劑量比正常情況大數千倍,導致死亡或嚴重受傷。
Trivago。由於人為錯誤,所有工程師都將無法訪問中央源代碼管理平台(GitHub組織)。 Azure Active Directory安全組控制對GitHub組織的訪問。在執行手動和重複任務期間,該組被刪除。
Twilio。 2013年,用於計費操作的REDIS群集中的臨時網絡分區引起了奴隸的大規模重新同步。超載的主墜毀,當重新啟動時,它以僅閱讀模式啟動。此過程中的自動迴聲組件導致Twilio的自動回程服務的交易失敗,不幸的是,在內部更新其餘額之前,該交易向客戶開票。因此,自動迴聲系統繼續一次又一次地重試交易,從而對客戶的信用卡產生了多項費用。
Twilio。 Twilio在SMS上對美國AT&T網絡進行高過濾的事件。
閥門。 Steam的桌面客戶端刪除了所有本地文件和目錄。我發現最有趣的是,在社交媒體上爆炸後,有很多報導稱這是幾個月前的閥門。但是閥門並沒有大多數錯誤分類,儘管在此問題上有多個錯誤報告,但仍導致了非常長的時間。
Yeller。集群中的網絡分區導致一些消息延遲,最多6-7小時。由於不清楚的原因,滾動重新啟動群集治癒了分區。有一些可疑的是,這是由於緩存的路線所致,但是沒有足夠的記錄信息可以肯定地說明。
Zerodha。提供給股票經紀人Zerodha的訂單管理系統(OMS)倒塌了,當100萬單位的一分錢股票分為超過0.10萬的個人交易,以典型的數百人對OMS的崩潰,該公司的倒閉並沒有被其提供者 - 先前的湯姆森(Thomson Repinitiv)(前湯姆森(Thomson Refine))(前湯姆森(Thomson Repiners))交換。
Zerodha。主要的租賃線路失敗了股票經紀人和證券交易所之間的CTCL,導致備用租賃線路在接下來的一個小時內零星運行,影響括號和封面訂單。隨後,已修改了放置和驗證訂單的過程,以納入CTCL租賃線路的不可靠性,但是提供商從根本上沒有提高主要和備用租賃線路的可靠性。
不幸的是,我知道的大多數有趣的驗屍都鎖定在Google和Microsoft的機密頁面中。如果您知道任何有趣的公共郵政遺忘,請添加更多鏈接!是一個很好的資源;還感謝與驗屍集合集合的其他鏈接。
AWS事後摘要
可用性摘要網站。
郵政社區(來自現已死亡的G+社區的進口檔案)。
約翰·每日(John Daily)的郵政衛星清單(在JSON中)。
傑夫·哈默巴赫(Jeff Hammerbacher)的郵政事備清單。
NASA課程學習的數據庫。
蒂姆·弗里曼(Tim Freeman)的郵政事備清單
Wikimedia的郵政事候。
opopsy.io的啟動失敗列表。
SRE Weekly通常在最後有一個停電部分。
洛林·霍奇斯坦(Lorin Hochstein)的重大事件清單。
很棒的科技郵政備膜。
NAT Welch的解析後驗屍是試圖從此宣傳文件中構建數據庫的一種嘗試。
驗屍模板是來自各種來源的驗屍模板的集合。
複雜系統如何失敗
約翰·艾爾斯(John Allspaw)關於彈性工程