為什麼需要效能監控？聊聊Node.js效能監控

作者：Eve Cole 更新時間：2022-08-18 08:58:05

為什麼需要效能監控？以下這篇就來帶大家了解Node.js效能監控，希望對大家有幫助！

Node作為Javascript在服務端的一個執行時（Runtime），極大的豐富了Javascript的應用程式場景。

但是Node.js Runtime本身就是一個黑盒，我們無法感知運行時的狀態，對於線上問題也難以復現。

因此效能監控是Node.js應用程式「正常運作」的基石。不僅可以隨時監控執行時期的各項指標，還可以幫助排除異常場景問題。

效能監控可分為兩個部分：

效能指標的收集和展示
- 進程層級的資料：CPU，Memory，Heap，GC等
- 系統層級的資料：磁碟佔用率，I/O負載，TCP/UDP連線狀態等
- 應用層的資料：QPS，慢HTTP，業務處理鏈路日誌等
效能資料的抓取和分析
- Heapsnapshot：堆記憶體快照
- Cpuprofile：CPU快照
- Coredump：應用崩潰快照

從上圖可以看到目前主流的三種Node.js效能監控方案的優缺點，以下是簡單介紹這三種方案的組成：

Prometheus
- prom-client是prometheus的nodejs實現，用於採集效能指標
- grafana是一個視覺化平台，用來展示各種資料圖表，支援prometheus的存取
- 只支援了效能指標的擷取和展示，排查問題還需要其他快照工具，才能組成閉環
AliNode
- alinode是一個相容官方nodejs的拓展運行時，提供了一些額外功能：
  - v8的運行時內存狀態監控
  - libuv的運行時狀態監控
  - 在線故障診斷功能：堆快照、CPU Profile、GC Trace等
- agenthub是一個常駐進程，用來收集性能指標並上報
  - 整合了agentx + commdx的便利工具
- 整體從監控，展示，快照，分析形成閉環，接入便捷簡單，但是拓展運行時還是有風險
Easy-Monitor
- xprofiler 負責進行實時的運行時狀態採樣，以及輸出性能日誌（也就是性能數據的抓取）
- xtransit 負責效能日誌的擷取與傳輸
- 跟AliNode最大的差別在於使用了Node.js Addon來實現採樣器

效能指標

透過process.cpuUsage()可以取得目前進程的CPU耗時數據，回傳值的單位是微秒

透過process.memoryUsage()可以獲取當前進程的內存分配數據，返回值的單位是字節

從上圖可以看出， rss包含程式碼段( Code Segment )、堆疊記憶體( Stack )、堆疊記憶體( Heap )

透過v8.getHeapStatistics()和v8.getHeapSpaceStatistics()可以取得v8堆記憶體和堆空間的分析數據，下圖展示了v8的堆記憶體組成分佈：

堆記憶體空間先劃分為空間（space），空間再劃分為頁（page），記憶體依1MB對齊進行分頁。

New Space：新生代空間，用來存放一些生命週期比較短的物件數據，平分為兩個空間（空間類型為semi space ）： from space ， to space
- 晉升條件：在New space中經過兩次GC依舊存活
Old Space：老生代空間，用來存放New Space晉升的物件
Code Space：存放v8 JIT編譯後的可執行程式碼
Map Space：存放Object指向的隱藏類別的指針對象，隱藏類別指標是v8根據執行時間記錄下的物件佈局結構，用於快速存取物件成員
Large Object Space：用於存放大於1MB而無法分配到頁的物件

v8的垃圾回收演算法分為兩類：

前提： New space分為from和to兩個物件空間

觸發時機：當New space空間滿了

步驟：

適用於回收頻繁，內存不大的對象，典型的空間換時間的策略，缺點是浪費了多一倍的空間

三個步驟：標記、清除、整理

觸發時機：當Old space空間滿了

步驟：

Marking（三色標記法）
- 白色：代表可回收對象
- 黑色：代表不可回收對象，且其所產生的引用都已經掃描完畢
- 灰色：代表不可回收對象，且其所產生的引用還沒掃描完
- 將V8根對象直接引用的對象放進一個marking queue （顯式棧）中，並將這些對象標記為灰色
- 從這些對象開始做深度優先遍歷，每訪問一個對象，將該對象從marking queue pop出來，並標記為黑色
- 然後將該對象引用下的所有白色對象標記為灰色， push到marking queue上，如此往復
- 直到棧上所有對像都pop掉為止，老生代的物件只剩下黑色（不可回收）和白色（可以回收）兩種了
- PS：當一個物件太大，無法push到空間有限的堆疊時，v8會把這個物件保留灰色跳過，將整個堆疊標記為溢位狀態（overflowed），等棧清空後，再次進行遍歷標記，這樣導致需要額外掃描一遍堆
Sweep
- 清除白色物件
- 會造成記憶體空間不連續
Compact
- 由於Sweep會造成記憶體空間不連續，不利於新物件進入GC
- 把黑色（存活）物件移到Old space的一端，這樣清除出來的空間就是連續完整的
- 雖然可以解決記憶體碎片問題，但是會增加停頓時間（執行速度慢）
- 在空間不足以對新生代晉升過來的物件進行分配時才使用mark-compact