深入淺析ZooKeeper的工作原理

作者：Eve Cole 更新時間：2025-08-02 06:00:02

本文講述了ZooKeeper的原理，小編覺得挺不錯，分享給大家供大家參考，具體如下：

前言

ZooKeeper 是一個開源的分佈式協調服務，由雅虎創建，是Google Chubby 的開源實現。分佈式應用程序可以基於ZooKeeper 實現諸如數據發布/訂閱、負載均衡、命名服務、分佈式協調/通知、集群管理、Master 選舉、分佈式鎖和分佈式隊列等功能。

1、簡介

2、基本概念

本節將介紹ZooKeeper 的幾個核心概念。這些概念貫穿於之後對ZooKeeper 更深入的講解，因此有必要預先了解這些概念。

2.1 集群角色

在ZooKeeper 中，有三種角色：

Leader

Follower

Observer

一個ZooKeeper 集群同一時刻只會有一個Leader，其他都是Follower 或Observer。

ZooKeeper 配置很簡單，每個節點的配置文件(zoo.cfg)都是一樣的，只有myid 文件不一樣。 myid 的值必須是zoo.cfg中server.{數值} 的{數值}部分。

zoo.cfg 文件內容示例：

ZooKeeper

在裝有ZooKeeper 的機器的終端執行zookeeper-server status 可以看當前節點的ZooKeeper 是什麼角色（Leader or Follower）。

ZooKeeper

如上，node-20-104 是Leader，node-20-103 是follower。

ZooKeeper 默認只有Leader 和Follower 兩種角色，沒有Observer 角色。為了使用Observer 模式，在任何想變成Observer的節點的配置文件中加入:peerType=observer 並在所有server 的配置文件中，配置成observer 模式的server 的那行配置追加:observer，例如：

server.1:localhost:2888:3888:observer

ZooKeeper 集群的所有機器通過一個Leader 選舉過程來選定一台被稱為『Leader』的機器，Leader服務器為客戶端提供讀和寫服務。

Follower 和Observer 都能提供讀服務，不能提供寫服務。兩者唯一的區別在於，Observer 機器不參與Leader 選舉過程，也不參與寫操作的『過半寫成功』策略，因此Observer 可以在不影響寫性能的情況下提升集群的讀性能。

2.2 會話（Session）

Session 是指客戶端會話，在講解客戶端會話之前，我們先來了解下客戶端連接。在ZooKeeper 中，一個客戶端連接是指客戶端和ZooKeeper 服務器之間的TCP長連接。

ZooKeeper 對外的服務端口默認是2181，客戶端啟動時，首先會與服務器建立一個TCP連接，從第一次連接建立開始，客戶端會話的生命週期也開始了，通過這個連接，客戶端能夠通過心跳檢測和服務器保持有效的會話，也能夠向ZooKeeper 服務器發送請求並接受響應，同時還能通過該連接接收來自服務器的Watch 事件通知。

Session 的SessionTimeout 值用來設置一個客戶端會話的超時時間。當由於服務器壓力太大、網絡故障或是客戶端主動斷開連接等各種原因導致客戶端連接斷開時，只要在SessionTimeout 規定的時間內能夠重新連接上集群中任意一台服務器，那麼之前創建的會話仍然有效。

2.3 數據節點（ZNode）

在談到分佈式的時候，一般『節點』指的是組成集群的每一台機器。而ZooKeeper 中的數據節點是指數據模型中的數據單元，稱為ZNode。 ZooKeeper 將所有數據存儲在內存中，數據模型是一棵樹（ZNode Tree），由斜杠（/）進行分割的路徑，就是一個ZNode，如/hbase/master，其中hbase 和master 都是ZNode。每個ZNode 上都會保存自己的數據內容，同時會保存一系列屬性信息。

注：

這裡的ZNode 可以理解成既是Unix裡的文件，又是Unix裡的目錄。因為每個ZNode 不僅本身可以寫數據（相當於Unix裡的文件），還可以有下一級文件或目錄（相當於Unix裡的目錄）。

在ZooKeeper 中，ZNode 可以分為持久節點和臨時節點兩類。

持久節點

所謂持久節點是指一旦這個ZNode 被創建了，除非主動進行ZNode 的移除操作，否則這個ZNode 將一直保存在ZooKeeper 上。

臨時節點

臨時節點的生命週期跟客戶端會話綁定，一旦客戶端會話失效，那麼這個客戶端創建的所有臨時節點都會被移除。

另外，ZooKeeper 還允許用戶為每個節點添加一個特殊的屬性：SEQUENTIAL。一旦節點被標記上這個屬性，那麼在這個節點被創建的時候，ZooKeeper 就會自動在其節點後面追加上一個整型數字，這個整型數字是一個由父節點維護的自增數字。

2.4 版本

ZooKeeper 的每個ZNode 上都會存儲數據，對應於每個ZNode，ZooKeeper 都會為其維護一個叫作Stat 的數據結構，Stat 中記錄了這個ZNode 的三個數據版本，分別是version（當前ZNode的版本）、cversion（當前ZNode子節點的版本）和aversion（當前ZNode 的ACL 版本）。

2.5 狀態信息

每個ZNode 除了存儲數據內容之外，還存儲了ZNode 本身的一些狀態信息。用get 命令可以同時獲得某個ZNode 的內容和狀態信息。如下：

ZooKeeper

在ZooKeeper 中，version 屬性是用來實現樂觀鎖機制中的『寫入校驗』的（保證分佈式數據原子性操作）。

2.6 事務操作

在ZooKeeper中，能改變ZooKeeper服務器狀態的操作稱為事務操作。一般包括數據節點創建與刪除、數據內容更新和客戶端會話創建與失效等操作。對應每一個事務請求，ZooKeeper 都會為其分配一個全局唯一的事務ID，用ZXID 表示，通常是一個64位的數字。每一個ZXID 對應一次更新操作，從這些ZXID 中可以間接地識別出ZooKeeper 處理這些事務操作請求的全局順序。

2.7 Watcher

Watcher（事件監聽器），是ZooKeeper 中一個很重要的特性。 ZooKeeper允許用戶在指定節點上註冊一些Watcher，並且在一些特定事件觸發的時候，ZooKeeper 服務端會將事件通知到感興趣的客戶端上去。該機制是ZooKeeper 實現分佈式協調服務的重要特性。

2.8 ACL

ZooKeeper 採用ACL（Access Control Lists）策略來進行權限控制。 ZooKeeper 定義瞭如下5種權限。

CREATE: 創建子節點的權限。

READ: 獲取節點數據和子節點列表的權限。

WRITE：更新節點數據的權限。

DELETE: 刪除子節點的權限。

ADMIN: 設置節點ACL的權限。

注意：CREATE 和DELETE 都是針對子節點的權限控制。

3. ZooKeeper典型應用場景

ZooKeeper 是一個高可用的分佈式數據管理與協調框架。基於對ZAB算法的實現，該框架能夠很好地保證分佈式環境中數據的一致性。也是基於這樣的特性，使得ZooKeeper 成為了解決分佈式一致性問題的利器。

3.1 數據發布與訂閱（配置中心）

數據發布與訂閱，即所謂的配置中心，顧名思義就是發布者將數據發佈到ZooKeeper 節點上，供訂閱者進行數據訂閱，進而達到動態獲取數據的目的，實現配置信息的集中式管理和動態更新。

在我們平常的應用系統開發中，經常會碰到這樣的需求：系統中需要使用一些通用的配置信息，例如機器列表信息、數據庫配置信息等。這些全局配置信息通常具備以下3個特性。

數據量通常比較小。

數據內容在運行時動態變化。

集群中各機器共享，配置一致。

對於這樣的全局配置信息就可以發佈到ZooKeeper上，讓客戶端（集群的機器）去訂閱該消息。

發布/訂閱系統一般有兩種設計模式，分別是推（Push）和拉（Pull）模式。

推：服務端主動將數據更新發送給所有訂閱的客戶端。

拉：客戶端主動發起請求來獲取最新數據，通常客戶端都採用定時輪詢拉取的方式。

ZooKeeper 採用的是推拉相結合的方式。如下：

客戶端想服務端註冊自己需要關注的節點，一旦該節點的數據發生變更，那麼服務端就會向相應的客戶端發送Watcher事件通知，客戶端接收到這個消息通知後，需要主動到服務端獲取最新的數據（推拉結合）。

3.2 命名服務(Naming Service)

命名服務也是分佈式系統中比較常見的一類場景。在分佈式系統中，通過使用命名服務，客戶端應用能夠根據指定名字來獲取資源或服務的地址，提供者等信息。被命名的實體通常可以是集群中的機器，提供的服務，遠程對像等等――這些我們都可以統稱他們為名字（Name）。

其中較為常見的就是一些分佈式服務框架（如RPC、RMI）中的服務地址列表。通過在ZooKeepr裡創建順序節點，能夠很容易創建一個全局唯一的路徑，這個路徑就可以作為一個名字。

ZooKeeper 的命名服務即生成全局唯一的ID。

3.3 分佈式協調/通知

ZooKeeper 中特有Watcher 註冊與異步通知機制，能夠很好的實現分佈式環境下不同機器，甚至不同系統之間的通知與協調，從而實現對數據變更的實時處理。使用方法通常是不同的客戶端都對ZK上同一個ZNode 進行註冊，監聽ZNode 的變化（包括ZNode本身內容及子節點的），如果ZNode 發生了變化，那麼所有訂閱的客戶端都能夠接收到相應的Watcher通知，並做出相應的處理。

ZK的分佈式協調/通知，是一種通用的分佈式系統機器間的通信方式。

3.3.1 心跳檢測

機器間的心跳檢測機制是指在分佈式環境中，不同機器（或進程）之間需要檢測到彼此是否在正常運行，例如A機器需要知道B機器是否正常運行。在傳統的開發中，我們通常是通過主機直接是否可以相互PING通來判斷，更複雜一點的話，則會通過在機器之間建立長連接，通過TCP連接固有的心跳檢測機制來實現上層機器的心跳檢測，這些都是非常常見的心跳檢測方法。

下面來看看如何使用ZK來實現分佈式機器（進程）間的心跳檢測。

基於ZK的臨時節點的特性，可以讓不同的進程都在ZK的一個指定節點下創建臨時子節點，不同的進程直接可以根據這個臨時子節點來判斷對應的進程是否存活。通過這種方式，檢測和被檢測系統直接並不需要直接相關聯，而是通過ZK上的某個節點進行關聯，大大減少了系統耦合。

3.3.2 工作進度匯報

在一個常見的任務分發系統中，通常任務被分發到不同的機器上執行後，需要實時地將自己的任務執行進度匯報給分發系統。這個時候就可以通過ZK來實現。在ZK上選擇一個節點，每個任務客戶端都在這個節點下面創建臨時子節點，這樣便可以實現兩個功能：

通過判斷臨時節點是否存在來確定任務機器是否存活。

各個任務機器會實時地將自己的任務執行進度寫到這個臨時節點上去，以便中心系統能夠實時地獲取到任務的執行進度。

3.4 Master選舉

Master 選舉可以說是ZooKeeper 最典型的應用場景了。比如HDFS 中Active NameNode 的選舉、YARN 中Active ResourceManager 的選舉和HBase 中Active HMaster 的選舉等。

針對Master 選舉的需求，通常情況下，我們可以選擇常見的關係型數據庫中的主鍵特性來實現：希望成為Master 的機器都向數據庫中插入一條相同主鍵ID的記錄，數據庫會幫我們進行主鍵衝突檢查，也就是說，只有一台機器能插入成功――那麼，我們就認為向數據庫中成功插入數據的客戶端機器成為Master。

依靠關係型數據庫的主鍵特性確實能夠很好地保證在集群中選舉出唯一的一個Master。

但是，如果當前選舉出的Master 掛了，那麼該如何處理？誰來告訴我Master 掛了呢？顯然，關係型數據庫無法通知我們這個事件。但是，ZooKeeper 可以做到！

利用ZooKeepr 的強一致性，能夠很好地保證在分佈式高並發情況下節點的創建一定能夠保證全局唯一性，即ZooKeeper 將會保證客戶端無法創建一個已經存在的ZNode。

也就是說，如果同時有多個客戶端請求創建同一個臨時節點，那麼最終一定只有一個客戶端請求能夠創建成功。利用這個特性，就能很容易地在分佈式環境中進行Master 選舉了。

成功創建該節點的客戶端所在的機器就成為了Master。同時，其他沒有成功創建該節點的客戶端，都會在該節點上註冊一個子節點變更的Watcher，用於監控當前Master 機器是否存活，一旦發現當前的Master掛了，那麼其他客戶端將會重新進行Master 選舉。

這樣就實現了Master 的動態選舉。

3.5 分佈式鎖

分佈式鎖是控制分佈式系統之間同步訪問共享資源的一種方式。

分佈式鎖又分為排他鎖和共享鎖兩種。

3.5.1 排他鎖

排他鎖（Exclusive Locks，簡稱X鎖），又稱為寫鎖或獨占鎖。

如果事務T1對數據對象O1加上了排他鎖，那麼在整個加鎖期間，只允許事務T1對O1進行讀取和更新操作，其他任何事務都不能在對這個數據對象進行任何類型的操作（不能再對該對象加鎖），直到T1釋放了排他鎖。

可以看出，排他鎖的核心是如何保證當前只有一個事務獲得鎖，並且鎖被釋放後，所有正在等待獲取鎖的事務都能夠被通知到。

如何利用ZooKeeper 實現排他鎖？

定義鎖

ZooKeeper 上的一個ZNode 可以表示一個鎖。例如/exclusive_lock/lock節點就可以被定義為一個鎖。

獲得鎖

如上所說，把ZooKeeper上的一個ZNode看作是一個鎖，獲得鎖就通過創建ZNode 的方式來實現。所有客戶端都去/exclusive_lock節點下創建臨時子節點/exclusive_lock/lock。 ZooKeeper 會保證在所有客戶端中，最終只有一個客戶端能夠創建成功，那麼就可以認為該客戶端獲得了鎖。同時，所有沒有獲取到鎖的客戶端就需要到/exclusive_lock節點上註冊一個子節點變更的Watcher監聽，以便實時監聽到lock節點的變更情況。

釋放鎖

因為/exclusive_lock/lock 是一個臨時節點，因此在以下兩種情況下，都有可能釋放鎖。

當前獲得鎖的客戶端機器發生宕機或重啟，那麼該臨時節點就會被刪除，釋放鎖。

正常執行完業務邏輯後，客戶端就會主動將自己創建的臨時節點刪除，釋放鎖。

無論在什麼情況下移除了lock節點，ZooKeeper 都會通知所有在/exclusive_lock 節點上註冊了節點變更Watcher 監聽的客戶端。這些客戶端在接收到通知後，再次重新發起分佈式鎖獲取，即重複『獲取鎖』過程。

3.5.2 共享鎖

共享鎖（Shared Locks，簡稱S鎖），又稱為讀鎖。如果事務T1對數據對象O1加上了共享鎖，那麼T1只能對O1進行讀操作，其他事務也能同時對O1加共享鎖（不能是排他鎖），直到O1上的所有共享鎖都釋放後O1才能被加排他鎖。

總結：可以多個事務同時獲得一個對象的共享鎖（同時讀），有共享鎖就不能再加排他鎖（因為排他鎖是寫鎖）

4、ZooKeeper在大型分佈式系統中的應用

前面已經介紹了ZooKeeper 的典型應用場景。本節將以常見的大數據產品Hadoop 和HBase 為例來介紹ZooKeeper 在其中的應用，幫助大家更好地理解ZooKeeper 的分佈式應用場景。

4.1 ZooKeeper在Hadoop中的應用

在Hadoop 中，ZooKeeper 主要用於實現HA(Hive Availability），包括HDFS的NamaNode 和YARN 的ResourceManager 的HA。同時，在YARN 中， ZooKeepr 還用來存儲應用的運行狀態。
HDFS 的NamaNode 和YARN 的ResourceManager 利用ZooKeepr 實現HA 的原理是一樣的，所以本節以YARN為例來介紹。

ZooKeeper

從上圖可以看出，YARN主要由ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）和Container四部分組成。其中最核心的就是ResourceManager。

ResourceManager 負責集群中所有資源的統一管理和分配，同時接收來自各個節點（NodeManager）的資源匯報信息，並把這些信息按照一定的策略分配給各個應用程序（Application Manager），其內部維護了各個應用程序的ApplicationMaster信息、NodeManager信息以及資源使用信息等。

為了實現HA，必須有多個ResourceManager並存（一般就兩個），並且只有一個ResourceManager處於Active狀態，其他的則處於Standby狀態，當Active節點無法正常工作（如機器宕機或重啟）時，處於Standby的就會通過競爭選舉產生新的Active節點。

4.2 主備切換

下面我們就來看看YARN是如何實現多個ResourceManager之間的主備切換的。

1. 創建鎖節點在ZooKeeper 上會有一個/yarn-leader-election/appcluster-yarn的鎖節點，所有的ResourceManager 在啟動的時候，都會去競爭寫一個Lock子節點：/yarn-leader-election/appcluster-yarn/ActiveBreadCrumb，該節點是臨時節點。

ZooKeepr 能夠為我們保證最終只有一個ResourceManager能夠創建成功。創建成功的那個ResourceManager 就切換為Active 狀態，沒有成功的那些ResourceManager 則切換為Standby 狀態。

ZooKeeper

可以看到此時集群中ResourceManager2 為Active。

註冊Watcher 監聽

所有Standby 狀態的ResourceManager 都會向/yarn-leader-election/appcluster-yarn/ActiveBreadCrumb 節點註冊一個節點變更的Watcher監聽，利用臨時節點的特性，能夠快速感知到Active狀態的ResourceManager的運行情況。

主備切換

當Active狀態的ResourceManager出現諸如宕機或重啟的異常情況時，其在ZooKeeper上連接的客戶端會話就會失效，因此/yarn-leader-election/appcluster-yarn/ActiveBreadCrumb節點就會被刪除。此時其餘各個Standby狀態的ResourceManager就都會接收到來自ZooKeeper服務端的Watcher事件通知，然後會重複進行步驟1的操作。

以上就是利用ZooKeeper 來實現ResourceManager 的主備切換的過程，實現了ResourceManager 的HA。

HDFS 中NameNode 的HA 的實現原理跟YARN 中ResourceManager 的HA 的實現原理相同。其鎖節點為/hadoop-ha/mycluster/ActiveBreadCrumb。

4.3 ResourceManager狀態存儲

在ResourceManager 中，RMStateStore 能夠存儲一些RM 的內部狀態信息，包括Application 以及它們的Attempts 信息、Delegation Token 及Version Information 等。需要注意的是，RMStateStore 中的絕大多數狀態信息都是不需要持久化存儲的，因為很容易從上下文信息中將其重構出來，如資源的使用情況。在存儲的設計方案中，提供了三種可能的實現，分別如下。

基於內存實現，一般是用於日常開發測試。

基於文件系統的實現，如HDFS。

基於ZooKeeper 實現。

由於這些狀態信息的數據量都不是很大，因此Hadoop 官方建議基於ZooKeeper 來實現狀態信息的存儲。在ZooKeepr 上，ResourceManager 的狀態信息都被存儲在/rmstore 這個根節點下面。

ZooKeeper

RMAppRoot 節點下存儲的是與各個Application 相關的信息，RMDTSecretManagerRoot 存儲的是與安全相關的Token 等信息。每個Active 狀態的ResourceManager 在初始化階段都會從ZooKeeper 上讀取到這些狀態信息，並根據這些狀態信息繼續進行相應的處理。

4.4 小結：

ZooKeepr 在Hadoop 中的應用主要有：

HDFS 中NameNode 的HA 和YARN 中ResourceManager 的HA。

存儲RMStateStore 狀態信息

5、ZooKeeper在HBase中的應用

HBase 主要用ZooKeeper 來實現HMaster 選舉與主備切換、系統容錯、RootRegion 管理、Region狀態管理和分佈式

SplitWAL 任務管理等。

5.1 HMaster選舉與主備切換

HMaster選舉與主備切換的原理和HDFS中NameNode及YARN中ResourceManager的HA原理相同。

5.2 系統容錯

當HBase 啟動時，每個RegionServer 都會到ZooKeeper 的/hbase/rs節點下創建一個信息節點（下文中，我們稱該節點為”rs狀態節點”），例如/hbase/rs/[Hostname]，同時，HMaster 會對這個節點註冊監聽。當某個RegionServer 掛掉的時候，ZooKeeper 會因為在一段時間內無法接受其心跳（即Session 失效），而刪除掉該RegionServer 服務器對應的rs 狀態節點。

與此同時，HMaster 則會接收到ZooKeeper 的NodeDelete 通知，從而感知到某個節點斷開，並立即開始容錯工作。

HBase 為什麼不直接讓HMaster 來負責RegionServer 的監控呢？如果HMaster 直接通過心跳機制等來管理RegionServer的狀態，隨著集群越來越大，HMaster 的管理負擔會越來越重，另外它自身也有掛掉的可能，因此數據還需要持久化。在這種情況下，ZooKeeper 就成了理想的選擇。

5.3 RootRegion管理

對應HBase 集群來說，數據存儲的位置信息是記錄在元數據region，也就是RootRegion 上的。每次客戶端發起新的請求，需要知道數據的位置，就會去查詢RootRegion，而RootRegion 自身位置則是記錄在ZooKeeper 上的（默認情況下，是記錄在ZooKeeper 的/hbase/meta-region-server節點中）。

當RootRegion 發生變化，比如Region 的手工移動、重新負載均衡或RootRegion 所在服務器發生了故障等是，就能夠通過ZooKeeper 來感知到這一變化並做出一系列相應的容災措施，從而保證客戶端總是能夠拿到正確的RootRegion 信息。

5.4 Region管理

HBase 裡的Region 會經常發生變更，這些變更的原因來自於系統故障、負載均衡、配置修改、Region 分裂與合併等。一旦Region 發生移動，它就會經歷下線（offline）和重新上線（online）的過程。

在下線期間數據是不能被訪問的，並且Region 的這個狀態變化必須讓全局知曉，否則可能會出現事務性的異常。

對於大的HBase 集群來說，Region 的數量可能會多達十萬級別，甚至更多，這樣規模的Region 狀態管理交給ZooKeeper 來做也是一個很好的選擇。

5.5 分佈式SplitWAL任務管理

當某台RegionServer 服務器掛掉時，由於總有一部分新寫入的數據還沒有持久化到HFile 中，因此在遷移該RegionServer 的服務時，一個重要的工作就是從WAL 中恢復這部分還在內存中的數據，而這部分工作最關鍵的一步就是SplitWAL，即HMaster 需要遍歷該RegionServer 服務器的WAL，並按Region 切分成小塊移動到新的地址下，並進行日誌的回放（replay）。

由於單個RegionServer 的日誌量相對龐大（可能有上千個Region，上GB的日誌），而用戶又往往希望系統能夠快速完成日誌的恢復工作。因此一個可行的方案是將這個處理WAL的任務分給多台RegionServer 服務器來共同處理，而這就又需要一個持久化組件來輔助HMaster 完成任務的分配。

當前的做法是， HMaster 會在ZooKeeper 上創建一個SplitWAL 節點（默認情況下，是/hbase/SplitWAL節點），將“哪個RegionServer 處理哪個Region”這樣的信息以列表的形式存放到該節點上，然後由各個RegionServer 服務器自行到該節點上去領取任務並在任務執行成功或失敗後再更新該節點的信息，以通知HMaster 繼續進行後面的步驟。 ZooKeeper 在這裡擔負起了分佈式集群中相互通知和信息持久化的角色。

5.6 小結：
以上就是一些HBase 中依賴ZooKeeper 完成分佈式協調功能的典型場景。但事實上，HBase 對ZooKeeper 的依賴還不止這些，比如HMaster 還依賴ZooKeeper 來完成Table 的enable/disable 狀態記錄，以及HBase 中幾乎所有的元數據存儲都是放在ZooKeeper 上的。

由於ZooKeeper 出色的分佈式協調能力及良好的通知機制，HBase在各版本的演進過程中越來越多地增加了ZooKeeper 的應用場景，從趨勢上來看兩者的交集越來越多。 HBase 中所有對ZooKeeper 的操作都封裝在了org.apache.hadoop.hbase.zookeeper 這個包中，感興趣的同學可以自行研究。

以上所述是小編給大家介紹的Spring Boot 模塊組成，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的！