nnv下載nnv源代碼下載

nnv

其他源碼

1.0.0

下載

NNV（no-Named.v）

NNV（no-Named.v）是一個數據庫，旨在從頭到生產實現。 NNV可以部署在邊緣環境中，並用於小規模生產設置。通過下面描述的創新建築方法，它也可以在大規模生產環境中可靠地使用。

？發布更新-2024.12.09

有關完整的更新歷史記錄，請參閱更新歷史記錄。

我們計劃支持CFLAT，這可以通過更複雜的操作來促進各種服務，從而實現多向量搜索。 CFLAT只是我創造的名字。請注意！

？ NNV-EDGE

計劃提高邊緣性能的計劃：在當前的核心開發過程中，我們通過碎片方法實現了非常快速的寫入和閱讀操作。我們計劃將這種碎片邏輯添加到邊緣，以期望邊緣上的速度提高並解決現有的性能增強。

？ NNV

HNSW測試完成了：在搜索100萬個向量方面達到了0.87毫秒。它是0.87毫秒，而不是秒（第二是0.00087秒）。這是一個非常令人滿意的成就。
PQ和BQ的進度：對PQ和BQ的持續審查正在進行中。
現有量化的集成：計劃進行量化集成（由於工作量大量工作，報告工作延遲了。？）

更新預覽

配x預期發布日期為TBD。開發正在進行中，隨著我們的進展，將添加更新。（這很慢，因為我在工作以外的業餘時間工作。）？

？計劃的功能和改進

NNV-EDGE

增強的記錄：將添加詳細的記錄，以提高可追溯性和調試。
基於邊緣的項目集成：基於邊緣項目的持續工作將繼續，並根據進度和反饋進行改進。

NNV

餘弦相似性兼容性：PQ（產品量化）主要在歐幾里得距離內運行。但是，具有餘弦相似性，需要矢量歸一化邏輯。（歐幾里得距離的歸一化向量類似於餘弦相似性。）
HNSW的RPC設置：HNSW的RPC功能計劃促進遠程使用。
存儲增強：將引入快速內存存儲和可靠的基於磁盤的存儲。
系統空閒狀態備份：將添加自動備份過程，以定期保存閒置狀態。
自動恢復：將實現自動恢復的功能。
高級過濾：對錶達式和各種範圍搜索的支持將包括在濾波器功能中。
性能基準測試：一旦系統穩定，將進行全面的基準測試。
負載平衡器：穩定後將開發負載平衡器，以有效地管理系統負載。

配x重要的通知

由於正在進行的發展，績效可能會暫時降低。謝謝您的耐心等待！

從源代碼運行。

Windows & Linux
git clone https://github.com/sjy-dv/nnv
cd nnv
# start edge
go run cmd/root/main.go -mode=edge
# start core
go run cmd/root/main.go -mode=root


MacOS
** The CPU acceleration (SSE, AVX2, AVX-512) code has caused an error where it does not function on Mac, and it is not a priority to address at this time. **

git clone https://github.com/sjy-dv/nnv
cd nnv
source .env
deploy
make edge-docker

指數

特徵
建築學
- LOADBALANCER和DATABASE INTERTRATION
- InternalDataShardDesign
- InternalDataFlow
- 多向量搜索
- 什麼時候使用CFLAT？
- 邊緣
BugFix

特徵

在計劃這個項目時，我考慮了很多。

在設置群集環境時，大多數開發人員自然會像以前那樣選擇木筏算法。原因是這是成功項目使用的一種經過驗證的方法。

但是，我開始懷疑：這不是有點複雜嗎？筏提高了讀取的可用性，但降低了寫入可用性。那麼，如果從長遠來看，多寫的話，我該如何解決？

鑑於矢量數據庫的性質，我認為大多數服務都是圍繞批處理作業而不是實時寫作構建的。但這是否意味著我可以跳過解決這個問題？我不這麼認為。但是，使用八卦之類的東西在筏上建立多領導者設置感到非常複雜和困難。

因此，截至今天（2024-10-20），我正在考慮兩種建築方法。

建築學

該體系結構分為兩種方法。

LoadBalancer和數據庫集成

首先，將負載平衡器放在前面，支持數據的分片和集成。內部數據庫存在於純狀態。


複製磅	碎片

複製負載均衡器等待所有數據庫在投入或回滾之前成功完成寫入，而碎片負載平衡器在整個碎片數據庫中均勻分配負載，以確保類似的存儲能力。

關鍵區別在於，複製可以減慢寫入操作，但與碎片負載平衡器相比，在長期到長期中提供更快的讀取性能。另一方面，碎片方法提供更快的寫作速度，因為它僅投入特定的碎片，但是閱讀需要從所有碎片中收集數據，最初速度較慢，但隨著數據集增長的增長可能比複製更快。

因此，為了管理大量數據，建議使用碎片平衡器。但是，這兩個體系結構的重點是它們在設置和管理方面的簡單性，使它們像典型的後端服務器一樣易於處理。 Arch1_tructure

Jetstream（NATS）多領導者

Arch4

第二種方法利用噴頭進行配置。

儘管從用戶的角度來看，這在架構上比以前的方法更簡單，但設置與RAFT沒有顯著差異。

但是，關鍵區別在於，與筏子不同，它支持多寫的和多讀的配置，而不是單寫的和多讀。

在這種方法中，數據庫以復制格式配置，並且使用Jetstream用於啟用多領導配置。

Arch5 每個數據庫都包含其自己的射擊，這些噴頭加入了相同的主題和群集。在這種情況下，每當所有節點都嘗試發布對行更改時，它們都會通過相同的噴頭。如果兩個節點試圖並行修改相同的數據，他們將競爭發布其更改。雖然有可能防止變化被傳播，但這可能導致數據丟失。根據Jetstream中的Raft Quorum約束，只有一個作者可以發布更改。因此，我們設計了該系統以允許最後一位作家獲勝。對於向量數據庫而言，這不是問題，因為與傳統數據庫相比，數據結構更簡單（這並不意味著系統本身很簡單，而是更少的複雜交易和過程，例如交易序列化）。這也避免了全球鎖和性能瓶頸。

概括：

木筏和法定人數約束
RAFT是一種算法，它決定了服務器首先寫入數據的算法。在筏中，法定人數的概念是指在書寫之前確認數據所需的最小服務器數量。這樣可以確保即使兩個服務器嘗試同時編寫數據，RAFT也只允許一台服務器首先寫入。
最後一位作家獲勝
即使一台服務器首先寫入數據，最終寫入最終“獲勝”的服務器。這意味著從最後一個服務器到寫的數據將覆蓋上一個服務器的數據。
交易序列化問題
事務序列化是指確保在多個表中發生一致的動作。在NNV中，為了提高性能，避免了全局鎖定（在編寫數據之前鎖定所有服務器）。相反，當多個服務器同時修改數據時，要修改它的最後一個將獲勝。這種方法是可行的，因為向量數據庫比傳統數據庫更簡單 - 它們不需要多個表或集合之間的複雜交易序列化。
為什麼設計？
主要原因是性能。在處理數據之前鎖定所有服務器是安全的，但很慢。相反，允許每個服務器可以自由修改數據並接受最後的修改，因為最終結果更快，更有效。

舊建築（〜2024.12.09）

查看舊建築

內部數據的碎片設計

Arch10 通常，諸如數據庫之類的系統訪問相同的內存或磁盤，反复執行讀寫操作。在此過程中，HNSW之類的方法可以實現有效的時間複雜性，例如O（log n） 。但是，需要準確性的技術，例如Flat和cflat，通常以O（n）的時間複雜性執行線性搜索。

避免數據爭議時會出現問題。在閱讀或寫作時，諸如Goroutines之類的線程通過鎖來隔離各個資源。具體來說：

閱讀：允許訪問鎖定資源。
寫作：對鎖定資源的訪問受到限制，可以在寫操作期間進行讀取。當插入大量數據或處理需要寫作的眾多讀取請求時，逐漸出現了性能瓶頸。

為了解決這個問題，我們設計了該系統以在內存中有效地創建碎片並將數據分配給每個碎片，而不會丟失系統的本質。每個碎片都具有鎖定機制，可以：

更快的鎖定發布：插入大量數據或執行讀取操作時。分區數據插入：通過允許數據插入分隔段來促進平滑系統操作。該設計可確保系統即使在重型數據插入或高讀取請求方案下也可以無縫操作，從而減輕性能瓶頸。

內部數據流

Arch11

HNSW（層次可通航的小世界）：

圖形存儲：每次重新創建圖形效率低下；因此，該圖以二進制格式輕輕存儲。
數據冗餘：同時存儲在內部密鑰值（KV）存儲中，以防止數據丟失異常。
磁盤使用情況：但是，這種方法導致磁盤使用率相對較高，從而使用戶可以長期選擇。

平坦/CFLAT（複合平面）：

數據搜索：由於數據搜索本質上是線性的，因此不是單獨存儲的。
數據處理：使用一種方法構建，其中數據存儲在KV存儲中，然後將其上傳到內存。

CFLAT（複合平面）：多向量搜索

CFLAT（複合平面）是一種索引方法，它搜索多個向量並基於兩個向量的重要性產生復合結果。

將復合矢量搜索應用於HNSW之類的圖形算法很具有挑戰性，因為它需要大量的內存，並且與鄰域結構不符，因此需要多個圖形。儘管搜索的時間複雜性仍然會收斂到O（2 log n）≈O（log n），但空間複雜性非常差。

隨著數據的增加，這些問題變得越來越有問題。此外，基於圖形結構中的複合密鑰合併和評估的方法忽略了TOPK，並且顯著增加了單個搜索的堆大小。

因此，我們選擇基於平面處理。儘管時間複雜性為O（n）（沒有任何恆定降低），但空間複雜性與平坦相同，並且對於基於復合鍵的合併和評估非常有效。

什麼時候使用CFLAT？

Magine我們正在為一家對接公司開發一項服務，該公司可幫助用戶根據輸入標準找到理想的合作夥伴。我們將考慮各種因素，例如人格和其他屬性。但是，使用單個矢量意味著將這些因素組合到一個句子中進行搜索，這大大增加了準確性失真的可能性。

例如： Arch12 所需的特徵：{個性：決定性，理想類型：高大而苗條}在這種情況下，用戶更喜歡一種個性特徵，使人可以根據外部屬性找到理想的類型的人，重點是尋找伴侶。

但是，考慮另一個情況：

所需的特徵：{個性：隨和的，理想的類型：決定性的}在這裡，想要隨和的性格與決定性理想類型的人可能會導致不正確的匹配，例如，與那些與用戶真正偏好不符的方式匹配的人。

Arch13 在這種情況下，CFLAT（複合平面）通過共同評估人格的相似性和理想類型的相似性來計算得分。用戶可以為每個屬性分配重要性級別，從而可以根據用戶定義的優先級給出具有更大相似性的方面的更高分數。

什麼是NNV-EDGE？

Edge是指無需與Central Server通信的情況下在附近設備上傳輸和接收數據的能力。但是，實際上，軟件中的“邊緣”有時可能與此概念有所不同，因為與中央服務器相比，它通常在更輕的，資源約束的環境中部署。

NNV-EDGE旨在以輕量級的方式在較小規模的矢量數據集（最多100萬個向量）上快速運行，從而將自動任務從原始NNV轉移回用戶，以獲得更大的控制。

高級算法，例如HNSW，Faiss和Foration很棒，但是您不認為它們對於較小規格的規格可能有些重嗎？並擱置算法，而米爾維斯（Milvus），編織和QDRANT等項目是由輝煌的頭腦構建的，但它們難道難道不太資源密集型，無法與小型便攜式設備上的其他軟件一起運行？ Arch9 那就是NNV-Edge進來的地方。

如果您分發多個邊緣怎麼辦？通過將NNV-EDGE與前面提到的負載平衡器一起使用，您可以創建一個高級設置，該設置可在多個邊緣劃分數據並無縫地匯總！

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-05-28
大小 15.34MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部