doc rag harness下載 - doc rag harness源代碼下載

doc rag harness

其他源碼

1.0.0

下載

文件檢索增強發電（RAG）線束

檢索增強發電的區域正在迅速發展。實施檢索有許多不同的方法。有些人使用嵌入式和矢量數據庫，一些其他使用語義圖。因此，有不同的設計，還有不同的任務，與任務¹匹配的設計很重要。

該線束的目的是提供收集定義，抽象和構建塊，以幫助理解，基準測試，比較和選擇特定的檢索設計，該設計最能匹配手頭的任務。

安全帶的目的是與技術 +技術兼容性套件（TCK）有些相似 - 提供：

用於文檔存儲和檢索的Java/EMF Ecore模型/API，包括候選人設計實現的“設計提供商界面”
評估不同設計如何執行特定任務的測試框架。

Java被選為具有豐富語言和大型成熟生態系統的企業世界中的主要技術。之所以選擇EMF Ecore，是因為有功能：

從/到YAML，XMI和二進製文件以及數據庫加載/商店模型
從模型和元模型生成HTML文檔
對建築觀眾和編輯者的工具支持 - 樹，圖，文本； Eclipse IDE和Web瀏覽器

此頁面提供了核心概念的介紹，並概述了幾種用例（任務）和設計（替代方案）。

概念

下圖概述了線束結構和上下文：

以下各節為每個定義提供了定義和概述任務/設計維度。元模型將一些定義捕獲為模型元素，並將其詳細說明，並將其詳細說明。

文件

文檔是紀念思想或信息的代表。出於此線束文件的目的：

存儲在文檔源/存儲庫中（例如圖書館中的書籍）
可以分類並可以嵌套類別（例如書類型 - 小說 /科幻-Fi）
可以具有內部結構（例如卷，章節，部分，段落，單詞）
可以包含不同類型的內容 - 文本，圖像，視頻，音頻，列表和表格等結構
可以參考其他文檔或外部實體

“物理”實現：

文本文件
PDF。在Java中可以使用Apache PDFBox加載
OCR結果，例如JSON
MS Office文檔 - 可以加載Java中的Apache POI。 MS Excel文件可以使用Nasdanika Excel模型加載為Ecore模型
HTML文檔/頁面（文本的子類型）

“邏輯”實現：

對於PDF/OCR-掃描業務文檔。例如，快速消息的傳真。在這種情況下：
- 傳真添加的標題和頁腳可能會刪除為無關緊要的
- 頁面可能會分解為迅速的特定結構，例如700
- 可以為某些元素的身體，段落或子句創建嵌入，從文本中排除子句數字。與Wikipedia文章的嵌入有點相似，該文章的嵌入是針對不包括標題的段落計算的。
對於HTML-文檔頁面。說，在這種情況下，春季表達語言（SPEL），左導航，右側欄和頁腳可能被丟棄為無關的或分解成各個邏輯文檔功能，這些功能可能會被忽略。麵包屑可用於分類。
對於文本文件 - 取決於內容類型。例如，可以將pom.xml加載到項目對像模型中，Java文件可以加載到語法樹中，也可以加載具有分析類型/字段/方法參考的圖形。

文檔加載程序

將一個文檔表示形式轉換為另一個文檔。例如，PDF或OCR JSON到Swift MT 700消息的對像模型。

文檔來源

以特定格式或格式存儲文檔。例如帶有PDF文檔的文件系統。文檔源可以轉換/改編。文檔源的示例之一是git commit。 Nasdanika GitLab模型可用於實現GitLab的文檔加載。

文檔存儲庫

提供存儲和檢索功能的文檔集合。 DPI的主要接口（見下文）由設計實現。

存儲文檔時，存儲庫可能執行諸如圖像識別之類的任務。

可能有多種檢索方式，例如：

關鍵字搜索
語義搜索
摘要 - 搜索和總結頂部X結果

存儲庫可以從其他存儲庫和數據加載程序組成。例如，可以從PDF->對像模型數據加載程序和對像模型存儲庫中組裝PDF存儲庫。文檔存儲庫也可能不必存儲/重新創建源文檔 - 他們可以將其引用並從文檔存儲中檢索 - 已加載文檔的原件或特定於存儲庫的文檔商店。

也有可能構成不同的存儲庫。例如，一個支持關鍵字搜索和支持語義搜索的存儲庫的存儲庫。在這種情況下，關鍵字搜索存儲庫查詢結果將是必要的，但不足，可能被用來驗證語義搜索存儲庫的結果。

用戶 / Web UI

用戶通過Web UI查詢文檔存儲庫。他們可以作為工作職能的一部分來做或評估特定設計的查詢功能並提供反饋。這兩種方式可能會結合在一起 - 用戶可以選擇僅使用“冠軍”查詢引擎/設計，例如關鍵字搜索，或者選擇“挑戰者”引擎/設計。

Web UI可能會捕獲用戶上下文，例如組織中的角色/位置，並將其作為查詢的一部分傳遞到設計。

贊助

有興趣通過利用文件檢索增強發電來提高用戶工作質量（例如生產率）的一方。

贊助商需要平衡多個標準，以最大程度地減少“損失函數”：

檢索速度
準確性
完整性
諸如運行成本，許可成本等的成本等費用

設計

設計是技術及其配置參數的實例化/實施例。

設計維度

設計變化點 - 可以在不同的實施方案/實例化和值源中更改的內容。例如：

嵌入尺寸的數量
ML模型
型號溫度
向量數據庫
向量數據庫版本

設計維度可以形成樹，也可以更精確地形成有向圖。例如，矢量數據庫版本將是特定矢量數據庫節點下的節點。

設計提供商界面

設計提供商界面（DPI）從特定的設計實現中提取了線束。它是必須實現的一組接口和抽像類。例如DocumentRepository接口。 DPI在Java/ecore中定義，可以為不同技術提供適配器。尤其：

REST API
語言綁定和實現REST API的跑步者並調用實現語言綁定接口的組件。例如，可以用燒瓶實現Python綁定
框架綁定/在語言綁定下或直接在Java中的DPI下的框架。例如，在python結合下可能存在蘭鏈結合，在Java下可能存在opennlp結合

任務

任務是文檔檢索的特定用途。例如，在組織特定技術文檔中的語義搜索“我如何將春季微服務部署到AKS？”。

測試數據集

響應的測試文檔，查詢和評估者的集合。

跑步者輸入

測試數據集 /設計組合的集合將由測試跑者執行。

測試跑者

讀取輸入
實例化測試數據集和設計
將測試數據集的文檔加載到設計中
執行查詢並評估響應。響應評估者可以提供設計的反饋
存儲測試結果以進行進一步分析和報告生成

測試跑步者只能根據輸入執行以上步驟的一部分。例如：

可能已經有一個帶有預加載文檔的設計，測試跑步者將僅執行查詢部分
或測試數據集可能僅包含文檔，但不包含查詢和響應評估器，因為用戶可以通過Web UI提供查詢和響應
測試跑步者可以將文檔加載到設計中，並將其保存為新設計。例如，從圖像創建一個容器，加載文檔，然後停止容器，然後從容器中創建圖像。
同樣，測試跑者可以使用測試數據集，將其與用戶提供的反饋結合併創建並創建新的測試數據集。

測試運行可以分佈在多個代理/機器上。

測試結果和用戶反饋

存儲測試結果和用戶反饋。測試結果和用戶反饋應參考測試數據集和設計。因此，它本質上是一個線束元數據存儲庫，其中包含設計定義樹/圖表，測試數據集定義以及測試運行的結果。

報告生成器

生成報告。該報告可能採用可視化的HTML格式。可能的報告格式：

帶有設計樹，任務樹和任務數據集的左圖。它還可能包括一個“技術堆棧樹” - 對設計構建塊進行了分類。例如，矢量數據庫樹，其版本和配置。如果左圖變得太嘈雜，則可以將其中一些項目移至導航欄。
內容面板 - 所選項目的文檔。例如
- 主頁 - 執行測試的摘要：可過濾的可排序表，具有設計/測試排列（對於相對較小的空間），可視化，例如Echarts 3D散佈。它還可能包含一個設計嚮導來通過回答問題並選擇最適合答案的測試設計來構建設計。
- 設計頁面 - 配置，測試和結果 - 表格，可視化
- 任務頁 - 描述，測試，設計，可視化。它可以託管一個聚合Web UI，該Web UI從所有設計中為此任務收集答案，並允許用戶比較替代設計的響應。比較的一種選擇是成對比較可能而不啟示給定的響應來自哪種設計。
- 構建塊（例如向量數據庫，其版本，配置） - 描述，使用它的設計。

報告可能包含指向Web UI甚至“主機” Web UI的鏈接，如果將其作為單頁應用程序（SPA）實現，例如React或Vue.js/Bootstrapvue

社區

各方為線束，設計和測試數據集做出貢獻。社區成員可能會在不同的組件上扮演不同的角色。

---正在進行中的工作---

任務

本節概述了幾個任務（用例），用於檢索增強生成和搜索。

方面：

文檔數量
用戶數
變化的頻率
隱私
風險 - 錯誤成本

技術文檔

示例 - 大型企業中的技術功能：

多個級別：
- 企業，綁定企業範圍內的技術選擇（例如Java/Spring，Maven組件），提供企業範圍範圍的共享構件（例如Bootstrap組件庫）和其他技術（例如，Build Pipeline）
- 細分市場 - 縮小技術選擇，例如Java的版本，添加特定於細分市場的方法在企業指南之上（又是在行業/供應商技術指南和文檔之上構建的）。可以引入細分級構建塊。
- 功能/團隊 - 更狹窄的技術選擇進一步縮小並完善了它們的使用方式。可以介紹功能/團隊級別的構建塊，例如小部件庫。

對於上面的每一個都有一個時間維度 - 頂部的技術堆棧更新，底部發行。有關可視化，請參見Togaf架構景觀。

在這樣的環境中，用戶需要檢索解決方案，該解決方案允許檢索特定於用戶在企業中的位置和角色的文檔及其分配的努力。例如，一名Java開發人員，例如當前的發布可能需要有關Java 17的信息。如果將同一開發人員分配為未來發布的工作，則可能需要有關Java 20的信息。當他們使用Kubernetes和Kubernetes和Azure Aks等技術時，供應商文檔可能會很大程度上是用途，但需要使用一般信息。

文檔數量：成千上萬
用戶數：數百至成千上萬
變化的頻率：低（例如月度）至中度（每月幾次）
隱私：內部
風險：低

程式

方面：

文檔數量：低
用戶數：數百至成千上萬
變化的頻率：低（例如月度）
隱私：內部，有限，機密
風險：中至高

操作文件

方面：

文件數：可能數百萬
用戶數：數百至成千上萬
變化的頻率：高（每日）
隱私：機密，個人信息-PII，PHI，PCI
風險：高

設計

嵌入，向量數據庫，LLM的

托多。根據行業信息，針對大量文檔 - 匹配操作文件用例

圖

托多。對於少量文檔（過程）可能會更好 - 它們可能都適合內存，並且可以在語義圖上執行搜索。在矢量數據庫中，構建索引的一種方法是使用圖形 - 層次可導航的小世界（HNSW）

多態圖

托多。可能非常適合技術文檔用例：

企業為企業技術選擇構建知識圖（模型）。可能有多種型號 - 基線，未來版本
段為企業圖/模型並自定義 - 類似於以對象為導向的語言（例如Java）的繼承的概念，也類似於Docker中的層
能力/團隊可能會進一步

此過程將導致大量（數百個）相對較小的圖形/模型（知識庫），並具有數万個文檔。

圖形神經網絡的設計空間，斯坦福CS224W的演講部分：帶有圖形的ML，幻燈片↩

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-05-26
大小 71.86KB
來自於 Github

相關應用

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部

doc rag harness