doc rag harness下载 - doc rag harness源代码下载

doc rag harness

其他源码

1.0.0

下载

文件检索增强发电（RAG）线束

检索增强发电的区域正在迅速发展。实施检索有许多不同的方法。有些人使用嵌入式和矢量数据库，一些其他使用语义图。因此，有不同的设计，还有不同的任务，与任务¹匹配的设计很重要。

该线束的目的是提供收集定义，抽象和构建块，以帮助理解，基准测试，比较和选择特定的检索设计，该设计最能匹配手头的任务。

安全带的目的是与技术 +技术兼容性套件（TCK）有些相似 - 提供：

用于文档存储和检索的Java/EMF Ecore模型/API，包括候选人设计实现的“设计提供商界面”
评估不同设计如何执行特定任务的测试框架。

Java被选为具有丰富语言和大型成熟生态系统的企业世界中的主要技术。之所以选择EMF Ecore，是因为有功能：

从/到YAML，XMI和二进制文件以及数据库加载/商店模型
从模型和元模型生成HTML文档
对建筑观众和编辑者的工具支持 - 树，图，文本； Eclipse IDE和Web浏览器

此页面提供了核心概念的介绍，并概述了几种用例（任务）和设计（替代方案）。

概念

下图概述了线束结构和上下文：

以下各节为每个定义提供了定义和概述任务/设计维度。元模型将一些定义捕获为模型元素，并将其详细说明，并将其详细说明。

文档

文档是纪念思想或信息的代表。出于此线束文件的目的：

存储在文档源/存储库中（例如图书馆中的书籍）
可以分类并可以嵌套类别（例如书类型 - 小说 /科幻-Fi）
可以具有内部结构（例如卷，章节，部分，段落，单词）
可以包含不同类型的内容 - 文本，图像，视频，音频，列表和表格等结构
可以参考其他文档或外部实体

“物理”实现：

文本文件
PDF。在Java中可以使用Apache PDFBox加载
OCR结果，例如JSON
MS Office文档 - 可以加载Java中的Apache POI。 MS Excel文件可以使用Nasdanika Excel模型加载为Ecore模型
HTML文档/页面（文本的子类型）

“逻辑”实现：

对于PDF/OCR-扫描业务文档。例如，快速消息的传真。在这种情况下：
- 传真添加的标题和页脚可能会删除为无关紧要的
- 页面可能会分解为迅速的特定结构，例如700
- 可以为某些元素的身体，段落或子句创建嵌入，从文本中排除子句数字。与Wikipedia文章的嵌入有点相似，该文章的嵌入是针对不包括标题的段落计算的。
对于HTML-文档页面。说，在这种情况下，春季表达语言（SPEL），左导航，右侧栏和页脚可能被丢弃为无关的或分解成各个逻辑文档功能，这些功能可能会被忽略。面包屑可用于分类。
对于文本文件 - 取决于内容类型。例如，可以将pom.xml加载到项目对象模型中，Java文件可以加载到语法树中，也可以加载具有分析类型/字段/方法参考的图形。

文档加载程序

将一个文档表示形式转换为另一个文档。例如，PDF或OCR JSON到Swift MT 700消息的对象模型。

文档来源

以特定格式或格式存储文档。例如带有PDF文档的文件系统。文档源可以转换/改编。文档源的示例之一是git commit。 Nasdanika GitLab模型可用于实现GitLab的文档加载。

文档存储库

提供存储和检索功能的文档集合。 DPI的主要接口（见下文）由设计实现。

存储文档时，存储库可能执行诸如图像识别之类的任务。

可能有多种检索方式，例如：

关键字搜索
语义搜索
摘要 - 搜索和总结顶部X结果

存储库可以从其他存储库和数据加载程序组成。例如，可以从PDF->对象模型数据加载程序和对象模型存储库中组装PDF存储库。文档存储库也可能不必存储/重新创建源文档 - 他们可以将其引用并从文档存储中检索 - 已加载文档的原件或特定于存储库的文档商店。

也有可能构成不同的存储库。例如，一个支持关键字搜索和支持语义搜索的存储库的存储库。在这种情况下，关键字搜索存储库查询结果将是必要的，但不足，可能被用来验证语义搜索存储库的结果。

用户 / Web UI

用户通过Web UI查询文档存储库。他们可以作为工作职能的一部分来做或评估特定设计的查询功能并提供反馈。这两种方式可能会结合在一起 - 用户可以选择仅使用“冠军”查询引擎/设计，例如关键字搜索，或者选择“挑战者”引擎/设计。

Web UI可能会捕获用户上下文，例如组织中的角色/位置，并将其作为查询的一部分传递到设计。

赞助

有兴趣通过利用文件检索增强发电来提高用户工作质量（例如生产率）的一方。

赞助商需要平衡多个标准，以最大程度地减少“损失函数”：

检索速度
准确性
完整性
诸如运行成本，许可成本等的成本等费用

设计

设计是技术及其配置参数的实例化/实施例。

设计维度

设计变化点 - 可以在不同的实施方案/实例化和值源中更改的内容。例如：

嵌入尺寸的数量
ML模型
型号温度
向量数据库
向量数据库版本

设计维度可以形成树，也可以更精确地形成有向图。例如，矢量数据库版本将是特定矢量数据库节点下的节点。

设计提供商界面

设计提供商界面（DPI）从特定的设计实现中提取了线束。它是必须实现的一组接口和抽象类。例如DocumentRepository接口。 DPI在Java/ecore中定义，可以为不同技术提供适配器。尤其：

REST API
语言绑定和实现REST API的跑步者并调用实现语言绑定接口的组件。例如，可以用烧瓶实现Python绑定
框架绑定/在语言绑定下或直接在Java中的DPI下的框架。例如，在python结合下可能存在兰链结合，在Java下可能存在opennlp结合

任务

任务是文档检索的特定用途。例如，在组织特定技术文档中的语义搜索“我如何将春季微服务部署到AKS？”。

测试数据集

响应的测试文档，查询和评估者的集合。

跑步者输入

测试数据集 /设计组合的集合将由测试跑者执行。

测试跑者

读取输入
实例化测试数据集和设计
将测试数据集的文档加载到设计中
执行查询并评估响应。响应评估者可以提供设计的反馈
存储测试结果以进行进一步分析和报告生成

测试跑步者只能根据输入执行以上步骤的一部分。例如：

可能已经有一个带有预加载文档的设计，测试跑步者将仅执行查询部分
或测试数据集可能仅包含文档，但不包含查询和响应评估器，因为用户可以通过Web UI提供查询和响应
测试跑步者可以将文档加载到设计中，并将其保存为新设计。例如，从图像创建一个容器，加载文档，然后停止容器，然后从容器中创建图像。
同样，测试跑者可以使用测试数据集，将其与用户提供的反馈结合并创建并创建新的测试数据集。

测试运行可以分布在多个代理/机器上。

测试结果和用户反馈

存储测试结果和用户反馈。测试结果和用户反馈应参考测试数据集和设计。因此，它本质上是一个线束元数据存储库，其中包含设计定义树/图表，测试数据集定义以及测试运行的结果。

报告生成器

生成报告。该报告可能采用可视化的HTML格式。可能的报告格式：

带有设计树，任务树和任务数据集的左图。它还可能包括一个“技术堆栈树” - 对设计构建块进行了分类。例如，矢量数据库树，其版本和配置。如果左图变得太嘈杂，则可以将其中一些项目移至导航栏。
内容面板 - 所选项目的文档。例如
- 主页 - 执行测试的摘要：可过滤的可排序表，具有设计/测试排列（对于相对较小的空间），可视化，例如Echarts 3D散布。它还可能包含一个设计向导来通过回答问题并选择最适合答案的测试设计来构建设计。
- 设计页面 - 配置，测试和结果 - 表格，可视化
- 任务页 - 描述，测试，设计，可视化。它可以托管一个聚合Web UI，该Web UI从所有设计中为此任务收集答案，并允许用户比较替代设计的响应。比较的一种选择是成对比较可能而不启示给定的响应来自哪种设计。
- 构建块（例如向量数据库，其版本，配置） - 描述，使用它的设计。

报告可能包含指向Web UI甚至“主机” Web UI的链接，如果将其作为单页应用程序（SPA）实现，例如React或Vue.js/Bootstrapvue

社区

各方为线束，设计和测试数据集做出贡献。社区成员可能会在不同的组件上扮演不同的角色。

---正在进行中的工作---

任务

本节概述了几个任务（用例），用于检索增强生成和搜索。

方面：

文档数量
用户数
变化的频率
隐私
风险 - 错误成本

技术文档

示例 - 大型企业中的技术功能：

多个级别：
- 企业，绑定企业范围内的技术选择（例如Java/Spring，Maven组件），提供企业范围范围的共享构件（例如Bootstrap组件库）和其他技术（例如，Build Pipeline）
- 细分市场 - 缩小技术选择，例如Java的版本，添加特定于细分市场的方法在企业指南之上（又是在行业/供应商技术指南和文档之上构建的）。可以引入细分级构建块。
- 功能/团队 - 更狭窄的技术选择进一步缩小并完善了它们的使用方式。可以介绍功能/团队级别的构建块，例如小部件库。

对于上面的每一个都有一个时间维度 - 顶部的技术堆栈更新，底部发行。有关可视化，请参见Togaf架构景观。

在这样的环境中，用户需要检索解决方案，该解决方案允许检索特定于用户在企业中的位置和角色的文档及其分配的努力。例如，一名Java开发人员，例如当前的发布可能需要有关Java 17的信息。如果将同一开发人员分配为未来发布的工作，则可能需要有关Java 20的信息。当他们使用Kubernetes和Kubernetes和Azure Aks等技术时，供应商文档可能会很大程度上是用途，但需要使用一般信息。

文档数量：成千上万
用户数：数百至成千上万
变化的频率：低（例如月度）至中度（每月几次）
隐私：内部
风险：低

程序

方面：

文档数量：低
用户数：数百至成千上万
变化的频率：低（例如月度）
隐私：内部，有限，机密
风险：中至高

操作文件

方面：

文件数：可能数百万
用户数：数百至成千上万
变化的频率：高（每日）
隐私：机密，个人信息-PII，PHI，PCI
风险：高

设计

嵌入，向量数据库，LLM的

托多。根据行业信息，针对大量文档 - 匹配操作文件用例

图

托多。对于少量文档（过程）可能会更好 - 它们可能都适合内存，并且可以在语义图上执行搜索。在矢量数据库中，构建索引的一种方法是使用图形 - 层次可导航的小世界（HNSW）

多态图

托多。可能非常适合技术文档用例：

企业为企业技术选择构建知识图（模型）。可能有多种型号 - 基线，未来版本
段为企业图/模型并自定义 - 类似于以对象为导向的语言（例如Java）的继承的概念，也类似于Docker中的层
能力/团队可能会进一步

此过程将导致大量（数百个）相对较小的图形/模型（知识库），并具有数万个文档。

图形神经网络的设计空间，斯坦福CS224W的演讲部分：带有图形的ML，幻灯片↩

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-05-26
大小 71.86KB
来自于 Github

doc rag harness