LangChain SynData RAG Eval评估下载LangChain SynData RAG Eval源代码下载

LangChain SynData RAG Eval

Ai源码

1.0.0

下载

使用Langchain进行IR和抹布评估的合成数据生成

该存储库展示了Langchain，Llama2-Chat和零和少数及时的及时工程，以实现信息检索（IR）和检索增强生成（RAG）评估的合成数据生成。

简介•亮点•示例笔记本•背景•指标•好处•提示模板•问题•todos

介绍

大型语言模型（LLM）通过理解复杂的查询来改变信息检索（IR）和搜索。该存储库展示了可用于生成IR和检索增强生成（RAG）评估的复杂合成数据集的概念和软件包。

生成的合成数据是给定上下文的查询和答案。合成生成的上下文Query-Asswer的一个示例如下：

 Provided Context (usually split from documents / text sources): 
Pure TalkUSA is an American mobile virtual network operator headquartered in Covington, Georgia, United States. 
It is most notable for an industry-first offering of rollover data in their data add-on packages, which has since been discontinued. 
Pure TalkUSA is a subsidiary of Telrite Corporation. Bring Your Own Phone! 

Synthetically Generated Query: 
What was the outstanding service offered by Pure TalkUSA?

Synthetically Generated Answer:
The outstanding service from Pure TalkUSA was its industry-first offering of rollover data.

构建IR或抹布系统时，上下文，查询和答案的数据集对于评估系统性能至关重要。人类宣布的数据集提供了出色的基础真理，但可以获得昂贵且具有挑战性。因此，使用LLMS生成的合成数据集是一种有吸引力的解决方案和补充。

通过采用LLM提示工程，可以生成各种综合查询和答案，以形成可靠的验证数据集。该存储库展示了一个生成合成数据的过程，同时强调零和少量弹出，以创建高度可自定义的合成数据集。图1概述了此存储库中所示的合成数据集生成过程。

图1：IR和抹布评估的合成数据生成

注意：请参阅背景和指标部分，以更深入地了解IR，抹布以及如何评估这些系统。

亮点

存储库中的一些关键亮点是：

在整个过程中专门使用有关消费级硬件的本地LLM型号，并且没有执行外部API调用。这对于数据隐私是至关重要的。此外，几个在线示例利用外部API调用到最新的LLMS（SOTA）LLM，通常比具有更少参数的本地LLM提供更高的质量结果。此处显示了在本地模型和解决方案的编码和错误处理方面的某些挑战。
提出了零和少量提示，以提示高度可自定义的查询和答案生成。
Langchain示例使用：
- 自定义提示工程，
- 输出解析器和自动固定解析器以获取结构化数据，
- 批处理GPU推断用链条推断，
- 兰链表达语言（LCEL）。
将模型尺寸降低到消费级硬件上的量化。

示例笔记本

与兰链的上下文Query-Asswer Generation

1.）带有自定义提示和输出解析器的Langchain，用于结构化数据输出：有关合成上下文 - 问题 - Query-Asswer数据生成的示例，请参见Gen-Question-Question-asswer-query.ipynb。该笔记本的关键方面是：

Langchain的自定义提示模板，用于Llama2-Chat模型
Pydanticoutputparser
OutputFixingParser
自定义输出解析器类的编写是为了容纳Llama2-Chat和错误处理。

与兰班链的上下文疑问

1.） Langchain自定义LLAMA2-CHAT提示：有关如何构建Langchain自定义提示模板的示例，请参见QA-Gen-Query-langchain.ipynb。本笔记本中显示的一些兰链功能是：

Langchain的自定义提示模板，用于Llama2-Chat模型
拥抱面对当地管道
4位量化
批次GPU推理

无兰链的上下文疑问

1.）零和少量弹药提示工程：有关自定义数据集的合成上下文查询数据生成的示例，请参见QA-gen-Query.ipynb。这里介绍的关键功能是：

在Squadv2问答数据集上使用zero- and few-shot annotations LLMS。
演示了两种提示技术：
- 基本的零射击查询产生，称为香草
- 在不良问题的指导下进行了几次射击（GBQ）

2.）上下文保护：有关参数检索任务的综合上下文查询数据的示例，请参见参数 - Query.ipynb。在信息检索的背景下，这些任务旨在从文档等各种来源中检索相关参数。在参数检索中，目标是为用户提供有说服力和可信的信息，以支持他们的论点或做出明智的决定。

非allama查询产生

可以很容易地在网上找到查询特定生成模型的其他示例（例如， BeIR/query-gen-msmarco-t5-base-v1 ）（请参阅Beir问题生成）。

背景

IR系统的主要功能是检索，该功能旨在确定用户查询与要检索的内容之间的相关性。实施IR或破布系统需要特定于用户的文档。但是，缺乏自定义数据集的注释数据集篮板系统评估。图2概述了提问系统的典型抹布过程。

图2：抹布过程概述[源]。

此合成上下文广播数据集对于评估至关重要：1）IR的系统能够选择增强的上下文的能力，如图2-步骤＃3和2）所示，如图2-步骤＃5所示，抹布的生成响应。通过允许离线评估，它可以对系统之间的速度和准确性之间的平衡进行详尽的分析，告知必要的修订并选择冠军系统设计。

如图3所述，IR和抹布系统的设计变得越来越复杂。

llms-ir
图3：LLM可以在查询重写器，猎犬，Reranker和Reader [source]中使用

如图所示，它们是IR /抹布设计中的几个考虑因素，解决方案的复杂性范围从传统方法（例如，基于项的稀疏方法）到基于神经的方法（例如，嵌入式和LLM）。对这些系统的评估对于做出完善的设计决策至关重要。从搜索到建议，评估措施对于了解在检索中有效和不起作用至关重要。

指标

提问（QA）系统（例如，抹布系统）有两个组成部分：

检索器 - 检索回答查询所需的最相关信息
生成器 - 通过检索到的信息生成答案。

在评估质量检查系统时，两个组件都需要分别评估并共同评估以获得整体系统得分。

每当向抹布应用程序提出问题时，都可以考虑以下对象[来源]：

问题
问题的正确答案
RAG应用程序返回的答案
RAG应用程序检索并用来回答问题的上下文

指标的选择不是该存储库的主要重点，因为指标取决于应用程序。但是，为方便起见提供参考文章和信息。

检索员指标

图4显示了IR的常见评估指标，图1中的Dataset可用于图4所示的Offline Metrics 。

评估对象
图4：排名评估指标[来源]

Offline metrics在部署新的IR系统之前在孤立的环境中进行测量。这些查看使用系统检索项目时是否返回一组特定的相关结果[源]。

发电机指标

对发电机指标的简要回顾将展示一些度量复杂性。评估发电机时，查看所选答案段落是否与正确的答案或答案相匹配。

下面提供的是最少列出的生成器指标。

传统：可以执行诸如F1，准确性，精确匹配，流氓，BLEU等的指标，但这些指标与人类判断力缺乏相关性；但是，它们确实提供了简单，快速的定量比较。
语义答案相似性：SAS，BERT和其他句子转换器上可用的模型等编码器模型。这些是训练有素的模型，返回相似性得分。
使用LLM来评估自己：这是Ragas和Tonicai/Tvalmetrics等流行的抹布评估包的内部工作。
- Refer to research paper Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena for more details.

请参阅文章《深刻：评估问题回答系统的指标》，并使用ragas + langsmith评估详细介绍这些指标的抹布管道。

好处

LLM及时工程的合成数据生成的一些关键好处是：

Customized IR Task Query Generation ：提示LLMS在可以生成的查询类型的类型中提供了极大的灵活性。这很有帮助，因为IR任务在其应用中有所不同。例如，基准测试-IR（BEIR）是一个异质基准，其中包含不同的IR任务，例如提问，论证或反论点检索，事实检查等。由于IR任务中的多样性，这是LLM提示的好处，因为可以在其中启用LLM提示的好处，因为该提示可以为您量身定制，以生成IR IR任务的合成数据。图5显示了Beir中不同IR任务和数据集的概述。请参阅Beir排行榜以查看基于NLP的检索模型的性能。

这是一些信息。
图5：从[源]获取的贝尔基准数据集和IR任务图像

Zero or Few-Shot Annotations ：在称为零或几次提示的技术中，开发人员可以向LLMS提供特定于域的示例查询，从而大大增强查询生成。这种方法通常只需要少数带注释的样品。
Longer Context Length ：基于GPT的LLM模型（如Llama2）提供了扩展的上下文长度，与Bert的512代币相比，高达4,096个令牌。这种较长的上下文增强了文档解析和查询生成控制。

提示模板

Llama2将在此存储库中用于生成合成查询，因为它可以在消费级GPU上本地运行。下面显示的是Llama2聊天的及时模板，该模板是对话和指导应用程序的微调。

 <s>[INST] <<SYS>>
{your_system_message}
<</SYS>>

{user_message_1} [/INST]

系统提示：系统提示<<SYS>>是开放访问模型的无名优势之一，是您对聊天应用程序中的系统提示完全控制。这对于指定聊天助手的行为至关重要 - 甚至使它具有某些个性 - 但它在APIS后面使用的模型中是无法实现的[来源]。
用户消息：用户提供的查询或消息。 [Inst]和[/Inst]有助于确定用户键入的内容，以便Llama知道如何正确响应。如果没有这些标记在用户文本周围，美洲驼可能会对回复的转弯感到困惑。

请注意，基本Llama2模型没有及时的结构，因为它们是原始的非教学调谐模型[源]。

其他资源和参考，以帮助提示技术和基础知识：