本笔记本包含步骤和代码,以证明Watsonx.ai中检索Aug的支持的支持。它介绍了用于数据检索,知识基础构建和查询以及模型测试的命令。
使用LLM模型,Langchain和Milvus创建检索增强发电(RAG)系统。这将使我们能够在不细化大型语言模型(LLM)的情况下询问有关我们的文档的问题(未包含在培训数据中)。使用抹布时,如果您有一个问题,则首先要进行检索步骤,以获取特殊数据库的任何相关文档,该数据库是索引这些文档的矢量数据库。
检索增强发电(RAG)是一种多功能模式,可以解锁需要事实召回信息的许多用例,例如以自然语言查询知识基础。
大型语言模型(LLMS)已证明了他们了解上下文并为各种NLP任务提供准确答案的能力,包括摘要(包括摘要,问答)。虽然能够为接受培训的信息提供很好的答案,但当主题是关于他们“不知道”的信息时,他们倾向于幻觉,但IE不包括在他们的培训数据中。检索增强一代将外部资源与LLM相结合。因此,抹布的主要两个组成部分是猎犬和发电机。
检索器部分可以描述为能够编码我们的数据的系统,因此在对其进行查询时可以轻松地检索其相关部分。编码是使用文本嵌入式完成的,即经过训练的模型来创建信息的向量表示。实现猎犬的最佳选择是矢量数据库。作为矢量数据库,有多种选择,无论是开源还是商业产品。很少有Chromadb,Mevius,Faiss,Pinecone,编织。我们在笔记本中的选项将是Chromadb(持久性)的本地实例。
对于发电机部分,明显的选项是LLM。在此笔记本中,我们将使用Kaggle Model Collection的量化Llama V2模型。
猎犬和发电机的编排将使用Langchain完成。 Langchain的专门功能使我们能够以一行代码创建接收器生成器。
以最简单的形式,抹布需要3个步骤:
Wikipedia的690,000个单词的清洁文字。
有三个问题文件,一个针对学生的学生:S08,S09和S10。
“ QuestionAnswerpairs.txt”文件既包含问题和答案。该文件中的列如下:
被认为是贫穷的问题被从该数据集中丢弃了。
经常有相同问题的多行,如果这些问题是由多个人回答的。 https://www.kaggle.com/rtatman/questionanswer-dataset