欢迎使用VectORDB和大型语言模型(LLM)的提问管道。该项目旨在使用Chromadb建立一个高效且可扩展的管道,用于使用Chromadb,这是一个开源矢量数据库,与Llama2结合使用,Llama2也是开源大型语言模型(LLM)。
用户输入:用户以.pdf等格式提供文本数据源。这些文件是产生响应的基础。
文档加载:使用Langchain的文档加载程序来有效加载和预处理提供的文档,从而确保与下游任务的兼容性。
文档块:将已加载的文档分为较小的,可管理的块,以提高提问过程的效率。
嵌入VectordB(Chromadb)中的存储:块的嵌入是在VectordB的基础技术Chromadb中生成并存储的,从而可以快速准确地检索。
查询处理:将用户查询转换为嵌入式,从而可以与存储的文档嵌入无缝比较。
向量数据库搜索: VECTORDB与生成的嵌入式查询以检索相关信息的块,以优化问题的解决过程。
LLM处理(LLAMA2):检索到的嵌入将传递给LLAMA2,LLM,该LLM会生成上下文感知和准确的用户查询答案。
为了启动提问管道,用户需要以支持格式提供其文本数据源(当前支持的格式为: PDF,CSV,HTML,XLSX,DOCX,XML,JSON )。请按照下一节确保依赖关系的正确安装和配置。
请按照以下步骤成功运行提问管道:
安装依赖项:确保您安装了所有所需的依赖项。在笔记本单元中运行以下命令:
!pip install langchain
!pip install PyPDF
!pip install sentence_transformers
!pip install chromadb
!pip install accelerate
!pip install bitsandbytes
!pip install jq
!pip install unstructured
自定义参数:
打开笔记本并找到以下参数:
JQ_Schema:根据您的数据模式自定义此参数。定义文本数据的结构以进行正确的加载和处理。
input_path:指定文本数据源的路径,例如.pdf文件。确保将路径正确设置为文档。
拥抱面部授权令牌:确保从拥抱面孔下载Llama2模型中获得授权令牌。这个令牌对于访问模型至关重要。在笔记本的适当部分中设置令牌。
运行笔记本:通过单元格运行Jupyter笔记本电脑。确保每个单元在没有错误的情况下成功执行。
我们欢迎社区的捐款和反馈。无论您是确定问题,有改进的建议还是想扩展功能,您的意见对我们来说都是有价值的。随时为该项目做出贡献。感谢您探索我们的项目。