歡迎使用VectORDB和大型語言模型(LLM)的提問管道。該項目旨在使用Chromadb建立一個高效且可擴展的管道,用於使用Chromadb,這是一個開源矢量數據庫,與Llama2結合使用,Llama2也是開源大型語言模型(LLM)。
用戶輸入:用戶以.pdf等格式提供文本數據源。這些文件是產生響應的基礎。
文檔加載:使用Langchain的文檔加載程序來有效加載和預處理提供的文檔,從而確保與下游任務的兼容性。
文檔塊:將已加載的文檔分為較小的,可管理的塊,以提高提問過程的效率。
嵌入VectordB(Chromadb)中的存儲:塊的嵌入是在VectordB的基礎技術Chromadb中生成並存儲的,從而可以快速準確地檢索。
查詢處理:將用戶查詢轉換為嵌入式,從而可以與存儲的文檔嵌入無縫比較。
向量數據庫搜索: VECTORDB與生成的嵌入式查詢以檢索相關信息的塊,以優化問題的解決過程。
LLM處理(LLAMA2):檢索到的嵌入將傳遞給LLAMA2,LLM,該LLM會生成上下文感知和準確的用戶查詢答案。
為了啟動提問管道,用戶需要以支持格式提供其文本數據源(當前支持的格式為: PDF,CSV,HTML,XLSX,DOCX,XML,JSON )。請按照下一節確保依賴關係的正確安裝和配置。
請按照以下步驟成功運行提問管道:
安裝依賴項:確保您安裝了所有所需的依賴項。在筆記本單元中運行以下命令:
!pip install langchain
!pip install PyPDF
!pip install sentence_transformers
!pip install chromadb
!pip install accelerate
!pip install bitsandbytes
!pip install jq
!pip install unstructured
自定義參數:
打開筆記本並找到以下參數:
JQ_Schema:根據您的數據模式自定義此參數。定義文本數據的結構以進行正確的加載和處理。
input_path:指定文本數據源的路徑,例如.pdf文件。確保將路徑正確設置為文檔。
擁抱面部授權令牌:確保從擁抱面孔下載Llama2模型中獲得授權令牌。這個令牌對於訪問模型至關重要。在筆記本的適當部分中設置令牌。
運行筆記本:通過單元格運行Jupyter筆記本電腦。確保每個單元在沒有錯誤的情況下成功執行。
我們歡迎社區的捐款和反饋。無論您是確定問題,有改進的建議還是想擴展功能,您的意見對我們來說都是有價值的。隨時為該項目做出貢獻。感謝您探索我們的項目。