Doc Quest
1.0.0
我們如何在離線環境中設計和優化抹布系統,在管理內部包裹時為數據科學團隊提供個性化的,參考的輸出?
進一步分解:
DOCQUEST是專為數據科學團隊設計的脫機檢索生成一代(RAG)系統。它在沒有Internet連接的環境中運行時提供個性化的,參考的輸出。該系統是數據隱私至關重要的安全設置的理想選擇。
該系統集成了來自多個來源的文檔,包括:
DOC-QUEST/
│
├── data/ # Folder for data/documents
│ ├── documents/ # Raw or processed document storage
│ └── vector_db/ # Vector databases
│ ├── child_docs/ # Child documents
│ └── parent_docs/ # Parent documents
│
├── notebooks/ # Jupyter notebooks for prototyping and experimentation
│ ├── 1_documentation_download.ipynb
│ ├── 2_document_pre_processing.ipynb
│ ├── 3_embedding_vector_save_gpu.ipynb
│ ├── 4_conversation_rag.ipynb
│ ├── data_wrangling.ipynb
│ └── rag_v1.ipynb
│
├── src/ # Core source code for pipeline components
│ ├── 1_documentation_download.py
│ ├── 2_document_pre_processing.py
│ ├── 3_embedding_vector_save_gpu.py
│ ├── 4_conversation_rag.py
│
├── .gitignore # Specifies files/folders to ignore in version control
├── doc_quest_app.py # DocQuest UI streamlit application
├── README.md # Project documentation
└── requirements.txt # Dependencies for the project
克隆存儲庫:
git clone https://github.com/shrivastavasatyam/Doc-Quest.git
cd Doc-Quest
設置虛擬環境:
python3 -m venv .venv
source .venv/bin/activate
安裝依賴項:
pip install -r requirements.txt
配置API鍵:設置您的GROQ API密鑰作為環境變量:
export GROQ_API_KEY=your_groq_api_key
或直接在doc_quest_app.py文件中添加:
os . environ [ "GROQ_API_KEY" ] = "your_groq_api_key"準備文檔路徑:確保在doc_quest_app.py文件中正確設置文檔路徑:
parent_doc_path = "/path/to/your/parent_docs"
child_doc_path = "./path/to/your/child_docs" 啟動簡易應用:
streamlit run doc_quest_app.py
訪問FARLIT提供的URL的Web界面(通常是http://localhost:8501 )。
使用聊天界面提出問題並與抹布系統進行交互。