เราจะออกแบบและเพิ่มประสิทธิภาพระบบ RAG เพื่อให้ผลลัพธ์ที่หลากหลายอ้างอิงสำหรับทีมวิทยาศาสตร์ข้อมูลในขณะที่จัดการแพ็คเกจภายใน บริษัท ในสภาพแวดล้อมออฟไลน์?
เพื่อทำลายมันต่อไป:
DocQuest เป็นระบบการเรียกคืนแบบออฟไลน์ (RAG) แบบออฟไลน์ที่ออกแบบมาสำหรับทีมวิทยาศาสตร์ข้อมูล มันให้เอาต์พุตที่มีส่วนบุคคลที่อุดมไปด้วยการอ้างอิงในขณะที่ทำงานในสภาพแวดล้อมที่ไม่มีการเชื่อมต่ออินเทอร์เน็ต ระบบนี้เหมาะสำหรับการตั้งค่าที่ปลอดภัยซึ่งความเป็นส่วนตัวของข้อมูลเป็นสิ่งสำคัญยิ่ง
ระบบรวมเอกสารจากหลายแหล่งรวมถึง:
DOC-QUEST/
│
├── data/ # Folder for data/documents
│ ├── documents/ # Raw or processed document storage
│ └── vector_db/ # Vector databases
│ ├── child_docs/ # Child documents
│ └── parent_docs/ # Parent documents
│
├── notebooks/ # Jupyter notebooks for prototyping and experimentation
│ ├── 1_documentation_download.ipynb
│ ├── 2_document_pre_processing.ipynb
│ ├── 3_embedding_vector_save_gpu.ipynb
│ ├── 4_conversation_rag.ipynb
│ ├── data_wrangling.ipynb
│ └── rag_v1.ipynb
│
├── src/ # Core source code for pipeline components
│ ├── 1_documentation_download.py
│ ├── 2_document_pre_processing.py
│ ├── 3_embedding_vector_save_gpu.py
│ ├── 4_conversation_rag.py
│
├── .gitignore # Specifies files/folders to ignore in version control
├── doc_quest_app.py # DocQuest UI streamlit application
├── README.md # Project documentation
└── requirements.txt # Dependencies for the project
โคลนที่เก็บ:
git clone https://github.com/shrivastavasatyam/Doc-Quest.git
cd Doc-Quest
ตั้งค่าสภาพแวดล้อมเสมือนจริง:
python3 -m venv .venv
source .venv/bin/activate
ติดตั้งการพึ่งพา:
pip install -r requirements.txt
กำหนดค่าคีย์ API: ตั้งค่าคีย์ GROQ API ของคุณเป็นตัวแปรสภาพแวดล้อม:
export GROQ_API_KEY=your_groq_api_key
หรือเพิ่มโดยตรงในไฟล์ doc_quest_app.py :
os . environ [ "GROQ_API_KEY" ] = "your_groq_api_key" เตรียมพา ธ เอกสาร: ตรวจสอบให้แน่ใจว่าเส้นทางเอกสารของคุณถูกตั้งค่าอย่างถูกต้องในไฟล์ doc_quest_app.py :
parent_doc_path = "/path/to/your/parent_docs"
child_doc_path = "./path/to/your/child_docs" เปิดแอพ Streamlit:
streamlit run doc_quest_app.py
เข้าถึงเว็บอินเตอร์เฟสที่ URL ที่จัดทำโดย Streamlit (โดยปกติจะ http://localhost:8501 )
ใช้อินเทอร์เฟซแชทเพื่อถามคำถามและโต้ตอบกับระบบ RAG