Bagaimana kita dapat merancang dan mengoptimalkan sistem kain untuk memberikan hasil yang dipersonalisasi dan kaya referensi untuk tim sains data, sambil mengelola paket in-house, di lingkungan offline?
Untuk memecahnya lebih lanjut:
DocQuest adalah sistem generasi pengambilan-offline-augmented (RAG) yang dirancang untuk tim sains data. Ini memberikan output yang dipersonalisasi dan kaya referensi saat beroperasi di lingkungan tanpa konektivitas internet. Sistem ini sangat ideal untuk pengaturan yang aman di mana privasi data adalah yang terpenting.
Sistem mengintegrasikan dokumentasi dari berbagai sumber, termasuk:
DOC-QUEST/
│
├── data/ # Folder for data/documents
│ ├── documents/ # Raw or processed document storage
│ └── vector_db/ # Vector databases
│ ├── child_docs/ # Child documents
│ └── parent_docs/ # Parent documents
│
├── notebooks/ # Jupyter notebooks for prototyping and experimentation
│ ├── 1_documentation_download.ipynb
│ ├── 2_document_pre_processing.ipynb
│ ├── 3_embedding_vector_save_gpu.ipynb
│ ├── 4_conversation_rag.ipynb
│ ├── data_wrangling.ipynb
│ └── rag_v1.ipynb
│
├── src/ # Core source code for pipeline components
│ ├── 1_documentation_download.py
│ ├── 2_document_pre_processing.py
│ ├── 3_embedding_vector_save_gpu.py
│ ├── 4_conversation_rag.py
│
├── .gitignore # Specifies files/folders to ignore in version control
├── doc_quest_app.py # DocQuest UI streamlit application
├── README.md # Project documentation
└── requirements.txt # Dependencies for the project
Klon Repositori:
git clone https://github.com/shrivastavasatyam/Doc-Quest.git
cd Doc-Quest
Siapkan lingkungan virtual:
python3 -m venv .venv
source .venv/bin/activate
Instal dependensi:
pip install -r requirements.txt
Konfigurasikan Kunci API: Atur tombol API GROQ Anda sebagai variabel lingkungan:
export GROQ_API_KEY=your_groq_api_key
Atau tambahkan langsung di file doc_quest_app.py :
os . environ [ "GROQ_API_KEY" ] = "your_groq_api_key" Siapkan jalur dokumen: Pastikan jalur dokumen Anda diatur dengan benar di file doc_quest_app.py :
parent_doc_path = "/path/to/your/parent_docs"
child_doc_path = "./path/to/your/child_docs" Luncurkan Aplikasi StreamLit:
streamlit run doc_quest_app.py
Akses antarmuka web di URL yang disediakan oleh StreamLit (biasanya http://localhost:8501 ).
Gunakan antarmuka obrolan untuk mengajukan pertanyaan dan berinteraksi dengan sistem kain.