Wie können wir ein Lag-System entwerfen und optimieren, um personalisierte, referenzreiche Ausgaben für Datenwissenschaftsteams bereitzustellen und gleichzeitig interne Pakete in einer Offline-Umgebung zu verwalten?
Um es weiter zu brechen:
DocQuest ist ein Offline-Abruf-Abruf-Generationssystem (RAG), das für Data Science-Teams entwickelt wurde. Es bietet personalisierte, referenzreiche Outputs, während es in Umgebungen ohne Internetkonnektivität arbeitet. Dieses System ist ideal für sichere Einstellungen, bei denen Datenschutz von größter Bedeutung ist.
Das System integriert Dokumentation aus mehreren Quellen, einschließlich:
DOC-QUEST/
│
├── data/ # Folder for data/documents
│ ├── documents/ # Raw or processed document storage
│ └── vector_db/ # Vector databases
│ ├── child_docs/ # Child documents
│ └── parent_docs/ # Parent documents
│
├── notebooks/ # Jupyter notebooks for prototyping and experimentation
│ ├── 1_documentation_download.ipynb
│ ├── 2_document_pre_processing.ipynb
│ ├── 3_embedding_vector_save_gpu.ipynb
│ ├── 4_conversation_rag.ipynb
│ ├── data_wrangling.ipynb
│ └── rag_v1.ipynb
│
├── src/ # Core source code for pipeline components
│ ├── 1_documentation_download.py
│ ├── 2_document_pre_processing.py
│ ├── 3_embedding_vector_save_gpu.py
│ ├── 4_conversation_rag.py
│
├── .gitignore # Specifies files/folders to ignore in version control
├── doc_quest_app.py # DocQuest UI streamlit application
├── README.md # Project documentation
└── requirements.txt # Dependencies for the project
Klonen Sie das Repository:
git clone https://github.com/shrivastavasatyam/Doc-Quest.git
cd Doc-Quest
Richten Sie eine virtuelle Umgebung ein:
python3 -m venv .venv
source .venv/bin/activate
Abhängigkeiten installieren:
pip install -r requirements.txt
Konfigurieren Sie den API -Schlüssel: Richten Sie Ihre COQ -API -Taste als Umgebungsvariable ein:
export GROQ_API_KEY=your_groq_api_key
Oder fügen Sie es direkt in die Datei doc_quest_app.py hinzu:
os . environ [ "GROQ_API_KEY" ] = "your_groq_api_key" Dokumentpfade vorbereiten: Stellen Sie sicher, dass Ihre Dokumentpfade in der Datei doc_quest_app.py korrekt eingestellt sind:
parent_doc_path = "/path/to/your/parent_docs"
child_doc_path = "./path/to/your/child_docs" Starten Sie die Streamlit -App:
streamlit run doc_quest_app.py
Greifen Sie auf die Webschnittstelle an der von Streamlit bereitgestellten URL zu (normalerweise http://localhost:8501 ).
Verwenden Sie die Chat -Schnittstelle, um Fragen zu stellen und mit dem Lappensystem zu interagieren.