Comment pouvons-nous concevoir et optimiser un système de chiffon pour fournir des sorties personnalisées riches en référence pour les équipes de science des données, tout en gérant des packages internes, dans un environnement hors ligne?
Pour le décomposer davantage:
DocQuest est un système de génération (RAG) de récupération hors ligne conçu pour les équipes de science des données. Il fournit des sorties personnalisées riches en référence tout en fonctionnant dans des environnements sans connectivité Internet. Ce système est idéal pour les paramètres sécurisés où la confidentialité des données est primordiale.
Le système intègre la documentation à partir de plusieurs sources, notamment:
DOC-QUEST/
│
├── data/ # Folder for data/documents
│ ├── documents/ # Raw or processed document storage
│ └── vector_db/ # Vector databases
│ ├── child_docs/ # Child documents
│ └── parent_docs/ # Parent documents
│
├── notebooks/ # Jupyter notebooks for prototyping and experimentation
│ ├── 1_documentation_download.ipynb
│ ├── 2_document_pre_processing.ipynb
│ ├── 3_embedding_vector_save_gpu.ipynb
│ ├── 4_conversation_rag.ipynb
│ ├── data_wrangling.ipynb
│ └── rag_v1.ipynb
│
├── src/ # Core source code for pipeline components
│ ├── 1_documentation_download.py
│ ├── 2_document_pre_processing.py
│ ├── 3_embedding_vector_save_gpu.py
│ ├── 4_conversation_rag.py
│
├── .gitignore # Specifies files/folders to ignore in version control
├── doc_quest_app.py # DocQuest UI streamlit application
├── README.md # Project documentation
└── requirements.txt # Dependencies for the project
Clone le référentiel:
git clone https://github.com/shrivastavasatyam/Doc-Quest.git
cd Doc-Quest
Configurer un environnement virtuel:
python3 -m venv .venv
source .venv/bin/activate
Installez les dépendances:
pip install -r requirements.txt
Configurer la clé de l'API: configurez votre touche API GROQ en tant que variable d'environnement:
export GROQ_API_KEY=your_groq_api_key
Ou ajoutez-le directement dans le fichier doc_quest_app.py :
os . environ [ "GROQ_API_KEY" ] = "your_groq_api_key" Préparer les chemins de document: assurez-vous que vos chemins de document sont correctement définis dans le fichier doc_quest_app.py :
parent_doc_path = "/path/to/your/parent_docs"
child_doc_path = "./path/to/your/child_docs" Lancez l'application Streamlit:
streamlit run doc_quest_app.py
Accédez à l'interface Web à l'URL fournie par Streamlit (généralement http://localhost:8501 ).
Utilisez l'interface de chat pour poser des questions et interagir avec le système de chiffon.