كيف يمكننا تصميم نظام خرقة وتحسينها لتوفير مخرجات مخصصة غنية بالمرجع لفرق علوم البيانات ، أثناء إدارة الحزم الداخلية ، في بيئة غير متصلة بالإنترنت؟
لكسرها أكثر:
Docquest هو نظام جيل (RAG) المتصلة بالاسترجاع غير المتصلة بالإنترنت مصمم لفرق علوم البيانات. يوفر مخرجات مخصصة غنية بالمرجع أثناء العمل في البيئات دون اتصال بالإنترنت. هذا النظام مثالي للإعدادات الآمنة حيث تكون خصوصية البيانات أمرًا بالغ الأهمية.
يدمج النظام الوثائق من مصادر متعددة ، بما في ذلك:
DOC-QUEST/
│
├── data/ # Folder for data/documents
│ ├── documents/ # Raw or processed document storage
│ └── vector_db/ # Vector databases
│ ├── child_docs/ # Child documents
│ └── parent_docs/ # Parent documents
│
├── notebooks/ # Jupyter notebooks for prototyping and experimentation
│ ├── 1_documentation_download.ipynb
│ ├── 2_document_pre_processing.ipynb
│ ├── 3_embedding_vector_save_gpu.ipynb
│ ├── 4_conversation_rag.ipynb
│ ├── data_wrangling.ipynb
│ └── rag_v1.ipynb
│
├── src/ # Core source code for pipeline components
│ ├── 1_documentation_download.py
│ ├── 2_document_pre_processing.py
│ ├── 3_embedding_vector_save_gpu.py
│ ├── 4_conversation_rag.py
│
├── .gitignore # Specifies files/folders to ignore in version control
├── doc_quest_app.py # DocQuest UI streamlit application
├── README.md # Project documentation
└── requirements.txt # Dependencies for the project
استنساخ المستودع:
git clone https://github.com/shrivastavasatyam/Doc-Quest.git
cd Doc-Quest
إعداد بيئة افتراضية:
python3 -m venv .venv
source .venv/bin/activate
تثبيت التبعيات:
pip install -r requirements.txt
تكوين مفتاح API: قم بإعداد مفتاح GroQ API كمتغير للبيئة:
export GROQ_API_KEY=your_groq_api_key
أو إضافته مباشرة في ملف doc_quest_app.py :
os . environ [ "GROQ_API_KEY" ] = "your_groq_api_key" إعداد مسارات المستند: تأكد من تعيين مسارات المستند الخاصة بك بشكل صحيح في ملف doc_quest_app.py :
parent_doc_path = "/path/to/your/parent_docs"
child_doc_path = "./path/to/your/child_docs" قم بتشغيل تطبيق SPEREMLIT:
streamlit run doc_quest_app.py
قم بالوصول إلى واجهة الويب في عنوان URL المقدم بواسطة STIPLELIT (عادةً ما يكون http://localhost:8501 ).
استخدم واجهة الدردشة لطرح الأسئلة والتفاعل مع نظام الخرقة.