تنزيل ai markdown llm retrieval - تنزيل رمز مصدر ai markdown llm retrieval

ai markdown llm retrieval

شفرة المصدر الأخرى

1.0.0

تنزيل

محرك استعلام Vectordb-Llm المستند إلى Rag

ينفذ هذا المشروع نظام استعلام المستندات الذي يعمل بمنظمة العفو الدولية باستخدام نماذج لغة Langchain و ChromadB و Openai. يمكّن المستخدمين من إنشاء قاعدة بيانات قابلة للبحث من مستندات Markdown والاستعلام عنها باستخدام اللغة الطبيعية.

سمات

إنشاء قاعدة بيانات المتجهات من مستندات Markdown
التضمين وتقدير تكلفة الاستعلام
عمليات البحث عن التشابه في قاعدة البيانات
توليد الاستجابة التي تعمل بالطاقة من الذكاء الاصطناعى لاستفسارات المستخدم

مخطط العمارة

متطلبات

بيثون 3.7+
التبعيات المدرجة في requirements.txt

تثبيت

استنساخ هذا المستودع

إنشاء بيئة افتراضية:

 python -m venv .venv
source .venv/bin/activate  # On Windows, use `.venvScriptsactivate`

تثبيت الحزم المطلوبة:
```
 pip install -r requirements.txt
```
قم بإعداد مفتاح Openai API في ملف .env :
```
 OPENAI_API_KEY=your_api_key_here
```

ابدء

اتبع هذه الخطوات لإعداد واستخدام محرك استعلام Vectordb-Llm المستند إلى Rag:

قم بإنشاء قاعدة بيانات من مستندات Markdown:
```
 python create_database.py --data_folder data/go-docs --chroma_db_path chroma_go_docs/
```
سيقوم هذا الأمر بمعالجة ملفات Markdown في دليل البيانات/ GO-DOCS وإنشاء قاعدة بيانات متجه في CHROMA_GO_DOCS/ FOLDER.

الاستعلام عن قاعدة البيانات بسؤال لغة طبيعي:

 python query_data.py --query_text "Explain goroutines in go in a sentence" --chroma_db_path chroma_go_docs/ --prompt_model gpt-3.5-turbo

عرض الاستجابة التي أنشأها الذكاء الاصطناعي:

 Goroutines are lightweight, concurrent functions or methods in Go that run independently, managed by the Go runtime, allowing for efficient parallel execution and easy implementation of concurrent programming patterns.

الاستخدام

لمزيد من تعليمات الاستخدام التفصيلية ، راجع الأقسام التالية:

إنشاء قاعدة البيانات

 python create_database.py --data_folder path/to/your/markdown/files --chroma_db_path path/to/save/database

الاستعلام عن قاعدة البيانات

 python query_data.py --query_text "Your question here" --chroma_db_path path/to/database --prompt_model gpt-3.5-turbo

بنية الملف

create_database.py : برنامج إنشاء قاعدة البيانات
query_data.py : نصوص الاستعلام عن قاعدة البيانات
estimate_cost.py : وحدة تقدير التكلفة
get_token_count.py : أداة العد الرمزية
data/ : دليل مستندات Markdown
chroma/ : تخزين قاعدة بيانات Chromadb (gitignored)

ملحوظات

يستخدم Openai text-embedding-3-small للتضمينات و gpt-3.5-turbo للاستجابات افتراضيًا
ضع ملفات Markdown في data/ أو حدد مسار مخصص
قاعدة بيانات ChromadB المخزنة في chroma/ (gitignored)