chat with pennsieve - chat with pennsieve

chat with pennsieve

شفرة المصدر الأخرى

1.0.0

تنزيل

الدردشة مع Pennsieve

وصف المشروع

هذا هو مكون المشروع البحثي الذي تم تطويره تحت إشراف الدكتور زاكاري إيفيس. الهدف الأولي هو تطوير طبقة رسم بياني أعلى قاعدة بيانات Pennsieve وتمكين التعلم الآلي من خلال استخراج البيانات الفعالة للبيانات الطبية من تنسيقات الملفات المعقدة ومتعددة الاستخدامات. يتيح هذا المكون التفاعل اللغوي الطبيعي مع قاعدة البيانات.

ملاحظة : تم تنفيذ جميع الطرق على الرسم البياني الأساسي المبني على Neo4J باستخدام مستودع آخر سيتم ربطه بمجرد أن يكون علنيًا. هذا المشروع جاهز لاستخدامه خارج المربع ، ومع ذلك ، فإن الرسم البياني الأساسي الذي تم ملؤه لن يحصل على أي نتائج.

هيكل المشروع

برنامج/

__init__.py : تهيئة حزمة التطبيق.
- الغرض : يمثل الدليل كحزمة بيثون. أضف واردات على مستوى الحزمة هنا إذا لزم الأمر.
config.py : معالجة التكوين ومتغيرات البيئة.
- الغرض : يحمل متغيرات البيئة ويحدد إعدادات التكوين.
- التحسينات : تنفيذ معالجة الأخطاء لمتغيرات البيئة المفقودة إذا لزم الأمر.
database.py : يدير اتصال قاعدة بيانات Neo4J.
- الغرض : تقوم الدالة setup_neo4j_graph() بإرجاع رسم بياني neo4j الذي تم تكوينه بعنوان URL واسم المستخدم وكلمة المرور المقدمة في ملف .env .
- الوثائق : setup_neo4j_graph() إرجاع غلاف قاعدة بيانات langchain neo4j. الطرق المهمة المستخدمة: query() و refresh_schema() . Langchain Neo4Jgraph Documentation
main.py : نقطة دخول التطبيق. تمرير استعلام المستخدم واسترداد النتيجة عن طريق الاتصال run_query(user_query: str) من qa_chain.py . إنه يرفع جميع التعقيدات ويوفر واجهة بسيطة للتفاعل مع النظام.
dataguide.py : يستخرج مسارات dataguide من قاعدة البيانات وتنسيقها في مسارات cypher.
- طُرق :
  1. extract_dataguide_paths(graph: Neo4jGraph) : يستخرج مسارات dataguide من الجذر إلى الورقة باستخدام استعلام cypher.
  2. format_paths_for_llm(results: List[Dict[str, Any]]) : نتائج التنسيقات من extract_dataguide_paths في مسارات cypher صالحة للاستعلامات المطابقة.
test.py : يختبر الاتصال برسم الرسم البياني neo4j ، واستخراج مسارات dataguide ، وتنسيقها. يخرج الوقت المستغرق لكل جزء.
- التحسينات : أضف اختبار الوحدة أو اختبار طرق أخرى يدويًا.
prompt_generator.py : هذه الوحدة مسؤولة عن إنشاء نظام langchain والدمج فيه والمطالبات البشرية في langchain.prompts.ChatPromptTemplate . إنه جزء حاسم من المشروع لأنه يحدد كيفية تنظيم المطالبات واستخدامها في إطار Langchain.
- طُرق :
  - get_cypher_prompt_template() : تقوم هذه الطريقة بإرجاع مثيل ChatPromptTemplate الذي تم إنشاؤه في هذا الملف. فهو يجمع بين النظام والمطالبات البشرية في قالب واحد يمكن استخدامه لإنشاء استعلامات Cypher من GraphCypherQAChain في qa_chain.py .
- الوثائق :
  - QuorttEmplate: يتم استخدام هذه الفئة لتحديد بنية المطالبات. المعلمات الأساسية المستخدمة هي input_variables ، والتي تحدد المتغيرات التي سيتم تضمينها في المطالبة ، template ، الذي يحدد نص المطالبة.
  - SystemMessagePromptTemplate: يتم استخدام هذه الفئة لإنشاء رسائل النظام في المطالبة. المعلمة الأساسية المستخدمة هي prompt ، والذي يحدد نص رسالة النظام.
  - HumanMessagePromptTemplate: يتم استخدام هذا الفئة لإنشاء رسائل بشرية في المطالبة. المعلمة الأساسية المستخدمة هي prompt ، والذي يحدد نص الرسالة البشرية.
  - ChatPromptTemplate: يجمع هذا الفصل بين النظام والرسائل البشرية في موجه دردشة واحدة. الطريقة الأساسية المستخدمة هي from_messages() ، والتي تأخذ قائمة قوالب الرسائل وتجمعها في موجه الدردشة.
qa_chain.py : يحدد وظيفة run_query(user_query: str) ، التي تدمج جميع مكونات المشروع وتشغيل GraphCypherQAChain على استعلام المستخدم.
- الوثائق :
  - graphcypherqachain
  - Chatopenai
  - ملاحظة: استبدل ChatOpenAI بـ Azurechatopenai إذا لزم الأمر.

paths_vectordb/

__init__.py : تهيئة حزمة التطبيق.
- الغرض : يمثل الدليل كحزمة بيثون. أضف واردات على مستوى الحزمة هنا إذا لزم الأمر.
generate_descriptions.py : يحدد موجه النظام لإنشاء أوصاف من LLMs لمسارات cypher.
- طُرق :
  - generate_path_descriptions(all_paths: List[str]) : إنشاء أوصاف للمسارات المحددة باستخدام LLM. يخرج قائمة الأوصاف.
  - generate_embedding(path_description: str) : ينشئ التضمينات لوصف المسار المحدد باستخدام API Openai Operdings.
- الوثائق : OpenaiEmbeddings
random_path_generator.py : يوفر طرقًا لإنشاء مسارات عشوائية من قاعدة البيانات وتنسيقها في مسارات cypher.
vectorDB_setup.py : يوفر طرقًا لبدء حاوية Milvus ، والتواصل معها ، وتحديد مخطط التجميع ، وإنشاء تجميع ، وإدراج البيانات ، وإجراء عمليات البحث عن التشابه في المتجهات.
- الوثائق : Pymilvus
main.py : وظائف الغلاف التي تجمع بين جميع الوظائف من هذا الدليل. على سبيل المثال ، يتم استخدام get_similar_paths_from_milvus في app/qa_chain.py لإجراء بحث تشابه المتجه مع استعلامات المستخدم.
test.py : طرق لاختبار وظائف مختلفة. علق حاليا.
- التحسينات : أضف طرق اختبار الوحدة أو الاختبار يدويًا.
write_read_data.py : أساليب الكتابة والقراءة البسيطة لتخزين مسارات وأوصاف Cypher التي تم إنشاؤها من مكالمات API.
- الغرض : يساعد في التحليل وتوفير تكاليف API. الطريقة fill_collection_with_random_paths في paths_vectorDB/main.py تكتب المسارات والأوصاف التي تم إنشاؤها من مكالمات API إلى data.txt .

دليل الجذر

env.sample : قم بعمل نسخة من هذا في دليل جذر المشروع الخاص بك وقم بإعادة تسميته إلى .env . املأ القيم.
.gitignore
README.md : وثائق المشروع.
docker-compose.yml : ملف Docker لـ Milvus DB. إذا كان هناك إصدار جديد ، استبدل هذا الملف. تأكد من تسمية docker-compose.yml ووضعها في دليل الجذر.
requirements.txt : تبعيات بيثون وإصداراتها المتوافقة المستخدمة للتنمية. ملاحظة: تم إنشاء ملف requirements.txt من خلال pipenv .

ابدء

المتطلبات الأساسية

بيثون 3.8+
عامل ميناء
NEO4J سطح المكتب وقاعدة بيانات NEO4J مليئة بالرسم البياني و DATAGUIDE (سيتم ربط رمز هذا قريبًا)

تثبيت

البدء في هذا المشروع بسيط. يمكنك متابعة الخطوات أدناه:

استنساخ المستودع :
```
git clone https://github.com/hussainzs/chat-with-pennsieve.git
cd project_root
```
ملاحظة: تأكد من وجودك في دليل جذر المشروع قبل المتابعة مع الخطوات التالية.
تثبيت التبعيات :
```
pip install -r requirements.txt
```
إعداد متغيرات البيئة :
- نسخ env.sample وأعد تسمية الملف إلى .env وملء القيم المطلوبة.
قم بإعداد سطح المكتب Neo4J :
- قم بتنزيل وتثبيت سطح المكتب NEO4J.
- لاحظ عنوان URL واسم المستخدم وكلمة المرور لقاعدة بيانات Neo4J التي تحتوي على الرسم البياني و Dataguide.
- قم بتحديث ملف .env مع تفاصيل اتصال Neo4J (URL ، اسم المستخدم ، كلمة المرور). تم ملء القيم الافتراضية.
تشغيل التطبيق/main.py :
- انتقل إلى دليل app وتشغيل main.py تأكد من تمرير استعلام المستخدم المطلوب كوسيطة إلى وظيفة run_query(user_query) .
- تأكد من أن لديك docker-compose.yml في دليل الجذر. عند تشغيل التطبيق/main.py ، ستبدأ حاويات Milvus تلقائيًا عن طريق تشغيل الأوامر الطرفية. تحقق من paths_vectorDB/vectorDB_setup.py لمزيد من المعلومات.
- ملاحظة : عند إنشاء حاوية Milvus في المرة الأولى ، تقوم بتنزيل وإنشاء مجلد جديد في دليل الجذر المسمى volumes . يحتوي المجلد على 3 مجلدات فرعية: milvus ، minio ، وما etcd .
- لمزيد من المعلومات ، تحقق من: قم بتشغيل Milvus باستخدام Docker Compose

ملاحظة : لمزيد من التوضيح للإخراج المتوقع عند تشغيل app/main.py ، أقوم بتوصيل 2 PDFs من الإخراج المتولد من النظام في المجلد المسمى المخرجات المتوقعة .

يوضح الملف المسمى first_output.pdf ما هو متوقع عندما يقوم المستخدم بتشغيل app/main.py لأول مرة في جلسة جديدة ذات قيم افتراضية. (عندما تقوم بتشغيله لأول مرة على الإطلاق ، قد يستغرق الأمر بعض الوقت لتنزيل كل شيء)
يوضح regular_output.pdf ما هو متوقع عندما يقوم المستخدم بتشغيل app/main.py في جلسة منتظمة مع قيم افتراضية.

التحسينات الموصى بها

تحسين مطالبات النظام : يمكن أن يؤدي تعزيز المطالبات في كل من app و paths_vectorDB إلى تحسين أداء LLM بشكل كبير. لقد شاهدت أن أمثلة عالية الجودة في مطالبة النظام ستزيد من جودة توليد الوصف للمسارات. موجه النظام أيضا يؤثر بشكل كبير على الإجابة النهائية من LLM.
تحسين السياق لـ LLM : بدلاً من إرسال جميع مسارات Dataguide ، أرسل المسارات العشرة الأولى ذات الصلة من Milvus Vector DB لتقليل تكاليف API وربما تحسين الأداء. يمكن أن تزيد مطالبات النظام الطويل من الهلوسة وتخلط بين LLM ، راجع هذه الورقة لمزيد من المعلومات: فقدت في الوسط: كيف تستخدم نماذج اللغة سياقات طويلة
تحديث Milvus : قم بتثبيت أحدث إصدار من Milvus وقم بتغيير مقياس التشابه من "IP" (المنتج الداخلي) إلى جيب التمام في search_similar_vectors طريقة داخل paths_vectorDB/vectorDB_setup.py لتحسين نتائج.
قم بإنشاء واجهة مستخدم الدردشة : استخدم STREMLIT أو مكتبة واجهة المستخدم المفضلة لديك لإنشاء واجهة مستخدم أساسية لهذا المشروع. يمكنك استخدام FASTAPI لإنشاء واجهة برمجة تطبيقات بسيطة لإرسال استعلامات المستخدم واستلام الاستجابات من app/main.py.
أضف قدرة المحادثة : السماح بتفاعلات المتابعة لتوجيه LLM لتوليد مسار أفضل ، على الرغم من أن هذا قد يزيد من تكاليف API. لقد لاحظت أنه في كثير من الأحيان عندما كانت LLM خاطئة ، لم يكن الأمر قليلاً إلا قليلاً في توليد المسار. يمكن لشخص لديه معرفة المجال بالرسوم البيانية الأساسية تصحيحه بسهولة من خلال متابعة أساسية.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-06-01
الحجم 7.67MB
من Github

تطبيقات ذات صلة

huanhuan chat

2024-11-10
تسلق مع عربة اليد

2022-08-26
سباق مع ريان

2022-08-21
الطيور مع المشاعر

2022-07-26
تطوير الويب رشيق مع القضبان 2

2009-06-02
Agile Web Development مع كود مصدر Rails المصاحب للكتاب

2009-06-02

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل