دكتوراه؟
Dockalk هو تطبيق ويب قائم على التدقيق يسمح للمستخدمين بتحميل وتفاعل مستنداتهم (PDF ، DOCX ، TXT) باستخدام استعلامات اللغة الطبيعية. يعمل التطبيق على الاستفادة من نموذج GPT-4O-Mini من Openai للتحقق من صحة الاستعلام والدردشة ، و smedding-3-small لفهم واستجابة استعلامات المستخدم بناءً على محتوى المستندات التي تم تحميلها.
سمات
- مستندات التحميل والمعالجة : قم بتحميل ملفات PDF و DOCX و TXT لاستخراج النص والمعالجة.
- العد المخصص للتشكيل والرمز المميز : تقطيع مخصص للمستندات لتحسين استرجاع السياق وتوليد الاستجابة. يستخدم Tokenizer من الجملة من NLTK لتكرار المستندات ، تليها العد الرمزي باستخدام Tiktoken لإدارة أحجام القطع.
- الدردشة مع المستندات : اطرح أسئلة حول المستندات التي تم تحميلها واستلم ردود على الاهتمام بالسياق.
- تشابه جيب التمام لاسترجاع السياق : يستخدم تشابه جيب التمام للعثور على أجزاء المستندات الأكثر صلة استجابةً لاستعلامات المستخدم.
- التحقق من صحة الاستعلام : يستخدم استدعاء API الثانوي للتحقق من صحة ما إذا كان الاستعلام يحتاج إلى سياق مستند ، وتوفير الرموز المميزة في نهاية المطاف وتقليل التكاليف.
- مصادقة رمز مرور التطبيق البسيط : يتم حماية الوصول إلى التطبيق بواسطة رمز مرور لضمان فقط يمكن للمستخدمين المعتمدين التفاعل مع المستندات.
تثبيت
استنساخ المستودع :
git clone https://github.com/kmaurinjones/doc-talk.git
cd doc-talk
إنشاء بيئة افتراضية (اختياري ولكن موصى بها):
python3 -m venv env
source env/bin/activate
تثبيت الحزم المطلوبة :
pip install -r requirements.txt
متغيرات البيئة
قم بإنشاء ملف .env في جذر مشروعك وإضافة متغيرات البيئة التالية:
SIMPLE_AUTH_PASSCODE=your_passcode
OPENAI_API_KEY=your_openai_api_key
الجري محليا
لتشغيل التطبيق محليًا ، استخدم الأمر التالي:
سيؤدي ذلك إلى بدء تشغيل خادم STEMBLIT ، ويمكنك الوصول إلى التطبيق على http://localhost:8501 .
الوصول إلى التطبيق المنشور
يتم نشر الطلب أيضًا ويمكن الوصول إليه عبر عنوان URL التالي: نشر الدكتوراه
الاستخدام
- تحميل المستندات : قم بتحميل ملفات PDF أو DOCX أو TXT باستخدام ملف تحميل الملف في التطبيق.
- مستندات العملية : انقر فوق الزر "مستندات المعالجة" لاستخراج النص ومعالجة النص من الملفات التي تم تحميلها.
- الدردشة مع المستندات : استخدم إدخال الدردشة لطرح أسئلة حول محتوى المستندات التي تم تحميلها. سيقدم التطبيق ردود بناءً على النص والسياق المعالج من المستندات.
أمثلة
فيما يلي بعض لقطات شاشة تطبيق الدكتوراه المستخدمة:
مصادقة مستخدم رمز المرور البسيط

تحميل المستندات والمعالجة

سياق الاستعلام والاستجابة

المساهمة
المساهمات مرحب بها! يرجى فتح مشكلة أو إرسال طلب سحب لأي تحسينات أو إصلاحات الأخطاء.
رخصة
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. انظر ملف LICENSE للحصول على التفاصيل.
اتصال
لأي أسئلة أو مشكلات ، يرجى الاتصال بي على [email protected]