المرحلة الأولى
- ملف خرقة
- نموذج لغة كبير:
- نموذج اللغة: "databricks/dbrx-instruct": https://huggingface.co/databricks/dbrx-instruct
- عميل nvidia: https://build.nvidia.com/databricks/dbrx-instruct
- قاعدة بيانات المتجهات:
- ميلفوس: https://milvus.io/
- نموذج التضمين: https://huggingface.co/thenlper/gte-base
- دعم نظام التشغيل: Linux
- حاليًا لا يدعم نظام التشغيل Windows لأن Milvus_Lite لا يدعم نظام التشغيل Windows OS
- سيختار قاعدة بيانات مختلفة في المستقبل من أجل حل هذه المشكلة
- ملف pdf_to_txt
- المقبض الحالي:
- PDF (نص) إلى txt
- تحتاج إلى تحسين المعالجة المسبقة للتغذية لنموذج الخرقة
- التقدم (10/01/2024): نسخة مبسطة تعمل على Linux ، مع قدرة استعلام واحدة
- (10/02/2024): قادر على إعادة استخدام التجميع للاستعلام
المرحلة الثانية (الحالية)
- إنشاء قارئ PDF باستخدام OCR
- قبول PDF تم تحميلها
- اقرأ باستخدام Easyocr
- نتائج المتجر في الملفات ، ويفضل أن يكون ملف واحد لكل ملف PDF
- يدعم ملف خرقة السؤال العادي والإجابة
- قادرة على تخزين ضمان الجودة التاريخي في الملفات المقابلة
المرحلة الثالثة
- ادمج قطعة قماش مع قارئ PDF
- دعم ذاكرة LLM على المدى الطويل
- أضف سجل ضمان الجودة إلى تخزين آخر
- الجمع بين الإجابات مع التاريخ
تنظيف التنظيف والتحسين
- التحسين والسرعة والذاكرة
النشر؟