เวทีหนึ่ง
- ไฟล์ผ้าขี้ริ้ว
- รูปแบบภาษาขนาดใหญ่:
- โมเดลภาษา: "Databricks/DBRX-Instruct": https://huggingface.co/databricks/dbrx-instruct
- ไคลเอนต์ nvidia: https://build.nvidia.com/databricks/dbrx-instruct
- ฐานข้อมูลเวกเตอร์:
- Milvus: https://milvus.io/
- โมเดลการฝัง: https://huggingface.co/thenlper/gte-base
- สนับสนุนระบบปฏิบัติการ: Linux
- ปัจจุบันไม่รองรับ Windows OS เนื่องจาก milvus_lite ไม่รองรับ Windows OS
- จะเลือกฐานข้อมูลที่แตกต่างกันในอนาคตเพื่อแก้ไขปัญหานี้
- ไฟล์ pdf_to_txt
- มือจับปัจจุบัน:
- PDF (ข้อความ) ถึง txt
- จำเป็นต้องปรับปรุงการประมวลผลล่วงหน้าเพื่อป้อนรูปแบบ RAG ล่วงหน้า
- ความคืบหน้า (10/01/2024): เวอร์ชันที่เรียบง่ายทำงานบน Linux ด้วยความสามารถในการสืบค้นหนึ่งรายการ
- (10/02/2024): สามารถนำคอลเลกชันกลับมาใช้ซ้ำได้อีกครั้ง
ขั้นตอนที่สอง (ปัจจุบัน)
- การสร้างเครื่องอ่าน PDF โดยใช้ OCR
- ยอมรับ PDF ที่อัปโหลด
- อ่านโดยใช้ EasyCh
- จัดเก็บผลลัพธ์ในไฟล์โดยเฉพาะอย่างยิ่งหนึ่งไฟล์สำหรับแต่ละ pdf
- ไฟล์ RAG รองรับคำถามและคำตอบแบบเรียกซ้ำ
- สามารถจัดเก็บ QA ประวัติศาสตร์ในไฟล์ที่เกี่ยวข้อง
ขั้นตอนที่สาม
- รวมผ้าขี้ริ้วกับเครื่องอ่าน PDF
- รองรับหน่วยความจำระยะยาว LLM
- เพิ่มประวัติ QA ไปยังที่เก็บข้อมูลอื่น
- รวมคำตอบกับประวัติศาสตร์
การทำความสะอาดใช้ยาและเพิ่มประสิทธิภาพ
- การเพิ่มประสิทธิภาพความเร็วและหน่วยความจำ
การปรับใช้?