Tahap Satu
- File kain
- Model Bahasa Besar:
- Model Bahasa: "Databricks/DBRX-IncTTRT": https://huggingface.co/databricks/dbrx-instruct
- Klien NVIDIA: https://build.nvidia.com/databricks/dbrx-instruct
- Database Vektor:
- Milvus: https://milvus.io/
- Model embedding: https://huggingface.co/thenlper/gte-base
- Dukungan OS: Linux
- Saat ini tidak mendukung Windows OS karena milvus_lite tidak mendukung Windows OS
- Akan memilih basis data yang berbeda di masa mendatang untuk memperbaiki masalah ini
- file pdf_to_txt
- Pegangan saat ini:
- pdf (teks) ke txt
- Perlu meningkatkan preprocessing inorder untuk memberi makan model kain
- Kemajuan (10/01/2024): Versi Sederhana Bekerja di Linux, dengan satu kemampuan kueri
- (10/02/2024): Mampu menggunakan kembali koleksi untuk kueri
Tahap Dua (Saat Ini)
- Membuat PDF Reader Menggunakan OCR
- Terima PDF yang diunggah
- Baca menggunakan Easyocr
- menyimpan hasil dalam file, lebih disukai satu file untuk setiap pdf
- File Rag mendukung pertanyaan dan jawaban rekursif
- Dapat menyimpan QA historis di file yang sesuai
Tahap tiga
- Gabungkan kain dengan PDF Reader
- Dukung memori jangka panjang LLM
- Tambahkan riwayat QA ke penyimpanan lain
- Gabungkan jawaban dengan sejarah
Cleanup Implementatio dan optimalkan
- optimasi, kecepatan, dan memori
Penyebaran?