Proyek ini adalah agen percakapan yang memanfaatkan Langchain, Openai API, dan konsep Rag (Retrieval-Augmented Generation). Agen ini dirancang untuk membaca dokumen PDF yang panjang, mengekstrak berbagai komponen seperti teks, gambar, dan tabel, dan menyimpannya dalam database vektor untuk pengambilan yang efisien selama percakapan dengan pengguna.
Pemrosesan PDF : Agen mampu mengurai dan mengekstraksi informasi dari dokumen PDF yang panjang.
Ekstraksi multi-modal : mengekstrak teks, gambar, dan tabel dari PDF untuk pemahaman yang komprehensif.
Database Vektor : Memanfaatkan database vektor untuk menyimpan dan mengambil informasi secara efisien.
AI Conversational : Mengimplementasikan konsep RAG untuk meningkatkan interaksi percakapan dengan pengguna.
Kami akan menggunakan tidak terstruktur untuk menguraikan gambar, teks, dan tabel dari Dokumen (PDF).
Kami akan menggunakan multi-vektor retriever dengan chroma untuk menyimpan teks dan gambar mentah bersama dengan ringkasan mereka untuk pengambilan.
Kami akan menggunakan GPT-4V untuk ringkasan gambar (untuk pengambilan) serta sintesis jawaban akhir dari gabungan ulasan gambar dan teks (atau tabel).
Langchain <- Kunjungi di sini untuk memahami instalasi Langchain
API OpenAI <- Instruksi untuk mengatur dan menggunakan API OpenAI.
Chroma DB <- Instruksi untuk mengatur dan menggunakan database vektor.
Berikan jalur ke sumber PDF
Ubah prompt_text sesuai dengan kebutuhan Anda.
Ganti pertanyaan Anda di baris kueri.
Agen akan menggunakan informasi yang disimpan untuk tanggapan cerdas.
Pengambilan
Pengambilan dilakukan berdasarkan kesamaan dengan ringkasan gambar serta potongan teks. Ini membutuhkan beberapa pertimbangan yang cermat karena pengambilan gambar dapat gagal jika ada potongan teks yang bersaing. Untuk mengurangi ini, saya menghasilkan potongan teks yang lebih besar (token 4K) dan merangkumnya untuk pengambilan.
Ukuran gambar
Kualitas sintesis jawaban tampaknya peka terhadap ukuran gambar, seperti yang diharapkan. Saya akan segera melakukan eval untuk menguji ini dengan lebih hati -hati.
Proyek ini dilisensikan di bawah lisensi MIT.