โครงการนี้เป็นตัวแทนการสนทนาที่ใช้ประโยชน์จาก Langchain, Openai API และแนวคิด RAG (Generation Retrieval-Augmented) เอเจนต์ได้รับการออกแบบมาเพื่ออ่านเอกสาร PDF ที่มีความยาวแยกส่วนประกอบต่าง ๆ เช่นข้อความรูปภาพและตารางและจัดเก็บไว้ในฐานข้อมูลเวกเตอร์เพื่อการดึงข้อมูลที่มีประสิทธิภาพในระหว่างการสนทนากับผู้ใช้
การประมวลผล PDF : เอเจนต์มีความสามารถในการแยกวิเคราะห์และแยกข้อมูลจากเอกสาร PDF ยาว
การสกัดแบบหลายรูปแบบ : แยกข้อความรูปภาพและตารางจาก PDFs เพื่อความเข้าใจที่ครอบคลุม
ฐานข้อมูลเวกเตอร์ : ใช้ฐานข้อมูลเวกเตอร์เพื่อจัดเก็บและดึงข้อมูลได้อย่างมีประสิทธิภาพ
AI การสนทนา : ใช้แนวคิด RAG เพื่อปรับปรุงการโต้ตอบการสนทนากับผู้ใช้
เราจะใช้การแยกวิเคราะห์ภาพข้อความและตารางจากเอกสาร (PDF) ที่ไม่มีโครงสร้าง
เราจะใช้ retriever หลายเวกเตอร์กับ Chroma เพื่อเก็บข้อความดิบและรูปภาพพร้อมกับบทสรุปสำหรับการดึงข้อมูล
เราจะใช้ GPT-4V สำหรับการสรุปภาพทั้งสอง (สำหรับการดึงข้อมูล) รวมถึงการสังเคราะห์คำตอบขั้นสุดท้ายจากการเข้าร่วมทบทวนรูปภาพและข้อความ (หรือตาราง)
langchain <- เยี่ยมชมที่นี่เพื่อทำความเข้าใจการติดตั้ง Langchain
Openai API <- คำแนะนำในการตั้งค่าและใช้ OpenAI API
Chroma DB <- คำแนะนำสำหรับการตั้งค่าและการใช้ฐานข้อมูลเวกเตอร์
จัดเตรียมเส้นทางไปยัง PDF ต้นทาง
เปลี่ยน prompt_text ตามความต้องการของคุณ
แทนที่คำถามของคุณในบรรทัดการสืบค้น
ตัวแทนจะใช้ข้อมูลที่เก็บไว้สำหรับการตอบกลับอัจฉริยะ
การเรียกคืน
การค้นคืนจะดำเนินการตามความคล้ายคลึงกับบทสรุปภาพรวมถึงชิ้นข้อความ สิ่งนี้ต้องพิจารณาอย่างรอบคอบเนื่องจากการดึงภาพอาจล้มเหลวหากมีชิ้นข้อความแข่งขัน เพื่อลดสิ่งนี้ฉันจะสร้างชิ้นข้อความขนาดใหญ่ (4K โทเค็น) และสรุปพวกเขาสำหรับการดึงข้อมูล
ขนาดภาพ
คุณภาพของการสังเคราะห์คำตอบดูเหมือนจะไวต่อขนาดภาพตามที่คาดไว้ ฉันจะทำการทดสอบอย่างระมัดระวังมากขึ้น
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT