ในฐานะที่เป็นโครงการที่ค่อนข้างรวดเร็วพื้นที่เก็บข้อมูลนี้มีแอปพลิเคชัน Streamlit ที่ช่วยให้ผู้ใช้สามารถอัปโหลดภาพหน้าจอซึ่งจะถูกสอบถามกับฐานข้อมูลของเอกสาร PDF ทั้งโครงสร้างภาพรวมถึงข้อความที่รวม (อาจ) ถูกใช้เพื่อค้นหาเอกสารการจับคู่สำหรับชุดที่กำหนดด้วยตนเอง
เมื่อผู้ใช้อัปโหลดสกรีนช็อตสองกระแสจะถูกเรียกใช้ ก่อนอื่นเราสร้างรูปแบบการฝังภาพสองชิ้นของภาพหน้าจอ ชิ้นส่วนถูกสร้างขึ้นเนื่องจากการฝังภาพ VIT-G-14 ได้รับการฝึกฝนบนอินพุตสแควร์ สไลด์จุดไฟหรือเอกสาร A4 มักจะมีความสัมพันธ์ด้านข้างของใกล้ถึง 2: 1 นั่นคือเหตุผลว่าทำไม chunking ควรสนับสนุนคุณภาพการสืบค้นโดยรวม จากนั้นภาพที่ฝัง (2 x 1024dim) จะถูกสอบถามกับร้านค้าเวกเตอร์ของชิ้นที่รู้จัก โฟลว์ครั้งที่สองแยกข้อความแรกออกจากภาพหน้าจอโดยใช้เครื่องยนต์ Tesseract OCR ของ Google หลังจากนั้นข้อความฝังตัว (1024DIM) จะถูกสร้างขึ้นโดยใช้หนึ่งในโมเดลหลายภาษาที่มีประสิทธิภาพดีที่สุด E5 ขนาดใหญ่ ในขั้นตอนสุดท้ายผลลัพธ์จะถูกรวมเข้าด้วยกันโดยใช้ระบบ ID ที่ใช้ร่วมกันระหว่างร้านค้าเวกเตอร์และส่งไปยังผู้ใช้
นี่คือสถานที่ที่ฉันแบ่งปันความคิดของฉัน
แนวคิดคือการจัดหาเครื่องมือที่ใช้อย่างรวดเร็ว สมมติว่าคุณมีสไลด์การนำเสนอและต้องการทราบว่าคุณสร้างสิ่งที่คล้ายกันก่อนหน้านี้หรือไม่ หากคุณจะอัปโหลดเอกสารทั้งหมดจะมีข้อกำหนดสำหรับฟิลด์อินพุตหมายเลขหน้าพิเศษคุณจะต้องค้นหาเอกสารในระบบไฟล์ของคุณและประเภทไฟล์จะต้องได้รับการสนับสนุน เพียงแค่ถ่ายภาพหน้าจอก็เร็วกว่า (มีทางลัดที่มีประโยชน์ในระบบปฏิบัติการทั้งหมด) และเพียงแค่อัปโหลดภาพเดียวตรงไปข้างหน้า
มันรวดเร็วในการรวบรวมแอพขนาดเล็กและฉันชอบอินเตอร์เฟสภาพมากกว่าเครื่องมือที่ใช้ CLI
ส่วนใหญ่ผ่านกระดานผู้นำของ HuggingFace เนื่องจากนี่เป็นโครงการขนาดเล็กที่ฉันต้องการใช้โมเดลที่ผ่านการฝึกอบรมมาก่อน
สคริปต์ pdf_to_db.py เป็นซ้ำง่ายกว่าเอกสารทั้งหมดใน pdfs/ ซึ่งใช้คลาสอื่น ๆ เพื่อเติมเต็มร้านค้าเวกเตอร์
นี่ไม่ใช่โครงการที่ได้รับการพัฒนาอย่างแข็งขันและส่วนใหญ่ใช้ในการทำโครงการด้วยเทคโนโลยีที่ใช้แล้ว หากคุณมีคำถามใด ๆ โปรดติดต่อฉัน