ดาวน์โหลด pdf bundle - ดาวน์โหลดซอร์สโค้ด pdf bundle

pdf bundle

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ชุด PDF

โครงการนำกลับบ้านนี้ได้รับการออกแบบภายในระยะเวลาน้อยกว่า 72 ชั่วโมงทำหน้าที่เป็นขั้นตอนในกระบวนการจ้างงานสำหรับบทบาท MLOPs อาวุโส

PDF Bundle เป็นเครื่องมือที่ออกแบบมาเพื่อดึงข้อความจากเอกสาร PDF ที่เก็บไว้ในถัง AWS S3 แบ่งเอกสารเหล่านี้ออกเป็นชิ้นเล็ก ๆ และสร้างการฝังเวกเตอร์โดยใช้หม้อแปลงประโยค การฝังตัวเหล่านี้จะถูกเก็บไว้ในฐานข้อมูลเวกเตอร์ Pinecone สำหรับการจัดเก็บและการดึงที่มีประสิทธิภาพ

PDF Bundle ให้อินเทอร์เฟซที่ใช้งานง่ายผ่าน Fastapi จุดสิ้นสุด query_search อำนวยความสะดวกในการค้นหาตามพรอมต์ช่วยให้ผู้ใช้สามารถป้อนข้อมูลสอบถามและดึงการฝังเวกเตอร์ที่คล้ายกันมากที่สุดอย่างรวดเร็ว ความคล้ายคลึงกันนี้ถูกกำหนดโดยใช้ความคล้ายคลึงกันของโคไซน์การวัดที่จับความคล้ายคลึงกันทางความหมายระหว่างเวกเตอร์ ในขณะที่ทำให้การตอบสนองต่อการใช้งานง่ายขึ้น PDF Bundle ช่วยให้มั่นใจได้ว่ามีความโปร่งใสโดยการอัปโหลดการตอบกลับอย่างละเอียดโดยอัตโนมัติไปยังถัง S3 ด้วยการรวมกันอย่างราบรื่นและฟังก์ชั่นที่มีประสิทธิภาพ PDF Bundle จะเปิดตัวเวกเตอร์ที่คล้ายกันมากที่สุดอย่างมีประสิทธิภาพ

คุณสมบัติ

แยกข้อความจากเอกสาร PDF ที่เก็บไว้ใน Bucket AWS S3
แบ่งเอกสารออกเป็นชิ้นเล็ก ๆ สำหรับการประมวลผลที่มีประสิทธิภาพ
ใช้หม้อแปลงประโยคเพื่อสร้างการฝังเวกเตอร์สำหรับแต่ละเอกสาร
ใช้ fastapi เพื่อสร้างจุดสิ้นสุด API สำหรับการสืบค้น embeddings ที่คล้ายกันตามพรอมต์ที่ผู้ใช้กำหนด
ร้านค้าและการสืบค้นเวกเตอร์ฝังในฐานข้อมูลเวกเตอร์ Pinecone เพื่อการจัดการและดึงข้อมูลได้ง่าย
อนุญาตให้ผู้ใช้ค้นหาเวกเตอร์ K ที่คล้ายกันมากที่สุดโดยกำหนดจำนวนเต็ม N_Top

การใช้งาน

ตรวจสอบให้แน่ใจว่าเซิร์ฟเวอร์ PDF Bundle API กำลังทำงานบนเซิร์ฟเวอร์ต่อไปนี้:
แอปพลิเคชันถูกปรับใช้และเข้าถึงได้ที่: รถไฟ
คำเตือน: อินสแตนซ์ฟรีสปินดาวน์ล่าช้า
โปรดทราบว่าอินสแตนซ์ฟรีที่จัดทำโดย Render อาจประสบกับการหมุนเนื่องจากไม่มีการใช้งาน ซึ่งอาจส่งผลให้เกิดความล่าช้า 50 วินาทีหรือมากกว่าเมื่อดำเนินการตามคำขอ โปรดอดทนในขณะที่เว็บเบราว์เซอร์ของคุณพยายามโหลดหน้าเว็บ
ส่งคำขอโพสต์ไปยัง API Endpoint /query_search พร้อมเพย์โหลด JSON ต่อไปนี้:
```
{
    "prompt" : " your_user_defined_prompt " ,
    "n_top" : 5
}
```
แทนที่ "your_user_defined_prompt" ด้วยพรอมต์ที่คุณต้องการใช้ "n_top" ด้วยจำนวนการฝังตัวที่คล้ายกันที่คุณต้องการดึงตามโคไซน์ทำให้เกิดความคล้ายคลึงกัน
รับการตอบกลับที่มีการฝังตัวที่คล้ายกันมากที่สุดไปยังพรอมต์ที่ให้ไว้