NEPSE Chatbot Using Retrieval augmented generation and reranking - NEPSE Chatbot Using Retrieval augmented generation and reranking การเรียกคืน

NEPSE Chatbot Using Retrieval augmented generation and reranking

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การดึงรุ่นเพิ่มด้วยการเปลี่ยนใหม่

แหล่งที่มาของภาพ: MK Pavan Kumar

การเรียกคืนการเรียกคืน

แหล่งที่มาของภาพ: Pinecone

โครงการนี้ใช้ประโยชน์จากโมเดลโอเพ่นซอร์สเพื่อสร้าง chatbot สำหรับ Nepse, Nepal Stock Exchange Ltd โดยใช้เทคนิคการสร้างการเพิ่มการดึง PDF หนังสือเล่มเล็กของ Nepse ใช้สำหรับการตอบคำถาม โครงการใช้โมเดลโอเพนซอร์ซต่อไปนี้:

Intel/Neural-Chat-7b-V3-1: LLM โอเพนซอร์ซซึ่งพัฒนาโดย Intel และ quantized โดย Thebloke โดยเฉพาะรุ่น GPTQ 8 บิตถูกใช้เนื่องจากหน่วยความจำที่ จำกัด
- รุ่นดั้งเดิม
- รูปแบบเชิงปริมาณ
All-MPNET-BASE-V2: หม้อแปลงประโยคโอเพนซอร์ซจากการกอดใบหน้าที่เรียกว่า All-MPNET-BASE-V2 ใช้เพื่อสร้างการฝังคุณภาพสูง
- หม้อแปลงประโยค
AAI/BGE-RERANKER-LARGE: โมเดลการจัดเรียงโอเพ่นซอร์สจากการกอดใบหน้าที่เรียกว่า BGE-RERANKER-LARGE ใช้ในการจัดอันดับเอกสารที่ดึงมาจากร้านค้าเวกเตอร์อีกครั้ง
- การวิ่งกลับมาใหม่
Google Translate API: Google Translate API ฟรีใช้เพื่อทำการแปลระหว่างเนปาลและเนื้อหาภาษาอังกฤษ

ข้อมูลข้อความจากหนังสือเล่มเล็กของ Nepse ได้รับการทำความสะอาดแบ่งออกเป็นชิ้นและการฝังตัวได้รับการพัฒนาโดยใช้หม้อแปลงประโยคซึ่งจะถูกเพิ่มเข้าไปในฐานข้อมูลเวกเตอร์ FAISS เมื่อผู้ใช้ป้อนคำถามการฝังตัวจากอินพุตได้รับการพัฒนาและคำถามที่ฝังอยู่จะถูกใช้เพื่อทำการค้นหาเวกเตอร์เพื่อดึงเอกสาร K ด้านบน เอกสารที่ดึงมาบน K จะถูกส่งผ่านไปยังโมเดล Reranking เพื่อเพิ่มคุณภาพและความเกี่ยวข้องของการดึงข้อมูล ในที่สุดเอกสาร K-Reranked อันดับต้น ๆ จะถูกส่งผ่านเป็นบริบทของ LLM ด้วยวิศวกรรมที่รวดเร็วเพื่อให้คำตอบแก่ผู้ใช้

ส่วนหน้าอย่างง่ายโดยใช้ HTML, CSS และ JavaScript และแบ็กเอนด์ที่ใช้ขวดได้รับการพัฒนา การตอบสนอง/โทเค็นที่คาดการณ์จาก LLM จะถูกสตรีมไปยังส่วนหน้าแบบเรียลไทม์เพื่อลดเวลาแฝงของผู้ใช้และเพิ่มประสบการณ์ผู้ใช้ แอปพลิเคชันถูกปรับใช้ใน อินสแตนซ์ G4DN.xlarge AWS EC2 สำหรับการอนุมานแบบเรียลไทม์

อินสแตนซ์ gpu

ด้วย VRAM 16 GB ทั้งสามรุ่นจะพอดีโดยไม่มีปัญหาใด ๆ ภาพหน้าจอและคลิปด้านล่างแสดงความสามารถในการตอบคำถามแบบเรียลไทม์ของ Nepse Chatbot ที่ปรับใช้ใน AWS

ภาพหน้าจอ 1

ภาพหน้าจอ 2

ภาพหน้าจอ 3

LLM Response Streaming (เช่น CHATGPT)

ตัวอย่างการสตรีมการตอบกลับ LLM

คลิกที่ลิงค์ด้านล่างเพื่อดู/ดาวน์โหลดวิดีโอเต็ม

ดูวิดีโอ

การทดลองในอนาคต

สามารถทดสอบ LLM ที่มีประสิทธิภาพมากขึ้น ฉันยังลองใช้ Gemini-Pro API ของ Google ซึ่งให้ผลลัพธ์ที่ดีกว่ามาก อย่างไรก็ตามการใช้ API หมายความว่าเราจะแบ่งปันข้อมูลของเรากับบุคคลที่สาม นอกจากนี้เราจะไม่สามารถปรับแต่ง LLM บนข้อมูลที่กำหนดเองของเราได้เช่นกัน
หม้อแปลงประโยคปรับแต่งและโมเดลการวิ่งซ้ำเพื่อสร้างการสร้างการฝังที่มีประสิทธิภาพและเกี่ยวข้องมากขึ้นเกี่ยวกับข้อมูลที่กำหนดเองของเรา

การอ้างอิง

Generation Augmented Augmented ขั้นสูง: Reranking สามารถเปลี่ยนเกมได้อย่างไร
Rerankers - Pinecone

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-28
ขนาด 9.35MB
มาจาก Github

แอปที่เกี่ยวข้อง

วาดและเดาออนไลน์

2024-11-08
Retrieval based Voice Conversion WebUI

2024-11-01
อันเดอร์เทลบิตและชิ้นส่วน

2023-05-19
ความท้าทายของ Generation Zero CODEX

2022-11-02
เมเบิลและเดอะวู้ด

2022-08-27
Generation Zero - ความไม่สงบบนเทือกเขาแอลป์

2022-08-20

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด