Retrieval Augmented Generation RAG Using Hugging Face Embeddings ดาวน์โหลด - Retrieval Augmented Generation RAG Using Hugging Face Embeddings Source Download

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Retrieval-Augmented Generation (RAG) โดยใช้ Embeddings Hugging Face

โครงการนี้แสดงให้เห็นถึงวิธีการใช้งานท่อ ส่ง (RAG) การ ดึง (RAG) โดยใช้ การฝังใบหน้า และ Chromadb สำหรับการค้นหาความหมายที่มีประสิทธิภาพ โซลูชันอ่านกระบวนการและฝังข้อมูลข้อความทำให้ผู้ใช้สามารถทำการสืบค้นข้อมูลที่ถูกต้องและรวดเร็วบนข้อมูล

คุณสมบัติ

การรวมชุดข้อมูล : ชุดข้อมูลโหลดและกระบวนการจากการกอดใบหน้า
การใช้ข้อความ : แยกข้อความขนาดใหญ่ออกเป็นชิ้นที่จัดการได้สำหรับการฝัง
Embeddings Generation : ใช้ประโยชน์จากการกอด Embeddings ( BAAI/bge-base-en-v1.5 ) เพื่อแปลงชิ้นข้อความเป็นตัวแทนเวกเตอร์
ที่เก็บของ Chromadb : เก็บ embeddings ใน Chromadb เพื่อการดึงข้อมูลได้ง่าย
การค้นหาความหมาย : สอบถามข้อมูลที่เก็บไว้สำหรับข้อความที่เกี่ยวข้องตามพรอมต์ที่ให้ไว้โดยใช้ความคล้ายคลึงกันทางความหมาย

การติดตั้ง

ก่อนที่จะเรียกใช้สมุดบันทึกตรวจสอบให้แน่ใจว่ามีการติดตั้งไลบรารีที่จำเป็น:

pip install chromadb
pip install llama-index

คุณต้องโคลนชุดข้อมูลที่จำเป็นจากการกอดหน้าถ้าคุณต้องการตรวจสอบและทดสอบการทำงาน :)::

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

มันทำงานอย่างไร

โหลดชุดข้อมูล :
- โน้ตบุ๊กโหลดชุดข้อมูล "การประเมินการเขียนของนักเรียน" และแยกข้อความออกเป็นชิ้นเพื่อฝัง
การสร้างการสร้าง :
- การใช้โมเดล BAAI/bge-base-en-v1.5 ชิ้นข้อความจะถูกแปลงเป็น Embeddings เวกเตอร์ คุณสามารถสร้างความชอบได้
การรวม Chromadb :
- embeddings ที่สร้างขึ้นพร้อมกับชิ้นข้อความที่สอดคล้องกันถูกเก็บไว้ใน Chromadb เพื่อการคงอยู่และการสอบถามในภายหลัง
การค้นหาความหมาย :
- มีฟังก์ชั่นการสืบค้นเพื่อค้นหาฐานข้อมูลเวกเตอร์โดยใช้แบบสอบถามอินพุตที่กำหนด ชิ้นส่วนที่เกี่ยวข้องจะถูกส่งคืนตามความคล้ายคลึงกับแบบสอบถาม

การใช้งาน

ในการใช้รหัสเพียงเรียกใช้โน้ตบุ๊กหลังจากติดตั้งการพึ่งพาและโคลนชุดข้อมูลที่ต้องการ คำสั่งต่อไปนี้สามารถใช้ในการสืบค้น embeddings ที่เก็บไว้:

 query_collection ( "Your search query here" , n_results = 1 )

สิ่งนี้จะส่งคืนข้อความที่เกี่ยวข้องมากที่สุดตามแบบสอบถามที่ให้ไว้

ตัวอย่าง

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

ไฟล์

มี 2 ไฟล์ที่นี่ อันง่าย ๆ เพียงแค่สร้างฐานข้อมูลเวกเตอร์ของไฟล์เดียวและไฟล์ล่วงหน้าสามารถทำงานกับหลาย ๆ ไฟล์ด้วยส่วนขยายที่แตกต่างกันและสร้างฐานข้อมูลเวกเตอร์ของไฟล์เหล่านั้นและคุณยังสามารถทดสอบได้ในโมเดล Text-Gen