ยินดีต้อนรับสู่การตอบคำถามด้วย Vectordb และรูปแบบภาษาขนาดใหญ่ (LLM) โครงการนี้มีวัตถุประสงค์เพื่อสร้างท่อส่งที่มีประสิทธิภาพและปรับขนาดได้สำหรับงานตอบคำถามโดยใช้ Chromadb ซึ่งเป็นฐานข้อมูลเวกเตอร์โอเพนซอร์ซร่วมกับ Llama2 ซึ่งเป็นรูปแบบภาษาโอเพนซอร์ซขนาดใหญ่ (LLM)
การป้อนข้อมูลของผู้ใช้: ผู้ใช้ให้แหล่งข้อมูลที่เป็นข้อความในรูปแบบเช่น. pdf เอกสารเหล่านี้เป็นพื้นฐานสำหรับการสร้างคำตอบ
การโหลดเอกสาร: ตัวโหลดเอกสารของ Langchain ใช้เพื่อโหลดอย่างมีประสิทธิภาพและประมวลผลเอกสารที่ให้ไว้ล่วงหน้าเพื่อให้มั่นใจว่าเข้ากันได้กับงานดาวน์สตรีม
การถ่ายเอกสาร: เอกสารที่โหลดจะถูกแบ่งออกเป็นชิ้นเล็ก ๆ ที่จัดการได้เพื่อเพิ่มประสิทธิภาพของกระบวนการตอบคำถาม
การจัดเก็บข้อมูลการฝังใน vectordb (Chromadb): การฝังตัวของชิ้นถูกสร้างและเก็บไว้ใน Chromadb เทคโนโลยีพื้นฐานของ Vectordb ทำให้สามารถดึงข้อมูลได้อย่างรวดเร็วและแม่นยำ
การประมวลผลแบบสอบถาม: การสอบถามผู้ใช้จะถูกแปลงเป็น embeddings ทำให้สามารถเปรียบเทียบได้อย่างราบรื่นกับเอกสารที่เก็บไว้
การค้นหาฐานข้อมูล Vector: VectordB ถูกสอบถามด้วยการฝังตัวที่สร้างขึ้นเพื่อดึงข้อมูลข้อมูลที่เกี่ยวข้องเพิ่มประสิทธิภาพกระบวนการตอบคำถาม
การประมวลผล LLM (LLAMA2): การฝังตัวที่ดึงมาจะถูกส่งผ่านไปยัง LLAMA2 ซึ่งเป็น LLM ซึ่งสร้างคำตอบที่ตระหนักถึงบริบทและแม่นยำสำหรับการสอบถามผู้ใช้
ในการเริ่มต้นท่อตอบคำถามผู้ใช้จำเป็นต้องให้แหล่งข้อมูลข้อความในรูปแบบที่รองรับ (รูปแบบที่รองรับในปัจจุบันคือ: PDF, CSV, HTML, XLSX, DOCX, XML, JSON ) ทำตามส่วนถัดไปเพื่อให้แน่ใจว่าการติดตั้งและการกำหนดค่าการพึ่งพาที่เหมาะสม
ทำตามขั้นตอนเหล่านี้เพื่อเรียกใช้ท่อส่งคำถามที่ประสบความสำเร็จ:
ติดตั้งการพึ่งพา: ตรวจสอบให้แน่ใจว่าคุณติดตั้งการพึ่งพาที่จำเป็นทั้งหมด เรียกใช้คำสั่งต่อไปนี้ในเซลล์สมุดบันทึก:
!pip install langchain
!pip install PyPDF
!pip install sentence_transformers
!pip install chromadb
!pip install accelerate
!pip install bitsandbytes
!pip install jq
!pip install unstructured
ปรับแต่งพารามิเตอร์:
เปิดสมุดบันทึกและค้นหาพารามิเตอร์ต่อไปนี้:
JQ_SCHEMA: ปรับแต่งพารามิเตอร์นี้ตามสคีมาข้อมูลของคุณ กำหนดโครงสร้างของข้อมูลข้อความของคุณสำหรับการโหลดและการประมวลผลที่เหมาะสม
input_path: ระบุพา ธ ไปยังแหล่งข้อมูลข้อความของคุณเช่นไฟล์. pdf ตรวจสอบให้แน่ใจว่าเส้นทางถูกตั้งค่าไปยังเอกสารของคุณอย่างถูกต้อง
Hugging Face Authorization Token: ตรวจสอบให้แน่ใจว่าได้รับโทเค็นการอนุญาตจาก Hugging Face สำหรับการดาวน์โหลดโมเดล Llama2 โทเค็นนี้มีความสำคัญต่อการเข้าถึงแบบจำลอง ตั้งค่าโทเค็นในส่วนที่เหมาะสมของสมุดบันทึก
เรียกใช้สมุดบันทึก: เรียกใช้ Jupyter Notebook Cell โดย Cell ตรวจสอบให้แน่ใจว่าแต่ละเซลล์ดำเนินการสำเร็จโดยไม่มีข้อผิดพลาด
เรายินดีต้อนรับการมีส่วนร่วมและข้อเสนอแนะจากชุมชน ไม่ว่าคุณจะระบุปัญหามีคำแนะนำสำหรับการปรับปรุงหรือต้องการขยายการทำงานการป้อนข้อมูลของคุณมีค่าสำหรับเรา อย่าลังเลที่จะมีส่วนร่วมในโครงการ ขอบคุณสำหรับการสำรวจโครงการของเรา