แบบจำลองภาษาขนาดใหญ่ได้รับการออกแบบมาเพื่อทำงานภาษามนุษย์ได้อย่างมีประสิทธิภาพเช่นการแปลการสรุปการใช้เหตุผลการจำแนกการบันทึกข้อมูลบริบทการจับความหมายและไวยากรณ์ของภาษา แต่เมื่อเร็ว ๆ นี้หลังจากการเกิดขึ้นของ GPT-3.5 และโอเพ่นซอร์ส รหัสให้ข้อมูลบางอย่างเกี่ยวกับกรณีการใช้โดเมนที่เฉพาะเจาะจงและอื่น ๆ .. แน่นอนว่ามากของพวกเขาสามารถให้คำตอบสำหรับคำถามมากมาย แต่เมื่อเราเริ่มถามพวกเขาเกี่ยวกับคำถาม LLMs ไม่รู้อะไรเลยหรือพวกเขาไม่สามารถจดจำพวกเขาได้
ทางออกสำหรับปัญหานี้ในการใช้ LLM อย่างมีประสิทธิภาพและให้ข้อมูลล่าสุดแก่พวกเขาคือการใช้ฐานข้อมูลเวกเตอร์และเทคนิคการสร้างวิศวกรรมพร้อมใช้งานเพื่อสร้างระบบการสร้างการเรียกคืน-เพิ่มซึ่งสามารถ: สามารถ:
เทคนิคนี้ช่วยลดภาพหลอนและให้บริบท (ความรู้) LLMs พวกเขาต้องการตอบคำถามได้อย่างมีประสิทธิภาพ
mkdir data/db
mkdir data/newsmkdir sts
cd sts
git lfs install
git clone https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2poetry installmake qdrantมันเป็นขั้นตอนที่ง่ายที่สุดเพียงเรียกใช้คำสั่งนี้
make run date= ' 2023-11-09 '