ตรวจสอบให้แน่ใจว่าได้ติดตั้งข้อกำหนดสำหรับตัวอย่างเหล่านี้:
pip install -r requirements-examples.txtตัวอย่างสำหรับเวกเตอร์ควบคุมการฝึกอบรมจากสถานะที่ซ่อนอยู่ของแบบจำลองที่สามารถใช้เพื่อมีอิทธิพลต่อพฤติกรรมและสร้างผลลัพธ์ในระหว่างการอนุมาน
การฝึกอบรม LORA MISTRAL-7B-Instruct-V0.2 พร้อมชุดข้อมูล NVIDIA HelpSteer
Run train.sh ในไดเรกทอรี helpsteer เพื่อดาวน์โหลดชุดข้อมูลและรุ่นจาก HuggingFace และเริ่มการฝึกอบรม LORA คุณสามารถปรับแต่งการกำหนดค่าการฝึกอบรมโดยแก้ไข config.yml
การฝึกอบรม DPO QWEN1.5-7B-Chat พร้อมชุดข้อมูล DPO Mix 7K การฝึกอบรมประกอบด้วยการปรับแต่งอย่างละเอียดภายใต้การดูแล (SFT) ตามด้วยการเพิ่มประสิทธิภาพการตั้งค่าโดยตรง (DPO)
Run train.sh ในไดเรกทอรี dpo-mix-7k เพื่อดาวน์โหลดชุดข้อมูลและโมเดลจาก HuggingFace และเริ่มการฝึกอบรม คุณสามารถปรับแต่งการกำหนดค่าการฝึกอบรมโดยแก้ไขไฟล์ config sft.yml และ dpo.yml
การใช้มาตรฐาน "การทำความเข้าใจภาษามัลติทาสก์ขนาดใหญ่" โดยใช้ชุดข้อมูล MMLU
เรียกใช้ mmlu.py กับโมเดลที่คุณต้องการประเมิน
การใช้งานมาตรฐาน MMLU-PRO โดยใช้ชุดข้อมูล MMLU-PRO
เรียกใช้ mmlu-pro.py กับโมเดลที่คุณต้องการประเมิน
การคำนวณคะแนนความงุนงงสำหรับชุดข้อมูลตัวอย่างของย่อหน้าเข้าจากบทความ Wikipedia
เรียกใช้ perplexity.py กับโมเดลที่คุณต้องการประเมิน เพิ่มตัวเลือกปริมาณเพื่อประเมินความงุนงงด้วยแบบจำลองเชิงปริมาณ