LLM-RLHF-tuning
โครงการนี้ใช้การฝึกอบรมสามขั้นตอน RLHF ตั้งแต่เริ่มต้นและเขียนรายละเอียดการใช้งานในรายละเอียดในเอกสาร ทุกคนยินดีที่จะสื่อสารและหารือเกี่ยวกับ WeChat
เนื้อหาหลัก:
- รองรับคำแนะนำในการปรับแต่งแบบจำลอง Alpaca
- สนับสนุนการฝึกอบรมรูปแบบรางวัล
- สนับสนุนอัลกอริทึม PPO เพื่อฝึกอบรมรุ่น RL
- รองรับอะแดปเตอร์ตามสองรุ่นพื้นฐานและสอง LORA และโหลดสี่รุ่น: RM, SFT, นักแสดงและนักวิจารณ์ในเวลาเดียวกันและสนับสนุนการฝึกอบรมแบบเร่งด่วน (รายละเอียดการใช้อัลกอริทึม PPO)
- รองรับอะแดปเตอร์ LORA สองตัวตามรุ่นฐานเดียวและโหลดสี่รุ่น: RM, SFT, นักแสดงและนักวิจารณ์ในเวลาเดียวกันสนับสนุนการฝึกอบรมเร่งความเร็วและการฝึกอบรม DeepSpeed
- รองรับโมเดลพื้นฐานที่ใช้โมเดลพื้นฐานและอะแดปเตอร์ LORA นักแสดงและนักวิจารณ์แบ่งปันโมเดลพื้นฐานและใช้ฟังก์ชั่นแบบจำลองสี่แบบ: RM, SFT, นักแสดงและนักวิจารณ์และสนับสนุนการฝึกอบรมเร่งความเร็วและลึกลงไป
- สนับสนุนรูปแบบการฝึกอบรมอัลกอริทึม DPO
ต่ออายุ
- [23/8/23] สนับสนุนการฝึกอบรมแบบจำลอง LLAMA2; สนับสนุนการฝึกอบรม DPO; รองรับการฝึกอบรม PPO โดยใช้โมเดลฐานเดียวเลือกอะแดปเตอร์ LORA หนึ่งหรือสองตัวสนับสนุนการเร่งความเร็วการฝึกอบรม DeepSpeed
- [23/8/13] สนับสนุนการฝึกอบรมแบบจำลอง Llama; รองรับการฝึกอบรม PPO โดยใช้แบบจำลองฐานสองแบบและอะแดปเตอร์ LORA สองตัว สนับสนุนการฝึกอบรมแบบเร่งด่วน
การทำงาน
เปรียบเทียบกับฟังก์ชั่นของกรอบการฝึกอบรม RLHF โอเพนซอร์ส RLHF
| กรอบ | รถไฟ SFT | รถไฟ RM | รถไฟ PPO | รถไฟ DPO |
|---|
| ของเรา | | | | |
| deepspeed-chat | | | | |
| TRL | | | | |
| มอส-RLHF | | | | |
รถไฟ PPO
| กรอบ | เร่งความเร็ว | ความเร็วลึก | Multi Lora | ปริมาณพารามิเตอร์แบบจำลองขั้นต่ำ (7b เป็นตัวอย่าง) |
|---|
| ของเรา | | | | ขนาดรุ่นเดี่ยว ~ 7b |
| deepspeed-chat | | | | SFT+RM+Actor+Critic ~ 28B |
| TRL | | | | ขนาดรุ่นเดี่ยว (ไม่ใช้โมเดล REF) ~ 7b |
| มอส-RLHF | โมเดลนักแสดงรูปแบบวิกฤต | โมเดล SFT, รุ่น RM | | SFT+RM+Actor+Critic ~ 28B |
แนวทางการใช้งาน
การก่อสร้างสิ่งแวดล้อม
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
สนับสนุนรูปแบบ
สนับสนุนวิธีการฝึกอบรม
รายละเอียดการฝึกอบรม
รูปแบบการปรับแต่งการเรียนการสอน
รูปแบบรางวัลการฝึกอบรม
การฝึกอบรม PPO
การฝึกอบรม DPO
สิ่งที่ต้องทำ
ยินดีต้อนรับสู่เข้าร่วมกลุ่มเพื่อหารือเกี่ยวกับ WeChat