LLM RLHF Tuning ดาวน์โหลด - LLM RLHF Tuning ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

LLM RLHF Tuning

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

LLM-RLHF-tuning

โครงการนี้ใช้การฝึกอบรมสามขั้นตอน RLHF ตั้งแต่เริ่มต้นและเขียนรายละเอียดการใช้งานในรายละเอียดในเอกสาร ทุกคนยินดีที่จะสื่อสารและหารือเกี่ยวกับ WeChat

เนื้อหาหลัก:

รองรับคำแนะนำในการปรับแต่งแบบจำลอง Alpaca
สนับสนุนการฝึกอบรมรูปแบบรางวัล
สนับสนุนอัลกอริทึม PPO เพื่อฝึกอบรมรุ่น RL
- รองรับอะแดปเตอร์ตามสองรุ่นพื้นฐานและสอง LORA และโหลดสี่รุ่น: RM, SFT, นักแสดงและนักวิจารณ์ในเวลาเดียวกันและสนับสนุนการฝึกอบรมแบบเร่งด่วน (รายละเอียดการใช้อัลกอริทึม PPO)
- รองรับอะแดปเตอร์ LORA สองตัวตามรุ่นฐานเดียวและโหลดสี่รุ่น: RM, SFT, นักแสดงและนักวิจารณ์ในเวลาเดียวกันสนับสนุนการฝึกอบรมเร่งความเร็วและการฝึกอบรม DeepSpeed
- รองรับโมเดลพื้นฐานที่ใช้โมเดลพื้นฐานและอะแดปเตอร์ LORA นักแสดงและนักวิจารณ์แบ่งปันโมเดลพื้นฐานและใช้ฟังก์ชั่นแบบจำลองสี่แบบ: RM, SFT, นักแสดงและนักวิจารณ์และสนับสนุนการฝึกอบรมเร่งความเร็วและลึกลงไป
สนับสนุนรูปแบบการฝึกอบรมอัลกอริทึม DPO

ต่ออายุ

[23/8/23] สนับสนุนการฝึกอบรมแบบจำลอง LLAMA2; สนับสนุนการฝึกอบรม DPO; รองรับการฝึกอบรม PPO โดยใช้โมเดลฐานเดียวเลือกอะแดปเตอร์ LORA หนึ่งหรือสองตัวสนับสนุนการเร่งความเร็วการฝึกอบรม DeepSpeed
[23/8/13] สนับสนุนการฝึกอบรมแบบจำลอง Llama; รองรับการฝึกอบรม PPO โดยใช้แบบจำลองฐานสองแบบและอะแดปเตอร์ LORA สองตัว สนับสนุนการฝึกอบรมแบบเร่งด่วน

การทำงาน

เปรียบเทียบกับฟังก์ชั่นของกรอบการฝึกอบรม RLHF โอเพนซอร์ส RLHF

กรอบ	รถไฟ SFT	รถไฟ RM	รถไฟ PPO	รถไฟ DPO
ของเรา
deepspeed-chat
TRL
มอส-RLHF

รถไฟ PPO

กรอบ	เร่งความเร็ว	ความเร็วลึก	ปริมาณพารามิเตอร์แบบจำลองขั้นต่ำ (7b เป็นตัวอย่าง)
ของเรา			ขนาดรุ่นเดี่ยว ~ 7b
deepspeed-chat			SFT+RM+Actor+Critic ~ 28B
TRL			ขนาดรุ่นเดี่ยว (ไม่ใช้โมเดล REF) ~ 7b
มอส-RLHF	โมเดลนักแสดงรูปแบบวิกฤต	โมเดล SFT, รุ่น RM	SFT+RM+Actor+Critic ~ 28B

แนวทางการใช้งาน

การก่อสร้างสิ่งแวดล้อม

 accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0