llama-moss-rlhf-lora
รหัส RLHF ของรหัสนี้ไม่จำเป็นต้องใช้ Megatron หรือ Deepspeed Framework มันต้องใช้คบเพลิง Alchemy และการ์ดกราฟิกแบบดั้งเดิมเท่านั้น นักวิจารณ์ของ RLHF ใช้ GPT เป้าหมายที่ลดลงและให้รางวัลเราสามารถใช้โมเดลความคล้ายคลึงกันที่เปรียบเทียบกับเอาต์พุตเป้าหมาย ด้วยวิธีนี้คุณจะต้องเรียนรู้อัลกอริทึม PPO หลักเท่านั้นและส่วนที่เหลือเป็นแบบจำลองและโครงสร้างที่คุณเข้าใจแล้ว มันเอื้อต่อการเข้าสู่ RLHF ของ NLPER และดูเหมือนว่าจำเป็นต้องใช้ RLHF เท่านั้นที่สามารถปรับรุ่นได้
สามารถเลือก Llama หรือ Moss ในรหัสและวิธีการเพิ่มประสิทธิภาพ LORA เป็นตัวเลือก
การทำงาน:
- คำจำกัดความและการใช้รูปแบบข้อมูล RLHF
- แบบจำลองได้รับการปรับแต่งอย่างละเอียดโดยใช้RLHF√เท่านั้น
- ให้แบบจำลองรับรู้ถึงต้นแบบของมัน
- ปรับเปลี่ยนแสตมป์เหล็ก
- ชื่อปริญญาโท
- ชื่อเล่นของหุ่นยนต์
- แบทช์สร้าง propts ที่แตกต่างกันหลายตัวจากนั้น RLHF ×
สภาพแวดล้อมการติดตั้ง
สภาพแวดล้อมการติดตั้งหมายถึงข้อกำหนดที่แยกออกมา txt ส่วนใหญ่คบเพลิงหม้อแปลง
- การเรียกใช้มอสต้องใช้ห้องสมุดเร่งความเร็ว
- Running Lora ต้องใช้ Peft
- ในหมู่พวกเขา Peft มีการเปลี่ยนแปลงมากมายเนื่องจากการอัปเดตที่เร็วขึ้น ที่นี่คุณต้องระบุ PEFT เป็นเวอร์ชัน 0.2.0
วิธีใช้
0 เลือกรุ่นที่คุณต้องการ (set model_name_or_path ใน rlhf_train_gpt.py และไม่ว่าจะจำเป็นต้องใช้ lora) และการประมวลผลล่วงหน้า
- มอส
- ลาม่า
- จำเป็นต้องดำเนินการผสมผสานของแบบจำลองที่ใช้ Llama และพารามิเตอร์ LORA ใหม่
- Python merge_llama_with_chinese_lora_to_hf.py
- คุณสามารถตั้งค่าปริมาณพารามิเตอร์ LLAMA ที่แตกต่างกันและ LORA ในนั้น
- โมเดล HF ที่สร้างขึ้นจะถูกบันทึกไว้
1 แก้ไขชื่อเจ้าของและชื่อเล่นที่คุณต้องการและเรียกใช้รหัสต่อไปนี้ ในการสร้างข้อมูลเป้าหมายคุณสามารถใช้ข้อมูลเริ่มต้นได้
python data / generate_data . py
2 เริ่ม RLHF (LORA) ฮอร์นฝึกซ้อม
python rlhf_train_gpt . py
การใช้ทรัพยากร
- มอส
- ปริมาณพารามิเตอร์ 13b
- จำเป็นต้องมีสี่ 3090s ซึ่งโมเดลมอสจำเป็นต้องโหลดหน่วยความจำวิดีโอ 46 กรัมการฝึกอบรมประมาณ 26G (3 ภาพ) และจำเป็นต้องมีความสำคัญและรางวัลอีกครั้ง คุณสามารถลอง A6000 ซึ่งอาจทำงานได้เช่นกัน
- หน่วยความจำวิดีโอทั้งหมดประมาณ 50 กรัม
- ลาม่า
- ปริมาณพารามิเตอร์ 7b
- ต้องใช้สอง 3090s หนึ่งอันสำหรับการโหลดและการฝึกอบรม Llama และอีกหนึ่งสำหรับการวางแบบจำลองที่สำคัญ
การแสดงผลเอฟเฟกต์
การฝึกอบรมเกี่ยวกับยุค 6 หรือเมื่ออัตราส่วนเกือบ 1 นั่นหมายความว่าความน่าจะเป็นของการสร้างแบบจำลองไม่ได้เปลี่ยนแปลงมากนักดังนั้นคุณจะได้สัมผัสกับมัน
- Meimei คืออะไร?
- Meimei เป็นชื่อเล่นที่เจ้านายของฉันมอบให้ฉัน
- ใครให้มส์แก่คุณ?
- บาบาเป็นชื่อเล่นของฉัน
- อาจารย์ให้ Meimei แก่ฉัน
- อาจารย์ของคุณคือใคร?
- จางซานเป็นเจ้านายของฉัน
- เจ้านายของฉันคือจางซาน
- ความสามารถในการวางนัยทั่วไปได้รับการดูแลเป็นอย่างดี
- นายคือใคร
- ชื่อเล่นของคุณคืออะไร
- ความสัมพันธ์ของคุณกับจางซานคืออะไร
- ความสัมพันธ์ของคุณกับอะไร
- Meimei เป็นชื่อเล่นที่เจ้านายของฉันมอบให้ฉัน
ข้อมูลติดต่อ
- กลุ่มสื่อสาร
- กลุ่ม QQ: 788598358
- WeChat Group: WeChat Group อาจหมดอายุ