LLM-RLHF Tuning
ينفذ هذا المشروع التدريب على ثلاث مراحل RLHF من الصفر ويكتب تفاصيل التنفيذ بالتفصيل في المستند. الجميع مرحب بهم للتواصل ومناقشة WeChat
المحتوى الرئيسي:
- يدعم نموذج صقل الألبكة
- دعم تدريب نماذج المكافآت
- دعم خوارزمية PPO لتدريب نماذج RL
- يدعم المحولات على أساس نموذجين أساسيين واثنين من Lora ، ويحمل أربعة نماذج: RM ، SFT ، الممثل ، والناقد في نفس الوقت ، ويدعم تسريع التدريب الموزع (تفاصيل تنفيذ خوارزمية PPO)
- يدعم اثنين من محولات Lora استنادًا إلى نموذج أساسي واحد ، ويحمل أربعة نماذج: RM ، SFT ، الممثل ، والناقد في نفس الوقت ، مما يدعم التدريب على التسريع والتدريب على السرعة العميقة.
- يدعم نموذجًا أساسيًا يعتمد على نموذج أساسي ومحول LORA وممثل الناقد والناقد نموذج الأساس ، وينفذ أربع وظائف نموذجية: RM ، SFT ، الممثل والناقد ، ويدعم التدريب على التسريع وتدريب العميق.
- دعم نموذج تدريب خوارزمية DPO
تجديد
- [23/8/23] دعم التدريب النموذجي Llama2 ؛ دعم تدريب DPO ؛ دعم تدريب PPO استنادًا إلى نموذج أساسي واحد ، واختر واحد أو اثنين من محولات Lora ، ودعم التسريع ، وتدريب العميق
- [23/8/13] دعم التدريب على نموذج Llama ؛ دعم تدريب PPO استنادًا إلى نموذجين أساسيين ومحولات Lora ؛ دعم تسريع التدريب الموزع
وظيفة
مقارنة مع وظائف إطار تدريب RLHF مفتوح المصدر
| إطار | قطار SFT | قطار RM | قطار PPO | قطار DPO |
|---|
| ملكنا | ✅ | ✅ | ✅ | ✅ |
| الدردشة العميقة | ✅ | ✅ | ✅ | |
| TRL | ✅ | ✅ | ✅ | ✅ |
| Moss-RLHF | | | ✅ | |
قطار PPO
| إطار | تسريع | السرعة العميقة | Multi Lora | كمية المعلمة الدنيا للنموذج (7 ب كمثال) |
|---|
| ملكنا | ✅ | ✅ | ✅ | حجم نموذج واحد ~ 7b |
| الدردشة العميقة | | ✅ | | SFT+RM+ممثل+ناقد ~ 28b |
| TRL | ✅ | | | حجم نموذج واحد (لا تستخدم نموذج المرجع) ~ 7b |
| Moss-RLHF | نموذج الممثل ، النموذج الحرج | نموذج SFT ، نموذج RM | | SFT+RM+ممثل+ناقد ~ 28b |
إرشادات للاستخدام
بناء البيئة
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
نموذج الدعم
دعم أساليب التدريب
تفاصيل التدريب
نموذج صقل تعليمات
نموذج مكافأة التدريب
تدريب PPO
تدريب DPO
تودو
مرحبًا بك للانضمام إلى المجموعة لمناقشة WeChat