LLM RLHF Tuning
1.0.0
このプロジェクトは、RLHF 3段階トレーニングをゼロから実装し、実装の詳細をドキュメントに詳細に書き込みます。誰もがWeChatをコミュニケーションして話し合うことを歓迎します
オープンソースRLHFトレーニングフレームワークの機能との比較
| フレーム | SFT列車 | RMトレイン | PPO列車 | DPO列車 |
|---|---|---|---|---|
| 私たちの | ✅ | ✅ | ✅ | ✅ |
| deepspeed-chat | ✅ | ✅ | ✅ | |
| TRL | ✅ | ✅ | ✅ | ✅ |
| Moss-rlhf | ✅ |
| フレーム | 加速します | ディープスピード | マルチロラ | 最小モデルパラメーター数量(例として7b) |
|---|---|---|---|---|
| 私たちの | ✅ | ✅ | ✅ | 単一モデルサイズ〜7b |
| deepspeed-chat | ✅ | SFT+RM+俳優+批評家〜28b | ||
| TRL | ✅ | シングルモデルサイズ(refモデルを使用しない)〜7b | ||
| Moss-rlhf | 俳優モデル、クリティカルモデル | SFTモデル、RMモデル | SFT+RM+俳優+批評家〜28b |
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
2つの基本モデルに基づいています
基本モデルに基づいています
WeChatについて話し合うためにグループに参加してください