LLM RLHF TuningダウンロードLLM RLHF Tuningソースコードダウンロード

LLM RLHF Tuning

AI ソースコード

1.0.0

ダウンロード

LLM-RLHF-Tuning

このプロジェクトは、RLHF 3段階トレーニングをゼロから実装し、実装の詳細をドキュメントに詳細に書き込みます。誰もがWeChatをコミュニケーションして話し合うことを歓迎します

メインコンテンツ：

instruction微調整アルパカモデルをサポートします
報酬モデルのトレーニングをサポートします
PPOアルゴリズムをサポートして、RLモデルをトレーニングします
- 2つの基本モデルと2つのLORAに基づいてアダプターをサポートし、RM、SFT、俳優、批評家の4つのモデルを同時にロードし、分散トレーニングを加速するサポート（PPOアルゴリズムの実装の詳細）をサポートします
- 1つのベースモデルに基づいて2つのLORAアダプターをサポートし、同時にRM、SFT、俳優、批評家の4つのモデルをロードし、加速トレーニングとディープスピードトレーニングをサポートします。
- ベースモデルとLORAアダプター、アクター、批評家共有ベースモデルに基づいたベースモデルをサポートし、RM、SFT、俳優、批評家の4つのモデル機能を実装し、加速トレーニングとディープスピードトレーニングをサポートします。
DPOアルゴリズムトレーニングモデルをサポートします

更新します

[23/8/23] LLAMA2モデルトレーニングをサポート。 DPOトレーニングをサポートします。 1つのベースモデルに基づいてPPOトレーニングをサポートし、1つまたは2つのLORAアダプターを選択し、加速、ディープスピードトレーニングをサポートします
[23/8/13]ラマモデルトレーニングをサポート。 2つのベースモデルと2つのLORAアダプターに基づくPPOトレーニングをサポートします。サポート分散トレーニングを加速します

関数

オープンソースRLHFトレーニングフレームワークの機能との比較

フレーム	SFT列車	RMトレイン	PPO列車	DPO列車
私たちの	✅	✅	✅	✅
deepspeed-chat	✅	✅	✅
TRL	✅	✅	✅	✅
Moss-rlhf			✅

PPO列車

フレーム	加速します	ディープスピード	マルチロラ	最小モデルパラメーター数量（例として7b）
私たちの	✅	✅	✅	単一モデルサイズ〜7b
deepspeed-chat		✅		SFT+RM+俳優+批評家〜28b
TRL	✅			シングルモデルサイズ（refモデルを使用しない）〜7b
Moss-rlhf	俳優モデル、クリティカルモデル	SFTモデル、RMモデル		SFT+RM+俳優+批評家〜28b

使用のためのガイドライン

環境建設

 accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0