LLM-RLHF-Tuning
Dieses Projekt implementiert das dreistufige Training von RLHF von Grund auf und schreibt die Implementierungsdetails im Dokument ausführlich. Jeder ist herzlich eingeladen zu kommunizieren und WeChat zu diskutieren
Hauptinhalt:
- Unterstützt das Fine-Einstellungs-Alpaka-Modell der Anweisung
- Unterstützen Sie das Training von Belohnungsmodellen
- Unterstützen Sie den PPO -Algorithmus, um RL -Modelle zu trainieren
- Unterstützt Adapter basierend auf zwei Basismodellen und zwei LORA und lädt vier Modelle: RM, SFT, Schauspieler und Kritiker gleichzeitig und unterstützt das beschleunigte verteilte Training (PPO -Algorithmus -Implementierungsdetails).
- Unterstützt zwei LORA -Adapter basierend auf einem Basismodell und lädt vier Modelle: RM, SFT, Schauspieler und Kritiker gleichzeitig und unterstützt das Beschleunigungs- und DeepSpeed -Training.
- Unterstützt ein Basismodell basierend auf einem Basismodell und einem LORA -Adapter, dem Basismodell des Akteurs und des Kritiks und implementiert vier Modellfunktionen: RM, SFT, Schauspieler und Kritiker und unterstützt das Beschleunigungs- und Deepspeed -Training.
- Unterstützen Sie das DPO -Algorithmus -Trainingsmodell
erneuern
- [23/8/23] Support LLAMA2 Model Training; DPO -Schulung unterstützen; Unterstützen Sie ein PPO -Training basierend auf einem Basismodell, wählen Sie ein oder zwei LORA -Adapter, unterstützen Sie Beschleunigungen, Deepspeed -Training
- [23/8/13] Unterstützung des Lama -Modells; Unterstützen Sie PPO -Schulungen basierend auf zwei Basismodellen und zwei Lora -Adaptern; Unterstützung beschleunigter verteilter Schulungen
Funktion
Vergleich mit den Funktionen des Open Source RLHF -Trainingsrahmens
| rahmen | SFT -Zug | RM -Zug | PPO -Zug | DPO -Zug |
|---|
| Unser | ✅ | ✅ | ✅ | ✅ |
| Deepspeed-Chat | ✅ | ✅ | ✅ | |
| trl | ✅ | ✅ | ✅ | ✅ |
| Moss-rlhf | | | ✅ | |
PPO -Zug
| rahmen | Beschleunigen | Deepspeed | Multi Lora | Mindestmodellparametermenge (7b als Beispiel) |
|---|
| Unser | ✅ | ✅ | ✅ | Einzelmodellgröße ~ 7b |
| Deepspeed-Chat | | ✅ | | SFT+RM+Schauspieler+Kritiker ~ 28b |
| trl | ✅ | | | Einzelmodellgröße (nicht Ref -Modell verwenden) ~ 7b |
| Moss-rlhf | Schauspielermodell, kritisches Modell | SFT -Modell, RM -Modell | | SFT+RM+Schauspieler+Kritiker ~ 28b |
Richtlinien für die Verwendung
Umweltkonstruktion
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
Unterstützungsmodell
Schulungsmethoden unterstützen
Trainingsdetails
Befehlsmodell für Feinabstimmungsmodell
Trainingsbelohnungsmodell
PPO -Training
DPO -Training
Todo
Willkommen in der Gruppe, um WeChat zu besprechen