LLM RLHF Tuning -Download - LLM RLHF Tuning -Quellcode Download

Deutsch

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Startseite>Programmierbezogen>AI-Quellcode

LLM RLHF Tuning

AI-Quellcode

1.0.0

Herunterladen

LLM-RLHF-Tuning

Dieses Projekt implementiert das dreistufige Training von RLHF von Grund auf und schreibt die Implementierungsdetails im Dokument ausführlich. Jeder ist herzlich eingeladen zu kommunizieren und WeChat zu diskutieren

Hauptinhalt:

Unterstützt das Fine-Einstellungs-Alpaka-Modell der Anweisung
Unterstützen Sie das Training von Belohnungsmodellen
Unterstützen Sie den PPO -Algorithmus, um RL -Modelle zu trainieren
- Unterstützt Adapter basierend auf zwei Basismodellen und zwei LORA und lädt vier Modelle: RM, SFT, Schauspieler und Kritiker gleichzeitig und unterstützt das beschleunigte verteilte Training (PPO -Algorithmus -Implementierungsdetails).
- Unterstützt zwei LORA -Adapter basierend auf einem Basismodell und lädt vier Modelle: RM, SFT, Schauspieler und Kritiker gleichzeitig und unterstützt das Beschleunigungs- und DeepSpeed -Training.
- Unterstützt ein Basismodell basierend auf einem Basismodell und einem LORA -Adapter, dem Basismodell des Akteurs und des Kritiks und implementiert vier Modellfunktionen: RM, SFT, Schauspieler und Kritiker und unterstützt das Beschleunigungs- und Deepspeed -Training.
Unterstützen Sie das DPO -Algorithmus -Trainingsmodell

erneuern

[23/8/23] Support LLAMA2 Model Training; DPO -Schulung unterstützen; Unterstützen Sie ein PPO -Training basierend auf einem Basismodell, wählen Sie ein oder zwei LORA -Adapter, unterstützen Sie Beschleunigungen, Deepspeed -Training
[23/8/13] Unterstützung des Lama -Modells; Unterstützen Sie PPO -Schulungen basierend auf zwei Basismodellen und zwei Lora -Adaptern; Unterstützung beschleunigter verteilter Schulungen

Funktion

Vergleich mit den Funktionen des Open Source RLHF -Trainingsrahmens

rahmen	SFT -Zug	RM -Zug	PPO -Zug	DPO -Zug
Unser	✅	✅	✅	✅
Deepspeed-Chat	✅	✅	✅
trl	✅	✅	✅	✅
Moss-rlhf			✅

PPO -Zug

rahmen	Beschleunigen	Deepspeed	Multi Lora	Mindestmodellparametermenge (7b als Beispiel)
Unser	✅	✅	✅	Einzelmodellgröße ~ 7b
Deepspeed-Chat		✅		SFT+RM+Schauspieler+Kritiker ~ 28b
trl	✅			Einzelmodellgröße (nicht Ref -Modell verwenden) ~ 7b
Moss-rlhf	Schauspielermodell, kritisches Modell	SFT -Modell, RM -Modell		SFT+RM+Schauspieler+Kritiker ~ 28b

Richtlinien für die Verwendung

Umweltkonstruktion

 accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0