LLM-RLHF-Tuning
Ce projet met en œuvre une formation RLHF en trois étapes à partir de zéro et écrit les détails de l'implémentation en détail dans le document. Tout le monde est invité à communiquer et à discuter de WeChat
Contenu principal:
- Prend en charge le modèle d'alpaga à réglage fin des instructions
- Soutenir la formation des modèles de récompense
- Soutenir l'algorithme PPO pour former des modèles RL
- Prend en charge les adaptateurs basés sur deux modèles de base et deux LORA, et charge quatre modèles: RM, SFT, acteur et critique en même temps, et prend en charge la formation distribuée accélérée (détails de mise en œuvre de l'algorithme PPO)
- Prend en charge deux adaptateurs LORA basés sur un modèle de base et charge quatre modèles: RM, SFT, acteur et critique en même temps, en soutenant une formation accélérée et en profondeur.
- Prend en charge un modèle de base basé sur un modèle de base et un modèle de base LORA, acteur et critique de partage, et met en œuvre quatre fonctions du modèle: RM, SFT, acteur et critique, et prend en charge une formation accélérée et en profondeur.
- Soutenir le modèle de formation de l'algorithme DPO
renouveler
- [23/8/23] Soutenir la formation du modèle LLAMA2; Soutenir la formation DPO; Prise en charge de la formation PPO sur la base d'un modèle de base, sélectionnez un ou deux adaptateurs LORA, Soutenez Accelerate, Deeppeed Training
- [23/8/13] Soutenir la formation du modèle LLAMA; Soutenir la formation PPO basée sur deux modèles de base et deux adaptateurs LORA; Soutenir l'accélération de la formation distribuée
Fonction
Comparaison avec les fonctions du cadre de formation Open Source RLHF
| cadre | Train SFT | Train RM | Train PPO | Train DPO |
|---|
| Notre | ✅ | ✅ | ✅ | ✅ |
| Chat de profondeur | ✅ | ✅ | ✅ | |
| trl | ✅ | ✅ | ✅ | ✅ |
| Mousse-rlhf | | | ✅ | |
Train PPO
| cadre | Accélérer | Vitesse profonde | Multi-lora | Quantité de paramètre de modèle minimum (7b comme exemple) |
|---|
| Notre | ✅ | ✅ | ✅ | Taille de modèle unique ~ 7B |
| Chat de profondeur | | ✅ | | SFT + RM + acteur + critique ~ 28B |
| trl | ✅ | | | Taille du modèle unique (pas d'utiliser le modèle REF) ~ 7B |
| Mousse-rlhf | Modèle d'acteur, modèle critique | Modèle SFT, modèle RM | | SFT + RM + acteur + critique ~ 28B |
Lignes directrices pour une utilisation
Construction de l'environnement
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
Modèle de support
Soutenir les méthodes de formation
Détails de la formation
Modèle de réglage fin des instructions
Modèle de récompense de formation
Formation PPO
Formation DPO
FAIRE
Bienvenue à rejoindre le groupe pour discuter de WeChat