LLM-RLHF-ajuste
Este proyecto implementa la capacitación de tres etapas RLHF desde cero y escribe los detalles de implementación en detalle en el documento. Todos son bienvenidos a comunicarse y discutir WeChat
Contenido principal:
- Admite instrucción Modelo de alpaca ajustado
- Apoye la capacitación de modelos de recompensas
- Algoritmo PPO de soporte para entrenar modelos RL
- Admite adaptadores basados en dos modelos básicos y dos lora, y carga cuatro modelos: RM, SFT, actor y crítico al mismo tiempo, y admite la capacitación distribuida acelerada (detalles de implementación del algoritmo PPO)
- Admite dos adaptadores Lora basados en un modelo de base, y carga cuatro modelos: RM, SFT, actor y crítico al mismo tiempo, apoyando la capacitación de aceleración y velocidad profunda.
- Admite un modelo base basado en un modelo base y un adaptador de Lora, modelo base de actores y críticos, e implementa cuatro funciones del modelo: RM, SFT, actor y crítico, y apoya la capacitación acelerada y de velocidad profunda.
- Modelo de entrenamiento de algoritmo de apoyo DPO
renovar
- [23/8/23] Apoyo a la capacitación de modelos LLAMA2; apoyar la capacitación DPO; Apoyo a la capacitación PPO basada en un modelo base, seleccione uno o dos adaptadores de Lora, acelerar de apoyo, capacitación de velocidad profunda
- [23/8/13] Soporte de capacitación en modelos de llama; apoyar el entrenamiento PPO basado en dos modelos base y dos adaptadores de Lora; Soporte Acelerar la capacitación distribuida
Función
Comparación con las funciones del marco de capacitación de código abierto RLHF
| marco | Tren sft | Tren RM | Tren PPO | Tren DPO |
|---|
| Nuestro | ✅ | ✅ | ✅ | ✅ |
| Chat de tierra profunda | ✅ | ✅ | ✅ | |
| TRL | ✅ | ✅ | ✅ | ✅ |
| Musgo-rlhf | | | ✅ | |
Tren PPO
| marco | Acelerar | Velocidad profunda | Multi lora | Cantidad mínima del parámetro del modelo (7b como ejemplo) |
|---|
| Nuestro | ✅ | ✅ | ✅ | Tamaño de modelo único ~ 7b |
| Chat de tierra profunda | | ✅ | | SFT+RM+Actor+Critic ~ 28B |
| TRL | ✅ | | | Tamaño del modelo único (no utilizar el modelo REF) ~ 7b |
| Musgo-rlhf | modelo de actor, modelo crítico | modelo SFT, modelo RM | | SFT+RM+Actor+Critic ~ 28B |
Pautas para su uso
Construcción ambiental
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
Modelo de soporte
Métodos de capacitación de apoyo
Detalles de capacitación
Instrucción Modelo de ajuste fino
Modelo de recompensa de entrenamiento
Entrenamiento PPO
Entrenamiento DPO
HACER
Bienvenido a unirse al grupo para discutir WeChat