Descarga LLM RLHF Tuning - Código fuente LLM RLHF Tuning Descargar

Español

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Inicio>Relacionado con la programación>Código Fuente de IA

LLM RLHF Tuning

Código Fuente de IA

1.0.0

Descargar

LLM-RLHF-ajuste

Este proyecto implementa la capacitación de tres etapas RLHF desde cero y escribe los detalles de implementación en detalle en el documento. Todos son bienvenidos a comunicarse y discutir WeChat

Contenido principal:

Admite instrucción Modelo de alpaca ajustado
Apoye la capacitación de modelos de recompensas
Algoritmo PPO de soporte para entrenar modelos RL
- Admite adaptadores basados en dos modelos básicos y dos lora, y carga cuatro modelos: RM, SFT, actor y crítico al mismo tiempo, y admite la capacitación distribuida acelerada (detalles de implementación del algoritmo PPO)
- Admite dos adaptadores Lora basados en un modelo de base, y carga cuatro modelos: RM, SFT, actor y crítico al mismo tiempo, apoyando la capacitación de aceleración y velocidad profunda.
- Admite un modelo base basado en un modelo base y un adaptador de Lora, modelo base de actores y críticos, e implementa cuatro funciones del modelo: RM, SFT, actor y crítico, y apoya la capacitación acelerada y de velocidad profunda.
Modelo de entrenamiento de algoritmo de apoyo DPO

renovar

[23/8/23] Apoyo a la capacitación de modelos LLAMA2; apoyar la capacitación DPO; Apoyo a la capacitación PPO basada en un modelo base, seleccione uno o dos adaptadores de Lora, acelerar de apoyo, capacitación de velocidad profunda
[23/8/13] Soporte de capacitación en modelos de llama; apoyar el entrenamiento PPO basado en dos modelos base y dos adaptadores de Lora; Soporte Acelerar la capacitación distribuida

Función

Comparación con las funciones del marco de capacitación de código abierto RLHF

marco	Tren sft	Tren RM	Tren PPO	Tren DPO
Nuestro	✅	✅	✅	✅
Chat de tierra profunda	✅	✅	✅
TRL	✅	✅	✅	✅
Musgo-rlhf			✅

Tren PPO

marco	Acelerar	Velocidad profunda	Multi lora	Cantidad mínima del parámetro del modelo (7b como ejemplo)
Nuestro	✅	✅	✅	Tamaño de modelo único ~ 7b
Chat de tierra profunda		✅		SFT+RM+Actor+Critic ~ 28B
TRL	✅			Tamaño del modelo único (no utilizar el modelo REF) ~ 7b
Musgo-rlhf	modelo de actor, modelo crítico	modelo SFT, modelo RM		SFT+RM+Actor+Critic ~ 28B

Pautas para su uso

Construcción ambiental

 accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0