LLM-RLHF TUNING
Este projeto implementa o treinamento em três etapas do RLHF do zero e escreve os detalhes da implementação em detalhes no documento. Todos são bem -vindos para se comunicar e discutir WeChat
Conteúdo principal:
- Suporta Instruções Modelo de Alpaca de Tuneamento Fino
- Apoie o treinamento de modelos de recompensa
- Apoie o algoritmo PPO para treinar modelos RL
- Suporta adaptadores baseados em dois modelos básicos e dois lora, e carrega quatro modelos: RM, SFT, ator e crítico ao mesmo tempo, e suporta o treinamento distribuído acelerado (Detalhes da implementação do algoritmo PPO)
- Suporta dois adaptadores LORA com base em um modelo básico e carrega quatro modelos: RM, SFT, ator e crítico ao mesmo tempo, apoiando o treinamento acelerado e de velocidade profunda.
- Suporta um modelo básico baseado em um modelo básico e um adaptador LORA, ator e crítico compartilham modelo básico e implementa quatro funções do modelo: RM, SFT, ator e crítico, e suporta o treinamento acelerado e de velocidade profunda.
- Modelo de treinamento de algoritmo DPO de suporte
renovar
- [23/8/23] Apoiar o treinamento do modelo LLAMA2; apoiar o treinamento em DPO; Apoie o treinamento de PPO com base em um modelo básico, selecione um ou dois adaptadores LORA, suportar acelerar, treinamento de velocidade profunda
- [23/8/13] Apoie o treinamento de modelos de llama; Apoie o treinamento de PPO com base em dois modelos básicos e dois adaptadores LORA; Suporte acelerar o treinamento distribuído
Função
Comparação com as funções da estrutura de treinamento RLHF de código aberto RLHF
| quadro | Trem SFT | RM Trem | Trem PPO | Trem DPO |
|---|
| Nosso | ✅ | ✅ | ✅ | ✅ |
| DeepSpeed-Chat | ✅ | ✅ | ✅ | |
| trl | ✅ | ✅ | ✅ | ✅ |
| Moss-rlhf | | | ✅ | |
Trem PPO
| quadro | Acelerar | DeepSpeed | Multi Lora | Quantidade mínima do parâmetro do modelo (7b como exemplo) |
|---|
| Nosso | ✅ | ✅ | ✅ | Tamanho do modelo único ~ 7b |
| DeepSpeed-Chat | | ✅ | | sft+rm+ator+crítico ~ 28b |
| trl | ✅ | | | Tamanho do modelo único (não use o modelo REF) ~ 7b |
| Moss-rlhf | Modelo de ator, modelo crítico | Modelo SFT, modelo RM | | sft+rm+ator+crítico ~ 28b |
Diretrizes para uso
Construção do Meio Ambiente
accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0
Modelo de suporte
Apoiar métodos de treinamento
Detalhes de treinamento
Instrução Modelo de ajuste fino
Modelo de recompensa de treinamento
Treinamento de PPO
Treinamento DPO
PENDÊNCIA
Bem -vindo para ingressar no grupo para discutir o WeChat