LLM RLHF Tuning Download - LLM RLHF Tuning Código Fonte Download

Português

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Página Inicial>Relacionado com a programação>Código-Fonte de IA

LLM RLHF Tuning

Código-Fonte de IA

1.0.0

Baixar

LLM-RLHF TUNING

Este projeto implementa o treinamento em três etapas do RLHF do zero e escreve os detalhes da implementação em detalhes no documento. Todos são bem -vindos para se comunicar e discutir WeChat

Conteúdo principal:

Suporta Instruções Modelo de Alpaca de Tuneamento Fino
Apoie o treinamento de modelos de recompensa
Apoie o algoritmo PPO para treinar modelos RL
- Suporta adaptadores baseados em dois modelos básicos e dois lora, e carrega quatro modelos: RM, SFT, ator e crítico ao mesmo tempo, e suporta o treinamento distribuído acelerado (Detalhes da implementação do algoritmo PPO)
- Suporta dois adaptadores LORA com base em um modelo básico e carrega quatro modelos: RM, SFT, ator e crítico ao mesmo tempo, apoiando o treinamento acelerado e de velocidade profunda.
- Suporta um modelo básico baseado em um modelo básico e um adaptador LORA, ator e crítico compartilham modelo básico e implementa quatro funções do modelo: RM, SFT, ator e crítico, e suporta o treinamento acelerado e de velocidade profunda.
Modelo de treinamento de algoritmo DPO de suporte

renovar

[23/8/23] Apoiar o treinamento do modelo LLAMA2; apoiar o treinamento em DPO; Apoie o treinamento de PPO com base em um modelo básico, selecione um ou dois adaptadores LORA, suportar acelerar, treinamento de velocidade profunda
[23/8/13] Apoie o treinamento de modelos de llama; Apoie o treinamento de PPO com base em dois modelos básicos e dois adaptadores LORA; Suporte acelerar o treinamento distribuído

Função

Comparação com as funções da estrutura de treinamento RLHF de código aberto RLHF

quadro	Trem SFT	RM Trem	Trem PPO	Trem DPO
Nosso	✅	✅	✅	✅
DeepSpeed-Chat	✅	✅	✅
trl	✅	✅	✅	✅
Moss-rlhf			✅

Trem PPO

quadro	Acelerar	DeepSpeed	Multi Lora	Quantidade mínima do parâmetro do modelo (7b como exemplo)
Nosso	✅	✅	✅	Tamanho do modelo único ~ 7b
DeepSpeed-Chat		✅		sft+rm+ator+crítico ~ 28b
trl	✅			Tamanho do modelo único (não use o modelo REF) ~ 7b
Moss-rlhf	Modelo de ator, modelo crítico	Modelo SFT, modelo RM		sft+rm+ator+crítico ~ 28b

Diretrizes para uso

Construção do Meio Ambiente

 accelerate==0.21.0
datasets==2.13.1
scikit-learn==1.3.0
sentencepiece==0.1.99
tqdm==4.65.0
transformers==4.31.0
wandb==0.15.8
peft==0.4.0
torch==2.0.1
trl==0.5.0
deepspeed==0.10.0