LLAMA-MOSS-RLHF-LORA
O código RLHF deste código não requer uma estrutura de megatron ou velocidade de velocidade, requer apenas a tocha tradicional de alquimia e as placas gráficas. O crítico do RLHF usa uma versão reduzida do GPT de destino e recompensa que podemos usar um modelo de similaridade que se compara à saída de destino. Dessa forma, você só precisa aprender o algoritmo PPO central, e o restante são modelos e estruturas que você já entendeu. É muito propício à entrada do NLPER no RLHF, e parece que apenas o RLHF é necessário pode finalizar o modelo.
LLAMA ou Moss podem ser selecionados no código, e o método de otimização Lora é opcional.
Função:
- Definição e uso do formato de dados RLHF
- O modelo foi ajustado usando apenas RLHF√
- Deixe o modelo reconhecer seu mestre deixado
- Modificar selo de aço autoconhor
- Nome do mestre
- O apelido do robô
- O lote gera vários supts diferentes e depois RLHF ×
Ambiente de instalação
O ambiente de instalação refere -se ao requisito extraído.txt, principalmente tocha, transformadores
- A corrida de musgo requer uma biblioteca acelerada
- Running Lora requer peft
- Entre eles, a PEFT mudou muito devido às suas atualizações mais rápidas. Aqui você precisa especificar peft como versão 0.2.0
Como usar
0 Selecione o modelo que você precisa (set model_name_or_path em rlhf_train_gpt.py e se a Lora é necessária) e pré -processamento
- musgo
- lhama
- Precisa realizar uma combinação de modelo baseado em lhama e parâmetros LORA treinidos
- Python Merge_llama_with_chinese_lora_to_hf.py
- Você pode definir diferentes quantidades de parâmetros e lora llama
- O modelo HF gerado é salvo
1 Modifique o nome do proprietário e o apelido que você deseja e execute o seguinte código. Para gerar dados de destino, você também pode usar o padrão.
python data / generate_data . py
2 Start RLHF (Lora) Horn
python rlhf_train_gpt . py
Consumo de recursos
- musgo
- 13b Quantidade de parâmetros
- São necessários quatro 3090s, entre os quais o modelo de musgo precisa carregar cerca de 26g de treinamento em vídeo 46g (3 imagens), e é necessária mais uma recompensa e a recompensa. Você pode experimentar um A6000, que também pode ser executado.
- Total de aproximadamente 50g de memória de vídeo
- lhama
- 7b Quantidade de parâmetros
- São necessários dois 3090s, um para carregamento e treinamento de lhama e outro para colocar o modelo crítico
Exibição de efeito
Treinar cerca de 6 épocas, ou quando a proporção é quase 1, significa que a probabilidade de geração de modelos não mudou muito, para que você possa experimentá -lo.
- O que é meimei?
- Meimei é o apelido dado a mim pelo meu mestre.
- Quem te deu o meme?
- Baba é meu apelido.
- O mestre me deu o Meimei.
- Quem é seu mestre?
- Zhang San é meu mestre.
- Meu mestre é Zhang San
- A capacidade de generalização é mantida muito bem
- quem é seu mestre
- Qual é o seu apelido
- Qual é o seu relacionamento com Zhang San
- Qual é o seu relacionamento com
- Meimei é o apelido dado a mim pelo meu mestre.
Informações de contato
- Grupo de Comunicação
- Grupo QQ: 788598358
- Grupo WeChat: WeChat Group pode expirar