LLaMA MOSS RLHF LoRA
1.0.0
本代码的RLHF代码不需要Megatron或者deepspeed框架, 只需要传统的炼丹torch和显卡就好了,RLHF的Critic用的目标GPT的缩小版本,而Reward咱们直接使用一个和目标输出比较的相似度模型即可。 这样只需要学习核心的PPO算法即可,其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF,似乎看起来只需要RLHF也能finetune模型。
代码里面可选LLaMA或者MOSS,优化方式LoRA是可选的喔。
安装环境参照提取的requirement.txt,主要是torch, transformers
0 选择自己需要的模型(在rlhf_train_gpt.py中设置model_name_or_path,和是否需要lora),和预处理
1 修改自己想要的主人名字和昵称,执行下面的代码。生成目标数据,也可以用默认的。
python data/generate_data.py2 开始基于RLHF(LoRA)训练叭
python rlhf_train_gpt.py训练大约6个epoch,或者等到ratio几乎都是1的时候,代表模型生成的概率已经没有什么变化了,就可以体验一下了