LLaMA MOSS RLHF LoRA
1.0.0
本代碼的RLHF代碼不需要Megatron或者deepspeed框架, 只需要傳統的煉丹torch和顯卡就好了,RLHF的Critic用的目標GPT的縮小版本,而Reward咱們直接使用一個和目標輸出比較的相似度模型即可。 這樣只需要學習核心的PPO算法即可,其他的都是已經了解的模型和結構。非常有利於NLPer進軍RLHF,似乎看起來只需要RLHF也能finetune模型。
代碼裡面可選LLaMA或者MOSS,優化方式LoRA是可選的喔。
安裝環境參照提取的requirement.txt,主要是torch, transformers
0 選擇自己需要的模型(在rlhf_train_gpt.py中設置model_name_or_path,和是否需要lora),和預處理
1 修改自己想要的主人名字和暱稱,執行下面的代碼。生成目標數據,也可以用默認的。
python data / generate_data . py2 開始基於RLHF(LoRA)訓練叭
python rlhf_train_gpt . py 訓練大約6個epoch,或者等到ratio幾乎都是1的時候,代表模型生成的概率已經沒有什麼變化了,就可以體驗一下了