本倉庫實現PPO算法,由於個人硬件有限強化的模型是qwen_0.5B, 使用lora調節模型參數。 獎勵模型使用的是Erlangshen-Roberta-330M-Sentiment,不需要微調這個模型,下載地址:https://huggingface.co/IDEA-CCNL/Erlangshen-Roberta-330M-Sentiment
data/train_data.json 此數據是自己造的,僅用於學習使用。雖然數據就2條,我微調了20個epochs,效果還行。後面會附帶訓練後的結果
model/actor_critic_model.py 這裡actor和critic模型使用同一個底座,沒有拆開model/reference_model.py 參考模型,其實就是原始的qwen模型model/reward_model.py 獎勵模型,使用的是Erlangshen-Roberta-330M-Sentiment
這裡主要有兩個文件,utils/data_load.py加載數據和utils/tools.py模型這幾個模型都需要調用的功能獨立出來
輸入的問題:飯店服務員的態度太差,使用委婉積極的態度投訴。系統角色:你是一個有文化的文明人
尊敬的經理: 您好!我最近在您的飯店用餐時遇到了一些問題。我想通過這封信向您反映一下。 首先,我對餐廳的服務態度感到非常不滿。當我點菜時,服務員的態度並不友好,總是顯得有些冷漠和不耐煩。他們似乎對我的需求沒有足夠的關注,甚至有時會對我提出一些不合理的建議或要求。 其次,我在用餐過程中也遇到了一些困擾。我發現有些菜品的味道並不符合我的口味,而且有些服務人員的服務態度也不夠熱情。這些都讓我感到很失望。 最後,我還注意到有一些環境問題。例如,餐廳的衛生狀況不佳,餐具和杯子經常被污染,這讓我感到非常不舒服。 我希望您能理解並採取措施來改善我們的用餐體驗。我相信,只要我們共同努力,我們的服務質量將會得到顯著提高。 再次感謝您抽出寶貴的時間閱讀這封信,並期待您的回复。 順祝商祺, [你的名字]
尊敬的飯店服務員: 您好!我最近在您的餐廳用餐時遇到了一些問題。我想通過您提出的問題和反饋,希望能夠得到您的理解和幫助。 首先,我想強調的是,我在用餐過程中並沒有感到不舒服或不滿。相反,我認為您的服務態度非常專業、熱情和友好。我注意到您對我們的食物和服務都非常關注,並且總是盡力提供最好的體驗。 然而,我也意識到,有時候我們可能會因為自己的需求或者環境而做出不恰當的行為。因此,我希望您能理解我的情況,並嘗試以一種更禮貌的方式表達您的觀點。 如果您需要更多的信息或者建議,我很願意聽取。我相信,只要我們共同努力,我們可以找到一個更好的解決方案。 再次感謝您的耐心傾聽和理解。我期待著您的回复。 謝謝! 祝商祺, [你的名字]