この倉庫は、PPOアルゴリズムを実装します。パーソナルハードウェアのモデルは強化に限定されているため、QWEN_0.5Bであるため、LORAはモデルパラメーターを調整するために使用されます。報酬モデルでは、erlangshen-roberta-330m-sentimentを使用しており、このモデルを微調整する必要はありません。アドレスをダウンロード:https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
data/train_data.jsonこのデータは自分で作成され、学習と使用にのみ使用されます。データは2つしかありませんが、20個のエポックを微調整しましたが、その効果は問題ありません。トレーニング後の結果が含まれます
Model/Actor_critic_model.pyここでは、アクターと批評家モデルが同じベースを使用し、Model/Reference_Model.pyリファレンスモデルは分解されません。実際には、erlangshen-roberta-330m-sentimentを使用して、元のqwenモデルモデル/reward_model.py報酬モデルです
ここには、UTILS/DATA_LOAD.PYロードデータとUTILS/Tools.pyモデルによって呼び出される必要がある関数の2つの主要なファイルがあります。
入力の質問:ホテルウェイターの態度はあまりにも悪いものであり、彼は不平を言うために巧妙で前向きな態度を使用しました。システムの役割:あなたは文化的な文明の人です
親愛なるマネージャー:こんにちは!私は最近あなたのレストランで食事をすることにいくつかの問題がありました。この手紙を通してそれを報告したいと思います。まず第一に、私はレストランの奉仕態度に非常に不満です。私が注文したとき、ウェイターはフレンドリーではなく、いつも少し寒くて焦りがあるように見えました。彼らは私のニーズに十分な注意を払っていないようであり、時には私に不合理な提案や要求をすることもあります。第二に、私は食事中にいくつかのトラブルに遭遇しました。一部の料理は私の好みを味わわず、一部のサービススタッフは熱心ではないことがわかりました。これらはすべて私を失望させました。最後に、いくつかの環境問題にも気付きました。たとえば、レストランは衛生状態にあり、食器やカップはしばしば汚染されているため、非常に不快に感じます。私たちの食事体験を改善するための措置を講じて、あなたが理解し、措置を講じることを願っています。私たちが協力している限り、私たちのサービス品質は大幅に改善されると思います。この手紙を読んで、あなたの返事を楽しみにしてくれてありがとう。 Shangqiにおめでとう、[あなたの名前]
親愛なるホテルウェイター:こんにちは!私は最近あなたのレストランで食事をすることにいくつかの問題がありました。あなたが尋ねた質問とフィードバックを通して、あなたの理解と助けを得たいです。まず、食事中に不快感や不満を感じなかったことを強調したいと思います。代わりに、あなたのサービス態度は非常にプロフェッショナルで、歓迎的でフレンドリーだと思います。私はあなたが私たちの食べ物とサービスに非常に心配していることに気づき、常に最高の体験を提供しようとしています。しかし、私は時々、私たちのニーズや環境のために不適切に振る舞うかもしれないことを認識しています。ですから、あなたが私の状況を理解し、より丁寧な方法であなたの主張を表現しようとすることを願っています。より多くの情報や提案が必要な場合は、聞きたいです。私たちが協力している限り、より良い解決策を見つけることができると思います。あなたの忍耐と理解をもう一度ありがとうございます。ご返信をお待ちしております。ありがとう! Zhu Shangqi、[あなたの名前]