هذا المستودع ينفذ خوارزمية PPO. نظرًا لأن نموذج الأجهزة الشخصية يقتصر على التقوية هو QWEN_0.5B ، يتم استخدام Lora لضبط معلمات النموذج. يستخدم نموذج المكافآت Erlangshen-Roberta-330m-Sentiment ، وليس هناك حاجة لضبط هذا النموذج. تنزيل عنوان: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
Data/Train_Data.json يتم إنشاء هذه البيانات من قبل نفسك وتستخدم فقط للتعلم والاستخدام. على الرغم من وجود قطعتين فقط من البيانات ، إلا أنني قمت بتعيين 20 عصرًا ، والتأثير على ما يرام. سيتم تضمين النتائج بعد التدريب
Model/ACTOR_CRITIC_MODEL.PY هنا يستخدم الممثل والناقد نفس القاعدة ، ولا يتم تفكيك نموذج مرجع النموذج/reference_model.py. إنه في الواقع نموذج مكافأة طراز Qwen الأصلي
هناك ملفان رئيسيان هنا ، الوظائف التي تحتاج إلى استدعاءها بواسطة بيانات تحميل utils/data_load.py ونموذج utils/tools.py.
سؤال الإدخال: موقف نادل الفندق سيء للغاية ، وقد استخدم موقفًا إيجابيًا وإيجابيًا للشكوى. دور النظام: أنت شخص متحضر مثقف
عزيزي المدير: مرحبا! لقد واجهت بعض المشاكل مع تناول الطعام في مطعمك مؤخرًا. أريد أن أبلغكم من خلال هذه الرسالة. بادئ ذي بدء ، أنا غير راضٍ جدًا عن موقف الخدمة للمطعم. عندما أمرت أن النادل لم يكن ودودًا وبدا دائمًا بارد وصبر. لا يبدو أنهم يوليون اهتمامًا كافيًا لاحتياجاتي ، وحتى في بعض الأحيان يقدمون بعض الاقتراحات أو الطلبات غير المعقولة لي. ثانياً ، واجهت أيضًا بعض المشاكل أثناء الوجبة. لقد وجدت أن بعض الأطباق لم تتذوق ذوقي ، وأن بعض موظفي الخدمة لم يكونوا متحمسين بما فيه الكفاية. كل هؤلاء بخيبة أملني. أخيرًا ، لاحظت أيضًا بعض المشكلات البيئية. على سبيل المثال ، لا يكون المطعم في نظافة جيدة ، وغالبًا ما تكون أدوات المائدة والكؤوس ملوثة ، مما يجعلني أشعر بعدم الارتياح. أتمنى أن تفهم واتخاذ خطوات لتحسين تجربة تناول الطعام لدينا. أعتقد أنه طالما أننا نعمل معًا ، سيتم تحسين جودة خدمتنا بشكل كبير. شكرا لك مرة أخرى لأخذ الوقت الكافي لقراءة هذه الرسالة والتطلع إلى ردكم. مبروك لشانجكي ، [اسمك]
عزيزي نادل الفندق: مرحبا! لقد واجهت بعض المشاكل مع تناول الطعام في مطعمك مؤخرًا. أريد أن أحصل على فهمك والمساعدة من خلال الأسئلة والتعليقات التي طرحتها. أولاً ، أود أن أؤكد أنني لم أشعر بعدم الارتياح أو غير راضٍ أثناء الوجبة. بدلاً من ذلك ، أعتقد أن موقف خدمتك محترف للغاية ومرحبة وودية. لقد لاحظت أنك قلق للغاية بشأن طعامنا وخدمتنا ومحاولة دائمًا توفير أفضل تجربة. ومع ذلك ، أدرك أيضًا أنه في بعض الأحيان قد نتصرف بشكل غير لائق بسبب احتياجاتنا أو بيئتنا. لذلك آمل أن تفهم وضعي وأن تحاول التعبير عن وجهة نظرك بطريقة أكثر مهذباً. إذا كنت بحاجة إلى مزيد من المعلومات أو الاقتراحات ، أحب الاستماع. أعتقد أنه طالما أننا نعمل معًا ، يمكننا العثور على حل أفضل. شكرا لك مرة أخرى لصبرك وتفهمك. إنني أتطلع إلى ردكم. شكرًا! Zhu Shangqi ، [اسمك]