คลังสินค้านี้ใช้อัลกอริทึม PPO เนื่องจากรูปแบบของฮาร์ดแวร์ส่วนบุคคล จำกัด การเสริมความแข็งแกร่งคือ QWEN_0.5B จึงใช้ LORA เพื่อปรับพารามิเตอร์โมเดล โมเดลรางวัลใช้ Erlangshen-Roberta-330m-sentiment และไม่จำเป็นต้องปรับแต่งโมเดลนี้ ดาวน์โหลดที่อยู่: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
data/train_data.json ข้อมูลนี้ถูกสร้างขึ้นด้วยตัวเองและใช้สำหรับการเรียนรู้และการใช้งานเท่านั้น แม้ว่าจะมีข้อมูลเพียง 2 ชิ้น แต่ฉันได้รับการปรับแต่ง 20 ครั้งและเอฟเฟกต์ก็โอเค ผลลัพธ์หลังจากการฝึกอบรมจะรวมอยู่ด้วย
Model/Actor_critic_model.py ที่นี่รูปแบบนักแสดงและนักวิจารณ์ใช้ฐานเดียวกันและโมเดลอ้างอิง Model/Reference_model.py ไม่ได้แยกชิ้นส่วน จริงๆแล้วมันเป็นรุ่น Qwen Model/rewurn reward_model.py โดยใช้ Erlangshen-Roberta-330m-sentiment
มีไฟล์หลักสองไฟล์ที่นี่ฟังก์ชั่นที่ต้องเรียกโดย UTILS/DATA_LOAD.PY LOAD DATA และรุ่น UTILS/TOOLS.PY
คำถามที่ป้อนเข้า: ทัศนคติของพนักงานเสิร์ฟในโรงแรมนั้นแย่เกินไปและเขาใช้ทัศนคติเชิงบวกและเชิงบวกในการบ่น บทบาทของระบบ: คุณเป็นคนที่มีอารยธรรมที่มีวัฒนธรรม
เรียนผู้จัดการ: สวัสดี! ฉันมีปัญหากับการรับประทานอาหารที่ร้านอาหารของคุณเมื่อเร็ว ๆ นี้ ฉันต้องการรายงานให้คุณผ่านจดหมายฉบับนี้ ก่อนอื่นฉันไม่พอใจมากกับทัศนคติการบริการของร้านอาหาร เมื่อฉันสั่งให้บริกรไม่เป็นมิตรและดูเหมือนจะหนาวและใจร้อนเล็กน้อย ดูเหมือนว่าพวกเขาจะไม่ให้ความสนใจกับความต้องการของฉันมากพอและบางครั้งก็ให้คำแนะนำที่ไม่มีเหตุผลหรือคำขอให้ฉัน ประการที่สองฉันยังพบปัญหาบางอย่างระหว่างมื้ออาหาร ฉันพบว่าอาหารบางจานไม่ได้ลิ้มรสรสนิยมของฉันและพนักงานบริการบางคนก็ไม่กระตือรือร้นพอ ทั้งหมดนี้ทำให้ฉันผิดหวัง ในที่สุดฉันก็สังเกตเห็นปัญหาสิ่งแวดล้อมบางอย่าง ตัวอย่างเช่นร้านอาหารไม่ได้อยู่ในสุขอนามัยที่ดีและเครื่องใช้บนโต๊ะอาหารและถ้วยมักจะปนเปื้อนซึ่งทำให้ฉันรู้สึกอึดอัดมาก ฉันหวังว่าคุณจะเข้าใจและทำตามขั้นตอนเพื่อปรับปรุงประสบการณ์การรับประทานอาหารของเรา ฉันเชื่อว่าตราบใดที่เราทำงานร่วมกันคุณภาพการบริการของเราจะดีขึ้นอย่างมาก ขอขอบคุณอีกครั้งที่สละเวลาอ่านจดหมายฉบับนี้และรอคอยที่จะตอบกลับ ขอแสดงความยินดีกับ Shangqi [ชื่อของคุณ]
เรียนบริกรโรงแรม: สวัสดี! ฉันมีปัญหากับการรับประทานอาหารที่ร้านอาหารของคุณเมื่อเร็ว ๆ นี้ ฉันต้องการได้รับความเข้าใจและช่วยเหลือผ่านคำถามและข้อเสนอแนะที่คุณถาม ก่อนอื่นฉันต้องการเน้นว่าฉันไม่รู้สึกอึดอัดหรือไม่พอใจในระหว่างมื้ออาหาร ฉันคิดว่าทัศนคติการบริการของคุณเป็นมืออาชีพต้อนรับและเป็นมิตร ฉันสังเกตเห็นว่าคุณกังวลมากเกี่ยวกับอาหารและบริการของเราและพยายามมอบประสบการณ์ที่ดีที่สุดเสมอ อย่างไรก็ตามฉันก็ตระหนักว่าบางครั้งเราอาจประพฤติตนไม่เหมาะสมเพราะความต้องการหรือสภาพแวดล้อมของเรา ดังนั้นฉันหวังว่าคุณจะเข้าใจสถานการณ์ของฉันและพยายามแสดงจุดของคุณอย่างสุภาพมากขึ้น หากคุณต้องการข้อมูลหรือข้อเสนอแนะเพิ่มเติมฉันชอบที่จะฟัง ฉันเชื่อว่าตราบใดที่เราทำงานร่วมกันเราสามารถหาทางออกที่ดีกว่าได้ ขอบคุณอีกครั้งสำหรับความอดทนและความเข้าใจ ฉันหวังว่าจะได้รับคำตอบจากคุณ ขอบคุณ! Zhu Shangqi, [ชื่อของคุณ]