Gudang ini mengimplementasikan algoritma PPO. Karena model perangkat keras pribadi terbatas pada penguatan adalah QWEN_0.5B, LORA digunakan untuk menyesuaikan parameter model. Model hadiah menggunakan penyentuhan Erlangshen-Roberta-330m, dan tidak perlu menyempurnakan model ini. Alamat unduhan: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-senttiment
Data/train_data.json Data ini dibuat sendiri dan hanya digunakan untuk belajar dan menggunakan. Meskipun hanya ada 2 potong data, saya menyempurnakan 20 zaman, dan efeknya OK. Hasilnya setelah pelatihan akan dimasukkan
model/actor_critic_model.py di sini aktor dan model kritik menggunakan basis yang sama, dan model referensi model/referensi_model.py tidak dibongkar. Ini sebenarnya adalah model qwen model asli/hadiah_model.py imbalan model, menggunakan erlangshen-roberta-330m-sentimen
Ada dua file utama di sini, fungsi yang perlu dipanggil oleh data utils/data_load.py load dan model utils/tools.py.
Pertanyaan input: Sikap pelayan hotel terlalu buruk, dan dia menggunakan sikap yang bijaksana dan positif untuk mengeluh. Peran Sistem: Anda adalah orang yang beradab yang berbudaya
Manajer yang terhormat: Halo! Saya punya beberapa masalah dengan makan di restoran Anda baru -baru ini. Saya ingin melaporkannya kepada Anda melalui surat ini. Pertama -tama, saya sangat tidak puas dengan sikap layanan restoran. Ketika saya memesan pelayan itu tidak ramah dan selalu tampak sedikit dingin dan tidak sabar. Mereka tampaknya tidak cukup memperhatikan kebutuhan saya dan bahkan kadang -kadang membuat beberapa saran atau permintaan yang tidak masuk akal kepada saya. Kedua, saya juga mengalami beberapa masalah selama makan. Saya menemukan bahwa beberapa hidangan tidak merasakan selera saya, dan beberapa staf layanan tidak cukup antusias. Semua ini mengecewakan saya. Akhirnya, saya juga melihat beberapa masalah lingkungan. Misalnya, restoran tidak dalam kebersihan yang baik dan peralatan makan dan cangkir sering terkontaminasi, yang membuat saya merasa sangat tidak nyaman. Saya harap Anda memahami dan mengambil langkah -langkah untuk meningkatkan pengalaman bersantap kami. Saya percaya bahwa selama kami bekerja bersama, kualitas layanan kami akan meningkat secara signifikan. Sekali lagi terima kasih telah meluangkan waktu untuk membaca surat ini dan menantikan balasan Anda. Selamat kepada Shangqi, [nama Anda]
Pelayan Hotel yang terhormat: Halo! Saya punya beberapa masalah dengan makan di restoran Anda baru -baru ini. Saya ingin mendapatkan pemahaman dan membantu melalui pertanyaan dan umpan balik yang Anda ajukan. Pertama, saya ingin menekankan bahwa saya tidak merasa tidak nyaman atau tidak puas selama makan. Sebaliknya, saya pikir sikap layanan Anda sangat profesional, ramah dan ramah. Saya perhatikan bahwa Anda sangat peduli dengan makanan dan layanan kami dan selalu berusaha memberikan pengalaman terbaik. Namun, saya juga menyadari bahwa kadang -kadang kita mungkin berperilaku tidak tepat karena kebutuhan atau lingkungan kita. Jadi saya harap Anda memahami situasi saya dan mencoba mengungkapkan maksud Anda dengan cara yang lebih sopan. Jika Anda membutuhkan informasi atau saran lebih lanjut, saya ingin mendengarkan. Saya percaya bahwa selama kita bekerja bersama, kita dapat menemukan solusi yang lebih baik. Sekali lagi terima kasih atas kesabaran dan pengertian Anda. Saya menantikan balasan Anda. Terima kasih! Zhu Shangqi, [namamu]