Cet entrepôt implémente l'algorithme PPO. Étant donné que le modèle de matériel personnel se limite au renforcement est QWEN_0.5B, LORA est utilisé pour ajuster les paramètres du modèle. Le modèle de récompense utilise Erlangshen-Roberta-330M-Sentiment, et il n'est pas nécessaire de réprimer ce modèle. Télécharger l'adresse: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
DATA / Train_data.json Ces données sont créées par vous-même et sont utilisées uniquement pour l'apprentissage et l'utilisation. Bien qu'il n'y ait que 2 éléments de données, j'ai affiné 20 époques et l'effet est OK. Les résultats après la formation seront inclus
Modèle / Actor_Critic_Model.py Ici, le modèle d'acteur et de critique utilise la même base, et le modèle de référence Model / Reference_Model.py n'est pas démonté. Il s'agit en fait du modèle de récompense de récompense QWen Modèle d'origine / Reward_Model.py, en utilisant Erlangshen-Roberta-330m-Sentiment
Il y a deux fichiers principaux ici, les fonctions qui doivent être appelées par les données de chargement utils / data_load.py et le modèle utils / outils.py.
La question de contribution: l'attitude du serveur de l'hôtel est trop mauvaise, et il a utilisé une attitude de tact et positive pour se plaindre. Rôle du système: vous êtes une personne civilisée cultivée
Cher manager: Bonjour! J'ai récemment eu des problèmes de restauration dans votre restaurant. Je veux vous le signaler via cette lettre. Tout d'abord, je suis très insatisfait de l'attitude de service du restaurant. Quand j'ai commandé, le serveur n'était pas amical et semblait toujours un peu froid et impatient. Ils ne semblent pas prêter suffisamment d'attention à mes besoins et même parfois me faire des suggestions ou des demandes déraisonnables. Deuxièmement, j'ai également rencontré des problèmes pendant le repas. J'ai trouvé que certains plats ne goûtent pas mon goût et que certains membres du personnel de service n'étaient pas assez enthousiastes. Tout cela m'a déçu. Enfin, j'ai également remarqué des problèmes environnementaux. Par exemple, le restaurant n'est pas en bonne hygiène et la vaisselle et les tasses sont souvent contaminées, ce qui me met très mal à l'aise. J'espère que vous comprenez et prenez des mesures pour améliorer notre expérience culinaire. Je crois que tant que nous travaillons ensemble, notre qualité de service sera considérablement améliorée. Merci encore d'avoir pris le temps de lire cette lettre et d'attendre votre réponse avec impatience. Félicitations à Shangqi, [votre nom]
Cher serveur d'hôtel: Bonjour! J'ai récemment eu des problèmes de restauration dans votre restaurant. Je veux obtenir votre compréhension et votre aide à travers les questions et les commentaires que vous avez posés. Tout d'abord, je tiens à souligner que je ne me sentais pas mal à l'aise ou insatisfait pendant le repas. Au lieu de cela, je pense que votre attitude de service est très professionnelle, accueillante et amicale. J'ai remarqué que vous êtes très préoccupé par notre nourriture et notre service et que vous essayez toujours de offrir la meilleure expérience. Cependant, je me rends également compte que parfois nous pouvons nous comporter de manière inappropriée en raison de nos besoins ou de notre environnement. J'espère donc que vous comprenez ma situation et essayez d'exprimer votre point de manière plus polie. Si vous avez besoin de plus d'informations ou de suggestions, j'aimerais écouter. Je crois que tant que nous travaillons ensemble, nous pouvons trouver une meilleure solution. Merci encore pour votre patience et votre compréhension. J'attends avec impatience votre réponse. Merci! Zhu Shangqi, [Votre nom]