Dieses Lagerhaus implementiert den PPO -Algorithmus. Da das Modell der persönlichen Hardware auf die Stärkung beschränkt ist, ist QWEN_0.5B, LORA wird verwendet, um die Modellparameter anzupassen. Das Belohnungsmodell verwendet Erlangshen-Roberta-330m-Sentiment, und es besteht keine Notwendigkeit, dieses Modell zu optimieren. Download-Adresse: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
Daten/Train_data.json Diese Daten werden von Ihnen selbst erstellt und werden nur zum Lernen und Gebrauch verwendet. Obwohl es nur 2 Datenstücke gibt, habe ich 20 Epochen fein abgestimmt, und der Effekt ist in Ordnung. Die Ergebnisse nach dem Training werden enthalten
Modell/actor_critic_model.py Hier verwendet der Schauspieler und das Kritiker die gleiche Basis, und das Modell/Referenz_Model.py -Referenzmodell wird nicht zerlegt. Es ist eigentlich das ursprüngliche QWEN-Modellmodell/belohnung_model.py-Belohnungsmodell mit Erlangshen-Roberta-330m-Sentiment
Hier gibt es zwei Hauptdateien, die Funktionen, die von den Daten von utils/data_load.py aufgerufen werden müssen, und das Modell utils/Tools.py.
Die Input -Frage: Die Einstellung des Hotelkellners ist zu schade, und er hat eine taktvolle und positive Einstellung verwendet, um sich zu beschweren. Systemrolle: Sie sind eine kultivierte zivilisierte Person
Lieber Manager: Hallo! Ich hatte kürzlich einige Probleme mit dem Essen in Ihrem Restaurant. Ich möchte es Ihnen in diesem Brief melden. Zunächst bin ich mit der Serviceeinstellung des Restaurants sehr unzufrieden. Als ich bestellte, war der Kellner nicht freundlich und schien immer ein wenig kalt und ungeduldig zu sein. Sie scheinen meinen Bedürfnissen nicht genug Aufmerksamkeit zu schenken und machen mir manchmal einige unangemessene Vorschläge oder Anfragen. Zweitens habe ich auch während des Essens einige Probleme gestoßen. Ich fand, dass einige Gerichte meinen Geschmack nicht schmeckten und einige Servicepersonal nicht enthusiastisch genug waren. All dies hat mich enttäuscht. Schließlich bemerkte ich auch einige Umweltprobleme. Zum Beispiel ist das Restaurant nicht in guter Hygiene und das Tabellengeschirr und die Becher sind oft kontaminiert, wodurch ich mich sehr unwohl fühlt. Ich hoffe, Sie verstehen und unternehmen Schritte, um unser Essenserlebnis zu verbessern. Ich glaube, solange wir zusammenarbeiten, wird unsere Servicequalität erheblich verbessert. Nochmals vielen Dank, dass Sie sich die Zeit genommen haben, diesen Brief zu lesen und sich auf Ihre Antwort zu freuen. Herzlichen Glückwunsch an Shangqi, [Ihr Name]
Lieber Hotel Kellner: Hallo! Ich hatte kürzlich einige Probleme mit dem Essen in Ihrem Restaurant. Ich möchte durch die von Ihnen gestellten Fragen und Feedback Ihr Verständnis und Hilfe erhalten. Erstens möchte ich betonen, dass ich mich während des Essens nicht unangenehm oder unzufrieden fühlte. Stattdessen denke ich, dass Ihre Service -Haltung sehr professionell, einladend und freundlich ist. Ich habe festgestellt, dass Sie sehr besorgt über unser Essen und unseren Service sind und immer versuchen, die beste Erfahrung zu bieten. Mir ist jedoch auch klar, dass wir uns manchmal aufgrund unserer Bedürfnisse oder unserer Umgebung unangemessen verhalten können. Ich hoffe, Sie verstehen meine Situation und versuchen, Ihren Standpunkt höflicher auszudrücken. Wenn Sie weitere Informationen oder Vorschläge benötigen, würde ich gerne zuhören. Ich glaube, solange wir zusammenarbeiten, können wir eine bessere Lösung finden. Nochmals vielen Dank für Ihre Geduld und Ihr Verständnis. Ich freue mich auf Ihre Antwort. Danke! Zhu Shangqi, [dein Name]