Este almacén implementa el algoritmo PPO. Dado que el modelo de hardware personal se limita al fortalecimiento es QWEN_0.5B, Lora se usa para ajustar los parámetros del modelo. El modelo de recompensa utiliza el sentimiento Erlangshen-Roberta-330m, y no hay necesidad de ajustar este modelo. Dirección de descarga: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
Data/Train_data.json Estos datos son creados por usted y solo se usan para aprender y usar. Aunque solo hay 2 datos, ajusté 20 épocas, y el efecto está bien. Se incluirán los resultados después del entrenamiento
Model/actor_critic_model.py Aquí el modelo de actor y crítico usa la misma base, y el modelo de referencia modelo/reference_model.py no se desmonta. En realidad, es el modelo original QWen Model/recompensas_model.py Modelo, utilizando Erlangshen-Roberta-330m-Sentiment
Aquí hay dos archivos principales, las funciones que deben llamarse los datos de carga Utils/Data_Load.py y el modelo Utils/Tools.py.
La pregunta de entrada: la actitud del camarero del hotel es una lástima, y utilizó una actitud de tacto y positiva para quejarse. Rol de sistema: usted es una persona civilizada culta
Estimado gerente: ¡Hola! He tenido algunos problemas con cenar en su restaurante recientemente. Quiero informarlo a través de esta carta. En primer lugar, estoy muy insatisfecho con la actitud de servicio del restaurante. Cuando ordené que el camarero no era amigable y siempre parecía un poco frío e impaciente. Parece que no prestan suficiente atención a mis necesidades e incluso a veces, a veces me hacen algunas sugerencias o solicitudes irrazonables. En segundo lugar, también encontré algunos problemas durante la comida. Descubrí que algunos platos no sabían mi gusto, y algunos empleados de servicio no estaban lo suficientemente entusiastas. Todo esto me decepcionó. Finalmente, también noté algunos problemas ambientales. Por ejemplo, el restaurante no está en buena higiene y la vajilla y las tazas a menudo están contaminadas, lo que me hace sentir muy incómodo. Espero que comprenda y tome medidas para mejorar nuestra experiencia gastronómica. Creo que mientras trabajemos juntos, nuestra calidad de servicio mejorará significativamente. Gracias nuevamente por tomarse el tiempo de leer esta carta y esperar su respuesta. Felicitaciones a Shangqi, [tu nombre]
Querido camarero del hotel: ¡Hola! He tenido algunos problemas con cenar en su restaurante recientemente. Quiero obtener su comprensión y ayuda a través de las preguntas y comentarios que hizo. Primero, quiero enfatizar que no me sentí incómodo o insatisfecho durante la comida. En cambio, creo que su actitud de servicio es muy profesional, acogedora y amigable. Noté que está muy preocupado por nuestra comida y servicio y siempre trate de proporcionar la mejor experiencia. Sin embargo, también me doy cuenta de que a veces podemos comportarse de manera inapropiada debido a nuestras necesidades o entorno. Así que espero que entiendas mi situación e intentes expresar tu punto de una manera más educada. Si necesita más información o sugerencias, me encantaría escuchar. Creo que mientras trabajemos juntos, podemos encontrar una mejor solución. Gracias nuevamente por su paciencia y comprensión. Espero su respuesta. ¡Gracias! Zhu shangqi, [tu nombre]