Este armazém implementa o algoritmo PPO. Como o modelo de hardware pessoal é limitado ao fortalecimento é QWEN_0.5B, o Lora é usado para ajustar os parâmetros do modelo. O modelo de recompensa usa o senso de Erlangshen-Roberta-330m e não há necessidade de ajustar esse modelo. Endereço para download: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
Data/Train_Data.json Esses dados são criados por você mesmo e são usados apenas para aprender e usar. Embora existam apenas 2 dados, eu ajustei 20 épocas e o efeito é bom. Os resultados após o treinamento serão incluídos
Model/ator_critic_model.py Aqui o modelo de ator e crítico usa a mesma base, e o modelo de referência Model/Reference_model.py não é desmontado. Na verdade, é o modelo de recompensa do modelo QWEN original/recompensa_model.py, usando Erlangshen-Roberta-330m-Sentimento
Existem dois arquivos principais aqui, as funções que precisam ser chamadas pelos dados Utils/data_load.py de carga e o modelo Utils/Tools.py.
A pergunta de entrada: a atitude do garçom do hotel é muito ruim e ele usou uma atitude tutiva e positiva para reclamar. Função do sistema: você é uma pessoa civilizada cultivada
Caro gerente: Olá! Recentemente, tive alguns problemas com o jantar no seu restaurante. Eu quero relatar isso a você através desta carta. Primeiro de tudo, estou muito insatisfeito com a atitude de serviço do restaurante. Quando pedi, o garçom não era amigável e sempre parecia um pouco frio e impaciente. Eles não parecem prestar atenção suficiente às minhas necessidades e, às vezes, fazem algumas sugestões ou solicitações irracionais para mim. Em segundo lugar, também encontrei alguns problemas durante a refeição. Descobri que alguns pratos não provaram meu gosto, e alguns funcionários de serviço não estavam entusiasmados o suficiente. Tudo isso me decepcionou. Finalmente, também notei alguns problemas ambientais. Por exemplo, o restaurante não está em boa higiene e os utensílios de mesa e copos geralmente estão contaminados, o que me deixa muito desconfortável. Espero que você entenda e tome medidas para melhorar nossa experiência gastronômica. Acredito que, enquanto trabalharmos juntos, nossa qualidade de serviço será significativamente melhorada. Obrigado novamente por reservar um tempo para ler esta carta e aguardar sua resposta. Parabéns a Shangqi, [seu nome]
Caro garçom de hotel: Olá! Recentemente, tive alguns problemas com o jantar no seu restaurante. Quero obter sua compreensão e ajuda nas perguntas e feedback que você fez. Primeiro, quero enfatizar que não me senti desconfortável ou insatisfeito durante a refeição. Em vez disso, acho que sua atitude de serviço é muito profissional, acolhedora e amigável. Percebi que você está muito preocupado com nossa comida e serviço e sempre tenta proporcionar a melhor experiência. No entanto, também percebo que às vezes podemos nos comportar de maneira inadequada por causa de nossas necessidades ou ambiente. Espero que você entenda minha situação e tente expressar seu ponto de uma maneira mais educada. Se você precisar de mais informações ou sugestões, eu adoraria ouvir. Acredito que, enquanto trabalharmos juntos, podemos encontrar uma solução melhor. Obrigado novamente por sua paciência e compreensão. Estou ansioso pela sua resposta. Obrigado! Zhu Shangqi, [seu nome]