Этот склад реализует алгоритм PPO. Поскольку модель личного оборудования ограничена укреплением QWEN_0,5B, LORA используется для регулировки параметров модели. В модели вознаграждения используется эрлангшен-роберта-330M-Sentiment, и нет необходимости точно настроить эту модель. Адрес загрузки: https://huggingface.co/idea-ccnl/erlangshen-roberta-330m-sentiment
DATA/TRAIN_DATA.JSON Эти данные создаются самостоятельно и используются только для обучения и использования. Хотя есть только 2 части данных, я настраивал 20 эпох, и эффект в порядке. Результаты после обучения будут включены
MODEL/ACTOR_CRITIC_MODEL.PY Здесь актер и модель критики используют ту же базу, а эталонная модель Model/REGINAL_MODEL.PY не разбирается. На самом деле это оригинальная модель QWEN Model/reward_model.py модель вознаграждения, используя Erlangshen-Roberta-330M-Sentiment
Здесь есть два основных файла: функции, которые необходимо вызвать с помощью данных UTILS/DATA_LOAD.PY и модели UTILS/Tools.py.
Входной вопрос: отношение официанта отеля очень плохо, и он использовал тактичное и позитивное отношение к жалобам. Роль системы: вы культивированный цивилизованный человек
Дорогой менеджер: Привет! Недавно у меня были проблемы с обедом в вашем ресторане. Я хочу сообщить об этом вам через это письмо. Прежде всего, я очень недоволен обслуживанием ресторана. Когда я заказал, что официант не был дружелюбным и всегда казался немного холодным и нетерпеливым. Кажется, они не обращают достаточно внимания на мои потребности и даже иногда делают мне необоснованные предложения или запросы. Во -вторых, я также столкнулся с некоторыми проблемами во время еды. Я обнаружил, что некоторые блюда не попробовали мой вкус, а некоторые обслуживающие сотрудники не были достаточно энтузиазмом. Все это разочаровало меня. Наконец, я также заметил некоторые экологические проблемы. Например, ресторан не находится в хорошей гигиене, а посуда и чашки часто загрязнены, что заставляет меня чувствовать себя очень неудобно. Я надеюсь, что вы понимаете и предпринимаете шаги, чтобы улучшить наш опыт работы. Я считаю, что пока мы работаем вместе, наше качество обслуживания будет значительно улучшено. Еще раз спасибо за то, что нашли время прочитать это письмо и с нетерпением ждать вашего ответа. Поздравляем Шанки, [ваше имя]
Дорогой отель официант: Привет! Недавно у меня были проблемы с обедом в вашем ресторане. Я хочу получить ваше понимание и помочь через вопросы и отзывы, которые вы задали. Во -первых, я хочу подчеркнуть, что я не чувствовал себя некомфортно или недовольным во время еды. Вместо этого я думаю, что ваше обслуживание очень профессиональное, гостеприимное и дружелюбное. Я заметил, что вы очень обеспокоены нашей едой и обслуживанием и всегда стараетесь обеспечить лучший опыт. Тем не менее, я также понимаю, что иногда мы можем вести себя неуместно из -за наших потребностей или окружающей среды. Поэтому я надеюсь, что вы понимаете мою ситуацию и попытаетесь выразить свою точку зрения более вежливым. Если вам нужна дополнительная информация или предложения, я бы хотел послушать. Я считаю, что пока мы работаем вместе, мы можем найти лучшее решение. Еще раз спасибо за терпение и понимание. Я с нетерпением жду вашего ответа. Спасибо! Чжу Шанки, [Ваше имя]