이 창고는 PPO 알고리즘을 구현합니다. 개인 하드웨어 모델은 강화로 제한되므로 LORA는 모델 매개 변수를 조정하는 데 사용됩니다. 보상 모델은 Erlangshen-Roberta-330m-sentiment를 사용 하며이 모델을 미세 조정할 필요가 없습니다. 다운로드 주소 : https://huggingface.co/idea-ccnl/erlangshen-broberta-330m-sentiment
Data/Train_data.json이 데이터는 직접 작성되며 학습 및 사용에만 사용됩니다. 데이터는 2 개 뿐이지 만 20 개의 에포크를 미세 조정했으며 그 효과는 괜찮습니다. 훈련 후 결과가 포함됩니다
Model/Actor_critic_model.py 여기서 액터와 비평가 모델은 동일한 기반을 사용하며 Model/Reference_Model.py 참조 모델은 분해되지 않습니다. 실제로 Erlangshen-Roberta-330m-sentiment를 사용하여 원래 Qwen 모델/reward_model.py 보상 모델입니다.
여기에는 Utils/data_load.py로드 데이터가 호출 해야하는 기능과 Utils/Tools.py 모델에 의해 호출되어야하는 두 가지 주요 파일이 있습니다.
입력 질문 : 호텔 웨이터의 태도는 너무 나쁘고, 그는 재치 있고 긍정적 인 태도를 사용하여 불평을했습니다. 시스템 역할 : 당신은 교양 문명인입니다
친애하는 관리자 : 안녕하세요! 최근에 식당에서 식사하는 데 문제가있었습니다. 이 편지를 통해 당신에게보고하고 싶습니다. 우선, 나는 식당의 서비스 태도에 매우 불만족합니다. 내가 주문했을 때 웨이터는 친절하지 않았으며 항상 조금 춥고 참을성이 없었습니다. 그들은 내 필요에 충분히주의를 기울이지 않고 때로는 불합리한 제안이나 요청을합니다. 둘째, 식사 중에 몇 가지 문제가 발생했습니다. 나는 일부 요리가 내 취향을 맛보지 않았고 일부 서비스 직원은 충분히 열성적이지 않다는 것을 알았습니다. 이 모든 것이 나를 실망시켰다. 마지막으로, 나는 또한 몇 가지 환경 문제를 발견했습니다. 예를 들어, 식당은 위생이 좋지 않으며 식기와 컵은 종종 오염되어 매우 불편하다고 느낍니다. 나는 당신이 우리의 식사 경험을 향상시키기 위해 이해하고 조치를 취하기를 바랍니다. 함께 일하는 한 서비스 품질이 크게 향상 될 것이라고 생각합니다. 시간을 내어이 편지를 읽고 답장을 기대해 주셔서 다시 한번 감사드립니다. Shangqi에게 축하합니다, [당신의 이름]
친애하는 호텔 웨이터 : 안녕하세요! 최근에 식당에서 식사하는 데 문제가있었습니다. 나는 당신이 요청한 질문과 피드백을 통해 당신의 이해와 도움을 받고 싶습니다. 먼저, 식사 중에 불편하거나 불만을 느끼지 않았다는 것을 강조하고 싶습니다. 대신, 당신의 서비스 태도는 매우 전문적이고 환영하며 친절하다고 생각합니다. 나는 당신이 우리의 음식과 서비스에 대해 매우 우려하고 항상 최고의 경험을 제공하려고 노력한다는 것을 알았습니다. 그러나 나는 또한 때때로 우리의 요구 나 환경 때문에 부적절하게 행동 할 수 있다는 것을 알고 있습니다. 그래서 나는 당신이 내 상황을 이해하고 당신의 요점을보다 예의 바르게 표현하려고 노력하기를 바랍니다. 더 많은 정보 나 제안이 필요하면 듣고 싶습니다. 나는 우리가 함께 일하는 한 더 나은 솔루션을 찾을 수 있다고 생각합니다. 인내와 이해에 다시 한 번 감사드립니다. 나는 당신의 답변을 기대합니다. 감사해요! Zhu Shangqi, [당신의 이름]