dialogue reinforce

Python 2025-07-26

通过增强学习培训聊天机器人模型

技术

  • 对话生成的深度加强学习

  • 神经对话模型的多样性目标函数

设置

为了更好地使用Parlai,我们可以更好地重复使用和模块化。

脚本可用于使环境在相应目录中的Linux和Windows上截然不同。

 ./linux/setup.sh

或者

 ./windows/setup.ps1

用法

要获得具有监督学习的初始模型,请运行train.shtrain.ps1脚本。在获得基于增强学习的微调的初始策略之后,以与预训练脚本相同的参数运行reinforce.shreinforce.ps1

 ./linux/train.sh --task dailydialog --model seq2seq
 ./linux/reinforce.sh --task dailydialog --model seq2seq

reinforce.sh将从默认checkpoints/<model_name>目录或可选的--model_file中提供的模型加载模型预训练的模型。

下载源码

通过命令行克隆项目:

git clone https://github.com/Mrpatekful/dialogue-reinforce.git