cakechat下载cakechat源代码下载

cakechat

其他源码

v2.0.1

下载

顶部注意：该项目不太好。

基于变压器的对话框模型更好，我们建议使用它们代替基于RNN的Cakechat。请参阅，例如https://github.com/microsoft/dialogpt

Cakechat：情感生成对话系统

Cakechat是能够通过对话表达情绪的聊天机器人的后端。

Cakechat代表

Cakechat建立在Keras和Tensorflow上。

该代码是灵活的，可以通过任意的分类变量来调节模型的响应。例如，您可以训练自己的基于角色的神经对话模型^[1]或创建情感聊天机^[2] 。

主要要求

Python 3.5.2
TensorFlow 1.12.2
Keras 2.2.4

网络架构和功能
快速开始
培训和测试的设置
1. Docker
  1. 仅CPU设置
  2. 启用GPU的设置
2. 手动设置
获得预训练的模型
培训数据
训练模型
1. 微调数据的预训练模型
2. 从头开始训练模型
3. 分布式火车
4. 验证指标计算
5. 测试训练有素的模型
运行Cakechat服务器
1. 本地HTTP服务器
  1. HTTP服务器API描述
2. gunicorn http-server
3. 电报机器人
存储库概述
1. 重要工具
2. 重要的配置设置
示例用例
参考
学分和支持
执照

网络架构和功能

网络架构

模型：

用于处理深度对话框上下文的层次复发编码器（HRED）架构^[3] 。
具有GRU细胞的多层RNN。话语级编码器的第一层始终是双向的。默认情况下，在推断期间，使用Cudnngru实现用于约25％的加速度。
在每个解码步骤中，思想向量被馈入解码器。
解码器可以在任何分类标签上进行条件，例如情感标签或角色ID。

单词嵌入层：

可以使用在您的语料库上训练的W2V模型初始化。
嵌入层可以与网络的其他权重进行固定或微调。

解码

4不同的响应生成算法：“采样”，“ BeamSearch”，“采样秩”和“ BeamSearch-Ranking”。生成的候选者的重新疗法是根据对数似然或MMi标准进行的^[4] 。有关详细信息，请参见配置设置说明。

指标：

困惑
n-gram不同的指标调整为样品大小^[4] 。
模型样本与一些固定数据集之间的词汇相似性。词汇相似性是模型产生的响应的TF-IDF向量与数据集中的令牌之间的余弦距离。
排名指标：平均平均精度和平均召回@k。 ^[5]

快速开始

如果您熟悉Docker，这是运行预先训练的CakeChat模型作为服务器的最简单方法。您可能需要使用sudo运行以下命令。

CPU版本：

 docker pull lukalabs/cakechat:latest && 

docker run --name cakechat-server -p 127.0.0.1:8080:8080 -it lukalabs/cakechat:latest bash -c "python bin/cakechat_server.py"

GPU版本：

 docker pull lukalabs/cakechat-gpu:latest && 

nvidia-docker run --name cakechat-gpu-server -p 127.0.0.1:8080:8080 -it lukalabs/cakechat-gpu:latest bash -c "CUDA_VISIBLE_DEVICES=0 python bin/cakechat_server.py"

就是这样！现在，通过在主机计算机上运行以下命令来测试您的Cakechat服务器：

 python tools/test_api.py -f localhost -p 8080 -c "hi!" -c "hi, how are you?" -c "good!" -e "joy"

响应可能看起来像这样：

 {'response': "I'm fine!"}

培训和测试的设置

Docker

Docker是设置环境并安装所有依赖性培训和测试的最简单方法。

仅CPU设置

注意：我们强烈建议使用支持GPU的环境进行培训Cakechat模型。可以在GPU和CPU上进行推断。

安装Docker。
从Dockerhub汲取仅CPU的Docker映像：

 docker pull lukalabs/cakechat:latest

在仅CPU环境中运行Docker容器：

 docker run --name <YOUR_CONTAINER_NAME> -it lukalabs/cakechat:latest

启用GPU的设置

安装NVIDIA-DOCKER以进行GPU支持。
从Dockerhub拉出启用GPU的Docker映像：

 docker pull lukalabs/cakechat-gpu:latest

在启用GPU的环境中运行Docker容器：

 nvidia-docker run --name <YOUR_CONTAINER_NAME> -it cakechat-gpu:latest

就是这样！现在，您可以训练模型并与之聊天。有关更多说明，请参见下面的相应部分。

手动设置

如果您不想处理Docker，则可以手动安装所有要求：

 pip install -r requirements.txt -r requirements-local.txt

NB：

我们建议在VirtualEnv中安装要求，以防止与系统软件包混乱。

获得预训练的模型

您可以通过运行python tools/fetch.py下载我们的预训练模型权重。

预训练模型的参数如下：

上下文尺寸3 （<spearder_1_utterance>，<speaker_2_utterance>，<speaker_1_utterance>）
每个编码的话语最多包含30个令牌
解码的话语最多包含32个令牌
编码器和解码器都有2个GRU层，每个层都有768个隐藏单元
编码器的第一层是双向的

培训数据

该模型在具有约5000万个对话框（11GB的文本数据）的预处理Twitter语料库上进行了培训。为了清理语料库，我们删除了

URL，转发和引用；
提到和主题标签之前没有常规单词或标点符号；
包含30多个令牌的消息。

我们使用情绪分类器将每种话语用以下5种情感之一标记： "neutral", "joy", "anger", "sadness", "fear" ，并在训练过程中使用了这些标签。用您可以使用的情绪来标记自己的语料库，例如DeepMoji工具。

不幸的是，由于Twitter的隐私政策，我们不允许我们提供数据集。您可以在可用的任何文本对话数据集上训练对话框模型，可以在此处找到现有的对话数据集的概念：https：//breakend.github.io/dialogdatasets/

培训数据应该是一个TXT文件，其中每行是有效的JSON对象，代表对话框的列表。请参阅我们的虚拟火车数据集以查看必要的文件结构。培训前，用您的数据替换此虚拟语料库。

训练模型

有两个选择：

从头开始训练
微调提供的训练有素的模型

第一种方法不太限制：您可以使用所需的任何培训数据并设置模型的任何配置参数。但是，您应该知道，您需要足够的火车数据（至少约50MB），一个或多个GPU和足够的耐心（天）才能获得好模型的回复。

第二种方法受到预训练模型的配置参数的选择限制 - 有关完整列表，请参见cakechat/config.py 。如果默认参数适合您的任务，则应该是一个不错的选择。

微调数据的预训练模型

通过运行python tools/fetch.py从Amazon S3获取预训练的模型。
将您的培训文本语料库放入data/corpora_processed/train_processed_dialogs.txt 。确保您的数据集足够大，否则您的模型风险超过数据，结果将很差。
运行python tools/train.py 。
1. 该脚本将在results/nn_models中查找预训练的模型权重，从配置参数集推断出完整的路径。
2. 如果要从自定义文件初始化模型权重，可以通过-i参数指定文件的路径，例如， python tools/train.py -i results/nn_models/my_saved_weights/model.current 。
3. 如果要使用GPU，请不要忘记设置CUDA_VISIBLE_DEVICES=<GPU_ID>环境变量（如NVIDIA-SMI命令的输出）。例如， CUDA_VISIBLE_DEVICES=0 python tools/train.py将在第0- gpu上运行火车过程。
4. 使用参数-s在训练数据的第一个n样本的子集上训练模型，以加快调试预处理的速度。例如，运行python tools/train.py -s 1000来训练前1000个样本。

训练有素的模型的权重将其保存到results/nn_models/ 。

从头开始训练模型

将您的培训文本语料库放入data/corpora_processed/train_processed_dialogs.txt 。
在cakechat/config.py中设置培训参数。有关更多详细信息，请参见配置设置说明。
考虑运行PYTHONHASHSEED=42 python tools/prepare_index_files.py以使用培训语料库中的令牌和条件构建索引文件。确保设置PYTHONHASHSEED环境变量，否则，您可能会获得脚本不同启动的不同索引文件。警告：此脚本覆盖原始令牌索引文件data/tokens_index/t_idx_processed_dialogs.json和data/conditions_index/c_idx_processed_dialogs.json 。您只能运行此脚本，以防您的语料库足够大，可以包含您希望模型理解的所有单词。否则，请考虑如上所述对预训练的模型进行微调。如果您弄乱了索引文件并想要获取默认版本，请删除您的副本并运行python tools/fetch.py 。
考虑运行python tools/train_w2v.py来构建培训语料库的W2V嵌入。警告：此脚本覆盖存储在data/w2v_models中的原始W2V权重。您只能运行此脚本，以防您的语料库足够大，可以包含您希望模型理解的所有单词。否则，请考虑如上所述对预训练的模型进行微调。如果您弄乱了W2V文件并想要获取默认版本，请删除文件复制并运行python tools/fetch.py 。
运行python tools/train.py 。
1. 如果要使用GPU，请不要忘记设置CUDA_VISIBLE_DEVICES=<GPU_ID>环境变量（如NVIDIA-SMI命令的输出）。例如， CUDA_VISIBLE_DEVICES=0 python tools/train.py将在第0- gpu上运行火车过程。
2. 使用参数-s在训练数据的第一个n样本的子集上训练模型，以加快调试预处理的速度。例如，运行python tools/train.py -s 1000来训练前1000个样品。
您还可以设置IS_DEV=1来启用“开发模式”。它使用减少数量的模型参数（降低隐藏层尺寸，令牌序列的输入和输出大小等）并执行冗长的记录。有关DEV参数的完整列表，请参阅cakechat/config.py的底线。

训练有素的模型的权重将其保存到results/nn_models/ 。

分布式火车

启用GPU的Docker容器支持使用HOROVOD在多个GPU上的分布式火车。

例如，运行python tools/distributed_train.py -g 0 1开始在0和1 GPU上训练。

验证指标计算

在培训期间，以下数据集用于验证指标计算：

data/corpora_processed/val_processed_dialogs.txt （虚拟示例，用数据替换） - 对于上下文敏感数据集
data/quality/context_free_validation_set.txt - 用于无上下文验证数据集
data/quality/context_free_questions.txt - 用于生成用于记录和计算不同的响应的响应
data/quality/context_free_test_set.txt - 用于计算训练模型的指标，例如排名指标

将指标存储到cakechat/results/tensorboard ，可以使用张板可视化。如果您从提供的CPU或启用GPU的Docker映像运行Docker容器，则Tensorboard Server应自动启动并在http://localhost:6006上使用。在浏览器中打开此链接以查看培训图。

如果您手动安装要求，请首先从CakeChat root Directory运行以下命令：

 mkdir -p results/tensorboard && tensorboard --logdir=results/tensorboard 2>results/tensorboard/err.log &

之后，继续访问http://localhost:6006 。

测试训练有素的模型

您可以运行以下工具来评估训练有素的测试数据模型（虚拟示例，用数据替换）：

tools/quality/ranking_quality.py - 计算对话模型的排名指标
tools/quality/prediction_distinctness.py - 计算对话框模型的不同计量
tools/quality/condition_quality.py - 根据条件值计算不同数据子集的指标
tools/generate_predictions.py - 评估模型。在给定的对话框上下文集合中生成对话模型的预测，然后计算指标。请注意，如果要使用“*reranking”预测模式， data/nn_models目录中应该具有反向模型
tools/generate_predictions_for_condition.py - 生成给定条件值的预测

运行Cakechat服务器

本地HTTP服务器

运行一个服务器，该服务器使用给定的输入消息处理HTTP-重新要求，并从模型中返回响应消息：

 python bin/cakechat_server.py

指定CUDA_VISIBLE_DEVICES=<GPU_ID>环境变量可在某个GPU上运行服务器。

如果要使用我们的预训练模型，请不要忘记在启动服务器之前运行python tools/fetch.py 。

为确保一切正常，请在以下对话中测试模型

- 嗨，埃迪，怎么了？
- 不多，你呢？
- 很好，谢谢。你明天要去电影吗？

通过运行命令：

 python tools/test_api.py -f 127.0.0.1 -p 8080 
    -c "Hi, Eddie, what's up?" 
    -c "Not much, what about you?" 
    -c "Fine, thanks. Are you going to the movies tomorrow?"

例如，您应该得到一个有意义的答案，例如：

 {'response': "Of course!"}

HTTP服务器API描述

/cakechat_api/v1/actions/get_response

JSON参数为：

范围	类型	描述
语境	字符串列表	对话历史记录中先前消息的列表（使用最多3）
情感	弦，枚举之一	{'中性'，'愤怒，“欢乐”，“恐惧”，“悲伤”}之一。一种情绪来调节反应。可选参数，如果未指定，则使用“中性”

要求

 POST /cakechat_api/v1/actions/get_response
data: {
 'context': ['Hello', 'Hi!', 'How are you?'],
 'emotion': 'joy'
}

回应好

 200 OK
{
  'response': 'I'm fine!'
}

gunicorn http-server

我们建议在生产规模上使用Gunicorn为模型的API服务。

安装枪支： pip install gunicorn
运行一个服务器，该服务器使用输入消息处理HTTP-queries并返回模型的响应消息：

 cd bin && gunicorn cakechat_server:app -w 1 -b 127.0.0.1:8080 --timeout 2000

电报机器人

您可以将CakeChat模型作为电报机器人运行：

创建一个电报机器人以获取机器人的令牌。
运行python tools/telegram_bot.py --token <YOUR_BOT_TOKEN>并在电报上与之聊天。

存储库概述

cakechat/dialog_model/ - 包含计算图，培训过程和其他模型实用程序
cakechat/dialog_model/inference/ - 响应生成算法
cakechat/dialog_model/quality/ - 指标计算和记录的代码
cakechat/utils/ - 用于文本处理的实用程序，W2V培训等。
cakechat/api/ - 运行HTTP服务器的功能：API配置，错误处理
tools/ - 用于培训，测试和评估模型的脚本

重要工具

bin/cakechat_server.py - 运行一个HTTP服务器，该服务器返回给定对话框上下文和情感的响应消息。有关详细信息，请参见运行部分。
tools/train.py - 在数据上训练模型。您可以使用--reverse选项来训练“* - reranking”响应生成算法中使用的反向模型，以进行更准确的预测。
tools/prepare_index_files.py - 为最常用的令牌和条件准备索引。在从头开始训练模型之前，请使用此脚本。
tools/quality/ranking_quality.py - 计算对话框模型的排名指标。
tools/quality/prediction_distinctness.py - 计算对话框模型的不同计量。
tools/quality/condition_quality.py - 根据条件值计算不同数据子集的指标。
tools/generate_predictions.py - 评估模型。在给定的对话框上下文集合中生成对话模型的预测，然后计算指标。请注意，如果要使用“* - reranking”预测模式， results/nn_models目录中应该具有反向模型。
tools/generate_predictions_for_condition.py - 生成给定条件值的预测。
tools/test_api.py - 示例代码将请求发送到运行的HTTP-Server。
tools/fetch.py - 下载与之关联的预训练模型和索引文件。
tools/telegram_bot.py - 在训练有素的模型上运行电报机器人。

重要的配置设置

cakechat/config.py中定义了网络体系结构，培训，预测和记录步骤的所有配置参数。 http-server中使用的一些推理参数在cakechat/api/config.py中定义。

网络架构和大小
- HIDDEN_LAYER_DIMENSION是定义复发层中隐藏单元数量的主要参数。
- WORD_EMBEDDING_DIMENSION和CONDITION_EMBEDDING_DIMENSION定义每个令牌/条件被映射到的隐藏单元数量。
- 解码器的输出层的单元数是由tokens_index目录中字典中的令牌数定义的。
解码算法：
- PREDICTION_MODE_FOR_TESTS定义了如何生成模型的响应。选项如下：
  - 抽样- 响应是根据输出分布令牌逐句采样的。对于每个令牌，温度转换是在采样之前进行的。您可以通过调整DEFAULT_TEMPERATURE参数来控制温度值。
  - 采样秩- 使用上述采样过程生成多个候选响应。之后，根据他们的MMI得分^[4]对候选人进行排名，您可以通过选择SAMPLES_NUM_FOR_RERANKING和MMI_REVERSE_MODEL_SCORE_WEIGHT参数来调整此模式。
  - BeamSearch - 使用Beam搜索算法对候选者进行采样。候选人是根据梁搜索程序计算出的对数类似样的评分来排序的。
  - BeamSearch ranking - 与上述相同，但是候选人以与采样级别模式相同的方式重新排序。
请注意，还有其他参数会影响响应生成过程。请参阅REPETITION_PENALIZE_COEFFICIENT ， NON_PENALIZABLE_TOKENS ， MAX_PREDICTIONS_LENGTH 。

示例用例

通过在数据集条目中提供其他条件标签，您可以构建以下模型：

一个基于角色的神经对话模型，该模型允许在角色ID上调节响应，以使其与给定角色的语言风格上的词汇相似。
情感聊天的机器式模型 - 该模型允许在不同情绪上调节响应以提供情感风格（愤怒，悲伤，喜悦等）。
主题意识到神经响应生成模型 - 该模型允许在某个主题上调节响应以保持主题感知对话。

要利用这些额外的条件，请参阅培训模型的部分。只需将培训集中的“条件”字段设置为以下一个：角色ID ，情感或主题标签，更新索引文件并开始培训。

参考

^[1]基于角色的神经对话模型
^[2]情感聊天机：内部和外部记忆的情感对话产生
^[3]用于生成上下文感知的查询建议的层次复发编码器
^[4]神经对话模型的多元化目标函数
^[5]对对话系统的用户模拟技术的定量评估
^[6]主题意识到神经响应产生

学分和支持

Cakechat由Replika团队开发和维护：

Nicolas Ivanov，Michael Khalman，Nikita Smetanin，Artem Rodichev和Denis Fedorenko。

Oleg Akbarov，Alexander Kuznetsov和Vladimir Chernosvitov的演示。

可以在此处跟踪所有问题和功能请求 - GitHub问题。

执照

展开

附加信息

版本 v2.0.1
类型其他源码
更新时间 2025-04-16
大小 465.9KB
来自于 Github

cakechat