character based cnn下载 - character based cnn源代码下载

character based cnn

其他源码

English Model

下载

基于字符的CNN

该回购包含用于文本分类的角色级卷积神经网络的pytorch实现。

模型架构来自本文：https：//arxiv.org/pdf/1509.01626.pdf

网络架构

有两个变体：一个大和小。您可以通过更改配置文件在两者之间切换。

该体系结构有6个卷积层：

层	大型功能	小功能	核心	水池
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N/A。
4	1024	256	3	N/A。
5	1024	256	3	N/A。
6	1024	256	3	3

和2个完全连接的层：

层	输出单位大	输出单元很小
7	2048	1024
8	2048	1024
9	取决于问题	取决于问题

视频教程

如果您对角色CNN的工作方式以及该项目的演示感兴趣，则可以查看我的YouTube视频教程。

为什么您应该关心角色级别CNN

他们的特性非常好：

即使没有任何语义的概念
使用它们时，您无需应用任何文本预处理（令牌化，lemmatization，stemming ...）
他们处理拼写错误的单词和OOV（vocabulary）令牌
与复发性神经网络相比，它们的训练速度更快
它们很轻巧，因为它们不需要存储一个大词嵌入矩阵。因此，您可以轻松地将它们部署在生产中

培训有关法国客户评论的情感分类器

我已经在一组法国标记的客户评论（超过300万行）上测试了该模型。我报告了TensorboardX中的指标。

我得到以下结果

	F1得分	准确性
火车	0.965	0.9366
测试	0.945	0.915

培训指标

依赖性

numpy
熊猫
Sklearn
Pytorch 0.4.1
TensorboardX
TensorFlow（能够运行TensorBoardX）

代码的结构

从项目的根源上，您将拥有：

train.py ：用于培训模型
Predict.py ：用于测试和推理
config.json ：用于存储模型参数的配置文件（过滤器数，神经元数）
SRC ：包含：
- cnn_model.py ：实际的CNN模型（模型初始化和正向方法）
- data_loader.py ：处理后，将数据传递给培训的脚本负责
- utils.py ：一组用于文本预处理的实用程序功能（url/ashtag/user_mention删除）

如何使用代码

训练

该代码当前仅在二进制标签（0/1）上工作

启动train.py带有以下论点：

data_path ：数据路径。数据应为CSV格式，至少具有文本列，并且标签的列
validation_split ：验证数据的比率。默认为0.2
label_column ：标签的列名称
text_column ：文本的列名称
max_rows ：从数据集加载的最大行数。（我主要将其用于测试以进行更快）
chunksize ：使用熊猫加载数据时的块大小。默认为500000
encoding ：默认为UTF-8
steps ：文本预处理步骤，以将其包含在标签或URL删除等文本中
group_labels ：是否要组标签。默认为无。
use_sampler ：是否使用加权采样器克服班级失衡
alphabet ：默认为Abcdefghijklmnopqrstuvwxyz0123456789;。！？：'
number_of_characters ：默认70
extra_characters ：您要添加到字母的其他字符。例如大写字母或重音字符
max_length ：用于修复所有文档的最大长度。默认为150，但应适应您的数据
epochs ：时代的数量
batch_size ：批次大小，默认为128。
optimizer ：Adam或SGD，默认为SGD
learning_rate ：默认为0.01
class_weights ：是否在交叉熵损失中使用班级权重
focal_loss ：是否使用焦点损失
gamma ：局灶性损失的伽马参数。默认为2
alpha ：局灶性损失的α参数。默认为0.25
schedule ：学习率降低一半的时期数（学习率计划仅适用于SGD），默认为3。将其设置为0以将其禁用
patience ：最大数量的时期数量等待而无需改善验证损失，默认为3
early_stopping ：选择是否早日停止培训。默认为0。设置为1以启用它。
checkpoint ：选择是否将模型保存在磁盘上。默认为1，设置为0至禁用模型检查点
workers ：Pytorch数据加载程序中的工人人数，默认为1
log_path ：张板的路径日志文件
output ：保存模型的文件夹的路径
model_name ：保存模型的前缀名称

示例用法：

python train.py --data_path=/data/tweets.csv --max_rows=200000

将结果绘制到TensorboardX

以项目的根源运行此命令：

tensorboard --logdir=./logs/ --port=6006

然后转到：http：// localhost：6006（或您使用的任何主机）

预言

启动预测。

model ：预训练模型的路径
text ：输入文字
steps ：预处理步骤列表，默认为较低
alphabet ：默认为'abcdefghijklmnopqrstuvwxyz0123456789 - ;。！？
number_of_characters ：默认为70
extra_characters ：您要添加到字母的其他字符。例如大写字母或重音字符
max_length ：用于修复所有文档的最大长度。默认为150，但应适应您的数据

示例用法：

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

下载验证的型号

关于法国客户评论（3M文档）的情感分析模型：下载链接
使用时：
- 将max_length设置为300
- 使用extra_characters =“Éàèùâêîôçëïü”（重音字母）

贡献 - 欢迎PR：

这是要添加的潜在未来功能的非详尽清单：

适应多级分类的损失
每个时期对文本文件的日志培训和验证指标
提供笔记本教程

执照

该项目已根据麻省理工学院许可证

展开

附加信息

版本 English Model
类型其他源码
更新时间 2025-04-18
大小 213.92KB
来自于 Github

character based cnn

基于字符的CNN

视频教程

为什么您应该关心角色级别CNN

培训有关法国客户评论的情感分类器

依赖性

代码的结构

如何使用代码

训练

将结果绘制到TensorboardX

预言

下载验证的型号

贡献 - 欢迎PR：

执照

GitHub sgrebnov/cordova plugin background download

Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Retrieval based Voice Conversion WebUI

全力以赴——佐罗角色

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express