kevinpro-nlp-demo
Pytorch中一些简单的Fun NLP算法实现。更新和维护
如果您有任何疑问,请评论有关
如果项目对您有所帮助,请欢迎星星〜(请不要只没有星星(´・ω・))
注意:此存储库中代码的一部分可能是出于我自己的利益和实验来源的。可能包含错误和对他人代码的引用。
中文版本读书我
主要内容
您可以进入每个项目文件夹,以获取更多详细信息,以填写文件夹的readme.md中的更多详细信息,
- 基于许多模型(Bilstm,Transform)的文本分类去处
- 摘要生成(指针生成器网络)转到此处
- 对话翻译(SEQ2SEQ)构建您自己的对话Bot ~~去这里
- 在文本分类中使用GNN
- 预处理变压器面具语言模型
- GPT用于文本生成和GPT数学问题Go go HereSource repo
- 对抗训练(FGM)去这里
- 非常简单,快速使用/部署Seq2Seq-Transformer。包括几个Eamples(Denoise Fretiner,Medical-QuestionAnswerming去这里
- pytorch_lighting的实际使用去这里
- 放大器和FP16 Pytorch培训去这里
- 有用可视化工具包用于注意力图(或其他加权矩阵
- 扩散模型在时尚MNIST上实施和应用
- 简单的稳定学习味道(建筑)去这里
- 简单的元学习味道(建筑物)去这里
- 大型Langauge模型推理的简单演示去这里
我的其他开源NLP项目
- 关系提取:Ricardokevins/bert-In-In-In-Rectation-rettractration:使用bert完成实体之间关系抽取(github.com)
- 文本匹配:Ricardokevins/text_matching:nlp2020中兴捧月句子相似度匹配(github.com)
- 变形金刚实施和有用的NLP工具包:Ricardokevins/EasyTransFormer:快速启动Bert和Transformer的强大基线,而没有前进(GitHub.com)
什么是新的~~
2023.3.27
- 更新有关大语言模型推理过程的简单演示。将来会更新。
2022.8.31
- 扩散模型的更新。我们从教程中采用代码,并对代码进行了一些必要的更改,以使其在本地工作。实用的训练模型和推理结果可以在扩散/结果2文件夹中找到。
2022.3.25
- 感谢 @rattlesnakey的问题(此处提供更多讨论详细信息)。我添加了Pretrain项目中的功能。将面膜to的注意力重量设置为零,以防止面具to的自我注意力。您可以通过设置“ self.pretrain = true”在transformer.py中启用此功能。 PS:暂时尚未验证新功能,并且尚未验证对预训练的影响。我稍后会填写测试
2022.1.28
- 重建变压器中的代码结构。使代码更易于使用和部署
- 添加示例:变压器中的Denoise-Prretrain(易于使用)
2022.1.16
- 更新使用SEQ2SEQ Transformer进行建模Medical QA任务(55W对中国医学质量检查数据),可以在Transformer/Medqademo/MedQademo/的readme.md中看到更多详细信息。
- 更新新教练和有用的工具
- 删除变压器的先前实现(带有一些不可修复的错误)
更新历史记录
2021.1.23
- 初次提交添加句子分类模块,包含变压器和bilstm以及bilstm+attn模型
- 上传基本数据集,句子二分类作为演示
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西....略
2021.6.22
- 修复了文本分类的一些整理问题
- 增加了文本分类对应的使用说明
2021.7.2
- MLM预训练技术实践
- 修复了句子分类模型里,过分大且不必要的词嵌入(因为太懒,所以只修改了变压器的)
- 在句子分类里增加了加载预训练的可选项
- 修复了一些错误
2021.7.11
- 增加了gnn在nlp中的应用
- 实现了gnn在文本分类上的使用
- 效果不好,暂时怀疑是数据处理的问题
2021.7.29
- Chi+tfidf
- 实现和测试了算法性能
- 更新了读书我
2021.8.2
- 重构了对话机器人模型于seq2seq文件夹
- 实现了beamSearch解码方式
- 修复了pgn里的beamsearch bug
2021.9.11
- 添加了gpt 在文本续写和数学题问题的解决(偷了 karpathy/mingpt:openai gpt(生成验证的变压器)培训(github.com)代码实现的很好
- 重构了指针发电机网络,之前的表现一直不好,打算干脆重构,一行一行的重新捋一遍,感觉会安心很多。施工,。
2021.9.16
- 修复了预处理里蒙版令牌,位置不一致问题,位置不一致问题
2021.9.29
- 在变压器里增加了一个随机数字串恢复的演示,对新手理解变压器超友好,不需要外部数据,利用随机构造的数字串训练,利用随机构造的数字串训练
- 新增实验transfomervae,暂时有虫,施工中
2021.11.20
- 更新BM25和TF-IDF算法以快速匹配文本。
2021.12.10
- 更新pytorch_lighting的实际使用,以text_classification为例。将Pytorch转换为Lightninglite。 lightingmain.py的更多详细信息。
- 删除冗余代码
2021.12.9
- 更新AMP的实际使用(自动混合精度)。在VaeGenerator中实施,对本地MX150进行测试,大量改善训练时间和记忆使用,在代码结束时注释中的更多详细信息
- 基于AMP的命令,修改了1E-9对inf的定义。
2021.12.17
- 更新加权矩阵可视化工具包(例如,用于可视化注意图)实现可视化。将来更有用的工具包
- 更新Python评论代码标准。将来将遵循更正式的代码惯例。
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
自动混合精度(AMP)
https://featurize.cn/notebooks/368CBC81-2B27-4036-98A1-D77589B1F0C4