NLPer Arsenal下载NLPer Arsenal源代码下载

NLPer Arsenal

其他源码

1.0.0

下载

NLPer-Arsenal

NLP人军火库，主要收录NLP竞赛策略实现、各任务教程、经验贴、学习资料以及会议时间等，如果对你有帮助，请给我们一个star。

本项目主要包含以下内容：

NLPer-Arsenal-Code （2021.12）
- 插件式验证NLP竞赛策略，并提供解耦实现，方便迁移到自己的模型中，here
- NLP各任务教程（文本分类/文本生成），通过注释详细的baseline快速了解各个任务，here
NLPer-Arsenal-Post（2021.03）
- 往期竞赛总结，收录已经结束的竞赛，包括数据集、开源代码、选手方案，here
- 当前重点赛事与训练赛，记录当下正在进行的NLP赛事，here
其它
- 自媒体推荐，提供一些NLPer常用的公众号/网站等，简单了解一些前沿动态，here
- 算力推荐，推荐一些算力资源，免费/收费的都有，here
- 竞赛平台，推荐一些主要的竞赛平台，here
- 会议时间，跟踪记录NLP会议收稿/开会时间，here

项目正在不断完善，如果您有什么建议，欢迎到issue 留言，或者通过邮箱（[email protected]）联系我们。

所有内容均由我们从网络公开资料中收集整理得到，版权归原作者所有，如有侵权请立即与我们联系，我们将及时处理。

整理不易，转载时请务必备注本项目github链接，感谢您为维护良好的开源环境出一份力。

当前赛事

重点赛

记录当前正在进行的竞赛，奖金丰厚，适合有一定基础的NLPer；结束时间为官网标准时间或会议召开时间。

领域/会议	竞赛	报名时间	结束时间
大模型	基于通用大模型的知识库问答面向大语言模型的提示注入攻防竞赛基于大模型的开源软件安全应用情报员应用开发	2023.08.23-10.24 2023.8.14-9.28 同上	2023.11.03-11.05 2023.11 同上
CAIL2023	1. 司法考试 2. 对话式类案检索 3. 类案检索 4. 事实认定 5. 论辩理解 6. 信息抽取 7. 司法大模型	2023.8-11，具体时间详见各赛事安排	2023.12
CHIP2023	评测一: CHIP-PromptCBLUE医疗大模型评测任务（不微调、参数微调）评测二: 中文医学文本小样本命名实体识别评测任务评测三:药品纸质文档识别与实体关系抽取任务	2023.8.1-9.27	2023.10.27-10.29
SMP2023	ChatGLM 金融大模型挑战赛	2023.7.19-8.16	2023.9
AI开发者大赛	中文语义病句识别与纠正挑战赛多语言机器翻译挑战赛人岗匹配挑战赛2.0 汽车领域文本规X则泛化性增强挑战赛基于论文摘要的文本分类与关键词抽取挑战赛机器翻译质量评估挑战赛2023 校招简历应聘岗位与项目技能匹配检测挑战赛校招简历信息完整性检测挑战赛方面情感三元组提取的跨领域迁移挑战赛微博评论机器人 ChatGPT生成文本检测器标书实体抽取挑战赛基于自然语言的软件任务执行挑战赛学术文档篇章级结构恢复挑战赛学术文档要素分类挑战赛	2023.5-9，具体实践详见各赛事	2023.10.24
DSTC11	Track 4：Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems Track 5：Task-oriented Conversational Modeling with Subjective Knowledge	-2023.3	2023.8-9
CCMT2023	CCMT与WMT2023合作组织的汉英、英汉新闻领域的翻译评测维汉、蒙汉、藏汉的翻译评测翻译质量估计评测自动译后编辑评测一带一路”低资源语言机器翻译任务以中文为中心的多语言机器翻译任务中英零指代机器翻译任务	-2023.5.10	2023.10
千言数据集	文本生成、情感分析、阅读理解、中文对话、文本相似度、语义解析、机器同传、信息抽取、实体链指、低资源语言翻译、自然语言推理、事实核查、可解释评测、段落检索、视频语义理解等15个任务60个数据集	现在	暂无
中文医疗信息处理挑战榜CBLUE	目前任务包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务，-> 官网	现在	暂无

训练赛

记录长期进行的训练赛，有排行榜，方便刚入门的NLPer练手

领域	竞赛	报名时间	结束时间
文本分类	WEBSHELL文本检测学习赛医疗诊疗对话意图识别挑战赛知乎问题自动标注（有数据）数据分析达人赛1：用户情感可视化分析中文新闻文本标题分类金融用户评论分类中文对话情感分析新闻文本分类文本分类对抗攻击虚假职位招聘预测疫情期间互联网虚假新闻检测疫情期间网民情绪识别 O2O商铺食品安全相关评论发现互联网新闻情感分析汽车行业用户观点主题及情感识别影评文本情感分析垃圾邮件分类短文本分类大赛-图灵联邦情感分类大赛-图灵联邦医疗文本分类 - FlyAI 中文垃圾短信识别 - FlyAI 英文垃圾信息分类社交网站消息内容分类 - FlyAI 用户商场评价情感分析 - FlyAI Stanford-Sentiment-Treebank 情感分析 - FlyAI COLA 英文句子可理解性分类 - FlyAI 今日头条新闻分类 - FlyAI 美国点评网站Yelp评价预测赛 - FlyAI 千言数据集：情感分析 - 百度AI Studio Kaggle-Contradictory, My Dear Watson Kaggle-Natural Language Processing with Disaster Tweets CLEF 2019 Lab ProtestNews (Document、Sentence、Token)	- - 已结束 - - - - - - - - - - - - - - 每月1号每月1号 - - - - - - - - - - - - -	2024.02 2024.02 已结束 2022.4.30 2023.01 - - - 2021.12.31 - - - - - - - - 每月27号每月27号 - - - - - - - - - 2023.1 - - -
文本匹配	医学搜索Query相关性判断 Quora-检测两个问题是否重复 - FlyAI 千言数据集：文本相似度千言数据集：问题匹配鲁棒性英文文本语义相似度 IMDB评论剧透检测医学搜索Query相关性判断 CCKS2021中文NLP地址相关性任务（数据集）	- - - - - - -2022.9.30 -	2024.02 - 2023.1 2023.1 - - 2022.10.7 -
文本蕴含	Contradictory, My Dear Watson	-	-
推荐系统	阿里移动推荐算法挑战赛零基础入门推荐系统 - 新闻推荐天池新人挑战赛之阿里移动推荐算法电商用户购买行为预测图书推荐系统	- - - - -	2024.02 - - - -
问答	疫情政务问答助手医疗智能问答 - FlyAI 2021心理对话问答挑战赛 CommonsenseQA Dataset OpenBookQA Dataset	- - - - -	- - - 2026.4.15 2026.4.15
语义解析	千言数据集：语义解析	-	2023.1
摘要	媒体文章自动摘要知乎文本摘要新闻摘要自动生成问答摘要与推理（end: 2023.1）	-	-
语音	生活场景汉语语音识别	-	-
信息抽取	CCKS2021中文NLP地址要素解析 CCF BDCI 文本实体识别及关系抽取千言数据集：信息抽取英文文本实体关系抽取法律领域篇章级多事件检测	- - - - -	2024.02 - 2023.1.1 - -
实体链指	千言数据集：实体链指	-	2023.1.1
机器翻译	千言数据集：低资源语言翻译机器翻译领域适应	- -	2023.1.1 -
实体识别	中文的命名实体识别 - FlyAI	-	-
关系抽取	英文文本实体关系抽取（有数据）	已结束	已结束
立场检测	中文微博的立场检测 - FlyAI 微博立场检测	- -	- -
对话	MuTual Dataset 千言数据集：开放域对话对话系统中的口语理解	- - -	2026.4.15 2023.1.1 -
Text2SQL	耶鲁文本转SQL	-	-
阅读理解	千言数据集：阅读理解中文阅读理解练习赛 - FlyAI RACE Dataset RACE-C Dataset Dream Dataset C3 Dataset SciQ Dataset LogiQA Dataset MCTest Dataset OpenBookQA Dataset	- - - - - - - - - -	2023.1.1 - 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15
Graph	HGB-Node Classification HGB-Link Prediction HGB-Knowledge-aware Recommendation	2021.6.28-	2030.6
其它	评论情感词提取（含数据）	已结束	已结束

往期竞赛

这里记录整理好的竞赛，包含数据下载以及竞赛方案

目录	赛事
文本分类	2018法研杯-罪名预测 2018法研杯-法条推荐 2019法研杯-要素识别 2019CHIP-临床试验筛选标准短文本分类 2019“技术需求”与“技术成果”项目之间关联度计算模型 2020smp微博情绪分析评测 2020百度人工智能开源大赛-观点阅读理解任务 2020CCKS新冠知识图谱构建与问答评测-子任务1：新冠百科知识图谱类型推断 2020CCKS新冠知识图谱构建与问答评测-子任务2：新冠概念图谱的上下位关系预测 2021SMP-ECISA中文隐式情感分析评测 2021DIGIX-基于多模型迁移预训练文章质量判别 2021试题标签预测挑战赛 2021非标准化疾病诉求的简单分诊挑战赛 2021CHIP-医学对话临床发现阴阳性判别任务 2021CCL-中文空间语义理解评测 2021CCL-“小牛杯”图文多模态幽默识别评测 2022疫情微博情绪识别挑战赛 2022非标准化疾病诉求的简单分诊挑战赛2.0 2022机器翻译质量评估挑战赛 2022基于论文摘要的文本分类与查询性问答 2022应用类型识别挑战赛 2022 Amazon KDD Cup (task2 Multi-class Product Classification, task3 Product Substitute Identification) 2022医疗搜索意图识别挑战赛 [2022CCF BDCI小样本数据分类任务](./往期竞赛/文本分类/2022CCF BDCI小样本数据分类任务.md) 2023CCL电信网络诈骗案件分类评测
实体链指	2019CCKS中文短文本实体链指 2020CCKS面向中文短文本的实体链指任务 2020CCKS基于标题的大规模商品实体检索 2020千言数据集：面向中文短文本的实体链指任务 2021SDU@AAAI-Task2-Acronym Disambiguation
实体识别	2019互联网金融新实体发现 2020CHIP-中药说明书实体识别挑战 2020CHIP-中文医学文本命名实体识别 2020CCKS面向试验鉴定的命名实体识别 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1：医疗命名实体识别 2021智能医疗决策 2021互联网舆情企业风险事件的识别和预警 2021海通&工商-2021互联网舆情企业风险事件的识别和预警
问题生成	2020CHIP-中医文献问题生成挑战
摘要生成	2020法研杯-司法摘要 2021MEDIQA-Summarization of Consumer Health Questions 2021MEDIQA-Summarization of Multiple Answers 2021MEDIQA-Summarization of Radiology Reports
句法分析	2021CCL-跨领域句法分析评测 2021CCL-中译语通-Nihao无监督汉语分词评测
阅读理解	2018机器阅读理解技术竞赛 2019法研杯-阅读理解 2020法研杯-阅读理解 2020语言与智能技术竞赛：机器阅读理解任务 2021海华AI挑战赛·中文阅读理解（技术组） 2021语言与智能技术竞赛：机器阅读理解任务 2021NLPCC-AIDebater
文本匹配	2019大数据挑战赛 2019金融信息负面及主体判定 2019CHIP-疾病问答迁移学习比赛 2019CHIP-临床术语标准化任务 2019法研杯-相似案例匹配 2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛 2020房产行业聊天匹配问答 2020CHIP-临床术语标准化任务 2020法研杯-论辩挖掘 2021搜狐校园文本匹配算法大赛 2021小布助手对话短文本语义匹配 2021CHIP-临床术语标准化任务
对话	2019SMP中文人机对话技术评测 2020千言：多技能对话 2020语言与智能技术竞赛：面向推荐的对话任务 2021SMP对话式AI算法技术评测（小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复） 2021CCL-智能对话诊疗评测比赛 2021DSTC10
Text2SQL	2019中文NL2SQL挑战赛 2020语言与智能技术竞赛：语义解析任务
问答	2020CCKS新冠知识图谱构建与问答评测-子任务4：新冠百科知识图谱问答评测 2020法研杯-司法考试
信息抽取	2020科大讯飞事件抽取挑战赛 2020语言与智能技术竞赛：关系抽取任务 2020语言与智能技术竞赛：事件抽取任务 2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2：医疗事件抽取 2020CCKS面向金融领域的小样本跨类迁移事件抽取 2020CCKS面向金融领域的篇章级事件主体与要素抽取 2020CHIP-中文医学文本实体关系抽取 2021语言与智能技术竞赛：多形态信息抽取任务 2021医疗实体与关系识别挑战赛 2021NLPCC-AutoIE 2 2021CHIP-临床发现事件抽取任务 2021SDU@AAAI-Task1-Acronym Identification
机器翻译	2020CCMT-双语、多语、语音、质量评估、语料过滤 2021NAACL同传Workshop：千言 - 机器同传 2021低资源多语种文本翻译挑战赛 2021领域迁移机器翻译挑战赛 2021CCMT-双语、多语、低资源、自动译后编辑、质量评估、语料过滤
其它	2018法研杯-刑期预测 2020NLP中文预训练模型泛化能力挑战赛 2020CCKS新冠知识图谱构建与问答评测-子任务3：新冠科研抗病毒药物图谱的链接预测 2021未来杯-探索科技未来 (论文推荐) 2021NLPCC-FewCLUE

自媒体推荐

NLP相关的学界、业界、理论、实践以及时事动态

平台	主要领域	自媒体
微信公众号	技术	Coggle数据科学、DataFunTalk（偏向业界方案）
	行业信息	机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅
	学术	科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道、夕小瑶的卖萌屋、机器学习算法与自然语言处理（MLNLP）
BiliBili	前沿论坛	智源社区、AITIME论道
	基础	跟李沐学AI
网站	竞赛	Coggle数据科学、CompHub
	学术	Paper With Code 、AMiner学术头条、科学空间

算力推荐

warning: 请仔细评估第三方平台信誉，警惕代码、数据等重要信息泄露

平台	算力	价格	说明
featurize	2080Ti、3090	2080Ti（￥2/h）、3090（￥3.6/h）	镜像环境，使用灵活，可以通过jupyter_lab、vscode、pycharm远程连接
AutoDL	rtx a5000、3090、A100	￥0.6/h~￥8.5/h	单机ssh连接，存储空间不大，不过很便宜
智星云	1080Ti、3080、3090、V/A100等	￥2.1/h~￥11/h	整机，可远程连接（pycharm/vs code）
沣云平台	ML270	￥2.8/h	一站式AI计算平台，CPU可以增量配置，按运行时间收取费用
恒源云	2080Ti、3060、3090、V100等	￥1.25/h~￥5.5/h	可以搭配完整的CPU和硬盘，相比bithub有更高的自由度，目前处于推广期，有很多优惠
并行云	V100、2080Ti、P100等	不明	计算节点来自超算，可个性化定制CPU核数、GPU、存储空间，有非常简便的操作界面，并且提供远程linux桌面，灵活度优于以上三个平台。目前处于推广期，有很多优惠
AI Studio	V100	基本免费	由百度开发, 偶尔申请不到V100，最高可免费8卡。主要使用飞桨PaddlePaddle框架，其它框架需自行折腾，也可用X2Paddle一键转为飞桨的代码和模型，大部分比赛参与即送算力卡。
天池DSW	p100	免费，单次限时8小时，不限次数	阿里的一个在线平台，运行时不能关闭
天池实验室	V100	免费，60h/年	相比于AI Studio不限制深度学习框架，就是时间比较短
Kaggle	k80	免费，每周限时30小时	外网访问
Google Colab	k80、T4、P4、P100	免费，单次限时12小时	外网访问，无法指定具体GPU，未订阅Colab Pro用户多数时间下估计会被分配k80

竞赛平台

CompHub ：一站式聚合国内外竞赛
阿里天池：阿里，奖金丰厚
AI Studio ：百度AI Studio深度学习社区，成绩优异可获得飞桨开发者技术专家(PPDE) 认证申请绿色通道。
讯飞开发平台：科大讯飞，每年下半年至10.24会举办大量赛事
Codalab ：国外数据科学竞赛
DataFountain ： CCF指定专业大数据及人工智能竞赛平台，有很多训练赛
DCLab ：和天池比较像，学校政府举办的竞赛多一些
Kaggle ：偶尔会有NLP竞赛
biendata ：国内领先的人工智能竞赛平台，包含大量NLP学术评测
FlyAI-AI竞赛服务平台：难度分为新手、简单、中等、精英、困难，有大量GPU算力可供获取，奖金不多，但适合练手
和鲸社区：一个综合的学习平台，偏向政府企业类竞赛
ACL、EMNLP、AAAI、NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
AI研习社：很多很多NLP竞赛

会议时间

中国计算机学会推荐国际学术会议和期刊目录-2022
中国计算机学会推荐中文科技期刊目录
dblp：计算机科学文献库
AI会议deadline ：会议倒计时
会议时间记录表：Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note：以下时间为官网默认时间，暂未换算成北京时间

会议	级别	摘要截稿	原文截稿	审稿通知	开会时间	说明
ICLR(官网、dblp)	*	2023.9.21	2023.9.28	2023.11.10(review)、2024.1.15(final)	2024.5.7-5.11	Vienna
ACL(官网、dblp)	CCF-A	~~2023.1.13(direct submission)~~	~~2023.1.20(direct submission)、2022.12.15（ARR）~~	~~2023.2.15（review）、2023.5.1（final）~~	~~2023.7.9-7.14~~	Toronto，Canada
NeurIPS(官网、dblp)	CCF-A	~~2023.5.11~~	~~2023.5.17~~	2023.9.21	2023.12.10-12.16	New Orleans Ernest N. Morial Convention Center
ICML(官网、dblp)	CCF-A	*	?	?	2024.7.21-7.27	Messe Wien Exhibition Congress Center
SIGIR(官网、dblp)	CCF-A	~~2023.1.24~~	~~2023.1.31~~	~~2023.4.4~~	~~2023.7.23-7.27~~	Taipei, Taiwan
WWW(官网、dblp)	CCF-A	2023.10.5	2023.10.12	2023.12.1-12.14（rebuttal） 2024.2.1（final）	2024.5.13-5.17	Singapore
AAAI(官网、dblp)	CCF-A	~~2023.8.8~~	~~2023.8.15~~	2023.9.27(phase 1 rejections)、2023.12.19(final)	2024.2.20-2.27	VANCOUVER, CANADA
IJCAI(官网、dblp)	CCF-A	~~2023.1.11~~	~~2023.1.18~~	~~2023.2.24（summary reject notification）、2023.4.19（paper notification）~~	~~2023.8.19-8.25~~	Cape Town, South Africa
EMNLP(官网、dblp)	CCF-B	~~2022.6.16~~	~~2023.6.23(Direct)、2023.7.21(ARR)~~	2023.8.22~8.28（rebuttal）、2023.10.6	2023.12.6-12.10	Singapore
NAACL(官网、dblp)	CCF-B	*	2023.12.15(ARR)、2024.2.20(Commitment)	2024.3.15	2024.6.16-6.21	Mexico City, Mexico
COLING(官网、dblp)	CCF-B	*	~~2022.5.17~~	~~2022.8.15~~	~~2022.10.12~10.17~~	Gyeongju, Korea
CoNLL(官网、dblp)	CCF-C	*	~~2023.6.30~~	2023.10.6	2023.12.6-12.7	colocated with emnlp2023
NLPCC(官网、dblp)	CCF-C	*	~~2023.5.18~~	~~2023.7.17~~	2023.10.12-10.15	佛山
IJCNN(官网、dblp )	CCF-C	*	~~2023.1.31~~	~~2023.4.7~~	~~2023.6.18-6.23~~	Queensland, Australia
ICONIP(官网)	CCF-C	*	~~2022.6.15~~	~~2022.8.15~~	~~2022.11.22~11.26~~	New Delhi, India
ACML(官网)	CCF-C	*	2023.6.23（会议） 2023.5.26（期刊）	2023.8.11-8.18（rebuttal）、9.8 (final)； 2023.7.7（初审）、9.8（final）	2023.11.11-11.14	İstanbul, Turkey
AACL(官网)	*	*	~~2023.5.23(direct submission)、2023.8.15(ARR)~~	2023.8.2-8.9(rebuttal)、9.4(final)	2023.11.1-11.4	Bali, Indonesia
EACL(官网、dblp)	*	*	~~2022.10.20(direct submission)、2023.1.8 (ARR)~~	~~2023.1.20~~	~~2023.5.2-5.6~~	Kiev, Ukraine、online
CCL(官网、dblp)	*	*	~~2023.4.15~~	~~2023.5.20~~	~~2023.8.3-8.5~~	哈尔滨
CCKS(官网、dblp)	*	*	~~2023.5.19~~	~~2023.6.30~~	~~2023.8.24~8.27~~	沈阳
SMP(官网、dblp)	*	*	~~2023.5.15~~	~~2023.7.1~~	2023.11.24-11.26	北京
CCMT(官网)	*	*	~~2023.7.10~~	~~2023.8.15~~	2023.10.19-10.21	山东济南