NLPer Arsenal
1.0.0
NLP人军火库,主要收录NLP竞赛策略实现、各任务教程、经验贴、学习资料以及会议时间等,如果对你有帮助,请给我们一个star。
本项目主要包含以下内容:
项目正在不断完善,如果您有什么建议,欢迎到issue 留言,或者通过邮箱([email protected])联系我们。
所有内容均由我们从网络公开资料中收集整理得到,版权归原作者所有,如有侵权请立即与我们联系,我们将及时处理。
整理不易,转载时请务必备注本项目github链接,感谢您为维护良好的开源环境出一份力。
记录当前正在进行的竞赛,奖金丰厚,适合有一定基础的NLPer;结束时间为官网标准时间或会议召开时间。
| 领域/会议 | 竞赛 | 报名时间 | 结束时间 |
|---|---|---|---|
| 大模型 | 基于通用大模型的知识库问答 面向大语言模型的提示注入攻防竞赛 基于大模型的开源软件安全应用情报员应用开发 |
2023.08.23-10.24 2023.8.14-9.28 同上 |
2023.11.03-11.05 2023.11 同上 |
| CAIL2023 | 1. 司法考试 2. 对话式类案检索 3. 类案检索 4. 事实认定 5. 论辩理解 6. 信息抽取 7. 司法大模型 |
2023.8-11,具体时间详见各赛事安排 | 2023.12 |
| CHIP2023 | 评测一: CHIP-PromptCBLUE医疗大模型评测任务 (不微调 、参数微调 ) 评测二: 中文医学文本小样本命名实体识别评测任务 评测三:药品纸质文档识别与实体关系抽取任务 |
2023.8.1-9.27 | 2023.10.27-10.29 |
| SMP2023 | ChatGLM 金融大模型挑战赛 | 2023.7.19-8.16 | 2023.9 |
| AI开发者大赛 | 中文语义病句识别与纠正挑战赛 多语言机器翻译挑战赛 人岗匹配挑战赛2.0 汽车领域文本规X则泛化性增强挑战赛 基于论文摘要的文本分类与关键词抽取挑战赛 机器翻译质量评估挑战赛2023 校招简历应聘岗位与项目技能匹配检测挑战赛 校招简历信息完整性检测挑战赛 方面情感三元组提取的跨领域迁移挑战赛 微博评论机器人 ChatGPT生成文本检测器 标书实体抽取挑战赛 基于自然语言的软件任务执行挑战赛 学术文档篇章级结构恢复挑战赛 学术文档要素分类挑战赛 |
2023.5-9,具体实践详见各赛事 | 2023.10.24 |
| DSTC11 | Track 4:Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems Track 5:Task-oriented Conversational Modeling with Subjective Knowledge |
-2023.3 | 2023.8-9 |
| CCMT2023 | CCMT与WMT2023合作组织的汉英、英汉新闻领域的翻译评测 维汉、蒙汉、藏汉的翻译评测 翻译质量估计评测 自动译后编辑评测 一带一路”低资源语言机器翻译任务 以中文为中心的多语言机器翻译任务 中英零指代机器翻译任务 |
-2023.5.10 | 2023.10 |
| 千言数据集 | 文本生成、情感分析、阅读理解、中文对话、文本相似度、语义解析、机器同传、信息抽取、实体链指、低资源语言翻译、自然语言推理、事实核查、可解释评测、段落检索、视频语义理解等15个任务60个数据集 | 现在 | 暂无 |
| 中文医疗信息处理挑战榜CBLUE | 目前任务包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务,-> 官网 | 现在 | 暂无 |
记录长期进行的训练赛,有排行榜,方便刚入门的NLPer练手
| 领域 | 竞赛 | 报名时间 | 结束时间 |
|---|---|---|---|
| 文本分类 | WEBSHELL文本检测学习赛 医疗诊疗对话意图识别挑战赛 知乎问题自动标注 (有数据) 数据分析达人赛1:用户情感可视化分析 中文新闻文本标题分类 金融用户评论分类 中文对话情感分析 新闻文本分类 文本分类对抗攻击 虚假职位招聘预测 疫情期间互联网虚假新闻检测 疫情期间网民情绪识别 O2O商铺食品安全相关评论发现 互联网新闻情感分析 汽车行业用户观点主题及情感识别 影评文本情感分析 垃圾邮件分类 短文本分类大赛-图灵联邦 情感分类大赛-图灵联邦 医疗文本分类 - FlyAI 中文垃圾短信识别 - FlyAI 英文垃圾信息分类 社交网站消息内容分类 - FlyAI 用户商场评价情感分析 - FlyAI Stanford-Sentiment-Treebank 情感分析 - FlyAI COLA 英文句子可理解性分类 - FlyAI 今日头条新闻分类 - FlyAI 美国点评网站Yelp评价预测赛 - FlyAI 千言数据集:情感分析 - 百度AI Studio Kaggle-Contradictory, My Dear Watson Kaggle-Natural Language Processing with Disaster Tweets CLEF 2019 Lab ProtestNews (Document、Sentence、Token) |
- - 已结束 - - - - - - - - - - - - - - 每月1号 每月1号 - - - - - - - - - - - - - |
2024.02 2024.02 已结束 2022.4.30 2023.01 - - - 2021.12.31 - - - - - - - - 每月27号 每月27号 - - - - - - - - - 2023.1 - - - |
| 文本匹配 | 医学搜索Query相关性判断 Quora-检测两个问题是否重复 - FlyAI 千言数据集:文本相似度 千言数据集:问题匹配鲁棒性 英文文本语义相似度 IMDB评论剧透检测 医学搜索Query相关性判断 CCKS2021中文NLP地址相关性任务 (数据集 ) |
- - - - - - -2022.9.30 - |
2024.02 - 2023.1 2023.1 - - 2022.10.7 - |
| 文本蕴含 | Contradictory, My Dear Watson | - | - |
| 推荐系统 | 阿里移动推荐算法挑战赛 零基础入门推荐系统 - 新闻推荐 天池新人挑战赛之阿里移动推荐算法 电商用户购买行为预测 图书推荐系统 |
- - - - - |
2024.02 - - - - |
| 问答 | 疫情政务问答助手 医疗智能问答 - FlyAI 2021心理对话问答挑战赛 CommonsenseQA Dataset OpenBookQA Dataset |
- - - - - |
- - - 2026.4.15 2026.4.15 |
| 语义解析 | 千言数据集:语义解析 | - | 2023.1 |
| 摘要 | 媒体文章自动摘要 知乎文本摘要 新闻摘要自动生成 问答摘要与推理 (end: 2023.1) |
- | - |
| 语音 | 生活场景汉语语音识别 | - | - |
| 信息抽取 | CCKS2021中文NLP地址要素解析 CCF BDCI 文本实体识别及关系抽取 千言数据集:信息抽取 英文文本实体关系抽取 法律领域篇章级多事件检测 |
- - - - - |
2024.02 - 2023.1.1 - - |
| 实体链指 | 千言数据集:实体链指 | - | 2023.1.1 |
| 机器翻译 | 千言数据集:低资源语言翻译 机器翻译领域适应 |
- - |
2023.1.1 - |
| 实体识别 | 中文的命名实体识别 - FlyAI | - | - |
| 关系抽取 | 英文文本实体关系抽取 (有数据) | 已结束 | 已结束 |
| 立场检测 | 中文微博的立场检测 - FlyAI 微博立场检测 |
- - |
- - |
| 对话 | MuTual Dataset 千言数据集:开放域对话 对话系统中的口语理解 |
- - - |
2026.4.15 2023.1.1 - |
| Text2SQL | 耶鲁文本转SQL | - | - |
| 阅读理解 | 千言数据集:阅读理解 中文阅读理解练习赛 - FlyAI RACE Dataset RACE-C Dataset Dream Dataset C3 Dataset SciQ Dataset LogiQA Dataset MCTest Dataset OpenBookQA Dataset |
- - - - - - - - - - |
2023.1.1 - 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 |
| Graph | HGB-Node Classification HGB-Link Prediction HGB-Knowledge-aware Recommendation |
2021.6.28- | 2030.6 |
| 其它 | 评论情感词提取 (含数据) | 已结束 | 已结束 |
这里记录整理好的竞赛,包含数据下载以及竞赛方案
| 目录 | 赛事 |
|---|---|
| 文本分类 | 2018法研杯-罪名预测 2018法研杯-法条推荐 2019法研杯-要素识别 2019CHIP-临床试验筛选标准短文本分类 2019“技术需求”与“技术成果”项目之间关联度计算模型 2020smp微博情绪分析评测 2020百度人工智能开源大赛-观点阅读理解任务 2020CCKS新冠知识图谱构建与问答评测-子任务1:新冠百科知识图谱类型推断 2020CCKS新冠知识图谱构建与问答评测-子任务2:新冠概念图谱的上下位关系预测 2021SMP-ECISA中文隐式情感分析评测 2021DIGIX-基于多模型迁移预训练文章质量判别 2021试题标签预测挑战赛 2021非标准化疾病诉求的简单分诊挑战赛 2021CHIP-医学对话临床发现阴阳性判别任务 2021CCL-中文空间语义理解评测 2021CCL-“小牛杯”图文多模态幽默识别评测 2022疫情微博情绪识别挑战赛 2022非标准化疾病诉求的简单分诊挑战赛2.0 2022机器翻译质量评估挑战赛 2022基于论文摘要的文本分类与查询性问答 2022应用类型识别挑战赛 2022 Amazon KDD Cup (task2 Multi-class Product Classification, task3 Product Substitute Identification) 2022医疗搜索意图识别挑战赛 [2022CCF BDCI小样本数据分类任务](./往期竞赛/文本分类/2022CCF BDCI小样本数据分类任务.md) 2023CCL电信网络诈骗案件分类评测 |
| 实体链指 | 2019CCKS中文短文本实体链指 2020CCKS面向中文短文本的实体链指任务 2020CCKS基于标题的大规模商品实体检索 2020千言数据集:面向中文短文本的实体链指任务 2021SDU@AAAI-Task2-Acronym Disambiguation |
| 实体识别 | 2019互联网金融新实体发现 2020CHIP-中药说明书实体识别挑战 2020CHIP-中文医学文本命名实体识别 2020CCKS面向试验鉴定的命名实体识别 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1:医疗命名实体识别 2021智能医疗决策 2021互联网舆情企业风险事件的识别和预警 2021海通&工商-2021互联网舆情企业风险事件的识别和预警 |
| 问题生成 | 2020CHIP-中医文献问题生成挑战 |
| 摘要生成 | 2020法研杯-司法摘要 2021MEDIQA-Summarization of Consumer Health Questions 2021MEDIQA-Summarization of Multiple Answers 2021MEDIQA-Summarization of Radiology Reports |
| 句法分析 | 2021CCL-跨领域句法分析评测 2021CCL-中译语通-Nihao无监督汉语分词评测 |
| 阅读理解 | 2018机器阅读理解技术竞赛 2019法研杯-阅读理解 2020法研杯-阅读理解 2020语言与智能技术竞赛:机器阅读理解任务 2021海华AI挑战赛·中文阅读理解(技术组) 2021语言与智能技术竞赛:机器阅读理解任务 2021NLPCC-AIDebater |
| 文本匹配 | 2019大数据挑战赛 2019金融信息负面及主体判定 2019CHIP-疾病问答迁移学习比赛 2019CHIP-临床术语标准化任务 2019法研杯-相似案例匹配 2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛 2020房产行业聊天匹配问答 2020CHIP-临床术语标准化任务 2020法研杯-论辩挖掘 2021搜狐校园文本匹配算法大赛 2021小布助手对话短文本语义匹配 2021CHIP-临床术语标准化任务 |
| 对话 | 2019SMP中文人机对话技术评测 2020千言:多技能对话 2020语言与智能技术竞赛:面向推荐的对话任务 2021SMP对话式AI算法技术评测(小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复 ) 2021CCL-智能对话诊疗评测比赛 2021DSTC10 |
| Text2SQL | 2019中文NL2SQL挑战赛 2020语言与智能技术竞赛:语义解析任务 |
| 问答 | 2020CCKS新冠知识图谱构建与问答评测-子任务4:新冠百科知识图谱问答评测 2020法研杯-司法考试 |
| 信息抽取 | 2020科大讯飞事件抽取挑战赛 2020语言与智能技术竞赛:关系抽取任务 2020语言与智能技术竞赛:事件抽取任务 2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2:医疗事件抽取 2020CCKS面向金融领域的小样本跨类迁移事件抽取 2020CCKS面向金融领域的篇章级事件主体与要素抽取 2020CHIP-中文医学文本实体关系抽取 2021语言与智能技术竞赛:多形态信息抽取任务 2021医疗实体与关系识别挑战赛 2021NLPCC-AutoIE 2 2021CHIP-临床发现事件抽取任务 2021SDU@AAAI-Task1-Acronym Identification |
| 机器翻译 | 2020CCMT-双语、多语、语音、质量评估、语料过滤 2021NAACL同传Workshop:千言 - 机器同传 2021低资源多语种文本翻译挑战赛 2021领域迁移机器翻译挑战赛 2021CCMT-双语、多语、低资源、自动译后编辑、质量评估、语料过滤 |
| 其它 | 2018法研杯-刑期预测 2020NLP中文预训练模型泛化能力挑战赛 2020CCKS新冠知识图谱构建与问答评测-子任务3:新冠科研抗病毒药物图谱的链接预测 2021未来杯-探索科技未来 (论文推荐) 2021NLPCC-FewCLUE |
NLP相关的学界、业界、理论、实践以及时事动态
| 平台 | 主要领域 | 自媒体 |
|---|---|---|
| 微信公众号 | 技术 | Coggle数据科学、DataFunTalk(偏向业界方案) |
| 行业信息 | 机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅 | |
| 学术 | 科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道、夕小瑶的卖萌屋、机器学习算法与自然语言处理(MLNLP) | |
| BiliBili | 前沿论坛 | 智源社区、AITIME论道 |
| 基础 | 跟李沐学AI | |
| 网站 | 竞赛 | Coggle数据科学 、CompHub |
| 学术 | Paper With Code 、AMiner学术头条 、科学空间 |
warning: 请仔细评估第三方平台信誉,警惕代码、数据等重要信息泄露
| 平台 | 算力 | 价格 | 说明 |
|---|---|---|---|
| featurize | 2080Ti、3090 | 2080Ti(¥2/h)、3090(¥3.6/h) | 镜像环境,使用灵活,可以通过jupyter_lab、vscode、pycharm远程连接 |
| AutoDL | rtx a5000、3090、A100 | ¥0.6/h~¥8.5/h | 单机ssh连接,存储空间不大,不过很便宜 |
| 智星云 | 1080Ti、3080、3090、V/A100等 | ¥2.1/h~¥11/h | 整机,可远程连接(pycharm/vs code) |
| 沣云平台 | ML270 | ¥2.8/h | 一站式AI计算平台,CPU可以增量配置,按运行时间收取费用 |
| 恒源云 | 2080Ti、3060、3090、V100等 | ¥1.25/h~¥5.5/h | 可以搭配完整的CPU和硬盘,相比bithub有更高的自由度,目前处于推广期,有很多优惠 |
| 并行云 | V100、2080Ti、P100等 | 不明 | 计算节点来自超算,可个性化定制CPU核数、GPU、存储空间,有非常简便的操作界面,并且提供远程linux桌面,灵活度优于以上三个平台。目前处于推广期,有很多优惠 |
| AI Studio | V100 | 基本免费 | 由百度开发, 偶尔申请不到V100,最高可免费8卡。主要使用飞桨PaddlePaddle框架,其它框架需自行折腾,也可用X2Paddle一键转为飞桨的代码和模型,大部分比赛参与即送算力卡。 |
| 天池DSW | p100 | 免费,单次限时8小时,不限次数 | 阿里的一个在线平台,运行时不能关闭 |
| 天池实验室 | V100 | 免费,60h/年 | 相比于AI Studio不限制深度学习框架,就是时间比较短 |
| Kaggle | k80 | 免费,每周限时30小时 | 外网访问 |
| Google Colab | k80、T4、P4、P100 | 免费,单次限时12小时 | 外网访问,无法指定具体GPU,未订阅Colab Pro用户多数时间下估计会被分配k80 |
中国计算机学会推荐国际学术会议和期刊目录-2022
中国计算机学会推荐中文科技期刊目录
dblp:计算机科学文献库
AI会议deadline :会议倒计时
会议时间记录表 :Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note:以下时间为官网默认时间,暂未换算成北京时间
| 会议 | 级别 | 摘要截稿 | 原文截稿 | 审稿通知 | 开会时间 | 说明 |
|---|---|---|---|---|---|---|
| ICLR(官网、dblp) | * | 2023.9.21 | 2023.9.28 | 2023.11.10(review)、2024.1.15(final) | 2024.5.7-5.11 | Vienna |
| ACL(官网、dblp) | CCF-A | Toronto,Canada | ||||
| NeurIPS(官网、dblp) | CCF-A | 2023.9.21 | 2023.12.10-12.16 | New Orleans Ernest N. Morial Convention Center | ||
| ICML(官网、dblp) | CCF-A | * | ? | ? | 2024.7.21-7.27 | Messe Wien Exhibition Congress Center |
| SIGIR(官网、dblp) | CCF-A | Taipei, Taiwan | ||||
| WWW(官网、dblp) | CCF-A | 2023.10.5 | 2023.10.12 | 2023.12.1-12.14(rebuttal) 2024.2.1(final) |
2024.5.13-5.17 | Singapore |
| AAAI(官网、dblp) | CCF-A | 2023.9.27(phase 1 rejections)、2023.12.19(final) | 2024.2.20-2.27 | VANCOUVER, CANADA | ||
| IJCAI(官网、dblp) | CCF-A | Cape Town, South Africa | ||||
| EMNLP(官网、dblp) | CCF-B | 2023.8.22~8.28(rebuttal)、2023.10.6 | 2023.12.6-12.10 | Singapore | ||
| NAACL(官网、dblp) | CCF-B | * | 2023.12.15(ARR)、2024.2.20(Commitment) | 2024.3.15 | 2024.6.16-6.21 | Mexico City, Mexico |
| COLING(官网、dblp) | CCF-B | * | Gyeongju, Korea | |||
| CoNLL(官网、dblp) | CCF-C | * | 2023.10.6 | 2023.12.6-12.7 | colocated with emnlp2023 | |
| NLPCC(官网、dblp) | CCF-C | * | 2023.10.12-10.15 | 佛山 | ||
| IJCNN(官网 、dblp ) | CCF-C | * | Queensland, Australia | |||
| ICONIP(官网) | CCF-C | * | New Delhi, India | |||
| ACML(官网) | CCF-C | * | 2023.5.26(期刊) |
2023.8.11-8.18(rebuttal)、9.8 (final); 2023.7.7(初审)、9.8(final) |
2023.11.11-11.14 | İstanbul, Turkey |
| AACL(官网) | * | * | 2023.8.2-8.9(rebuttal)、9.4(final) | 2023.11.1-11.4 | Bali, Indonesia | |
| EACL(官网、dblp) | * | * | Kiev, Ukraine、online | |||
| CCL(官网、dblp) | * | * | 哈尔滨 | |||
| CCKS(官网、dblp) | * | * | 沈阳 | |||
| SMP(官网、dblp) | * | * | 2023.11.24-11.26 | 北京 | ||
| CCMT(官网) | * | * | 2023.10.19-10.21 | 山东济南 |