NLPer Arsenal
1.0.0
NLP人軍火庫,主要收錄NLP競賽策略實現、各任務教程、經驗貼、學習資料以及會議時間等,如果對你有幫助,請給我們一個star。
本項目主要包含以下內容:
項目正在不斷完善,如果您有什麼建議,歡迎到issue 留言,或者通過郵箱([email protected])聯繫我們。
所有內容均由我們從網絡公開資料中收集整理得到,版權歸原作者所有,如有侵權請立即與我們聯繫,我們將及時處理。
整理不易,轉載時請務必備註本項目github鏈接,感謝您為維護良好的開源環境出一份力。
記錄當前正在進行的競賽,獎金豐厚,適合有一定基礎的NLPer;結束時間為官網標準時間或會議召開時間。
| 領域/會議 | 競賽 | 報名時間 | 結束時間 |
|---|---|---|---|
| 大模型 | 基於通用大模型的知識庫問答面向大語言模型的提示注入攻防競賽基於大模型的開源軟件安全應用情報員應用開發 | 2023.08.23-10.24 2023.8.14-9.28 同上 | 2023.11.03-11.05 2023.11 同上 |
| CAIL2023 | 1. 司法考試 2. 對話式類案檢索 3. 類案檢索 4. 事實認定 5. 論辯理解 6. 信息抽取 7. 司法大模型 | 2023.8-11,具體時間詳見各賽事安排 | 2023.12 |
| CHIP2023 | 評測一: CHIP-PromptCBLUE醫療大模型評測任務(不微調、參數微調) 評測二: 中文醫學文本小樣本命名實體識別評測任務評測三:藥品紙質文檔識別與實體關係抽取任務 | 2023.8.1-9.27 | 2023.10.27-10.29 |
| SMP2023 | ChatGLM 金融大模型挑戰賽 | 2023.7.19-8.16 | 2023.9 |
| AI開發者大賽 | 中文語義病句識別與糾正挑戰賽多語言機器翻譯挑戰賽人崗匹配挑戰賽2.0 汽車領域文本規X則泛化性增強挑戰賽基於論文摘要的文本分類與關鍵詞抽取挑戰賽機器翻譯質量評估挑戰賽2023 校招簡歷應聘崗位與項目技能匹配檢測挑戰賽校招簡歷信息完整性檢測挑戰賽方面情感三元組提取的跨領域遷移挑戰賽微博評論機器人 ChatGPT生成文本檢測器標書實體抽取挑戰賽基於自然語言的軟件任務執行挑戰賽學術文檔篇章級結構恢復挑戰賽學術文檔要素分類挑戰賽 | 2023.5-9,具體實踐詳見各賽事 | 2023.10.24 |
| DSTC11 | Track 4:Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems Track 5:Task-oriented Conversational Modeling with Subjective Knowledge | -2023.3 | 2023.8-9 |
| CCMT2023 | CCMT與WMT2023合作組織的漢英、英漢新聞領域的翻譯評測維漢、蒙漢、藏漢的翻譯評測翻譯質量估計評測自動譯後編輯評測一帶一路”低資源語言機器翻譯任務以中文為中心的多語言機器翻譯任務中英零指代機器翻譯任務 | -2023.5.10 | 2023.10 |
| 千言數據集 | 文本生成、情感分析、閱讀理解、中文對話、文本相似度、語義解析、機器同傳、信息抽取、實體鏈指、低資源語言翻譯、自然語言推理、事實核查、可解釋評測、段落檢索、視頻語義理解等15個任務60個數據集 | 現在 | 暫無 |
| 中文醫療信息處理挑戰榜CBLUE | 目前任務包括醫學文本信息抽取(實體識別、關係抽取)、醫學術語歸一化、醫學文本分類、醫學句子關係判定和醫學QA共5大類任務8個子任務,-> 官網 | 現在 | 暫無 |
記錄長期進行的訓練賽,有排行榜,方便剛入門的NLPer練手
| 領域 | 競賽 | 報名時間 | 結束時間 |
|---|---|---|---|
| 文本分類 | WEBSHELL文本檢測學習賽醫療診療對話意圖識別挑戰賽知乎問題自動標註(有數據) 數據分析達人賽1:用戶情感可視化分析中文新聞文本標題分類金融用戶評論分類中文對話情感分析新聞文本分類文本分類對抗攻擊虛假職位招聘預測疫情期間互聯網虛假新聞檢測疫情期間網民情緒識別 O2O商舖食品安全相關評論發現互聯網新聞情感分析汽車行業用戶觀點主題及情感識別影評文本情感分析垃圾郵件分類短文本分類大賽-圖靈聯邦情感分類大賽-圖靈聯邦醫療文本分類- FlyAI 中文垃圾短信識別- FlyAI 英文垃圾信息分類社交網站消息內容分類- FlyAI 用戶商場評價情感分析- FlyAI Stanford-Sentiment-Treebank 情感分析- FlyAI COLA 英文句子可理解性分類- FlyAI 今日頭條新聞分類- FlyAI 美國點評網站Yelp評價預測賽- FlyAI 千言數據集:情感分析- 百度AI Studio Kaggle-Contradictory, My Dear Watson Kaggle-Natural Language Processing with Disaster Tweets CLEF 2019 Lab ProtestNews (Document、Sentence、Token) | - - 已結束 - - - - - - - - - - - - - - 每月1號每月1號 - - - - - - - - - - - - - | 2024.02 2024.02 已結束 2022.4.30 2023.01 - - - 2021.12.31 - - - - - - - - 每月27號每月27號 - - - - - - - - - 2023.1 - - - |
| 文本匹配 | 醫學搜索Query相關性判斷 Quora-檢測兩個問題是否重複- FlyAI 千言數據集:文本相似度千言數據集:問題匹配魯棒性英文文本語義相似度 IMDB評論劇透檢測醫學搜索Query相關性判斷 CCKS2021中文NLP地址相關性任務(數據集) | - - - - - - -2022.9.30 - | 2024.02 - 2023.1 2023.1 - - 2022.10.7 - |
| 文本蘊含 | Contradictory, My Dear Watson | - | - |
| 推薦系統 | 阿里移動推薦算法挑戰賽零基礎入門推薦系統- 新聞推薦天池新人挑戰賽之阿里移動推薦算法電商用戶購買行為預測圖書推薦系統 | - - - - - | 2024.02 - - - - |
| 問答 | 疫情政務問答助手醫療智能問答- FlyAI 2021心理對話問答挑戰賽 CommonsenseQA Dataset OpenBookQA Dataset | - - - - - | - - - 2026.4.15 2026.4.15 |
| 語義解析 | 千言數據集:語義解析 | - | 2023.1 |
| 摘要 | 媒體文章自動摘要知乎文本摘要新聞摘要自動生成問答摘要與推理(end: 2023.1) | - | - |
| 語音 | 生活場景漢語語音識別 | - | - |
| 信息抽取 | CCKS2021中文NLP地址要素解析 CCF BDCI 文本實體識別及關係抽取千言數據集:信息抽取英文文本實體關係抽取法律領域篇章級多事件檢測 | - - - - - | 2024.02 - 2023.1.1 - - |
| 實體鏈指 | 千言數據集:實體鏈指 | - | 2023.1.1 |
| 機器翻譯 | 千言數據集:低資源語言翻譯機器翻譯領域適應 | - - | 2023.1.1 - |
| 實體識別 | 中文的命名實體識別- FlyAI | - | - |
| 關係抽取 | 英文文本實體關係抽取(有數據) | 已結束 | 已結束 |
| 立場檢測 | 中文微博的立場檢測- FlyAI 微博立場檢測 | - - | - - |
| 對話 | MuTual Dataset 千言數據集:開放域對話對話系統中的口語理解 | - - - | 2026.4.15 2023.1.1 - |
| Text2SQL | 耶魯文本轉SQL | - | - |
| 閱讀理解 | 千言數據集:閱讀理解中文閱讀理解練習賽- FlyAI RACE Dataset RACE-C Dataset Dream Dataset C3 Dataset SciQ Dataset LogiQA Dataset MCTest Dataset OpenBookQA Dataset | - - - - - - - - - - | 2023.1.1 - 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 |
| Graph | HGB-Node Classification HGB-Link Prediction HGB-Knowledge-aware Recommendation | 2021.6.28- | 2030.6 |
| 其它 | 評論情感詞提取(含數據) | 已結束 | 已結束 |
這裡記錄整理好的競賽,包含數據下載以及競賽方案
| 目錄 | 賽事 |
|---|---|
| 文本分類 | 2018法研杯-罪名預測 2018法研杯-法條推薦 2019法研杯-要素識別 2019CHIP-臨床試驗篩選標準短文本分類 2019“技術需求”與“技術成果”項目之間關聯度計算模型 2020smp微博情緒分析評測 2020百度人工智能開源大賽-觀點閱讀理解任務 2020CCKS新冠知識圖譜構建與問答評測-子任務1:新冠百科知識圖譜類型推斷 2020CCKS新冠知識圖譜構建與問答評測-子任務2:新冠概念圖譜的上下位關係預測 2021SMP-ECISA中文隱式情感分析評測 2021DIGIX-基於多模型遷移預訓練文章質量判別 2021試題標籤預測挑戰賽 2021非標準化疾病訴求的簡單分診挑戰賽 2021CHIP-醫學對話臨床發現陰陽性判別任務 2021CCL-中文空間語義理解評測 2021CCL-“小牛杯”圖文多模態幽默識別評測 2022疫情微博情緒識別挑戰賽 2022非標準化疾病訴求的簡單分診挑戰賽2.0 2022機器翻譯質量評估挑戰賽 2022基於論文摘要的文本分類與查詢性問答 2022應用類型識別挑戰賽 2022 Amazon KDD Cup (task2 Multi-class Product Classification, task3 Product Substitute Identification) 2022醫療搜索意圖識別挑戰賽 [2022CCF BDCI小樣本數據分類任務](./往期競賽/文本分類/2022CCF BDCI小樣本數據分類任務.md) 2023CCL電信網絡詐騙案件分類評測 |
| 實體鏈指 | 2019CCKS中文短文本實體鏈指 2020CCKS面向中文短文本的實體鏈指任務 2020CCKS基於標題的大規模商品實體檢索 2020千言數據集:面向中文短文本的實體鏈指任務 2021SDU@AAAI-Task2-Acronym Disambiguation |
| 實體識別 | 2019互聯網金融新實體發現 2020CHIP-中藥說明書實體識別挑戰 2020CHIP-中文醫學文本命名實體識別 2020CCKS面向試驗鑑定的命名實體識別 2020CCKS面向中文電子病歷的醫療實體及事件抽取-子任務1:醫療命名實體識別 2021智能醫療決策 2021互聯網輿情企業風險事件的識別和預警 2021海通&工商-2021互聯網輿情企業風險事件的識別和預警 |
| 問題生成 | 2020CHIP-中醫文獻問題生成挑戰 |
| 摘要生成 | 2020法研杯-司法摘要 2021MEDIQA-Summarization of Consumer Health Questions 2021MEDIQA-Summarization of Multiple Answers 2021MEDIQA-Summarization of Radiology Reports |
| 句法分析 | 2021CCL-跨領域句法分析評測 2021CCL-中譯語通-Nihao無監督漢語分詞評測 |
| 閱讀理解 | 2018機器閱讀理解技術競賽 2019法研杯-閱讀理解 2020法研杯-閱讀理解 2020語言與智能技術競賽:機器閱讀理解任務 2021海華AI挑戰賽·中文閱讀理解(技術組) 2021語言與智能技術競賽:機器閱讀理解任務 2021NLPCC-AIDebater |
| 文本匹配 | 2019大數據挑戰賽 2019金融信息負面及主體判定 2019CHIP-疾病問答遷移學習比賽 2019CHIP-臨床術語標準化任務 2019法研杯-相似案例匹配 2020“公益AI之星”挑戰賽-新冠疫情相似句對判定大賽 2020房產行業聊天匹配問答 2020CHIP-臨床術語標準化任務 2020法研杯-論辯挖掘 2021搜狐校園文本匹配算法大賽 2021小布助手對話短文本語義匹配 2021CHIP-臨床術語標準化任務 |
| 對話 | 2019SMP中文人機對話技術評測 2020千言:多技能對話 2020語言與智能技術競賽:面向推薦的對話任務 2021SMP對話式AI算法技術評測(小樣本對話式意圖識別與槽位提取、對話式指代消解與省略恢復) 2021CCL-智能對話診療評測比賽 2021DSTC10 |
| Text2SQL | 2019中文NL2SQL挑戰賽 2020語言與智能技術競賽:語義解析任務 |
| 問答 | 2020CCKS新冠知識圖譜構建與問答評測-子任務4:新冠百科知識圖譜問答評測 2020法研杯-司法考試 |
| 信息抽取 | 2020科大訊飛事件抽取挑戰賽 2020語言與智能技術競賽:關係抽取任務 2020語言與智能技術競賽:事件抽取任務 2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus 2020CCKS面向中文電子病歷的醫療實體及事件抽取-子任務2:醫療事件抽取 2020CCKS面向金融領域的小樣本跨類遷移事件抽取 2020CCKS面向金融領域的篇章級事件主體與要素抽取 2020CHIP-中文醫學文本實體關係抽取 2021語言與智能技術競賽:多形態信息抽取任務 2021醫療實體與關係識別挑戰賽 2021NLPCC-AutoIE 2 2021CHIP-臨床發現事件抽取任務 2021SDU@AAAI-Task1-Acronym Identification |
| 機器翻譯 | 2020CCMT-雙語、多語、語音、質量評估、語料過濾 2021NAACL同傳Workshop:千言- 機器同傳 2021低資源多語種文本翻譯挑戰賽 2021領域遷移機器翻譯挑戰賽 2021CCMT-雙語、多語、低資源、自動譯後編輯、質量評估、語料過濾 |
| 其它 | 2018法研杯-刑期預測 2020NLP中文預訓練模型泛化能力挑戰賽 2020CCKS新冠知識圖譜構建與問答評測-子任務3:新冠科研抗病毒藥物圖譜的鏈接預測 2021未來杯-探索科技未來(論文推薦) 2021NLPCC-FewCLUE |
NLP相關的學界、業界、理論、實踐以及時事動態
| 平台 | 主要領域 | 自媒體 |
|---|---|---|
| 微信公眾號 | 技術 | Coggle數據科學、DataFunTalk(偏向業界方案) |
| 行業信息 | 機器之心、機器之能、AI報導、AI前線、AI科技評論、機器學習研究組訂閱 | |
| 學術 | 科學空間、PaperWeekly、智源社區、人工智能前沿講習、專知、AINLP、AI TIME 論道、夕小瑤的賣萌屋、機器學習算法與自然語言處理(MLNLP) | |
| BiliBili | 前沿論壇 | 智源社區、AITIME論道 |
| 基礎 | 跟李沐學AI | |
| 網站 | 競賽 | Coggle數據科學、CompHub |
| 學術 | Paper With Code 、AMiner學術頭條、科學空間 |
warning: 請仔細評估第三方平台信譽,警惕代碼、數據等重要信息洩露
| 平台 | 算力 | 價格 | 說明 |
|---|---|---|---|
| featurize | 2080Ti、3090 | 2080Ti(¥2/h)、3090(¥3.6/h) | 鏡像環境,使用靈活,可以通過jupyter_lab、vscode、pycharm遠程連接 |
| AutoDL | rtx a5000、3090、A100 | ¥0.6/h~¥8.5/h | 單機ssh連接,存儲空間不大,不過很便宜 |
| 智星雲 | 1080Ti、3080、3090、V/A100等 | ¥2.1/h~¥11/h | 整機,可遠程連接(pycharm/vs code) |
| 灃雲平台 | ML270 | ¥2.8/h | 一站式AI計算平台,CPU可以增量配置,按運行時間收取費用 |
| 恒源雲 | 2080Ti、3060、3090、V100等 | ¥1.25/h~¥5.5/h | 可以搭配完整的CPU和硬盤,相比bithub有更高的自由度,目前處於推廣期,有很多優惠 |
| 並行雲 | V100、2080Ti、P100等 | 不明 | 計算節點來自超算,可個性化定制CPU核數、GPU、存儲空間,有非常簡便的操作界面,並且提供遠程linux桌面,靈活度優於以上三個平台。目前處於推廣期,有很多優惠 |
| AI Studio | V100 | 基本免費 | 由百度開發, 偶爾申請不到V100,最高可免費8卡。主要使用飛槳PaddlePaddle框架,其它框架需自行折騰,也可用X2Paddle一鍵轉為飛槳的代碼和模型,大部分比賽參與即送算力卡。 |
| 天池DSW | p100 | 免費,單次限時8小時,不限次數 | 阿里的一個在線平台,運行時不能關閉 |
| 天池實驗室 | V100 | 免費,60h/年 | 相比於AI Studio不限制深度學習框架,就是時間比較短 |
| Kaggle | k80 | 免費,每週限時30小時 | 外網訪問 |
| Google Colab | k80、T4、P4、P100 | 免費,單次限時12小時 | 外網訪問,無法指定具體GPU,未訂閱Colab Pro用戶多數時間下估計會被分配k80 |
中國計算機學會推薦國際學術會議和期刊目錄-2022
中國計算機學會推薦中文科技期刊目錄
dblp:計算機科學文獻庫
AI會議deadline :會議倒計時會議時間記錄表:Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note:以下時間為官網默認時間,暫未換算成北京時間
| 會議 | 級別 | 摘要截稿 | 原文截稿 | 審稿通知 | 開會時間 | 說明 |
|---|---|---|---|---|---|---|
| ICLR(官網、dblp) | * | 2023.9.21 | 2023.9.28 | 2023.11.10(review)、2024.1.15(final) | 2024.5.7-5.11 | Vienna |
| ACL(官網、dblp) | CCF-A | Toronto,Canada | ||||
| NeurIPS(官網、dblp) | CCF-A | 2023.9.21 | 2023.12.10-12.16 | New Orleans Ernest N. Morial Convention Center | ||
| ICML(官網、dblp) | CCF-A | * | ? | ? | 2024.7.21-7.27 | Messe Wien Exhibition Congress Center |
| SIGIR(官網、dblp) | CCF-A | Taipei, Taiwan | ||||
| WWW(官網、dblp) | CCF-A | 2023.10.5 | 2023.10.12 | 2023.12.1-12.14(rebuttal) 2024.2.1(final) | 2024.5.13-5.17 | Singapore |
| AAAI(官網、dblp) | CCF-A | 2023.9.27(phase 1 rejections)、2023.12.19(final) | 2024.2.20-2.27 | VANCOUVER, CANADA | ||
| IJCAI(官網、dblp) | CCF-A | Cape Town, South Africa | ||||
| EMNLP(官網、dblp) | CCF-B | 2023.8.22~8.28(rebuttal)、2023.10.6 | 2023.12.6-12.10 | Singapore | ||
| NAACL(官網、dblp) | CCF-B | * | 2023.12.15(ARR)、2024.2.20(Commitment) | 2024.3.15 | 2024.6.16-6.21 | Mexico City, Mexico |
| COLING(官網、dblp) | CCF-B | * | Gyeongju, Korea | |||
| CoNLL(官網、dblp) | CCF-C | * | 2023.10.6 | 2023.12.6-12.7 | colocated with emnlp2023 | |
| NLPCC(官網、dblp) | CCF-C | * | 2023.10.12-10.15 | 佛山 | ||
| IJCNN(官網、dblp ) | CCF-C | * | Queensland, Australia | |||
| ICONIP(官網) | CCF-C | * | New Delhi, India | |||
| ACML(官網) | CCF-C | * | 2023.5.26(期刊) | 2023.8.11-8.18(rebuttal)、9.8 (final); 2023.7.7(初審)、9.8(final) | 2023.11.11-11.14 | İstanbul, Turkey |
| AACL(官網) | * | * | 2023.8.2-8.9(rebuttal)、9.4(final) | 2023.11.1-11.4 | Bali, Indonesia | |
| EACL(官網、dblp) | * | * | Kiev, Ukraine、online | |||
| CCL(官網、dblp) | * | * | 哈爾濱 | |||
| CCKS(官網、dblp) | * | * | 瀋陽 | |||
| SMP(官網、dblp) | * | * | 2023.11.24-11.26 | 北京 | ||
| CCMT(官網) | * | * | 2023.10.19-10.21 | 山東濟南 |