CLUEDatasetSearch
1.0.0
中英文NLP數據集。可以點擊搜索。
您可以通過上傳數據集信息貢獻你的力量。上傳五個或以上數據集信息並審核通過後,該同學可以作為項目貢獻者,並顯示出來。
clueai工具包: 三分鐘三行代碼搞定NLP開發(零樣本學習)

如果數據集有問題,歡迎提出issue。
所有數據集均來源於網絡,只做整理供大家提取方便,如果有侵權等問題,請及時聯繫我們刪除。
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017中文電子病例命名實體識別 | 2017年5月 | 北京極目雲健康科技有限公司 | 數據來源於其云醫院平台的真實電子病歷數據,共計800條(單個病人單次就診記錄),經脫敏處理 | 電子病歷 | 命名實體識別 | 中文 | ||
| 2 | CCKS2018中文電子病例命名實體識別 | 2018年 | 醫渡雲(北京)技術有限公司 | CCKS2018的電子病歷命名實體識別的評測任務提供了600份標註好的電子病歷文本,共需識別含解剖部位、獨立症狀、症狀描述、手術和藥物五類實體 | 電子病歷 | 命名實體識別 | 中文 | ||
| 3 | 微軟亞研院MSRA命名實體識別識別數據集 | MSRA | 數據來源於MSRA,標註形式為BIO,共有46365條語料 | Msra | 命名實體識別 | 中文 | |||
| 4 | 1998人民日報語料集實體識別標註集 | 1998年1月 | 人民日報 | 數據來源為98年人民日報,標註形式為BIO,共有23061條語料 | 98人民日報 | 命名實體識別 | 中文 | ||
| 5 | Boson | 玻森數據 | 數據來源為Boson,標註形式為BMEO,共有2000條語料 | Boson | 命名實體識別 | 中文 | |||
| 6 | CLUE Fine-Grain NER | 2020年 | CLUE | CLUENER2020數據集,是在清華大學開源的文本分類數據集THUCTC基礎上,選出部分數據進行細粒度命名實體標註,原數據來源於Sina News RSS。數據包含10個標籤類別,訓練集共有10748條語料,驗證集共有1343條語料 | 細粒度;CULE | 命名實體識別 | 中文 | ||
| 7 | CoNLL-2003 | 2003 | CNTS - Language Technology Group | 數據來源於CoNLL-2003的任務,該數據標註了包括PER, LOC, ORG和MISC的四個類別 | CoNLL-2003 | 命名實體識別 | 論文 | 英文 | |
| 8 | 微博實體識別 | 2015年 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 命名實體識別 | ||||
| 9 | SIGHAN Bakeoff 2005 | 2005年 | MSR/PKU | bakeoff-2005 | 命名實體識別 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NewsQA | 2019/9/13 | 微軟研究院 | Maluuba NewsQA數據集的目的是幫助研究社區構建能夠回答需要人類水平的理解和推理技能的問題的算法。包含超過12000篇新聞文章和120,000答案,每篇文章平均616個單詞,每個問題有2~3個答案。 | 英文 | QA | 論文 | ||
| 2 | SQuAD | 斯坦福 | 斯坦福問答數據集(SQuAD)是一個閱讀理解數據集,由維基百科的一組文章上提出的問題組成,其中每個問題的答案都是一段文本,可能來自相應的閱讀段落,或者問題可能是未解答的。 | 英文 | QA | 論文 | |||
| 3 | SimpleQuestions | 基於存儲網絡的大規模簡單問答系統, 數據集提供了一個多任務問答數據集,數據集有100K簡單問題的回答。 | 英文 | QA | 論文 | ||||
| 4 | WikiQA | 2016/7/14 | 微軟研究院 | 為了反映一般用戶的真實信息需求,WikiQA使用Bing查詢日誌作為問題源。每個問題都鏈接到一個可能有答案的維基百科頁面。因為維基百科頁面的摘要部分提供了關於這個主題的基本且通常最重要的信息,所以使用本節中的句子作為候選答案。在眾包的幫助下,數據集中包括3047個問題和29258個句子,其中1473個句子被標記為對應問題的回答句子。 | 英文 | QA | 論文 | ||
| 5 | cMedQA | 2019/2/25 | Zhang Sheng | 醫學在線論壇的數據,包含5.4萬個問題,及對應的約10萬個回答。 | 中文 | QA | 論文 | ||
| 6 | cMedQA2 | 2019/1/9 | Zhang Sheng | cMedQA的擴展版,包含約10萬個醫學相關問題,及對應的約20萬個回答。 | 中文 | QA | 論文 | ||
| 7 | webMedQA | 2019/3/10 | He Junqing | 一個醫學在線問答數據集,包含6萬個問題和31萬個回答,而且包含問題的類別。 | 中文 | QA | 論文 | ||
| 8 | XQA | 2019/7/29 | 清華大學 | 該篇文章主要是針對開放式問答構建了一個跨語言的開放式問答數據集,該數據集(訓練集、測試集)主要包括九種語言,9萬多個問答。 | 多語言 | QA | 論文 | ||
| 9 | AmazonQA | 2019/9/29 | 亞馬遜 | 卡耐基梅隆大學針對亞馬遜平台上問題重複回答的痛點,提出了基於評論的QA模型任務,即利用先前對某一產品的問答,QA系統自動總結出一個答案給客戶 | 英文 | QA | 論文 | ||
| 9 | AmazonQA | 2019/9/29 | 亞馬遜 | 卡耐基梅隆大學針對亞馬遜平台上問題重複回答的痛點,提出了基於評論的QA模型任務,即利用先前對某一產品的問答,QA系統自動總結出一個答案給客戶 | 英文 | QA | 論文 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | 微博語料,標註了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 條微博, 45 431句子 | NLPCC2013, Emotion | 情感分析 | 論文 | ||
| 2 | NLPCC2014 Task1 | 2014 | CCF | 微博語料,標註了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000條微博 | NLPCC2014, Emotion | 情感分析 | |||
| 3 | NLPCC2014 Task2 | 2014 | CCF | 微博語料,標註了正面和負面 | NLPCC2014, Sentiment | 情感分析 | |||
| 4 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | 微博語料,標註了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四萬多條微博 | weibo emotion corpus | 情感分析 | Emotion Corpus Construction Based on Selection from Noisy Natural Labels | ||
| 5 | [RenCECPs](Fuji Ren can be contacted ([email protected]) for a license agreement.) | 2009 | Fuji Ren | 標註的博客語料庫,在文檔級、段落級和句子級標註了emotion和sentiment。包含了1500個博客,11000段落和35000句子。 | RenCECPs, emotion, sentiment | 情感分析 | Construction of a blog emotion corpus for Chinese emotional expression analysis | ||
| 6 | weibo_senti_100k | 不詳 | 不詳 | 帶情感標註新浪微博,正負向評論約各5 萬條 | weibo senti, sentiment | 情感分析 | |||
| 7 | BDCI2018-汽車行業用戶觀點主題及情感識別 | 2018 | CCF | 汽車論壇中對汽車的評論,標註了汽車的詩歌主題:動力、價格、內飾、配置、安全性、外觀、操控、油耗、空間、舒適性。每個主題標註了情感標籤,情感分為3類,分別用數字0、1、-1表示中立、正向、負向。 | 屬性情感分析主題情感分析 | 情感分析 | |||
| 8 | AI Challenger 細粒度用戶評論情感分析 | 2o18 | 美團 | 餐飲評論,6個一級屬性,20個二級屬性,每個屬性標註正面、負面、中性、未提及。 | 屬性情感分析 | 情感分析 | |||
| 9 | BDCI2019金融信息負面及主體判定 | 2019 | 中原銀行 | 金融領域新聞,每個樣本標記了實體列表以及負面實體列表。任務是判斷一個樣本是否是負面以及對應的負面的實體。 | 實體情感分析 | 情感分析 | |||
| 10 | 之江杯電商評論觀點挖掘大賽 | 2019 | 之江實驗室 | 本次品牌評論觀點挖掘的任務是在商品評論中抽取商品屬性特徵和消費者觀點,並確認其情感極性和屬性種類。對於商品的某一個屬性特徵,存在著一系列描述它的觀點詞,它們代表了消費者對該屬性特徵的觀點。每一組{商品屬性特徵,消費者觀點}具有相應的情感極性(負面、中性、正面),代表了消費者對該屬性的滿意程度。此外,多個屬性特徵可以歸入某一個屬性種類,例如外觀、盒子等屬性特徵均可歸入包裝這個屬性種類。參賽隊伍最終需提交對測試數據的抽取預測信息,包括屬性特徵詞、觀點詞、觀點極性和屬性種類4個字段。 | 屬性情感分析 | 情感分析 | |||
| 11 | 2019搜狐校園算法大賽 | 2019 | 搜狐 | 給定若干文章,目標是判斷文章的核心實體以及對核心實體的情感態度。每篇文章識別最多三個核心實體,並分別判斷文章對上述核心實體的情感傾向(積極、中立、消極三種)。實體:人、物、地區、機構、團體、企業、行業、某一特定事件等固定存在,且可以作為文章主體的實體詞。核心實體:文章主要描述、或擔任文章主要角色的實體詞。 | 實體情感分析 | 情感分析 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018“達觀杯”文本智能處理挑戰賽](https://www.pkbigdata.com/common/cmpt/ “達觀杯”文本智能處理挑戰賽_賽體與數據.html) | 2018年7月 | 達觀數據 | 數據集來源於達觀數據,為長文本分類任務,其主要包括了id,article,word_seg和class四個字段,數據包含19個類別,共102275條樣本 | 長文本;脫敏 | 文本分類 | 中文 | ||
| 2 | 今日頭條中文新聞(文本)分類 | 2018年5月 | 今日頭條 | 數據集來源於今日頭條,為短文本分類任務,數據包含15個類別,共382688條樣本 | 短文本;新聞 | 文本分類 | 中文 | ||
| 3 | THUCNews中文文本分類 | 2016年 | 清華大學 | THUCNews是根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成,均為UTF-8純文本格式。我們在原始新浪新聞分類體系的基礎上,重新整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂,共74萬篇新聞文檔(2.19 GB) | 文檔;新聞 | 文本分類 | 中文 | ||
| 4 | 復旦大學中文文本分類 | 復旦大學計算機信息與技術系國際數據庫中心自然語言處理小組 | 數據集來源於復旦大學,為短文本分類任務,數據包含20個類別,共9804篇文檔 | 文檔;新聞 | 文本分類 | 中文 | |||
| 5 | 新聞標題短文本分類 | 2019年12月 | chenfengshf | CC0 公共領域共享 | 數據集來源於Kesci平台,為新聞標題領域短文本分類任務。內容大多為短文本標題(length<50),數據包含15個類別,共38w條樣本 | 短文本;新聞標題 | 文本分類 | 中文 | |
| 6 | 2017 知乎看山盃機器學習挑戰賽 | 2017年6月 | 中國人工智能學會;知乎 | 數據集來源於知乎,為問題及話題標籤的綁定關係的標註數據,每個問題有1 個或多個標籤,累計1999 個標籤,共包含300 萬個問題 | 問題;短文本 | 文本分類 | 中文 | ||
| 7 | 2019之江杯-電商評論觀點挖掘大賽 | 2019年8月 | 之江實驗室 | 本次品牌評論觀點挖掘的任務是在商品評論中抽取商品屬性特徵和消費者觀點,並確認其情感極性和屬性種類。對於商品的某一個屬性特徵,存在著一系列描述它的觀點詞,它們代表了消費者對該屬性特徵的觀點。每一組{商品屬性特徵,消費者觀點}具有相應的情感極性(負面、中性、正面),代表了消費者對該屬性的滿意程度 | 評論;短文本 | 文本分類 | 中文 | ||
| 8 | IFLYTEK' 長文本分類 | 科大訊飛 | 該數據集共有1.7萬多條關於app應用描述的長文本標註數據,包含和日常生活相關的各類應用主題,共119個類別 | 長文本 | 文本分類 | 中文 | |||
| 9 | 全網新聞分類數據(SogouCA) | 2012年8月16號 | 搜狗 | 該數據來自若干新聞站點2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據 | 新聞 | 文本分類 | 中文 | ||
| 10 | 搜狐新聞數據(SogouCS) | 2012年8月 | 搜狗 | 數據來源為搜狐新聞2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據 | 新聞 | 文本分類 | 中文 | ||
| 11 | 中科大新聞分類語料庫 | 2017年11月 | 劉禹中國科學院自動化研究所綜合信息中心 | 暫時不能下載,已經聯繫作者,等待反饋 | 新聞 | ||||
| 12 | ChnSentiCorp_htl_all | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 7000 多條酒店評論數據,5000 多條正向評論,2000 多條負向評論 | |||||
| 13 | waimai_10k | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 某外賣平台收集的用戶評價,正向4000 條,負向約8000 條 | |||||
| 14 | online_shopping_10_cats | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 10 個類別,共6 萬多條評論數據,正、負向評論各約3 萬條, 包括書籍、平板、手機、水果、洗髮水、熱水器、蒙牛、衣服、計算機、酒店 | |||||
| 15 | weibo_senti_100k | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 10 萬多條,帶情感標註新浪微博,正負向評論約各5 萬條 | |||||
| 16 | simplifyweibo_4_moods | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 36 萬多條,帶情感標註新浪微博,包含4 種情感, 其中喜悅約20 萬條,憤怒、厭惡、低落各約5 萬條 | |||||
| 17 | dmsc_v2 | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 28 部電影,超70 萬用戶,超200 萬條評分/評論數據 | |||||
| 18 | yf_dianping | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 24 萬家餐館,54 萬用戶,440 萬條評論/評分數據 | |||||
| 19 | yf_amazon | 2018年3月 | https://github.com/SophonPlus/ChineseNlpCorpus | 52 萬件商品,1100 多個類目,142 萬用戶,720 萬條評論/評分數據 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | 哈工大(深圳)智能計算研究中心 | Creative Commons Attribution 4.0 International License | 該數據集共包含來自多個領域的260068個中文問句對,相同詢問意圖的句子對標記為1,否則為0;並預先將其切分為了訓練集:238766對,驗證集:8802對,測試集:12500對 | 大規模問句匹配;意圖匹配 | 短文本匹配;問句匹配 | 論文 | |
| 2 | The BQ Corpus | 2018/9/4 | 哈工大(深圳)智能計算研究中心;微眾銀行 | 該數據集共有120000個句子對,來自銀行一年中的諮詢服務日誌;句子對包含不同的意圖,標記正負樣本比例為1:1 | 銀行服務問句;意圖匹配 | 短文本匹配;問句一致性檢測 | 論文 | ||
| 3 | AFQMC 螞蟻金融語義相似度 | 2018/4/25 | 螞蟻金服 | 提供10萬對的標註數據(分批次更新,已更新完畢),作為訓練數據,包括同義對和不同義對 | 金融問句 | 短文本匹配;問句匹配 | |||
| 4 | 第三屆拍拍貸“魔鏡杯”大賽 | 2018/6/10 | 拍拍貸智慧金融研究院 | train.csv文件包含3列,分別是標籤(label,表示問題1和問題2是否表示相同的意思,1表示相同,0表示不同),問題1的編號(q1)和問題2的編號(q2)。本文件中出現的所有問題編號均在question.csv中出現過 | 金融產品 | 短文本匹配;問句匹配 | |||
| 5 | CAIL2019相似案例匹配大賽 | 2019/6 | 清華大學;中國裁判文書網 | 對於每份數據,用三元組(A,B,C)來代表該組數據,其中A,B,C均對應某一篇文書。文書數據A與B的相似度總是大於A與B的相似度的,即sim(A,B)>sim(A,C) | 法律文書;相似案例 | 長文本匹配 | |||
| 6 | CCKS 2018 微眾銀行智能客服問句匹配大賽 | 2018/4/5 | 哈工大(深圳)智能計算研究中心;微眾銀行 | 銀行服務問句;意圖匹配 | 短文本匹配;問句匹配 | ||||
| 7 | ChineseTextualInference | 2018/12/15 | 劉煥勇,中國科學院軟件研究所 | 中文文本推斷項目,包括88萬文本蘊含中文文本蘊含數據集的翻譯與構建,基於深度學習的文本蘊含判定模型構建 | 中文NLI | 中文文本推斷;文本蘊含 | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | 給定問題-答案,以及該答案是否是該問題的答案之一的標記,1表示是,0表示不是 | DBQA | 問答匹配 | |||
| 9 | “技術需求”與“技術成果”項目之間關聯度計算模型 | 201/8/32 | CCF | 給定文本形式的技術需求和技術成果,以及需求與成果的關聯度標籤;其中技術需求與技術成果之間的關聯度分為四個層級: 強相關、較強相關、弱相關、無相關 | 長文本;需求與成果匹配 | 長文本匹配 | |||
| 10 | CNSD / CLUE-CMNLI | 2019/12 | ZengJunjun | 中文自然語言推理數據集,本數據及通過翻譯加部分人工修正的方法,從英文原數據集生成,可以一定程度緩解中文自然語言推理和語義相似度計算數據集不夠的問題 | 中文NLI | 中文自然語言推斷 | 論文 | ||
| 11 | cMedQA v1.0 | 2017/4/5 | 尋藥尋醫網和國防科技大學信息系統及管理學院 | 該數據集來源為尋醫尋藥網站中的提問和回答, 數據集做過匿名處理,提供的是包含訓練集中有50,000個問題,94,134個答案,平均每個問題、答案字符數分別為為120、212個; 驗證集有2,000個問題,有3774個答案,問題和答案的平均字符數分別為117和212個; 測試集有2,000個問題,有3835個答案,問題和答案的平均字符數分別為119和211個; 數據集總量有54,000個問題,101,743個答案,平均每個問題和答案的字符數分別為119、212個; | 醫療問答匹配 | 問答匹配 | 論文 | ||
| 12 | cMedQA2 | 2018/11/8 | 尋藥尋醫網和國防科技大學信息系統及管理學院 | 該數據集來源為尋醫尋藥網站中的提問和回答, 數據集做過匿名處理,提供的是包含訓練集中有100,000個問題,188,490個答案,平均每個問題、答案字符數分別為為48、101個; 驗證集有4,000個問題,有7527個答案,問題和答案的平均字符數分別為49和101個; 測試集有4,000個問題,有7552個答案,問題和答案的平均字符數分別為49和100個; 數據集總量有108,000個問題,203,569個答案,平均每個問題和答案的字符數分別為49、101個; | 醫療問答匹配 | 問答匹配 | 論文 | ||
| 13 | ChineseSTS | 2017/9/21 | 唐善成, 白雲悅, 馬付玉. 西安科技大學 | 該數據集提供了12747對中文相似數據集,在數據集後作者給出了他們相似度的打分,語料由短句構成。 | 短句相似度匹配 | 相似度匹配 | |||
| 14 | 中國健康信息處理會議舉辦的醫療問題相似度衡量競賽數據集 | 2018 | CHIP 2018-第四屆中國健康信息處理會議(CHIP) | 本次評測任務的主要目標是針對中文的真實患者健康諮詢語料,進行問句意圖匹配。 給定兩個語句,要求判定兩者意圖是否相同或者相近。 所有語料來自互聯網上患者真實的問題,並經過了篩选和人工的意圖匹配標註。 數據集經過脫敏處理,問題由數字標示訓練集包含20000條左右標註好的數據(經過脫敏處理,包含標點符號), 測試集包含10000條左右無label的數據(經過脫敏處理,包含標點> 符號)。 | 醫療問題相似度匹配 | 相似度匹配 | |||
| 15 | COS960: A Chinese Word Similarity Dataset of 960 Word Pairs | 2019/6/6 | 清華大學 | 該數據集中包含了960對單詞, 並且每對單詞都被15個母語者用相似度分數來衡量這960個詞對根據標籤被分成三組, 包含480對名詞,240對動詞和240對形容詞。 | 單詞之間的相似度 | 同義詞 | 論文 | ||
| 16 | OPPO手機搜索排序query-title語義匹配數據集。 (https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 密碼7p3n) | 2018/11/6 | OPPO | 該數據集來自於OPPO手機搜索排序優化實時搜索場景, 該場景就是在用戶不斷輸入過程中,實時返回查詢結果。 該數據集在此基礎上做了相應的簡化, 提供了一個query-title語義匹配,即ctr預測的問題。 | 問題標題匹配, ctr預測 | 相似度匹配 | |||
| 17 | 網頁搜索結果評價(SogouE) | 2012年 | 搜狗 | 搜狗實驗室數據使用許可協議 | 該數據集包含了查詢詞,相關URL以及查詢類別的搜索數據,格式如下數據格式說明:查詢詞]t相關的URLt查詢類別其中URL保證存在於對應的互聯網語料庫; 查詢類別中“1”表示導航類查詢;“2”表示信息類查詢 | Automatic Search Engine Performance Evaluation with Click-through Data Analysis | 查詢類型匹配預測 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCSTS | 2015/8/6 | Qingcai Chen | 數據集來源於新浪微博,包含兩百萬左右真實中文短文本,每條數據包括由作者標註的摘要和正文兩個字段。另外有10,666條數據由人工標註出短文本與摘要的相關性,從1-5相關性依次增加。 | 單文本摘要;短文本;文本相關性 | 文本摘要 | 論文 | ||
| 2 | 中文短文本摘要數據集 | 2018/6/20 | He Zhengfang | 數據來源於新浪微博主流媒體發布的微博,共679898條數據。 | 單文本摘要;短文本 | 文本摘要 | |||
| 3 | 教育培訓行業抽象式自動摘要中文語料庫 | 2018/6/5 | 匿名 | 語料庫收集了教育培訓行業主流垂直媒體的歷史文章,約24500條數據,每條數據包括由作者標註的摘要和正文兩個字段。 | 單文本摘要;教育培訓 | 文本摘要 | |||
| 4 | NLPCC2017 Task3 | 2017/11/8 | NLPCC2017主辦方 | 數據集來源於新聞領域,是NLPCC2017舉辦提供的任務數據,可用於單文本摘要。 | 單文本摘要;新聞 | 文本摘要 | |||
| 5 | 神策杯2018 | 2018/10/11 | DC競賽主辦方 | 數據來源於新聞文本,由DC競賽主辦方提供,模擬業務場景,以新聞文本的核心詞提取為目的,最終結果達到提升推薦和用戶畫像的效果。 | 文本關鍵字;新聞 | 文本摘要 | |||
| 6 | Byte Cup 2018國際機器學習競賽 | 2018/12/4 | 字節跳動 | 數據來自字節跳動旗下產品TopBuzz和開放版權的文章,訓練集包括了約130 萬篇文本的信息,驗證集1000 篇文章, 測試集800 篇文章。 每條測試集和驗證集的數據經由人工編輯手工標註多個可能的標題,作為答案備選。 | 單文本摘要;視頻;新聞 | 文本摘要 | 英文 | ||
| 7 | NEWSROOM | 2018/6/1 | Grusky | 數據是從1998年到2017年的搜索和社交元數據中獲得,並使用了多種提取和抽象相結合的摘要策略,包含作者和編輯在38個主要出版物編輯部撰寫的130萬篇文章和摘要。 | 單文本摘要;社交元數據;搜索 | 文本摘要 | 論文 | 英文 | |
| 8 | [DUC/TAC](https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | NIST | 全稱Document Understanding Conferences/Text Analysis Conference,數據集來源於每年的TAC KBP(TAC Knowledge Base Population)比賽使用的語料庫中的新聞專線和網絡文本。 | 單文本/多文本摘要;新聞 | 文本摘要 | 英文 | ||
| 9 | CNN/Daily Mail | 2017/7/31 | Standford | GNU v3 | 數據集是從美國有線新聞網(CNN)和每日郵報(DailyMail)中手機大約一百萬條新聞數據作為機器閱讀理解語料庫。 | 多文本摘要;長文本;新聞 | 文本摘要 | 論文 | 英文 |
| 10 | Amazon SNAP Review | 2013/3/1 | Standford | 數據來源於Amazon網站購物評論,可以獲取每個大類別(如美食、電影等)下的數據,也可以一次性獲取所有數據。 | 多文本摘要;購物評論 | 文本摘要 | 英文 | ||
| 11 | Gigaword | 2003/1/28 | David Graff, Christopher Cieri | 數據集包括約950w 篇新聞文章,用文章標題做摘要,屬於單句摘要數據集。 | 單文本摘要;新聞 | 文本摘要 | 英文 | ||
| 12 | RA-MDS | 2017/9/11 | Piji Li | 全稱Reader-Aware Multi-Document Summarization,數據集來源於新聞文章,由專家收集、標註和審查。涵蓋了45個主題,每個主題包含10個新聞文檔和4個模型摘要,每個新聞文檔平均包含27個句子,每個句子平均包含25個單詞。 | 多文本摘要;新聞;人工標註 | 文本摘要 | 論文 | 英文 | |
| 13 | TIPSTER SUMMAC | 2003/5/21 | The MITRE Corporation and the University of Edinburgh | 數據由183篇Computation and Language (cmp-lg) collection標記的文檔組成,文檔取自ACL會議發表論文。 | 多文本摘要;長文本 | 文本摘要 | 英文 | ||
| 14 | WikiHow | 2018/10/18 | Mahnaz Koupaee | 每條數據為一篇文章,每篇文章由多個段落組成,每個段落以一個總結它的句子開頭。通過合併段落形成文章和段落大綱形成摘要,數據集的最終版本包含了超過200,000個長序列對。 | 多文本摘要;長文本 | 文本摘要 | 論文 | 英文 | |
| 15 | Multi-News | 2019/12/4 | Alex Fabbri | 數據來自1500多個不同網站的輸入文章以及從網站newser.com獲得的56,216篇這些文章的專業摘要。 | 多文本摘要 | 文本摘要 | 論文 | 英文 | |
| 16 | MED Summaries | 2018/8/17 | D.Potapov | 數據集用於動態視頻摘要評估,包含160個視頻的註釋,其中驗證集60、測試集100,測試集中有10個事件類別。 | 單文本摘要;視頻註釋 | 文本摘要 | 論文 | 英文 | |
| 17 | BIGPATENT | 2019/7/27 | Sharma | 數據集包括130萬份美國專利文獻記錄以及人類書面抽象摘要,摘要包含更豐富的話語結構和更多的常用實體。 | 單文本摘要;專利;書面語 | 文本摘要 | 論文 | 英文 | |
| 18 | [NYT]( https://catalog.ldc.upenn.edu/LDC2008T19) | 2008/10/17 | Evan Sandhaus | 全稱The New York Times,數據集包含150篇來自紐約時報的商業文章,抓取了從2009年11月到2010年1月紐約時報網站上的所有文章。 | 單文本摘要;商業文章 | 文本摘要 | 英文 | ||
| 19 | The AQUAINT Corpus of English News Text | 2002/9/26 | David Graff | 數據集由新華社(中華人民共和國)、紐約時報新聞服務和美聯社世界新聞服務的英文新聞文本數據組成,包含大約3.75億字。數據集收費。 | 單文本摘要;新聞 | 文本摘要 | 中文和英文 | ||
| 20 | Legal Case Reports Data Set | 2012/10/19 | Filippo Galgani | 數據集來自2006-2009年澳大利亞聯邦法院(FCA)的澳大利亞法律案例,包含約4000個法律案件及其摘要。 | 單文本摘要;法律案件 | 文本摘要 | 英文 | ||
| 21 | 17 Timelines | 2015/5/29 | GB Tran | 數據是從新聞文章網頁中提取的內容,包含埃及、利比亞、也門、敘利亞四個國家的新聞。 | 單文本摘要;新聞 | 文本摘要 | 論文 | 多語言 | |
| 22 | PTS Corpus | 2018/10/9 | Fei Sun | 全稱Product Title Summarization Corpus,數據為移動設備顯示電子商務應用中的產品名稱摘要 | 單文本摘要;短文本 | 文本摘要 | 論文 | ||
| 23 | Scientific Summarization DataSets | 2019/10/26 | Santosh Gupta | 數據集取自Semantic Scholar Corpus和ArXiv。來自Semantic Scholar語料庫的標題/摘要對,過濾掉生物醫學領域的所有論文,包含580萬條數據。來自ArXiv的數據,包含了從1991年開始到2019年7月5日的每篇論文的標題/摘要對。數據集包含金融類數據10k,生物學類26k,數學類417k,物理類157萬,CS類221k。 | 單文本摘要;論文 | 文本摘要 | 英文 | ||
| 24 | Scientific Document Summarization Corpus and Annotations from the WING NUS group | 2019/3/19 | Jaidka | 數據集包括ACL計算語言學和自然語言處理研究論文,以及各自的引用論文和三個輸出摘要:傳統作者的論文摘要(摘要)、社區摘要(引用語句“引文”的收集)和由訓練有素的註釋員撰寫的人類摘要,訓練集包含40篇文章和引用論文。 | 單文本摘要;論文 | 文本摘要 | 論文 | 英文 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | EMNLP 2017 Workshop on Machine Translation | 數據主要來源於Europarl corpus和UN corpus兩個機構, 附帶2017年從News Commentary corpus 任務中重新抽取的文章。 這是由EMNLP會議提供的翻譯語料, 作為很多論文效果的benchmark來檢測 | Benchmark, WMT2017 | 中英翻譯語料 | 論文 | ||
| 2 | WMT2018 | 2018/11/1 | EMNLP 2018 Workshop on Machine Translation | 數據主要來源於Europarl corpus和UN corpus兩個機構, 附帶2018年從News Commentary corpus 任務中重新抽取的文章。 這是由EMNLP會議提供的翻譯語料, 作為很多論文效果的benchmark來檢測 | Benchmark, WMT2018 | 中英翻譯語料 | 論文 | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 數據主要來源於Europarl corpus和UN corpus兩個機構, 以及附加了news-commentary corpus and the ParaCrawl corpus中來得數據 | Benchmark, WMT2019 | 中英翻譯語料 | 論文 | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳門大學發布的中英文對照的高質量翻譯語料 | UM-Corpus;English; Chinese;large | 中英翻譯語料 | 論文 | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取碼: stjf) | 2017/8/14 | 創新工場、搜狗和今日頭條聯合發起的AI科技競賽 | 規模最大的口語領域英中雙語對照數據集。 提供了超過1000萬的英中對照的句子對作為數據集合。 所有雙語句對經過人工檢查, 數據集從規模、相關度、質量上都有保障。 訓練集:10,000,000 句驗證集(同聲傳譯):934 句驗證集(文本翻譯):8000 句 | AI challenger 2017 | 中英翻譯語料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 該數據集由德國人工智能研究中心提供, 除此數據集外,該網站還提供了很多的別的語言之間的翻譯對照語料供下載 | MultiUN | 中英翻譯語料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 數據來源於Xinhua 新聞服務包含70個新聞故事, 以及來自於Zaobao新聞服務的30個新聞故事,共100個從兩個新聞集中選擇出來的故事的長度都再212到707個中文字符之間,Xinhua部分共有有25247個字符, Zaobao有39256個字符 | NIST | 中英翻譯語料 | 論文 | 該系列有多年的數據, 該數據使用需要付費 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 該數據集包含基於TED演講的多種語言的平行語料,包含中英文等共計20種語言 | TED | 中英翻譯語料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 該數據集主要研究亞洲區域的語言,如中文和日語之間, 日語和英文之間的翻譯任務翻譯語料主要來自語科技論文(論文摘要;發明描述;專利等等) | Asian scientific patent Japanese | 中日翻譯語料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 語料庫包含從網絡自動收集的大約一百萬個句子對 | casia CWMT 2015 | 中英翻譯語料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 語料庫包含2個部分,每個部分包含從網絡自動收集的大約1百萬(總計2百萬)個句子對。 句子級別的對齊精度約為90%。 | casict CWMT 2011 | 中英翻譯語料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 語料庫包含大約200萬個句子對,包括從網絡(60%), 電影字幕(20%)和英語/漢語詞庫(20%)收集的句子。 句子水平對齊精度高於99%。 | casict CWMT 2015 | 中英翻譯語料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 語料庫包含一百萬對句子,涵蓋不同類型, 例如用於語言教育的教科書,雙語書籍, 技術文檔,雙語新聞,政府白皮書, 政府文檔,網絡上的雙語資源等。 請注意,數據中文部分的某些部分是按詞段劃分的。 | datum CWMT 2015 | 中英翻譯語料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 語料庫包含20個文件,涵蓋不同類型,例如新聞,對話,法律文件,小說等。 每個文件有50,000個句子。 整個語料庫包含一百萬個句子。 前10個文件(Book1-Book10)的中文詞均已分段。 | datum CWMT 2017 | 中英翻譯語料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 語料庫包含從網絡自動收集的200萬個句子對,包括新聞,技術文檔等。 句子級別的對齊精度約為90%。 | neu CWMT 2017 | 中英翻譯語料 | |||
| 16 | 翻譯語料(translation2019zh) | 2019 | 徐亮 | 可以用於訓練中英文翻譯系統,從中文翻譯到英文,或從英文翻譯到中文; 由於有上百萬的中文句子,可以只抽取中文的句子,做為通用中文語料,訓練詞向量或做為預訓練的語料。英文任務也可以類似操作; |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博關注關係語料庫100萬條 | 2017/12/2 | 北京理工大學網絡搜索挖掘與安全實驗室張華平博士 | NLPIR微博關注關係語料庫說明1.NLPIR微博關注關係語料庫由北京理工大學網絡搜索挖掘與安全實驗室張華平博士,通過公開採集與抽取從新浪微博、騰訊微博中獲得。為了推進微博計算的研究,現通過自然語言處理與信息檢索共享平台(127.0.0.1/wordpress)予以公開共享其中的1000萬條數據(目前已有數據接近10億,已經剔除了大量的冗餘數據); 2.本語料庫在公開過程中,已經最大限度地採用技術手段屏蔽了用戶真實姓名和url,如果涉及到的用戶需要全面保護個人隱私的,可以Email給張華平博士[email protected]予以刪除,對給您造成的困擾表示抱歉,並希望諒解; 3.只適用於科研教學用途,不得作為商用;引用本語料庫,恭請在軟件或者論文等成果特定位置表明出處為:NLPIR微博語料庫,出處為自然語言處理與信息檢索共享平台(http://www.nlpir.org/)。 4.字段說明: person_id 人物的id guanzhu_id 所關注人的id |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博內容語料庫-23萬條 | 2017年12月 | 北京理工大學網絡搜索挖掘與安全實驗室張華平博士 | NLPIR微博內容語料庫說明1.NLPIR微博內容語料庫由北京理工大學網絡搜索挖掘與安全實驗室張華平博士,通過公開採集與抽取從新浪微博、騰訊微博中獲得。為了推進微博計算的研究,現通過自然語言處理與信息檢索共享平台(127.0.0.1/wordpress)予以公開共享其中的23萬條數據(目前已有數據接近1000萬,已經剔除了大量的冗餘數據)。 2.本語料庫在公開過程中,已經最大限度地採用技術手段屏蔽了用戶真實姓名和url,如果涉及到的用戶需要全面保護個人隱私的,可以Email給張華平博士[email protected]予以刪除,對給您造成的困擾表示抱歉,並希望諒解; 3.只適用於科研教學用途,不得作為商用;引用本語料庫,恭請在軟件或者論文等成果特定位置表明出處為:NLPIR微博語料庫,出處為自然語言處理與信息檢索共享平台(http://www.nlpir.org/)。 4.字段說明: id 文章編號article 正文discuss 評論數目insertTime 正文插入時間origin 來源person_id 所屬人物的id time 正文發佈時間transmit 轉發 | |||||
| 2 | 500萬微博語料 | 2018年1月 | 北京理工大學網絡搜索挖掘與安全實驗室張華平博士 | 【500萬微博語料】北理工搜索挖掘實驗室主任@ICTCLAS張華平博士提供500萬微博語料供大家使用,文件為sql文件,只能導入mysql數據庫,內含建表語句,共500萬數據。語料只適用於科研教學用途,不得作為商用;引用本語料庫,請在軟件或者論文等成果特定位置表明出處。 【看起來這份數據比上面那一份要雜糅一些,沒有做過處理】 | |||||
| 3 | NLPIR新聞語料庫-2400萬字 | 2017年7月 | www.NLPIR.org | NLPIR新聞語料庫說明1.解壓縮後數據量為48MB,大約2400萬字的新聞; 2.採集的新聞時間跨度為2009年10月12日至2009年12月14日。 3.文件名為新聞的時間;每個文件包括多個新聞正文內容(已經去除了新聞的垃圾信息); 4.新聞本身內容的版權屬於原作者或者新聞機構; 5.整理後的語料庫版權屬於www.NLPIR.org; 6.可供新聞分析、自然語言處理、搜索等應用提供測試數據場景; 如需更大規模的語料庫,可以聯繫NLPIR.org管理員。 | |||||
| 4 | NLPIR微博關注關係語料庫100萬條 | 2017年12月 | 北京理工大學網絡搜索挖掘與安全實驗室張華平博士 | NLPIR微博關注關係語料庫說明1.NLPIR微博關注關係語料庫由北京理工大學網絡搜索挖掘與安全實驗室張華平博士,通過公開採集與抽取從新浪微博、騰訊微博中獲得。為了推進微博計算的研究,現通過自然語言處理與信息檢索共享平台(127.0.0.1/wordpress)予以公開共享其中的1000萬條數據(目前已有數據接近10億,已經剔除了大量的冗餘數據); 2.本語料庫在公開過程中,已經最大限度地採用技術手段屏蔽了用戶真實姓名和url,如果涉及到的用戶需要全面保護個人隱私的,可以Email給張華平博士[email protected]予以刪除,對給您造成的困擾表示抱歉,並希望諒解; 3.只適用於科研教學用途,不得作為商用;引用本語料庫,恭請在軟件或者論文等成果特定位置表明出處為:NLPIR微博語料庫,出處為自然語言處理與信息檢索共享平台(http://www.nlpir.org/)。 4.字段說明: person_id 人物的id guanzhu_id 所關注人的id | |||||
| 5 | NLPIR微博博主語料庫100萬條 | 2017年9月 | 北京理工大學網絡搜索挖掘與安全實驗室張華平博士 | NLPIR微博博主語料庫說明1.NLPIR微博博主語料庫由北京理工大學網絡搜索挖掘與安全實驗室張華平博士,通過公開採集與抽取從新浪微博、騰訊微博中獲得。為了推進微博計算的研究,現通過自然語言處理與信息檢索共享平台(127.0.0.1/wordpress)予以公開共享其中的100萬條數據(目前已有數據接近1億,已經剔除了大量的冗餘與機器粉絲) 2.本語料庫在公開過程中,已經最大限度地採用技術手段屏蔽了用戶真實姓名和url,如果涉及到的用戶需要全面保護個人隱私的,可以Email給張華平博士[email protected]予以刪除,對給您造成的困擾表示抱歉,並希望諒解; 3.只適用於科研教學用途,不得作為商用;引用本語料庫,恭請在軟件或者論文等成果特定位置表明出處為:NLPIR微博語料庫,出處為自然語言處理與信息檢索共享平台(http://www.nlpir.org/)。 4.字段說明: id 內部id sex 性別address 家庭住址fansNum 粉絲數目summary 個人摘要wbNum 微博數量gzNum 關注數量blog 博客地址edu 教育情況work 工作情況renZh 是否認證brithday 生日; | |||||
| 6 | NLPIR短文本語料庫-40萬字 | 2017年8月 | 北京理工大學網絡搜索挖掘與安全實驗室(SMS@BIT) | NLPIR短文本語料庫說明1.解壓縮後數據量為48萬字,大約8704篇短文本內容; 2.整理後的語料庫版權屬於www.NLPIR.org; 3.可供短文本自然語言處理、搜索、輿情分析等應用提供測試數據場景; | |||||
| 7 | 維基百科語料庫 | 維基百科 | 維基百科會定期打包發布語料庫 | ||||||
| 8 | 古詩詞數據庫 | 2020年 | github主爬蟲,http://shici.store | ||||||
| 9 | 保險行業語料庫 | 2017年 | 該語料庫包含從網站Insurance Library 收集的問題和答案。 據我們所知,這是保險領域首個開放的QA語料庫: 該語料庫的內容由現實世界的用戶提出,高質量的答案由具有深度領域知識的專業人士提供。 所以這是一個具有真正價值的語料,而不是玩具。 在上述論文中,語料庫用於答複選擇任務。 另一方面,這種語料庫的其他用法也是可能的。 例如,通過閱讀理解答案,觀察學習等自主學習,使系統能夠最終拿出自己的看不見的問題的答案。 數據集分為兩個部分“問答語料”和“問答對語料”。問答語料是從原始英文數據翻譯過來,未經其他處理的。問答對語料是基於問答語料,又做了分詞和去標去停,添加label。所以,"問答對語料"可以直接對接機器學習任務。如果對於數據格式不滿意或者對分詞效果不滿意,可以直接對"問答語料"使用其他方法進行處理,獲得可以用於訓練模型的數據。 | ||||||
| 10 | 漢語拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新聞預料 | 2016年 | 徐亮 | 可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料; 也可以用於訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同於標題的數據); 亦可以通過新聞渠道區分出新聞的類型。 | |||||
| 12 | 百科類問答json版(baike2018qa) | 2018年 | 徐亮 | 可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用於構建百科類問答;其中類別信息比較有用,可以用於做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。 | |||||
| 13 | 社區問答json版(webtext2019zh) :大規模高質量數據集 | 2019年 | 徐亮 | 1)構建百科類問答:輸入一個問題,構建檢索系統得到一個回复或生產一個回复;或根據相關關鍵詞從,社區問答庫中篩選出你相關的領域數據2)訓練話題預測模型:輸入一個問題(和或描述),預測屬於話題。 3)訓練社區問答(cQA)系統:針對一問多答的場景,輸入一個問題,找到最相關的問題,在這個基礎上基於不同答案回复的質量、 問題與答案的相關性,找到最好的答案。 4)做為通用中文語料,做大模型預訓練的語料或訓練詞向量。其中類別信息也比較有用,可以用於做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。 5)結合點贊數量這一額外信息,預測回复的受歡迎程度或訓練答案評分系統。 | |||||
| 14 | .維基百科json版(wiki2019zh) | 2019年 | 徐亮 | 可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用於構建知識問答。 【不同於wiki原始釋放的數據集,這個處理過了】 |
| ID | 標題 | 更新日期 | 數據集提供者 | 許可 | 說明 | 關鍵字 | 類別 | 論文地址 | 備註 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | 百度 | 來自於百度知道;格式為一個問題多篇意思基本一致的文章,分為人為標註以及瀏覽器檢索 | 閱讀理解、百度知道真實問題 | 中文閱讀理解 | 論文 | ||
| 2 | DuReader 1.0 | 2018/3/1 | 百度 | Apache2.0 | 本次競賽數據集來自搜索引擎真實應用場景,其中的問題為百度搜索用戶的真實問題,每個問題對應5個候選文檔文本及人工整理的優質答案。 | 閱讀理解、百度搜索真實問題 | 中文閱讀理解 | 論文 | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU問答比賽數據;來自於搜狗搜索引擎真實用戶提交的查詢請求;含有事實類與非事實類數據 | 閱讀理解、搜狗搜索引擎真實問題 | 中文閱讀理解 | |||
| 4 | 中文法律閱讀理解數據集CJRC | 2019/8/17 | 哈工大訊飛聯合實驗室(HFL) | 數據集包含約10,000篇文檔,主要涉及民事一審判決書和刑事一審判決書。通過抽取裁判文書的事實描述內容,針對事實描述內容標註問題,最終形成約50,000個問答對 | 閱讀理解、中文法律領域 | 中文閱讀理解 | 論文 | ||
| 5 | 2019“訊飛杯”中文機器閱讀理解數據集(CMRC ) | 2019年10月 | 哈工大訊飛聯合實驗室(HFL) | CC-BY-SA-4.0 | 本次閱讀理解的任務是句子級填空型閱讀理解。 根據給定的一個敘事篇章以及若干個從篇章中抽取出的句子,參賽者需要建立模型將候選句子精準的填回原篇章中,使之成為完整的一篇文章。 | 句子級填空型閱讀理解 | 中文閱讀理解 | 賽事官網:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“訊飛杯”中文機器閱讀理解數據集(CMRC ) | 2018/10/19 | 哈工大訊飛聯合實驗室(HFL) | CC-BY-SA-4.0 | CMRC 2018數據集包含了約20,000個在維基百科文本上人工標註的問題。同時,我們還標註了一個挑戰集,其中包含了需要多句推理才能夠正確解答的問題,更富有挑戰性 | 閱讀理解、基於篇章片段抽取 | 中文閱讀理解 | 論文 | 賽事官網:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“訊飛杯”中文機器閱讀理解數據集(CMRC ) | 2017/10/14 | 哈工大訊飛聯合實驗室(HFL) | CC-BY-SA-4.0 | 首個中文填空型閱讀理解數據集PD&CFT | 填空型閱讀理解 | 中文閱讀理解 | 論文 | 賽事官網 |
| 8 | 萊斯盃:全國第二屆“軍事智能機器閱讀”挑戰賽 | 2019/9/3 | 中電萊斯信息系統有限公司 | 面向軍事應用場景的大規模中文閱讀理解數據集,圍繞多文檔機器閱讀理解進行競賽,涉及理解、推理等複雜技術。 | 多文檔機器閱讀理解 | 中文閱讀理解 | 賽事官網 | ||
| 9 | ReCO | 2020 | 搜狗 | 來源於搜狗的瀏覽器用戶輸入;有多选和直接答案 | 閱讀理解、搜狗搜索 | 中文閱讀理解 | 論文 | ||
| 10 | DuReader-checklist | 2021/3 | 百度 | Apache-2.0 | 建立了細粒度的、多維度的評測數據集,從詞彙理解、短語理解、語義角色理解、邏輯推理等多個維度檢測模型的不足之處,從而推動閱讀理解評測進入“精細化“時代 | 細粒度閱讀理解 | 中文閱讀理解 | 賽事官網 | |
| 11 | DuReader-Robust | 2020/8 | 百度 | Apache-2.0 | 從過敏感性,過穩定性以及泛化性多個維度構建了測試閱讀理解魯棒性的數據 | 百度搜索、魯棒性閱讀理解 | 中文閱讀理解 | 論文 | 賽事官網 |
| 12 | DuReader-YesNo | 2020/8 | 百度 | Apache-2.0 | DuReader yesno是一個以觀點極性判斷為目標任務的數據集,可以彌補抽取類數據集評測指標的缺陷,從而更好地評價模型對觀點極性的理解能力。 | 觀點型閱讀理解 | 中文閱讀理解 | 賽事官網 | |
| 13 | DuReader2.0 | 2021 | 百度 | Apache-2.0 | DuReader2.0是全新的大規模中文閱讀理解數據,來源於用戶真實輸入,真實場景 | 閱讀理解 | 中文閱讀理解 | 論文 | 賽事官網 |
| 14 | CAIL2020 | 2020 | 哈工大訊飛聯合實驗室(HFL) | 中文司法閱讀理解任務,今年我們將提出升級版,不僅文書種類由民事、刑事擴展為民事、刑事、行政,問題類型也由單步預測擴展為多步推理,難度有所升級。 | 法律閱讀理解 | 中文閱讀理解 | 賽事官網 | ||
| 15 | CAIL2021 | 2021 | 哈工大訊飛聯合實驗室(HFL) | 中文法律閱讀理解比賽引入多片段回答的問題類型,即部分問題需要抽取文章中的多個片段組合成最終答案。希望多片段問題類型的引入,能夠擴大中文機器閱讀理解的場景適用性。本次比賽依舊保留單片段、是否類和拒答類的問題類型。 | 法律閱讀理解 | 中文閱讀理解 | 賽事官網 | ||
| 16 | CoQA | 2018/9 | 斯坦福大學 | CC BY-SA 4.0、Apache等 | CoQA是面向建立對話式問答系統的大型數據集,挑戰的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低 | 對話問答 | 英文閱讀理解 | 論文 | 官方網站 |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大學 | 行業內公認的機器閱讀理解領域的頂級水平測試;它構建了一個包含十萬個問題的大規模機器閱讀理解數據集,選取超過500 篇的維基百科文章。數據集中每一個閱讀理解問題的答案是來自給定的閱讀文章的一小段文本—— 以及,現在在SQuAD 2.0 中還要判斷這個問題是否能夠根據當前的閱讀文本作答 | 問答、包含未知答案 | 英文閱讀理解 | 論文 | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大學 | 斯坦福大學於2016年推出的閱讀理解數據集,給定一篇文章和相應問題,需要算法給出問題的答案。此數據集所有文章選自維基百科,一共有107,785問題,以及配套的536 篇文章 | 問答、基於篇章片段抽取 | 英文閱讀理解 | 論文 | ||
| 19 | MCTest | 2013 | 微軟 | 100,000個必應Bing問題和人工生成的答案。從那時起,相繼發布了1,000,000個問題數據集,自然語言生成數據集,段落排名數據集,關鍵詞提取數據集,爬網數據集和會話搜索。 | 問答、搜索 | 英文閱讀理解 | 論文 | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大規模英文機器理解數據集,答案是原文中的某一個詞。 CNN數據集包含美國有線電視新聞網的新聞文章和相關問題。大約有90k文章和380k問題。 Dailymail數據集包含每日新聞的文章和相關問題。大約有197k文章和879k問題。 | 問答對、填空型閱讀理解 | 英文閱讀理解 | 論文 | |
| 21 | RACE | 2017 | 卡耐基梅隆大學 | / | 數據集為中國中學生英語閱讀理解題目,給定一篇文章和5 道4 選1 的題目,包括了28000+ passages 和100,000 問題。 | 選擇題形式 | 英文閱讀理解 | 論文 | 下載需郵件申請 |
| 22 | HEAD-QA | 2019 | aghie | MIT | 一個面向複雜推理的醫療保健、多選問答數據集。提供英語、西班牙語兩種形式的數據 | 醫療領域、選擇題形式 | 英文閱讀理解西班牙語閱讀理解 | 論文 | |
| 23 | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大訊飛聯合實驗室 | / | 中文完形填空型閱讀理解 | 填空型閱讀理解 | 中文閱讀理解 | 論文 | |
| 24 | WikiQA | 2015 | 微軟 | / | WikiQA語料庫是一個新的公開的問題和句子對集,收集並註釋用於開放域問答研究 | 片段抽取閱讀理解 | 英文閱讀理解 | 論文 | |
| 25 | Children's Book Test (CBT) | 2016 | / | 測試語言模型如何在兒童書籍中捕捉意義。與標準語言建模基準不同,它將預測句法功能詞的任務與預測語義內容更豐富的低頻詞的任務區分開來 | 填空型閱讀理解 | 英文閱讀理解 | 論文 | ||
| 26 | NewsQA | 2017 | Maluuba Research | / | 一個具有挑戰性的機器理解數據集,包含超過100000個人工生成的問答對,根據CNN的10000多篇新聞文章提供問題和答案,答案由相應文章的文本跨度組成。 | 片段抽取閱讀理解 | 英文閱讀理解 | 論文 | |
| 27 | Frames dataset | 2017 | 微軟 | / | 介紹了一個由1369個人類對話組成的框架數據集,平均每個對話15輪。開發這個數據集是為了研究記憶在目標導向對話系統中的作用。 | 閱讀理解、對話 | 英文閱讀理解 | 論文 | |
| 28 | Quasar | 2017 | 卡內基梅隆大學 | BSD-2-Clause | 提出了兩個大規模數據集。 Quasar-S數據集由37000個完形填空式查詢組成,這些查詢是根據流行網站Stack overflow 上的軟件實體標記的定義構造的。網站上的帖子和評論是回答完形填空問題的背景語料庫。 Quasar-T數據集包含43000個開放域瑣事問題及其從各種互聯網來源獲得的答案。 | 片段抽取閱讀理解 | 英文閱讀理解 | 論文 | |
| 29 | MS MARCO | 2018 | 微軟 | / | 微軟基於搜索引擎BING 構建的大規模英文閱讀理解數據集,包含10萬個問題和20萬篇不重複的文檔。 MARCO 數據集中的問題全部來自於BING 的搜索日誌,根據用戶在BING 中輸入的真實問題模擬搜索引擎中的真實應用場景,是該領域最有應用價值的數據集之一。 | 多文檔 | 英文閱讀理解 | 論文 | |
| 30 | 中文完形填空 | 2016年 | 崔一鳴 | 首個中文填空型閱讀理解數據集PD&CFT, 全稱People Daily and Children's Fairy Tale, 數據來源於人民日報和兒童故事。 | 填空型閱讀理解 | 中文完形填空 | 論文 | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主辦方 | 基於文檔中的句子人工合成14659個問題,包括14K中文篇章。 | 問答對閱讀理解 | 中文閱讀理解 |
感謝以下同學的貢獻(排名不分先後)
鄭少棉、李明磊、李露、葉琛、薛司悅、章錦川、李小昌、李俊毅
您可以通過上傳數據集信息貢獻你的力量。上傳五個或以上數據集信息並審核通過後,該同學可以作為項目貢獻者,並顯示出來。
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304