該存儲庫包含帶註釋的數據集,可用於訓練監督模型,以實現語義關係提取的任務。如果您知道更多數據集,並且想貢獻,請通知我或提交PR。
它分為三組:
傳統信息提取:關係是手動註釋的,屬於預定類型,即封閉的類。
開放信息提取:關係是手動註釋的,但沒有任何特定類型。
遙遠的監督:通過應用一些遙遠的監督技術來註釋關係並進行預定。
| 數據集 | nr。課程 | 語言 | 年 | 引用 |
|---|---|---|---|---|
| aimed.tar.gz | 2 | 英語 | 2005 | 連接提取的子序列 |
| wikipedia_datav1.0.tar.gz | 53 | 英語 | 2006 | 整合概率提取模型和數據挖掘以發現文本中的關係和模式 |
| semeval2007-task4.tar.gz | 7 | 英語 | 2007 | Semeval-2007任務04:名義之間的語義關係分類 |
| hlt-naacl08-data.txt | 2 | 英語 | 2007 | 學習使用最小的監督從網絡中提取關係 |
| rerelem.tar.gz | 4 | 葡萄牙語 | 2009 | 命名實體之間的關係檢測:共享任務的報告 |
| semeval2010_task8_all_data.tar.gz | 10 /19(定向) | 英語 | 2010 | Semeval-20110任務8:一對名義之間的語義關係的多路分類 |
| bionlp.tar.gz | 2 | 英語 | 2011 | Bionlp共享任務2011的概述 |
| ddicorpus2013.zip | 4 | 英語 | 2012 | DDI語料庫:帶有藥理學物質和藥物相互作用的註釋語料庫 |
| ade-corpus-v2.zip | 2 | 英語 | 2013 | 開發基準語料庫,以支持從醫學病例報告中自動提取與藥物相關的不良影響 |
| dbpediareations-pt-0.2.txt.bz2 | 10 | 葡萄牙語 | 2013 | 探索DBPEDIA和Wikipedia進行葡萄牙語義關係提取 |
| kbp37-master.zip | 37定向 | 英語 | 2015 | 通過反复神經網絡的關係分類 |
| 數據集 | nr。課程 | 語言 | 年 | 引用 |
|---|---|---|---|---|
| dataset-jcnlp2011.tar.gz | 打開 | 英語 | 2011 | 用條件隨機字段提取關係描述符 |
| Reverb_emnlp2011_data.tar.gz | 打開 | 英語 | 2011 | 識別公開信息提取的關係 |
| clausie-datasets.tar.gz | 打開 | 英語 | 2013 | 克勞西:基於子句的開放信息提取 |
| emnlp13_ualberta_experiments_v2.zip | 打開 | 英語 | 2013 | 開放關係提取的有效性和效率 |
| 數據集 | nr。課程 | 語言 | 年 | 引用 |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | 遙遠 | 英語 | 2010 | 建模關係及其提及沒有標記的文本 |
| https://github.com/google-research-datasets/relation-extraction-corpus | 遙遠 | 英語 | 2013 | https://research.googleblog.com/2013/04/50000--LESSONS-LESSON--HOW-to-to-Read-relation.html |
| pgr.zip | 遙遠 | 英語 | 2019 | 人類表型基因關係的銀標準語料庫 |
| pgr-crowd.zip | 遠處 +眾包 | 英語 | 2020 | 生物醫學關係提取培訓語料庫的混合方法:將遙遠的監督與眾包相結合 |
dateset :dbpediarerations-pt-0.2.txt.bz2
引用:探索dbpedia和Wikipedia葡萄牙語義關係提取
描述:葡萄牙語中的一系列句子集,這些句子表達了從DBPEDIA提取的一對實體之間的語義關係。這些句子是通過遙遠的監督收集的,並且比工具修訂了。
日期:aimed.tar.gz
引用:連接提取的子序列
描述:它由225個MEDLINE摘要組成,其中200個摘要描述了人類蛋白質之間的相互作用,而其他25種則不涉及任何相互作用。該數據集中有4084個蛋白質參考和約1000個標記的交互。
dateSet :semeval2007-task4.tar.gz
引用:Semeval-2007任務04:名義之間語義關係的分類
描述:小數據集,包含7種關係類型和總共1,529個註釋的示例。
dateTet :semeval2010_task8_all_data.tar.gz
引用:Semeval-20110任務8:象徵性對之間語義關係的多路分類
描述:Semeval-2010 Task 8作為一個多路分類任務,其中必須從十個關係集和從名詞到參數插槽的映射中選擇每個示例的標籤。我們還提供了更多數據:10,717個註釋的示例,而Semeval-1任務4中為1,529。
dateset :rerelem.tar.gz
引用:指定實體之間的關係檢測:共享任務的報告
描述:針對葡萄牙的第一次評估競賽(軌道),其目標是檢測和分類命名實體之間的關係,稱為RERELEM。給定帶有屬於十個不同語義類別的命名實體註釋的集合,我們在每個文檔中標記了它們之間的所有關係。我們使用以下四重關係分類:身份,包括在內,定位和其他(後來明確詳細介紹為二十種不同的關係)。
dateset :wikipedia_datav1.0.tar.gz
引用:整合概率提取模型和數據挖掘以發現文本中的關係和模式
說明:我們從在線百科全書Wikipedia中抽樣了1127段,並標記了4701個關係實例。除了一系列人與人之間的關係外,我們還包括人與組織之間的聯繫,以及生日和喬布斯等傳記事實。培訓數據中總共有53個標籤。
日期:hlt-naacl08-data.txt
引用:學習使用最小的監督從網絡中獲取關係
描述:公司的收購對和從網絡上取走的人生對。公司收購測試集總共有995個實例,其中156個是正面的。 Person-Birthplace測試集總共有601個實例,其中只有45個是正面的。
日期:bionlp.tar.gz
引用:Bionlp共享任務2011的概述2011
描述:該任務涉及對實體之間兩個二元部分關係的識別:蛋白質組件和亞基複合物。該任務是由特定挑戰所激發的:文本中蛋白質組成部分的識別與識別站點參數(參見GE,EPI和ID任務)以及蛋白質與其複合物之間的關係與任何涉及它們的任務相關的複合物之間的關係。相關設置是通過最近的語義關係任務告知的(Hendrickx等,2010)。由GE數據的新註釋組成的任務數據擴展了先前引入的資源(Pyysalo等,2009; Ohta等,2010a)。
日期:ddicorpus2013.zip
引用:DDI語料庫:具有藥理學物質和藥物與藥物相互作用的註釋語料庫
描述:DDI語料庫包含有關藥物相互作用的Medline摘要以及描述來自藥品銀行數據庫的藥物相互作用的文件。該任務旨在解決整個藥物相互作用的提取,但分為兩個子任務,以允許對問題的不同方面對性能進行單獨評估。任務包括兩個子任務:
提出了四種類型的DDI:
日期:ade-corpus-v2.zip
引用:開發基準語料庫,以支持從醫學病例報告中自動提取與藥物相關的不良反應
描述:此處介紹的工作旨在產生系統註釋的語料庫,該語料庫可以支持自動從醫療病例報告中自動提取與藥物相關的不良影響的方法的開發和驗證。這些文檔在各個回合中進行了系統的兩次註釋,以確保一致的註釋。註釋的文檔最終被協調以產生代表性共識註釋。為了展示一個例子,使用語料庫來訓練和驗證模型,以針對非信息句子的信息進行分類。經過簡單特徵訓練並通過10倍交叉驗證評估的最大熵分類器導致F1得分為0.70,表明該語料庫具有潛在的有用應用。
日期:kbp37-master.zip.zip
引用:通過反复神經網絡的關係分類
描述:此數據集是Gabor Angeli等人提供的MIML-RE註釋數據集的修訂。 (2014)。他們使用2010年和2013年KBP官方文件收集,以及2013年7月的Wikipedia垃圾場作為註釋的文本語料庫,註釋了33811個句子。為了使數據集更適合我們的任務,我們進行了幾個改進:
首先,我們向關係名稱添加指示,以便“ per:“僱員”將“分為兩個關係” per:(e1,e2)的僱員'和'per:of(e2,e1)的僱員(e2,e1)''',但“無關係”。根據KBP任務的描述,3我們用“ org:子公司”替換為“ org:父母”,並替換'org:with'with'with'with'with'with'with'with'org:member'(通過其反向指示)。這導致數據集中有76個關係。
然後,我們分別用兩個方向統計每個關係的頻率。與低頻的關係被丟棄,以使每個關係的兩個方向在數據集中發生超過100次。為了更好地平衡數據集,也隨機丟棄了80%的“無關係”句子。
之後,數據集隨機洗牌,然後每個關係下的句子分為三組,培訓70%,開發10%,測試20%。最後,我們刪除了開發和測試集中的這些句子,其實體對和關係同時出現在培訓句子中。
dateSet :reverb_emnlp2011_data.tar.gz
引用:確定開放信息提取的關係
描述:使用Yahoo的隨機鏈接服務從Web採樣500個句子。
日期:clausie-datasets.tar.gz
引用:克勞西:基於子句的開放信息提取
描述:
三個不同的數據集。首先,混響數據集由500個帶有手動標記提取的句子組成。句子是通過Yahoo的隨機鏈接服務獲得的,通常非常嘈雜。第二,來自Wikipedia頁面的200個隨機句子。這些句子比混響數據集的句子更短,更簡單且嘈雜。但是,由於某些Wikipedia文章是由非母語說話者撰寫的,因此Wikipedia句子確實包含一些錯誤的語法結構。第三,《紐約時報》收集的200個隨機句子通常非常乾淨,但往往很漫長而復雜。
dateset :emnlp13_ualberta_experiments_v2.zip
引用:開放關係提取的有效性和效率
描述:Web-500是為Textrunner實驗開發的常用數據集(Banko和Etzioni,2008年)。這些句子通常是不完整的,語法上的不健全,代表了處理Web文本的挑戰。 NYT-500代表了頻譜的另一端,帶有《紐約時報》語料庫的正式,寫得很好的新故事(Sandhaus,2008年)。 Penn-100包含最近用於評估TreeKernel方法的Penn Treebank的句子(Xu等,2013)。我們手動註釋了Web-500和NYT-500的關係,並使用Treekernel的作者提供的Penn-100註釋(Xu等,2013)。
dateSet :dataset-jcnlp2011.tar.gz
引用:用條件隨機字段提取關係描述符
描述:《紐約時報》數據集包含來自《紐約時報》的150篇商業文章。這些文章在2009年11月至2010年1月之間從NYT網站上爬了。句子分裂和令牌化後,我們使用了Stanford Ner Tagger(url:http://nlp.stanford.edu/ner/index.shtml)來識別每個句子中命名的實體。對於包含多個令牌的命名實體,我們將它們串成一個令牌。然後,我們將與單個候選關係實例相同的句子中發生的每對(每個,組織)實體(每個實體)視為arg-1,並且org實體被視為arg-2。
Wikipedia數據先前是由Aron Culotta等人創建的。由於原始數據集沒有包含我們需要的註釋信息,因此我們對其進行了重新通知。同樣,我們執行了句子分裂,令牌化和NER標籤,並採用了與候選人關係實例相同句子中發生的成對(每個)實體。我們總是將第一個每個實體視為arg-1,而每個實體的第二個實體則將其視為arg-2。
dateset :http://iesl.cs.umass.edu/riedel/ecml/
引用:建模關係及其提及沒有標記的文本
描述:NYT數據集是一個廣泛使用的數據集,該數據集用於遙遠的關係提取任務。該數據集是通過將freebase關係與《紐約時報》(NYT)語料庫保持一致的,並用2005-2006年的句子用作培訓語料庫和2007年的句子,並用作測試語料庫。
dateTet :https://github.com/google-research-datasets/relation-ettraction-corpus
引用:https://research.googleblog.com/2013/04/50000-lessons-lesson-on-how-to-read-relation.html
描述:https://research.googleblog.com/2013/04/50000-lessons-lesson-on-how-to-read-relation.html
數據集:pgr.zip
引用:人類表型基因關係的銀標準語料庫
描述:人類表型基因關係是完全了解某些表型異常及其相關疾病的起源的基礎。生物醫學文獻是這些關係最全面的來源,但是,我們需要自動識別它們的關係提取工具。這些工具中的大多數都需要帶註釋的語料庫,據我們所知,沒有人類表型 - 基因關係的註釋。本文介紹了表型基因關係(PGR)語料庫,這是人類表型和基因註釋及其關係的銀標準語料庫。該語料庫由1712個摘要,5676個人類表型註釋,13835基因註釋和4283關係。我們使用命名實體識別工俱生成了該語料庫,其結果由八位策展人部分評估,獲得了87.01%的精度。通過使用語料庫,我們能夠使用兩種最先進的深度學習工具,即精度的78.05%獲得有希望的結果。 PGR語料庫已公開向研究界公開使用。
數據集:pgr-crowd.zip
引用:生物醫學關係提取培訓語料庫的混合方法:將遙遠的監督與眾包相結合
描述:生物醫學關係提取(RE)數據集對於知識庫的構建和增強新相互作用的發現至關重要。有幾種方法可以創建生物醫學RE數據集,有些比其他方法更可靠,例如訴諸於域專家註釋。但是,即使無法保證不能保證相同的質量水平,也可以潛在地降低RE DataSet構建成本的新興眾包平台,例如Amazon Mechanical Turk(MTURK)。研究人員缺乏控制誰,如何以及在哪些環境中參與眾包平台的方式。因此,與眾包的遙遠監督可以是更可靠的選擇。眾包工人只會被要求糾正或丟棄已經存在的註釋,這將使過程減少其解釋複雜生物醫學句子的能力。在這項工作中,我們使用先前創建的遙遠監督的人類表型 - 基因關係(PGR)數據集來執行眾包驗證。我們將原始數據集劃分為兩個註釋任務:任務1,一名工人註釋的數據集的70%,任務2,七個工人註釋的數據集的30%。此外,對於任務2,我們添加了額外的評估者和一個域專家,以進一步評估眾包驗證質量。在這裡,我們描述了一個詳細的管道,用於重新眾包驗證,創建具有部分域專家修訂的PGR數據集的新版本,並評估MTURK平台的質量。我們將新數據集應用於兩個最先進的深度學習系統(Biont和Biobert),並將其性能與原始PGR數據集進行了比較,以及兩者之間的組合,平均F量表增加了0.3494。支持我們工作的代碼和PGR數據集的新版本,請訪問https://github.com/lasigebiotm/pgr-crowd。