该存储库包含带注释的数据集,可用于训练监督模型,以实现语义关系提取的任务。如果您知道更多数据集,并且想贡献,请通知我或提交PR。
它分为三组:
传统信息提取:关系是手动注释的,属于预定类型,即封闭的类。
开放信息提取:关系是手动注释的,但没有任何特定类型。
遥远的监督:通过应用一些遥远的监督技术来注释关系并进行预定。
| 数据集 | nr。课程 | 语言 | 年 | 引用 |
|---|---|---|---|---|
| aimed.tar.gz | 2 | 英语 | 2005 | 连接提取的子序列 |
| wikipedia_datav1.0.tar.gz | 53 | 英语 | 2006 | 整合概率提取模型和数据挖掘以发现文本中的关系和模式 |
| semeval2007-task4.tar.gz | 7 | 英语 | 2007 | Semeval-2007任务04:名义之间的语义关系分类 |
| hlt-naacl08-data.txt | 2 | 英语 | 2007 | 学习使用最小的监督从网络中提取关系 |
| rerelem.tar.gz | 4 | 葡萄牙语 | 2009 | 命名实体之间的关系检测:共享任务的报告 |
| semeval2010_task8_all_data.tar.gz | 10 /19(定向) | 英语 | 2010 | Semeval-20110任务8:一对名义之间的语义关系的多路分类 |
| bionlp.tar.gz | 2 | 英语 | 2011 | Bionlp共享任务2011的概述 |
| ddicorpus2013.zip | 4 | 英语 | 2012 | DDI语料库:带有药理学物质和药物相互作用的注释语料库 |
| ade-corpus-v2.zip | 2 | 英语 | 2013 | 开发基准语料库,以支持从医学病例报告中自动提取与药物相关的不良影响 |
| dbpediareations-pt-0.2.txt.bz2 | 10 | 葡萄牙语 | 2013 | 探索DBPEDIA和Wikipedia进行葡萄牙语义关系提取 |
| kbp37-master.zip | 37定向 | 英语 | 2015 | 通过反复神经网络的关系分类 |
| 数据集 | nr。课程 | 语言 | 年 | 引用 |
|---|---|---|---|---|
| dataset-jcnlp2011.tar.gz | 打开 | 英语 | 2011 | 用条件随机字段提取关系描述符 |
| Reverb_emnlp2011_data.tar.gz | 打开 | 英语 | 2011 | 识别公开信息提取的关系 |
| clausie-datasets.tar.gz | 打开 | 英语 | 2013 | 克劳西:基于子句的开放信息提取 |
| emnlp13_ualberta_experiments_v2.zip | 打开 | 英语 | 2013 | 开放关系提取的有效性和效率 |
| 数据集 | nr。课程 | 语言 | 年 | 引用 |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | 遥远 | 英语 | 2010 | 建模关系及其提及没有标记的文本 |
| https://github.com/google-research-datasets/relation-extraction-corpus | 遥远 | 英语 | 2013 | https://research.googleblog.com/2013/04/50000--LESSONS-LESSON--HOW-to-to-Read-relation.html |
| pgr.zip | 遥远 | 英语 | 2019 | 人类表型基因关系的银标准语料库 |
| pgr-crowd.zip | 远处 +众包 | 英语 | 2020 | 生物医学关系提取培训语料库的混合方法:将遥远的监督与众包相结合 |
dateset :dbpediarerations-pt-0.2.txt.bz2
引用:探索dbpedia和Wikipedia葡萄牙语义关系提取
描述:葡萄牙语中的一系列句子集,这些句子表达了从DBPEDIA提取的一对实体之间的语义关系。这些句子是通过遥远的监督收集的,并且比工具修订了。
日期:aimed.tar.gz
引用:连接提取的子序列
描述:它由225个MEDLINE摘要组成,其中200个摘要描述了人类蛋白质之间的相互作用,而其他25种则不涉及任何相互作用。该数据集中有4084个蛋白质参考和约1000个标记的交互。
dateSet :semeval2007-task4.tar.gz
引用:Semeval-2007任务04:名义之间语义关系的分类
描述:小数据集,包含7种关系类型和总共1,529个注释的示例。
dateTet :semeval2010_task8_all_data.tar.gz
引用:Semeval-20110任务8:象征性对之间语义关系的多路分类
描述:Semeval-2010 Task 8作为一个多路分类任务,其中必须从十个关系集和从名词到参数插槽的映射中选择每个示例的标签。我们还提供了更多数据:10,717个注释的示例,而Semeval-1任务4中为1,529。
dateset :rerelem.tar.gz
引用:指定实体之间的关系检测:共享任务的报告
描述:针对葡萄牙的第一次评估竞赛(轨道),其目标是检测和分类命名实体之间的关系,称为RERELEM。给定带有属于十个不同语义类别的命名实体注释的集合,我们在每个文档中标记了它们之间的所有关系。我们使用以下四重关系分类:身份,包括在内,定位和其他(后来明确详细介绍为二十种不同的关系)。
dateset :wikipedia_datav1.0.tar.gz
引用:整合概率提取模型和数据挖掘以发现文本中的关系和模式
说明:我们从在线百科全书Wikipedia中抽样了1127段,并标记了4701个关系实例。除了一系列人与人之间的关系外,我们还包括人与组织之间的联系,以及生日和乔布斯等传记事实。培训数据中总共有53个标签。
日期:hlt-naacl08-data.txt
引用:学习使用最小的监督从网络中获取关系
描述:公司的收购对和从网络上取走的人生对。公司收购测试集总共有995个实例,其中156个是正面的。 Person-Birthplace测试集总共有601个实例,其中只有45个是正面的。
日期:bionlp.tar.gz
引用:Bionlp共享任务2011的概述2011
描述:该任务涉及对实体之间两个二元部分关系的识别:蛋白质组件和亚基复合物。该任务是由特定挑战所激发的:文本中蛋白质组成部分的识别与识别站点参数(参见GE,EPI和ID任务)以及蛋白质与其复合物之间的关系与任何涉及它们的任务相关的复合物之间的关系。相关设置是通过最近的语义关系任务告知的(Hendrickx等,2010)。由GE数据的新注释组成的任务数据扩展了先前引入的资源(Pyysalo等,2009; Ohta等,2010a)。
日期:ddicorpus2013.zip
引用:DDI语料库:具有药理学物质和药物与药物相互作用的注释语料库
描述:DDI语料库包含有关药物相互作用的Medline摘要以及描述来自药品银行数据库的药物相互作用的文件。该任务旨在解决整个药物相互作用的提取,但分为两个子任务,以允许对问题的不同方面对性能进行单独评估。任务包括两个子任务:
提出了四种类型的DDI:
日期:ade-corpus-v2.zip
引用:开发基准语料库,以支持从医学病例报告中自动提取与药物相关的不良反应
描述:此处介绍的工作旨在产生系统注释的语料库,该语料库可以支持自动从医疗病例报告中自动提取与药物相关的不良影响的方法的开发和验证。这些文档在各个回合中进行了系统的两次注释,以确保一致的注释。注释的文档最终被协调以产生代表性共识注释。为了展示一个例子,使用语料库来训练和验证模型,以针对非信息句子的信息进行分类。经过简单特征训练并通过10倍交叉验证评估的最大熵分类器导致F1得分为0.70,表明该语料库具有潜在的有用应用。
日期:kbp37-master.zip.zip
引用:通过反复神经网络的关系分类
描述:此数据集是Gabor Angeli等人提供的MIML-RE注释数据集的修订。 (2014)。他们使用2010年和2013年KBP官方文件收集,以及2013年7月的Wikipedia垃圾场作为注释的文本语料库,注释了33811个句子。为了使数据集更适合我们的任务,我们进行了几个改进:
首先,我们向关系名称添加指示,以便“ per:“雇员”将“分为两个关系” per:(e1,e2)的雇员'和'per:of(e2,e1)的雇员(e2,e1)''',但“无关系”。根据KBP任务的描述,3我们用“ org:子公司”替换为“ org:父母”,并替换'org:with'with'with'with'with'with'with'with'org:member'(通过其反向指示)。这导致数据集中有76个关系。
然后,我们分别用两个方向统计每个关系的频率。与低频的关系被丢弃,以使每个关系的两个方向在数据集中发生超过100次。为了更好地平衡数据集,也随机丢弃了80%的“无关系”句子。
之后,数据集随机洗牌,然后每个关系下的句子分为三组,培训70%,开发10%,测试20%。最后,我们删除了开发和测试集中的这些句子,其实体对和关系同时出现在培训句子中。
dateSet :reverb_emnlp2011_data.tar.gz
引用:确定开放信息提取的关系
描述:使用Yahoo的随机链接服务从Web采样500个句子。
日期:clausie-datasets.tar.gz
引用:克劳西:基于子句的开放信息提取
描述:
三个不同的数据集。首先,混响数据集由500个带有手动标记提取的句子组成。句子是通过Yahoo的随机链接服务获得的,通常非常嘈杂。第二,来自Wikipedia页面的200个随机句子。这些句子比混响数据集的句子更短,更简单且嘈杂。但是,由于某些Wikipedia文章是由非母语说话者撰写的,因此Wikipedia句子确实包含一些错误的语法结构。第三,《纽约时报》收集的200个随机句子通常非常干净,但往往很漫长而复杂。
dateset :emnlp13_ualberta_experiments_v2.zip
引用:开放关系提取的有效性和效率
描述:Web-500是为Textrunner实验开发的常用数据集(Banko和Etzioni,2008年)。这些句子通常是不完整的,语法上的不健全,代表了处理Web文本的挑战。 NYT-500代表了频谱的另一端,带有《纽约时报》语料库的正式,写得很好的新故事(Sandhaus,2008年)。 Penn-100包含最近用于评估TreeKernel方法的Penn Treebank的句子(Xu等,2013)。我们手动注释了Web-500和NYT-500的关系,并使用Treekernel的作者提供的Penn-100注释(Xu等,2013)。
dateSet :dataset-jcnlp2011.tar.gz
引用:用条件随机字段提取关系描述符
描述:《纽约时报》数据集包含来自《纽约时报》的150篇商业文章。这些文章在2009年11月至2010年1月之间从NYT网站上爬了。句子分裂和令牌化后,我们使用了Stanford Ner Tagger(url:http://nlp.stanford.edu/ner/index.shtml)来识别每个句子中命名的实体。对于包含多个令牌的命名实体,我们将它们串成一个令牌。然后,我们将与单个候选关系实例相同的句子中发生的每对(每个,组织)实体(每个实体)视为arg-1,并且org实体被视为arg-2。
Wikipedia数据先前是由Aron Culotta等人创建的。由于原始数据集没有包含我们需要的注释信息,因此我们对其进行了重新通知。同样,我们执行了句子分裂,令牌化和NER标签,并采用了与候选人关系实例相同句子中发生的成对(每个)实体。我们总是将第一个每个实体视为arg-1,而每个实体的第二个实体则将其视为arg-2。
dateset :http://iesl.cs.umass.edu/riedel/ecml/
引用:建模关系及其提及没有标记的文本
描述:NYT数据集是一个广泛使用的数据集,该数据集用于遥远的关系提取任务。该数据集是通过将freebase关系与《纽约时报》(NYT)语料库保持一致的,并用2005-2006年的句子用作培训语料库和2007年的句子,并用作测试语料库。
dateTet :https://github.com/google-research-datasets/relation-ettraction-corpus
引用:https://research.googleblog.com/2013/04/50000-lessons-lesson-on-how-to-read-relation.html
描述:https://research.googleblog.com/2013/04/50000-lessons-lesson-on-how-to-read-relation.html
数据集:pgr.zip
引用:人类表型基因关系的银标准语料库
描述:人类表型基因关系是完全了解某些表型异常及其相关疾病的起源的基础。生物医学文献是这些关系最全面的来源,但是,我们需要自动识别它们的关系提取工具。这些工具中的大多数都需要带注释的语料库,据我们所知,没有人类表型 - 基因关系的注释。本文介绍了表型基因关系(PGR)语料库,这是人类表型和基因注释及其关系的银标准语料库。该语料库由1712个摘要,5676个人类表型注释,13835基因注释和4283关系。我们使用命名实体识别工具生成了该语料库,其结果由八位策展人部分评估,获得了87.01%的精度。通过使用语料库,我们能够使用两种最先进的深度学习工具,即精度的78.05%获得有希望的结果。 PGR语料库已公开向研究界公开使用。
数据集:pgr-crowd.zip
引用:生物医学关系提取培训语料库的混合方法:将遥远的监督与众包相结合
描述:生物医学关系提取(RE)数据集对于知识库的构建和增强新相互作用的发现至关重要。有几种方法可以创建生物医学RE数据集,有些比其他方法更可靠,例如诉诸于域专家注释。但是,即使无法保证不能保证相同的质量水平,也可以潜在地降低RE DataSet构建成本的新兴众包平台,例如Amazon Mechanical Turk(MTURK)。研究人员缺乏控制谁,如何以及在哪些环境中参与众包平台的方式。因此,与众包的遥远监督可以是更可靠的选择。众包工人只会被要求纠正或丢弃已经存在的注释,这将使过程减少其解释复杂生物医学句子的能力。在这项工作中,我们使用先前创建的遥远监督的人类表型 - 基因关系(PGR)数据集来执行众包验证。我们将原始数据集划分为两个注释任务:任务1,一名工人注释的数据集的70%,任务2,七个工人注释的数据集的30%。此外,对于任务2,我们添加了额外的评估者和一个域专家,以进一步评估众包验证质量。在这里,我们描述了一个详细的管道,用于重新众包验证,创建具有部分域专家修订的PGR数据集的新版本,并评估MTURK平台的质量。我们将新数据集应用于两个最先进的深度学习系统(Biont和Biobert),并将其性能与原始PGR数据集进行了比较,以及两者之间的组合,平均F量表增加了0.3494。支持我们工作的代码和PGR数据集的新版本,请访问https://github.com/lasigebiotm/pgr-crowd。