Este repositório contém conjuntos de dados anotados que podem ser usados para treinar modelos supervisionados para a tarefa de extração de relacionamento semântico. Se você conhece mais conjuntos de dados e deseja contribuir, notifique -me ou envie um PR.
Está dividido em 3 grupos:
Extração de informações tradicionais : os relacionamentos são anotados manualmente e pertencem ao tipo pré-determinado, ou seja, um número fechado de classes.
Extração de informações abertas : os relacionamentos são anotados manualmente, mas não têm nenhum tipo específico.
Supervisionados distantes : os relacionamentos são anotados ao aplicar uma técnica de supervisão distante e são pré-determinados.
| Conjunto de dados | Nr. Classes | Linguagem | Ano | Citar |
|---|---|---|---|---|
| Aimed.tar.gz | 2 | Inglês | 2005 | Kernels subseqüentes para extração de relação |
| wikipedia_datav1.0.tar.gz | 53 | Inglês | 2006 | Integração de modelos de extração probabilística e mineração de dados para descobrir relações e padrões no texto |
| Semval2007-Task4.tar.gz | 7 | Inglês | 2007 | Semeval-2007 Tarefa 04: Classificação das relações semânticas entre nominais |
| hlt-naacl08-data.txt | 2 | Inglês | 2007 | Aprendendo a extrair relações da Web usando a supervisão mínima |
| Rerelem.tar.gz | 4 | Português | 2009 | Detecção de relação entre entidades nomeadas: Relatório de uma tarefa compartilhada |
| Semval2010_task8_all_data.tar.gz | 10/19 (direcional) | Inglês | 2010 | Semeval-2010 Tarefa 8: Classificação multi-vias de relações semânticas entre pares de nominais |
| Bionlp.tar.gz | 2 | Inglês | 2011 | Visão geral da tarefa compartilhada de Bionlp 2011 |
| Ddicorpus2013.zip | 4 | Inglês | 2012 | O corpus DDI: um corpus anotado com substâncias farmacológicas e interações medicamentosas |
| Ade-CORPUS-V2.ZIP | 2 | Inglês | 2013 | Desenvolvimento de um corpus de referência para apoiar a extração automática de efeitos adversos relacionados a medicamentos de relatos de casos médicos |
| Dbpediarelations-pt-0.2.txt.bz2 | 10 | Português | 2013 | Explorando a DBpedia e a Wikipedia para extração de relacionamento semântico português |
| kbp37-mestre.zip | 37 direcional | Inglês | 2015 | Classificação de relação via rede neural recorrente |
| Conjunto de dados | Nr. Classes | Linguagem | Ano | Citar |
|---|---|---|---|---|
| DataSet-ijcnlp2011.tar.gz | Abrir | Inglês | 2011 | Descritores de relação de extração com campos aleatórios condicionais |
| reverb_emnlp2011_data.tar.gz | Abrir | Inglês | 2011 | Identificando relações para extração de informações abertas |
| Clausie-DataSets.tar.gz | Abrir | Inglês | 2013 | Clausie: extração de informações abertas baseadas em cláusula |
| EMNLP13_ualberta_experiments_v2.zip | Abrir | Inglês | 2013 | Eficácia e eficiência da extração de relação aberta |
| Conjunto de dados | Nr. Classes | Linguagem | Ano | Citar |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | Distante | Inglês | 2010 | Modelando as relações e suas menções sem texto rotulado |
| https://github.com/google-research-datasets/relation-extraction-corpus | Distante | Inglês | 2013 | https://research.googleblog.com/2013/04/50000-lensons-on-how-to-read-relation.html |
| Pgr.zip | Distante | Inglês | 2019 | Um corpus padrão de prata de relações de gene de fenótipo humano |
| PGr-Crowd.zip | Distante + Crowdsourced | Inglês | 2020 | Uma abordagem híbrida em relação à relação de extração de relação biomédica corpora: combinando supervisão distante com o crowdsourcing |
Datas : dbpediarelations-pt-0.2.txt.bz2
Cite : Explorando DBpedia e Wikipedia para Extração de Relacionamento Semântico português
Descrição : Uma coleção de frases em português que expressam relações semânticas entre pares de entidades extraídas da DBpedia. As sentenças foram coletadas por supervisão distante e foram revisadas de Manuall.
Datas : Aimed.tar.gz
Citar : kernels subseqüentes para extração de relação
Descrição : Consiste em 225 resumos de Medline, dos quais 200 são conhecidos por descrever interações entre proteínas humanas, enquanto as outras 25 não se referem a nenhuma interação. Existem 4084 referências de proteínas e cerca de 1000 interações marcadas neste conjunto de dados.
Datas : semeval2007-task4.tar.gz
Cite : Semeval-2007 Tarefa 04: Classificação das relações semânticas entre nominais
Descrição : Pequeno conjunto de dados, contendo 7 tipos de relacionamento e um total de 1.529 exemplos anotados.
Datas : semval2010_task8_all_data.tar.gz
Cite : Semeval-2010 Tarefa 8: Classificação de várias vias de relações semânticas entre pares de nominais
Descrição : a tarefa Semeval-2010 como uma tarefa de classificação de várias vias na qual o rótulo para cada exemplo deve ser escolhido do conjunto completo de dez relações e o mapeamento de substantivos para slots de argumento não é fornecido com antecedência. Também fornecemos mais dados: 10.717 exemplos anotados, em comparação com 1.529 na tarefa semeval-1 4.
Datas : rerelem.tar.gz
Cite : Detecção de relação entre entidades nomeadas: Relatório de uma tarefa compartilhada
Descrição : Concurso de Primeira Avaliação (Track) para Português cujo objetivo era detectar e classificar as relações entre as entidades nomeadas na execução do texto, chamado Rerelem. Dada uma coleção anotada com entidades nomeadas pertencentes a dez categorias semânticas diferentes, marcamos todas as relações entre elas em cada documento. Utilizamos a seguinte classificação de relacionamento quatro vezes: identidade, incluída, localizada e outros (que posteriormente foi explicitamente detalhada em vinte relações diferentes).
Datas : wikipedia_datav1.0.tar.gz
Citar : integrando modelos de extração probabilística e mineração de dados para descobrir relações e padrões no texto
Descrição : Amostramos 1127 parágrafos de 271 artigos da Wikipedia da Enciclopédia Online e rotulamos um total de 4701 instâncias de relação. Além de um grande conjunto de relações de pessoa a pessoa, também incluímos vínculos entre pessoas e organizações, bem como fatos biográficos como aniversário e Jobtitle. Ao todo, existem 53 rótulos nos dados de treinamento.
Datas : hlt-naacl08-data.txt
Citar : aprender a extrair relações da web usando a supervisão mínima
Descrição : Pares de aquisições corporativas e pares de queimador de pessoa retirados da web. O conjunto de testes de aquisição corporativa possui um total de 995 instâncias, das quais 156 são positivas. O conjunto de testes que prêmio de pessoa tem um total de 601 instâncias e apenas 45 delas são positivas.
Datas : bionlp.tar.gz
Cite : Visão geral da tarefa compartilhada bionlp 2011
Descrição : A tarefa envolve o reconhecimento de duas relações binárias entre entidades: componente de proteína e subunitcomplex. A tarefa é motivada por desafios específicos: a identificação dos componentes das proteínas no texto é relevante, por exemplo, para o reconhecimento dos argumentos do local (cf. Ge, EPI e ID Tasks) e as relações entre proteínas e seus complexos relevantes para qualquer tarefa que os envolva. O Rel Setup é informado por tarefas recentes de relação semântica (Hendrickx et al., 2010). Os dados da tarefa, consistindo em novas anotações para dados da GE, estende um recurso introduzido anteriormente (Pyysalo et al., 2009; Ohta et al., 2010a).
Datas : ddicorpus2013.zip
Cite : o corpus DDI: um corpus anotado com substâncias farmacológicas e interações medicamentosas
Descrição : O DDI Corpus contém resumos de Medline nas interações medicamentosas, bem como em documentos que descrevem as interações medicamentosas do banco de dados do DrugBank. Esta tarefa foi projetada para abordar a extração das interações medicamentosas como um todo, mas dividida em duas subtarefas para permitir a avaliação separada do desempenho para diferentes aspectos do problema. A tarefa inclui duas subtarefas:
Quatro tipos de DDIs são propostos:
Datas : Ade-Corpus-V2.zip
Cite : Desenvolvimento de um corpus de referência para apoiar a extração automática de efeitos adversos relacionados a medicamentos de relatos de casos médicos
Descrição : O trabalho apresentado aqui visa gerar um corpus anotado sistematicamente que pode apoiar o desenvolvimento e a validação de métodos para a extração automática de efeitos adversos relacionados a medicamentos de relatos de casos médicos. Os documentos são sistematicamente duplos anotados em várias rodadas para garantir anotações consistentes. Os documentos anotados são finalmente harmonizados para gerar anotações representativas de consenso. Para demonstrar um exemplo de cenário de caso de uso, o corpus foi empregado para treinar e validar modelos para a classificação de informativos contra as sentenças não informativas. Um classificador de entropia máximo treinado com recursos simples e avaliado por validação cruzada de 10 vezes resultou na pontuação F1 de 0,70, indicando uma aplicação útil potencial do corpus.
Datas : kbp37-master.zip.zip
Citar : classificação de relação via rede neural recorrente
Descrição : Este conjunto de dados é uma revisão do conjunto de dados de anotação MIML-RE, fornecido por Gabor Angeli et al. (2014). Eles usam as coleções de documentos oficiais do KBP de 2010 e 2013, bem como um despejo de julho de 2013 da Wikipedia como corpus de texto para anotação, 33811 sentenças foram anotadas. Para tornar o conjunto de dados mais adequado para a nossa tarefa, fizemos vários refinamentos:
Primeiro, adicionamos orientação aos nomes das relações, de modo que 'Per: funcionário de' é dividido em duas relações 'por: funcionário de (e1, e2)' e 'per: funcionário de (e2, e1)', exceto 'sem relação'. De acordo com a descrição da tarefa KBP, 3 substituímos 'Org: Pais' por 'Org: Subsidiárias' e substituímos 'Org: Membro de' por 'org: membro' (por suas direções reversas). Isso leva a 76 relações no conjunto de dados.
Em seguida, estatística, a frequência de cada relação com duas direções separadamente. E as relações com baixa frequência são descartadas para que ambas as direções de cada relação ocorram mais de 100 vezes no conjunto de dados. Para equilibrar melhor o conjunto de dados, 80% 'sem relação' também são descartadas aleatoriamente.
Depois disso, o conjunto de dados é embaralhado aleatoriamente e, em seguida, as sentenças em cada relação são divididas em três grupos, 70% para treinamento, 10% para desenvolvimento, 20% para teste. Finalmente, removemos essas frases no conjunto de desenvolvimento e teste cujos pares e relações de entidade aparecem em uma frase de treinamento simultaneamente.
Datas : reverb_emnlp2011_data.tar.gz
Citar : identificar relações para extração de informações abertas
Descrição : 500 frases amostradas na web, usando o serviço de link aleatório do Yahoo.
Datas : Clausie-Datasets.tar.gz
Cite : Clausie: Extração de informações abertas baseadas em cláusula
Descrição :
Três conjuntos de dados diferentes. Primeiro, o conjunto de dados reverb consiste em 500 frases com extrações rotuladas manualmente. As frases foram obtidas através do serviço de ligação aleatória do Yahoo e geralmente são muito barulhentas. Segundo, 200 frases aleatórias das páginas da Wikipedia. Essas frases são mais curtas, mais simples e menos barulhentas do que as do conjunto de dados reverb. Como alguns artigos da Wikipedia são escritos por oradores não nativos, as sentenças da Wikipedia contêm algumas construções gramaticais incorretas. Terceiro, 200 frases aleatórias da coleção do New York Times essas frases geralmente são muito limpas, mas tendem a ser longas e complexas.
Datas : EMNLP13_ualberta_experiments_v2.zip
Citar : eficácia e eficiência da extração de relação aberta
Descrição : O Web-500 é um conjunto de dados comumente usado, desenvolvido para as experiências Textrunner (Banko e Etzioni, 2008). Essas frases geralmente são incompletas e gramaticalmente doentias, representando os desafios de lidar com o texto da web. O NYT-500 representa o outro extremo do espectro com novas histórias formais e bem escritas do New York Times Corpus (Sandhaus, 2008). Penn-100 contém frases do Penn Treebank usado recentemente em uma avaliação do método Treekernel (Xu et al., 2013). Anotamos manualmente as relações para o Web-500 e o NYT-500 e usamos as anotações Penn-100 fornecidas pelos autores da Treekernel (Xu et al., 2013).
Datas : DataSet-ijcnlp2011.tar.gz
Cite : Extrair descritores de relação com campos aleatórios condicionais
Descrição : O conjunto de dados do New York Times contém 150 artigos de negócios do New York Times. Os artigos foram rastreados do site do NYT entre novembro de 2009 e janeiro de 2010. Após a divisão e tokenização da sentença, usamos o Stanford Ner Tagger (URL: http://nlp.stanford.edu/ner/index.shtml) para identificar per e organização denominadas entidades denominadas de cada sentença. Para entidades nomeadas que contêm vários tokens, os concatenamos em um único token. Em seguida, tomamos cada par de entidades (por, org) que ocorrem na mesma frase que uma única instância de relação candidata, onde a entidade por é tratada como arg-1 e a entidade org é tratada como arg-2.
Os dados da Wikipedia foram criados anteriormente por Aron Culotta et al. Como o conjunto de dados original não continha as informações de anotação de que precisamos, nós a anotamos novamente. Da mesma forma, realizamos divisão de frases, tokenização e marcação de NER e pegamos pares de (por, por) entidades que ocorrem na mesma frase que uma instância de relação candidata. Sempre tratamos o primeiro por entidade como arg-1 e o segundo por entidade como arg-2.
Datas : http://iesl.cs.umass.edu/riedel/ecml/
Cite : modelando as relações e suas menções sem texto rotulado
Descrição : O conjunto de dados NYT é um conjunto de dados amplamente usado na tarefa de extração de relação supervisionada distante. Esse conjunto de dados foi gerado alinhando as relações de freebase com o corpus do New York Times (NYT), com sentenças dos anos 2005-2006 usadas como corpus de treinamento e sentenças de 2007 usadas como corpus de teste.
Datas : https://github.com/google-research-datasets/relation-extraction-corpus
Cite : https://research.googleblog.com/2013/04/50000-lensons-on-how-to-read-relation.html
Descrição : https://research.googleblog.com/2013/04/50000-lensons-on-how-to-read-relation.html
Conjunto de dados : pgr.zip
Citar : um corpus padrão de prata de relações de gene de fenótipo humano
Descrição : As relações fenótipo humano-gene são fundamentais para entender completamente a origem de algumas anormalidades fenotípicas e suas doenças associadas. A literatura biomédica é a fonte mais abrangente dessas relações; no entanto, precisamos de ferramentas de extração de relação para reconhecê -las automaticamente. A maioria dessas ferramentas exige um corpus anotado e, até onde sabemos, não há corpus disponível anotado com as relações de gene fenótipo humano. Este artigo apresenta o corpus das relações com genes-gene (PGR), um corpus padrão de prata de fenótipo humano e anotações de genes e suas relações. O corpus consiste em 1712 resumos, 5676 anotações de fenótipo humano, 13835 anotações de genes e 4283 relações. Geramos esse corpus usando ferramentas de reconhecimento de entidade nomeada, cujos resultados foram parcialmente avaliados por oito curadores, obtendo uma precisão de 87,01%. Ao usar o corpus, conseguimos obter resultados promissores com duas ferramentas de aprendizado profundo de última geração, a saber, 78,05% da precisão. O corpus PGR foi disponibilizado ao público para a comunidade de pesquisa.
Conjunto de dados : pGr-Crowd.zip
Cite : Uma abordagem híbrida em relação às empresas de extração de relação biomédica corporativas: combinando supervisão distante com o crowdsourcing
Descrição : Os conjuntos de dados de extração de relação biomédica (Re) são vitais na construção de bases de conhecimento e para potencializar a descoberta de novas interações. Existem várias maneiras de criar conjuntos de dados biomédicos, alguns mais confiáveis que outros, como recorrer a anotações de especialistas em domínio. No entanto, o uso emergente de plataformas de crowdsourcing, como o Amazon Mechanical Turk (MTURK), pode potencialmente reduzir o custo da construção do conjunto de dados, mesmo que o mesmo nível de qualidade não possa ser garantido. Há uma falta de poder do pesquisador para controlar quem, como e em que contexto os trabalhadores se envolvem em plataformas de crowdsourcing. Portanto, aliar a supervisão distante ao crowdsourcing pode ser uma alternativa mais confiável. Os trabalhadores de crowdsourcing seriam solicitados apenas a corrigir ou descartar anotações já existentes, o que tornaria o processo menos dependente de sua capacidade de interpretar sentenças biomédicas complexas. Neste trabalho, usamos um conjunto de dados criado anteriormente com o conjunto de dados de Fenótipo Humano -Gene (PGR) para executar a validação de crowdsourcing. Dividimos o conjunto de dados original em duas tarefas de anotação: Tarefa 1, 70% do conjunto de dados anotado por um trabalhador e a tarefa 2, 30% do conjunto de dados anotados por sete trabalhadores. Além disso, para a Tarefa 2, adicionamos um avaliador extra no local e um especialista em domínio para avaliar ainda mais a qualidade da validação de crowdsourcing. Aqui, descrevemos um pipeline detalhado para a validação de crowdsourcing, criando uma nova versão do conjunto de dados PGR com revisão de especialistas em domínio parcial e avaliamos a qualidade da plataforma MTurk. Aplicamos o novo conjunto de dados a dois sistemas de aprendizado profundo de última geração (Biont e BioBert) e comparamos seu desempenho com o conjunto de dados PGR original, bem como as combinações entre os dois, alcançando um aumento de 0,3494 na medição média do F. O código que suporta nosso trabalho e a nova versão do conjunto de dados PGR está disponível em https://github.com/lasigebiotm/pgr-crowd.