Ce référentiel contient des ensembles de données annotés qui peuvent être utilisés pour former des modèles supervisés pour la tâche d'extraction de relation sémantique. Si vous connaissez d'autres ensembles de données et que vous souhaitez contribuer, veuillez m'informer ou soumettre un PR.
Il est divisé en 3 groupes:
Extraction traditionnelle de l'information : les relations sont annotées manuellement et appartiennent à un type prédéterminé, c'est-à-dire un nombre fermé de classes.
Extraction d'informations ouvertes : les relations sont annotées manuellement, mais n'ont pas de type spécifique.
Distinalement supervisé : les relations sont annotées en appliquant une technique de supervision lointaine et sont prédéterminées.
| Ensemble de données | Nr. Classes | Langue | Année | Citer |
|---|---|---|---|---|
| Aimid.tar.gz | 2 | Anglais | 2005 | Bernes de subséquence pour l'extraction de relation |
| wikipedia_datav1.0.tar.gz | 53 | Anglais | 2006 | Intégration de modèles d'extraction probabiliste et d'exploration de données pour découvrir les relations et les modèles dans le texte |
| SemiVal2007-task4.tar.gz | 7 | Anglais | 2007 | SEMEVAL-2007 Tâche 04: Classification des relations sémantiques entre nominaux |
| hlt-naacl08-data.txt | 2 | Anglais | 2007 | Apprendre à extraire des relations du Web en utilisant une supervision minimale |
| Rerelem.tar.gz | 4 | portugais | 2009 | Détection de relation entre les entités nommées: Rapport d'une tâche partagée |
| Semival2010_task8_all_data.tar.gz | 10/19 (directionnel) | Anglais | 2010 | SEMEVAL-2010 Tâche 8: Classification multi-voies des relations sémantiques entre des paires de nominaux |
| Bionlp.tar.gz | 2 | Anglais | 2011 | Aperçu de la tâche partagée bionlp 2011 |
| Ddicorpus2013.zip | 4 | Anglais | 2012 | Le corpus DDI: un corpus annoté avec des substances pharmacologiques et des interactions médicamenteuses |
| Ade-corpus-v2.zip | 2 | Anglais | 2013 | Développement d'un corpus de référence pour soutenir l'extraction automatique des effets négatifs liés au médicament des rapports de cas médicaux |
| Dbpedearelations-p-0.2.txt.bz2 | 10 | portugais | 2013 | Explorer DBpedia et Wikipedia pour l'extraction de la relation sémantique portugaise |
| kbp37-master.zip | 37 directionnel | Anglais | 2015 | Classification des relations via un réseau neuronal récurrent |
| Ensemble de données | Nr. Classes | Langue | Année | Citer |
|---|---|---|---|---|
| Ensemble de données-ijcnlp2011.tar.gz | Ouvrir | Anglais | 2011 | Extraction des descripteurs de relation avec des champs aléatoires conditionnels |
| réverb_emnlp2011_data.tar.gz | Ouvrir | Anglais | 2011 | Identifier les relations pour l'extraction d'informations ouvertes |
| Clausie-datasets.tar.gz | Ouvrir | Anglais | 2013 | Clausie: Extraction d'informations ouvertes basées sur les clauses |
| EMNLP13_UALBERTA_EXPERIMENTS_V2.zip | Ouvrir | Anglais | 2013 | Efficacité et efficacité de l'extraction de relations ouvertes |
| Ensemble de données | Nr. Classes | Langue | Année | Citer |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/ried/ecml/ | Loin | Anglais | 2010 | Modélisation des relations et leurs mentions sans texte étiqueté |
| https://github.com/google-research-datasets/relation-extraction-corpus | Loin | Anglais | 2013 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| Pgr.zip | Loin | Anglais | 2019 | Un corpus standard en argent de relations phénotypes humaines |
| Pgr-Crowd.zip | Distant + crowdsourced | Anglais | 2020 | Une approche hybride de la formation des relations biomédicales de formation des relations: combiner une supervision lointaine avec le crowdsourcing |
DatesEt : dbPperiarelations-pt-0.2.txt.bz2
CITE : Explorer DBpedia et Wikipedia pour l'extraction de la relation sémantique portugaise
Description : Une collection de phrases en portugais qui exprime les relations sémantiques entre des paires d'entités extraites de DBpedia. Les condamnations ont été recueillies par une surveillance lointaine et ont été révisées à Manuall.
DatesEt : Aimé.tar.gz
Citer : grains de subséquence pour l'extraction de relation
Description : Il se compose de 225 résumés MEDLINE, dont 200 sont connus pour décrire les interactions entre les protéines humaines, tandis que les 25 autres ne font référence à aucune interaction. Il y a 4084 références de protéines et environ 1000 interactions marquées dans cet ensemble de données.
DatesEt : Semival2007-task4.tar.gz
CITE : SEMEVAL-2007 Tâche 04: Classification des relations sémantiques entre les nominaux
Description : Petit ensemble de données, contenant 7 types de relations et un total de 1 529 exemples annotés.
DatesEt : Semival2010_Task8_All_Data.tar.gz
CITE : SEMEVAL-2010 Tâche 8: Classification multi-voies des relations sémantiques entre des paires de nominaux
Description : SEMEVAL-2010 Tâche 8 en tant que tâche de classification à plusieurs voies dans laquelle l'étiquette pour chaque exemple doit être choisie parmi l'ensemble complet de dix relations et la cartographie des noms aux machines à sous d'argument n'est pas fournie à l'avance. Nous fournissons également plus de données: 10 717 exemples annotés, contre 1 529 dans la tâche SEVAL-1 4.
DatesEt : rerelem.tar.gz
CITE : Détection de relation entre les entités nommées: Rapport d'une tâche partagée
Description : Premier concours d'évaluation (piste) pour les portugais dont l'objectif était de détecter et de classer les relations entre entités nommées dans le texte en cours d'exécution, appelé rerelem. Étant donné une collection annotée avec des entités nommées appartenant à dix catégories sémantiques différentes, nous avons marqué toutes les relations entre elles dans chaque document. Nous avons utilisé la classification des relations quadruples suivantes: identité, incluse dans, située dans et autres (qui a été explicitement détaillée en vingt relations différentes).
Dateset : wikipedia_datav1.0.tar.gz
CITE : Intégration de modèles d'extraction probabiliste et d'exploration de données pour découvrir les relations et les modèles dans le texte
Description : Nous avons échantillonné 1127 paragraphes de 271 articles de l'Encyclopedia Wikipedia en ligne et étiqueté un total de 4701 instances de relation. En plus d'un large ensemble de relations de personne à personne, nous avons également inclus des liens entre les personnes et les organisations, ainsi que des faits biographiques tels que l'anniversaire et l'emploi. En tout, il y a 53 étiquettes dans les données de formation.
DatesEt : hlt-naacl08-data.txt
CITE : Apprendre à extraire les relations du Web en utilisant une supervision minimale
Description : Paies d'acquisition d'entreprise et paires de personnes-naissances tirées du Web. L'ensemble de tests d'acquisition d'entreprise a un total de 995 cas, dont 156 sont positifs. L'ensemble de tests de naissance de la personne a un total de 601 instances, et seulement 45 d'entre elles sont positives.
DATESET : bionlp.tar.gz
CITE : Aperçu de la tâche partagée bionlp 2011
DESCRIPTION : La tâche implique la reconnaissance de deux relations binaires entre entités: le composant protéine et sous-un-un. La tâche est motivée par des défis spécifiques: l'identification des composants des protéines dans le texte est pertinente, par exemple pour la reconnaissance des arguments du site (cf. GE, EPI et ID tâches) et les relations entre les protéines et leurs complexes pertinents pour toute tâche qui les implique. La configuration du REL est informée par les tâches de relation sémantique récentes (Hendrickx et al., 2010). Les données de tâche, composées de nouvelles annotations pour les données GE, étendent une ressource précédemment introduite (Pyysalo et al., 2009; Ohta et al., 2010a).
DATESET : ddicorpus2013.zip
CITE : The DDI Corpus: Un corpus annoté avec des substances pharmacologiques et des interactions médicamenteuses
Description : Le corpus DDI contient des résumés MEDLINE sur les interactions médicamenteuses ainsi que des documents décrivant les interactions médicamenteuses de la base de données de la banque médicamenteuse. Cette tâche est conçue pour aborder l'extraction des interactions médicamenteuses dans son ensemble, mais divisées en deux sous-tâches pour permettre une évaluation distincte des performances pour différents aspects du problème. La tâche comprend deux sous-tâches:
Quatre types de DDIS sont proposés:
DatesEt : ade-corpus-v2.zip
CITE : Développement d'un corpus de référence pour soutenir l'extraction automatique des effets indésirables liés au médicament des rapports de cas médicaux
Description : Les travaux présentés ici visent à générer un corpus systématique annoté qui peut soutenir le développement et la validation des méthodes pour l'extraction automatique des effets indésirables liés au médicament des rapports de cas médicaux. Les documents sont systématiquement doubles annotés en divers tours pour assurer des annotations cohérentes. Les documents annotés sont finalement harmonisés pour générer des annotations de consensus représentatives. Afin de démontrer un exemple de scénario de cas d'utilisation, le corpus a été utilisé pour former et valider des modèles pour la classification de l'information par rapport aux phrases non informatives. Un classificateur d'entropie maximal entraîné avec des caractéristiques simples et évalué par une validation croisée 10 fois a entraîné le score F1 de 0,70 indiquant une application utile potentielle du corpus.
DatesEt : KBP37-Master.zip.zip
CITE : Classification des relations via un réseau neuronal récurrent
Description : Cet ensemble de données est une révision de l'ensemble de données d'annotation Miml-Re, fourni par Gabor Angeli et al. (2014). Ils utilisent les collections de documents officielles du KBP 2010 et 2013, ainsi qu'un dépotoir de juillet 2013 de Wikipedia en tant que Corpus de texte pour l'annotation, 33811 phrases ont été annotées. Pour rendre l'ensemble de données plus adapté à notre tâche, nous avons fait plusieurs raffinements:
Premièrement, nous ajoutons une orientation aux noms de relation, de sorte que «Per: Employé de« est divisé en deux relations »par: employé de (E1, E2)» et «Per: Employé de (E2, E1)» sauf pour «aucune relation». Selon la description de la tâche KBP, 3 Nous remplaçons «Org: Parents» par «org: filiales» et remplaçant «org: membre de« par »org: membre» (par leurs instructions inversées). Cela conduit à 76 relations dans l'ensemble de données.
Ensuite, nous statistique la fréquence de chaque relation avec deux directions séparément. Et les relations avec une basse fréquence sont rejetées de sorte que les deux directions de chaque relation se produisent plus de 100 fois dans l'ensemble de données. Pour mieux équilibrer l'ensemble de données, 80% des phrases «sans relation» sont également rejetées au hasard.
Après cela, l'ensemble de données est mélangé au hasard, puis les phrases en vertu de chaque relation sont toutes divisées en trois groupes, 70% pour la formation, 10% pour le développement, 20% pour le test. Enfin, nous supprimons ces phrases dans l'ensemble de développement et de test dont les paires d'entités et les relations sont apparues simultanément dans une phrase de formation.
DatesEt : Reverb_emnlp2011_data.tar.gz
CITE : Identifier les relations pour l'extraction d'informations ouvertes
Description : 500 phrases échantillonnées à partir du Web, en utilisant le service de liaison aléatoire de Yahoo.
DatesEt : clausie-datasets.tar.gz
CITE : Clausie: Extraction d'informations ouvertes basées sur les clauses
Description :
Trois ensembles de données différents. Tout d'abord, l'ensemble de données Reverb se compose de 500 phrases avec des extractions étiquetées manuellement. Les phrases ont été obtenues via le service de liaison aléatoire de Yahoo et sont généralement très bruyantes. Deuxièmement, 200 phrases aléatoires des pages Wikipedia. Ces phrases sont plus courtes, plus simples et moins bruyantes que celles de l'ensemble de données Reverb. Étant donné que certains articles Wikipedia sont écrits par des locuteurs non natifs, les phrases Wikipedia contiennent des constructions grammaticales incorrectes. Troisièmement, 200 phrases aléatoires de la collection du New York Times Ces phrases sont généralement très propres mais ont tendance à être longues et complexes.
DatesEt : emnlp13_ualberta_experiments_v2.zip
Citer : efficacité et efficacité de l'extraction de relations ouvertes
Description : Web-500 est un ensemble de données couramment utilisé, développé pour les expériences Textrunner (Banko et Etzioni, 2008). Ces phrases sont souvent incomplètes et grammaticalement non liées, représentant les défis de la gestion du texte Web. Le NYT-500 représente l'autre extrémité du spectre avec de nouvelles histoires formelles et bien écrites du New York Times Corpus (Sandhaus, 2008). Penn-100 contient des phrases de la penn arborescence récemment utilisées dans une évaluation de la méthode Treekernel (Xu et al., 2013). Nous avons manuellement annoté les relations pour Web-500 et NYT-500 et utilisons les annotations Penn-100 fournies par les auteurs de Treekernel (Xu et al., 2013).
Dateset : DataSet-ijcnlp2011.tar.gz
Citer : extraire des descripteurs de relation avec des champs aléatoires conditionnels
Description : L'ensemble de données du New York Times contient 150 articles commerciaux du New York Times. Les articles ont été rampants sur le site Web du NYT entre novembre 2009 et janvier 2010. Après la séparation et la tokenisation des phrases, nous avons utilisé le Stanford Ner Tagger (URL: http://nlp.stanford.edu/ner/index.shtml) pour identifier les entités nommées et org nommées de chaque phrase. Pour les entités nommées qui contiennent plusieurs jetons, nous les avons concaténés en un seul jeton. Nous avons ensuite pris chaque paire d'entités (par, org) qui se produisent dans la même phrase qu'une seule instance de relation candidat, où l'entité PER est traitée comme Arg-1 et l'entité org est traitée comme Arg-2.
Les données de Wikipedia ont déjà été créées par Aron Culotta et al. Étant donné que l'ensemble de données d'origine ne contenait pas les informations d'annotation dont nous avons besoin, nous l'avons rénovée. De même, nous avons effectué des phrases, des tokenisation et du marquage NER, et pris des paires d'entités (per, par) se produisant dans la même phrase qu'une instance de relation candidat. Nous traitons toujours la première entité comme Arg-1 et la deuxième entité comme Arg-2.
DatesEt : http://iesl.cs.umass.edu/riedel/ecml/
Citer : la modélisation des relations et leurs mentions sans texte étiqueté
Description : L'ensemble de données NYT est un ensemble de données largement utilisé sur la tâche d'extraction de relation de supervision de distance. Cet ensemble de données a été généré en alignant les relations de base sur le corps du New York Times (NYT), avec des phrases des années 2005-2006 utilisées comme corpus de formation et des phrases de 2007 utilisées comme corpus de test.
DatesEt : https://github.com/google-research-datasets/relation-extraction-corpus
CITE : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Description : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Ensemble de données : pgr.zip
Citer : un corpus standard en argent des relations de phénotype humain
Description : Les relations de phénotype humain sont fondamentales pour bien comprendre l'origine de certaines anomalies phénotypiques et leurs maladies associées. La littérature biomédicale est la source la plus complète de ces relations, cependant, nous avons besoin d'outils d'extraction de relation pour les reconnaître automatiquement. La plupart de ces outils nécessitent un corpus annoté et à notre connaissance, il n'y a pas de corpus disponible annoté avec des relations de phénotype humain. Cet article présente le corpus des relations phénotypes-gènes (PGR), un corpus standard en argent de phénotype humain et d'annotations génétiques et leurs relations. Le corpus se compose de 1712 résumés, 5676 Annotations de phénotypes humains, annotations de gènes 13835 et 4283 relations. Nous avons généré ce corpus en utilisant des outils de reconnaissance de l'entité nommée, dont les résultats ont été partiellement évalués par huit conservateurs, obtenant une précision de 87,01%. En utilisant le corpus, nous avons pu obtenir des résultats prometteurs avec deux outils d'apprentissage en profondeur de pointe, à savoir 78,05% de précision. Le PGR Corpus a été rendu public à la disposition de la communauté de recherche.
Ensemble de données : pgr-crowd.zip
CITE : Une approche hybride de la formation de la formation de relations biomédicales: combiner une supervision lointaine avec le crowdsourcing
Description : Les ensembles de données d'extraction des relations biomédicaux sont essentiels dans la construction de bases de connaissances et pour potentialiser la découverte de nouvelles interactions. Il existe plusieurs façons de créer des ensembles de données Biomédicaux, certains plus fiables que d'autres, tels que le recours aux annotations d'experts du domaine. Cependant, l'utilisation émergente des plates-formes de crowdsourcing, telles qu'Amazon Mechanical Turc (MTURK), peut potentiellement réduire le coût de la construction de l'ensemble de données RE, même si le même niveau de qualité ne peut pas être garanti. Il y a un manque de pouvoir du chercheur pour contrôler qui, comment et dans quel contexte les travailleurs s'engagent dans des plateformes de crowdsourcing. Par conséquent, l'alliage de supervision distante avec le crowdsourcing peut être une alternative plus fiable. Les travailleurs du crowdsourcing seraient invités uniquement à rectifier ou à éliminer les annotations déjà existantes, ce qui rendrait le processus moins dépendant de leur capacité à interpréter des phrases biomédicales complexes. Dans ce travail, nous utilisons un ensemble de données de données de phénotype humain-Genotype-Génér (PGR) sur le plan humain éloigné précédemment créé pour effectuer la validation du crowdsourcing. Nous avons divisé l'ensemble de données d'origine en deux tâches d'annotation: Tâche 1, 70% de l'ensemble de données annoté par un travailleur, et la tâche 2, 30% de l'ensemble de données annoté par sept travailleurs. De plus, pour la tâche 2, nous avons ajouté un évaluateur supplémentaire sur place et un expert du domaine pour évaluer davantage la qualité de validation du crowdsourcing. Ici, nous décrivons un pipeline détaillé pour la validation du crowdsourcing, créant une nouvelle version de l'ensemble de données PGR avec une révision d'experts du domaine partiel et évaluez la qualité de la plate-forme MTURK. Nous avons appliqué le nouvel ensemble de données à deux systèmes d'apprentissage en profondeur de pointe (Biont et Biobert) et avons comparé ses performances avec l'ensemble de données PGR d'origine, ainsi que des combinaisons entre les deux, atteignant une augmentation de 0,3494 de la mesure F moyenne. Le code prenant en charge notre travail et la nouvelle version de l'ensemble de données PGR sont disponibles sur https://github.com/lasigebiotm/pgr-crowd.