Este repositorio contiene conjuntos de datos anotados que se pueden usar para entrenar modelos supervisados para la tarea de extracción de relaciones semánticas. Si sabe más conjuntos de datos y desea contribuir, por favor, notifique o envíe un PR.
Está dividido en 3 grupos:
Extracción de información tradicional : las relaciones se anotan manualmente y pertenecen al tipo predeterminado, es decir, un número cerrado de clases.
Extracción de información abierta : las relaciones se anotan manualmente, pero no tienen ningún tipo específico.
Supervisado distantemente : las relaciones se anotan aplicando alguna técnica de supervisión distante y están predeterminadas.
| Conjunto de datos | Nr. Clases | Idioma | Año | Citar |
|---|---|---|---|---|
| apoured.tar.gz | 2 | Inglés | 2005 | Núcleos posteriores para la extracción de relaciones |
| wikipedia_datav1.0.tar.gz | 53 | Inglés | 2006 | Integrando modelos de extracción probabilística y minería de datos para descubrir relaciones y patrones en el texto |
| Semeval2007-task4.tar.gz | 7 | Inglés | 2007 | Semeval-2007 Tarea 04: Clasificación de relaciones semánticas entre nominales |
| hlt-nnaacl08-data.txt | 2 | Inglés | 2007 | Aprender a extraer relaciones de la web utilizando una supervisión mínima |
| Rerelem.tar.gz | 4 | portugués | 2009 | Detección de relaciones entre entidades nombradas: informe de una tarea compartida |
| Semeval2010_task8_all_data.tar.gz | 10/19 (direccional) | Inglés | 2010 | Semeval-2010 Tarea 8: Clasificación de múltiples vías de relaciones semánticas entre pares de nominales |
| Bionlp.tar.gz | 2 | Inglés | 2011 | Descripción general de la tarea compartida de BionLP 2011 |
| Ddicorpus2013.zip | 4 | Inglés | 2012 | El corpus DDI: un corpus anotado con sustancias farmacológicas e interacciones fármacos |
| Ade-Corpus-V2.Zip | 2 | Inglés | 2013 | Desarrollo de un corpus de referencia para respaldar la extracción automática de los efectos adversos relacionados con el fármaco de los informes de casos médicos |
| Dbpediarelations-pt-0.2.txt.bz2 | 10 | portugués | 2013 | Explorando Dbpedia y Wikipedia para la extracción de relaciones semánticas portuguesas |
| KBP37-Master.zip | 37 direccional | Inglés | 2015 | Clasificación de relaciones a través de una red neuronal recurrente |
| Conjunto de datos | Nr. Clases | Idioma | Año | Citar |
|---|---|---|---|---|
| DataSet-iJcnlp2011.tar.gz | Abierto | Inglés | 2011 | Extracción de descriptores de relaciones con campos aleatorios condicionales |
| reverb_emnlp2011_data.tar.gz | Abierto | Inglés | 2011 | Identificación de relaciones para la extracción de información abierta |
| Clausie-datasets.tar.gz | Abierto | Inglés | 2013 | Clausie: extracción de información abierta basada en cláusulas |
| EMNLP13_UALBERTA_EXPERIMENTS_V2.ZIP | Abierto | Inglés | 2013 | Efectividad y eficiencia de la extracción de relaciones abiertas |
| Conjunto de datos | Nr. Clases | Idioma | Año | Citar |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | Distante | Inglés | 2010 | Modelado de relaciones y sus menciones sin texto etiquetado |
| https://github.com/google-research-datasets/relation-extraction-corpus | Distante | Inglés | 2013 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| Pgr.zip | Distante | Inglés | 2019 | Un corpus estándar de plata de relaciones de gen fenotipo humano |
| Pgr-crowd.zip | Distante + crowdsourcing | Inglés | 2020 | Un enfoque híbrido hacia los corpuses de capacitación en extracción de relación biomédica: combinación de supervisión distante con crowdsourcing |
Dateset : dbpediarelations-pt-0.2.txt.bz2
Cite : Explorando Dbpedia y Wikipedia para la extracción de relaciones semánticas portuguesas
Descripción : Una colección de oraciones en portugués que expresan relaciones semánticas entre pares de entidades extraídas de Dbpedia. Las oraciones fueron recolectadas por supervisión distante, y fueron revisadas.
Dateset : Aimed.tar.gz
Citar : núcleos posteriores para la extracción de relaciones
Descripción : consta de 225 resúmenes de Medline, de los cuales 200 se sabe que describen las interacciones entre las proteínas humanas, mientras que los otros 25 no se refieren a ninguna interacción. Hay 4084 referencias de proteínas y alrededor de 1000 interacciones etiquetadas en este conjunto de datos.
Dateset : Semeval2007-Task4.tar.gz
Cite : Semeval-2007 Tarea 04: Clasificación de relaciones semánticas entre nominales
Descripción : Conjunto de datos pequeños, que contiene 7 tipos de relaciones y un total de 1.529 ejemplos anotados.
Dateset : SEMEVAL2010_TASK8_ALL_DATA.TAR.GZ
Cite : Semeval-2010 Tarea 8: Clasificación de múltiples vías de relaciones semánticas entre pares de nominales
Descripción : Tarea de Semeval-2010 como una tarea de clasificación de vías múltiples en la que la etiqueta para cada ejemplo debe elegirse del conjunto completo de diez relaciones y el mapeo de los sustantivos hasta las ranuras de argumentos no se proporciona de antemano. También proporcionamos más datos: 10,717 ejemplos anotados, en comparación con 1.529 en la tarea Semeval-1 4.
Dateset : rerelem.tar.gz
CITE : Detección de relaciones entre entidades nombradas: informe de una tarea compartida
Descripción : Primer concurso de evaluación (pista) para portugués cuyo objetivo era detectar y clasificar las relaciones entre las entidades del texto en ejecución, llamado Rerelem. Dada una colección anotada con entidades nombradas que pertenecen a diez categorías semánticas diferentes, marcamos todas las relaciones entre ellas dentro de cada documento. Utilizamos la siguiente clasificación de relaciones entre cuádruples: identidad, incluida, ubicada y otros (que luego se detalló explícitamente en veinte relaciones diferentes).
Dateset : wikipedia_datav1.0.tar.gz
CITE : Integración de modelos de extracción probabilística y minería de datos para descubrir relaciones y patrones en el texto
Descripción : probamos 1127 párrafos de 271 artículos de la enciclopedia en línea Wikipedia y etiquetamos un total de 4701 instancias de relación. Además de un gran conjunto de relaciones de persona a persona, también incluimos enlaces entre personas y organizaciones, así como hechos biográficos como el cumpleaños y el trabajo. En total, hay 53 etiquetas en los datos de capacitación.
Dateset : hlt-nnaacl08-data.txt
Cite : aprender a extraer relaciones de la web utilizando una supervisión mínima
Descripción : Pares de adquisición corporativa y pares de personas con el parto de la persona tomados de la web. El conjunto de pruebas de adquisición corporativa tiene un total de 995 casos, de los cuales 156 son positivos. El conjunto de pruebas de la persona con el cumpleaños tiene un total de 601 instancias, y solo 45 de ellos son positivos.
Dateset : bionlp.tar.gz
Citar : descripción general de la tarea compartida de BionLP 2011
Descripción : La tarea implica el reconocimiento de dos relaciones binarias entre entidades: proteína componente y subunidad. La tarea está motivada por desafíos específicos: la identificación de los componentes de las proteínas en el texto es relevante, por ejemplo, para el reconocimiento de los argumentos del sitio (cf. GE, EPI e ID tareas), y las relaciones entre proteínas y sus complejos relevantes para cualquier tarea que los involucre. La configuración de REL está informada por las recientes tareas de relación semántica (Hendrickx et al., 2010). Los datos de la tarea, que consisten en nuevas anotaciones para los datos de GE, extienden un recurso introducido previamente (Pyysalo et al., 2009; Ohta et al., 2010a).
Dateset : ddicorpus2013.zip
Cita : el corpus DDI: un corpus anotado con sustancias farmacológicas e interacciones fármacos
Descripción : El Corpus DDI contiene resúmenes MEDLINE en interacciones fármacos, así como documentos que describen las interacciones fármacos de la base de datos del banco de medicamentos. Esta tarea está diseñada para abordar la extracción de las interacciones fármacos y fármacos en su conjunto, pero dividida en dos subtareas para permitir una evaluación separada del rendimiento para diferentes aspectos del problema. La tarea incluye dos subtareas:
Se proponen cuatro tipos de DDI:
Dateset : Ade-Corpus-V2.Zip
CITE : Desarrollo de un corpus de referencia para respaldar la extracción automática de los efectos adversos relacionados con el fármaco de los informes de casos médicos
Descripción : El trabajo presentado aquí tiene como objetivo generar un corpus anotado sistemáticamente que pueda respaldar el desarrollo y la validación de métodos para la extracción automática de efectos adversos relacionados con el fármaco de los informes de casos médicos. Los documentos se anotan sistemáticamente en varias rondas para garantizar anotaciones consistentes. Los documentos anotados finalmente se armonizan para generar anotaciones de consenso representativas. Para demostrar un escenario de caso de uso de ejemplo, el corpus se empleó para capacitar y validar modelos para la clasificación de informativo contra las oraciones no informativas. Un clasificador de entropía máxima entrenado con características simples y evaluado por validación cruzada de 10 veces dio como resultado una puntuación F1 de 0.70 que indica una aplicación potencial útil del corpus.
Dateset : KBP37-Master.zip.zip
CITE : Clasificación de relaciones a través de una red neuronal recurrente
Descripción : Este conjunto de datos es una revisión del conjunto de datos de anotación MIML-RE, proporcionado por Gabor Angeli et al. (2014). Utilizan las colecciones oficiales de documentos oficiales de KBP 2010 y 2013, así como un vertedero de Wikipedia de julio de 2013 como el Corpus Text para la anotación, se anotaron 33811 oraciones. Para hacer que el conjunto de datos sea más adecuado para nuestra tarea, hicimos varios refinamientos:
Primero, agregamos dirección a los nombres de las relaciones, de modo que 'per: empleado de' se divide en dos relaciones 'por: empleado de (e1, e2)' y 'per: empleado de (e2, e1)' excepto 'sin relación'. Según la descripción de la tarea de KBP, 3 reemplazamos 'org: padres' con 'org: subsidiarias' y reemplazar 'org: miembro de' con 'org: miembro' (por sus instrucciones inversas). Esto lleva a 76 relaciones en el conjunto de datos.
Luego, estadísticos la frecuencia de cada relación con dos direcciones por separado. Y las relaciones con baja frecuencia se descartan para que ambas direcciones de cada relación ocurran más de 100 veces en el conjunto de datos. Para equilibrar mejor el conjunto de datos, el 80% de las oraciones 'sin relación' también se descartan al azar.
Después de eso, el conjunto de datos se barajan aleatoriamente y luego las oraciones bajo cada relación se dividen en tres grupos, 70% para capacitación, 10% para el desarrollo, 20% para la prueba. Finalmente, eliminamos esas oraciones en el conjunto de desarrollo y prueba cuyos pares de entidades y relación aparecen en una oración de entrenamiento simultáneamente.
Dateset : Reverb_emnlp2011_data.tar.gz
Citar : identificación de relaciones para la extracción de información abierta
Descripción : 500 oraciones muestreadas desde la web, utilizando el servicio de enlace aleatorio de Yahoo.
Dateset : Clausie-Datasets.tar.gz
Cite : Clausie: extracción de información abierta basada en cláusulas
Descripción :
Tres conjuntos de datos diferentes. Primero, el conjunto de datos Reverb consta de 500 oraciones con extracciones etiquetadas manualmente. Las oraciones se han obtenido a través del servicio de enlace aleatorio de Yahoo y generalmente son muy ruidosos. Segundo, 200 oraciones aleatorias de las páginas de Wikipedia. Estas oraciones son más cortas, más simples y menos ruidosas que las del conjunto de datos de reverberación. Sin embargo, dado que algunos artículos de Wikipedia están escritos por oradores no nativos, las oraciones de Wikipedia contienen algunas construcciones gramaticales incorrectas. Tercero, 200 oraciones aleatorias de la colección del New York Times, estas oraciones son generalmente muy limpias, pero tienden a ser largas y complejas.
Dateset : EMNLP13_ualBERTA_EXPERIMENTS_V2.ZIP
Citar : efectividad y eficiencia de la extracción de relaciones abiertas
Descripción : Web-500 es un conjunto de datos comúnmente utilizado, desarrollado para los experimentos de Textrunner (Banko y Etzioni, 2008). Estas oraciones a menudo son incompletas y gramaticalmente poco sólidas, lo que representa los desafíos de lidiar con el texto web. NYT-500 representa el otro extremo del espectro con nuevas historias formales y bien escritas del Corpus del New York Times (Sandhaus, 2008). Penn-100 contiene oraciones del Penn Treebank utilizado recientemente en una evaluación del método Treekernel (Xu et al., 2013). Anotamos manualmente las relaciones para Web-500 y NYT-500 y utilizamos las anotaciones Penn-100 proporcionadas por los autores de Treekernel (Xu et al., 2013).
Dateset : DataSet-iJcnlp2011.tar.gz
Citar : Extracción de descriptores de relaciones con campos aleatorios condicionales
Descripción : El conjunto de datos del New York Times contiene 150 artículos comerciales de New York Times. Los artículos se arrastraron desde el sitio web de NYT entre noviembre de 2009 y enero de 2010. Después de la división y la tokenización de las oraciones, utilizamos el Stanford Ner Tagger (URL: http://nlp.stanford.edu/ner/index.shtml) para identificar la intención de por ejemplo de cada oración. Para las entidades nombradas que contienen múltiples tokens los concatenamos en un solo token. Luego tomamos cada par de entidades (por, org) que ocurren en la misma oración que una sola instancia de relación candidata, donde la entidad por entidad se trata como arg-1 y la entidad de org se trata como arg-2.
Los datos de Wikipedia fueron creados previamente por Aron Culotta et al .. Dado que el conjunto de datos original no contenía la información de anotación que necesitamos, la reanotamos. Del mismo modo, realizamos la división de oraciones, la tokenización y el etiquetado NER, y tomamos pares de (por, por) entidades que ocurren en la misma oración que una instancia de relación candidata. Siempre tratamos la primera entidad como arg-1 y la segunda por entidad como arg-2.
Dateset : http://iesl.cs.umass.edu/riedel/ecml/
Citar : las relaciones de modelado y sus menciones sin texto etiquetado
Descripción : El conjunto de datos NYT es un conjunto de datos ampliamente utilizado en la tarea de extracción de relaciones de relación a distancia. Este conjunto de datos se generó alineando las relaciones de la base libre con el Corpus del New York Times (NYT), con oraciones de los años 2005-2006 utilizadas como el corpus de capacitación y las oraciones de 2007 utilizadas como Corpus de Pruebas.
Dateset : https://github.com/google-research-datasets/relation-extraction-corpus
Cite : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Descripción : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Conjunto de datos : pgr.zip
Cite : un corpus estándar de plata de relaciones de gen fenotipo humano
Descripción : Las relaciones del gen fenotipo humano son fundamentales para comprender completamente el origen de algunas anormalidades fenotípicas y sus enfermedades asociadas. La literatura biomédica es la fuente más completa de estas relaciones, sin embargo, necesitamos herramientas de extracción de relación para reconocerlas automáticamente. La mayoría de estas herramientas requieren un corpus anotado y, según nuestro conocimiento, no hay un corpus disponible anotado con relaciones de gen fenotipo humano. Este artículo presenta el Corpus de Relaciones de Genotipo de Genos (PGR), un corpus estándar de plata de fenotipo humano y anotaciones génicas y sus relaciones. El corpus consta de 1712 resúmenes, 5676 anotaciones de fenotipos humanos, 13835 anotaciones genéticas y 4283 relaciones. Generamos este corpus utilizando herramientas de reconocimiento de entidad con nombre, cuyos resultados fueron evaluados parcialmente por ocho curadores, obteniendo una precisión del 87.01%. Al usar el corpus, pudimos obtener resultados prometedores con dos herramientas de aprendizaje profundo de última generación, a saber, el 78.05% de la precisión. El Corpus de PGR se puso a disposición del público para la comunidad de investigación.
Conjunto de datos : pgr-crowd.zip
Cite : un enfoque híbrido hacia los corpuses de capacitación de extracción de relación biomédica: combinación de supervisión distante con crowdsourcing
Descripción : Los conjuntos de datos de extracción de relación biomédica (RE) son vitales en la construcción de bases de conocimiento y para potenciar el descubrimiento de nuevas interacciones. Hay varias formas de crear conjuntos de datos RE biomédicos, algunos más confiables que otros, como recurrir a anotaciones de expertos en dominio. Sin embargo, el uso emergente de plataformas de crowdsourcing, como Amazon Mechanical Turk (MTurk), puede reducir potencialmente el costo de la construcción del conjunto de datos RE, incluso si no se puede garantizar el mismo nivel de calidad. Hay una falta de poder del investigador para controlar quién, cómo y en qué contexto participan los trabajadores en plataformas de crowdsourcing. Por lo tanto, la supervisión distante con crowdsourcing puede ser una alternativa más confiable. Se les pediría a los trabajadores de crowdsourcing que solo rectifiquen o descarten las anotaciones ya existentes, lo que haría que el proceso dependa menos dependiente de su capacidad para interpretar oraciones biomédicas complejas. En este trabajo, utilizamos un conjunto de datos de relaciones humanas -genes -genes de fenotipo humano (PGR). Dividimos el conjunto de datos original en dos tareas de anotación: Tarea 1, 70% del conjunto de datos anotado por un trabajador, y la tarea 2, el 30% del conjunto de datos anotado por siete trabajadores. Además, para la Tarea 2, agregamos un evaluador adicional en el sitio y un experto en dominio para evaluar aún más la calidad de validación de crowdsourcing. Aquí, describimos una tubería detallada para la validación de RE Crowdsourcing, creando una nueva versión del conjunto de datos PGR con revisión de expertos en dominio parcial y evalúa la calidad de la plataforma Mturk. Aplicamos el nuevo conjunto de datos a dos sistemas de aprendizaje profundo de última generación (Biont y BioBert) y comparamos su rendimiento con el conjunto de datos PGR original, así como combinaciones entre los dos, logrando un aumento de 0.3494 en la medida F promedio. El código que admite nuestro trabajo y la nueva versión del conjunto de datos PGR está disponible en https://github.com/lasigebiotm/pgr-crowd.