Dieses Repository enthält kommentierte Datensätze, mit denen beaufsichtigte Modelle für die Aufgabe der semantischen Beziehungsextraktion trainiert werden können. Wenn Sie weitere Datensätze kennen und einen Beitrag leisten möchten, benachrichtigen Sie mich bitte oder senden Sie eine PR.
Es ist in 3 Gruppen geteilt:
Traditionelle Informationsextraktion : Beziehungen werden manuell kommentiert und gehört zu einem vorbestimmten Typ, dh einer geschlossenen Anzahl von Klassen.
Offene Informationsextraktion : Beziehungen werden manuell kommentiert, haben jedoch keinen bestimmten Typ.
Distant beaufsichtigt : Beziehungen werden annotiert, indem eine entfernte Überwachungstechnik angewendet wird und vorbestimmt ist.
| Datensatz | Nr. Klassen | Sprache | Jahr | Zitieren |
|---|---|---|---|---|
| zielte.tar.gz | 2 | Englisch | 2005 | Untersequenzkerne für die Beziehungsextraktion |
| wikipedia_datav1.0.tar.gz | 53 | Englisch | 2006 | Integration probabilistischer Extraktionsmodelle und Data Mining, um Beziehungen und Muster im Text zu entdecken |
| Semeval2007-task4.tar.gz | 7 | Englisch | 2007 | Semeval-2007 Aufgabe 04: Klassifizierung der semantischen Beziehungen zwischen Nominalen |
| HLT-naacl08-data.txt | 2 | Englisch | 2007 | Lernen, Beziehungen aus dem Web mit minimaler Überwachung zu extrahieren |
| Rerelem.tar.gz | 4 | Portugiesisch | 2009 | Beziehungserkennung zwischen benannten Entitäten: Bericht über eine gemeinsame Aufgabe |
| SEMEVAL2010_TASK8_ALL_DATA.TAR.GZ | 10/1 | Englisch | 2010 | Semeval-2010 Aufgabe 8: Mehrwegklassifizierung semantischer Beziehungen zwischen Nominalspaaren |
| Bionlp.tar.gz | 2 | Englisch | 2011 | Überblick über BionLP Shared Task 2011 |
| Ddicorpus2013.zip | 4 | Englisch | 2012 | Der DDI -Korpus: ein kommentiertes Korpus mit pharmakologischen Substanzen und Arzneimittel -Drug -Wechselwirkungen |
| Ade-Corpus-v2.zip | 2 | Englisch | 2013 | Entwicklung eines Benchmark-Korpus zur Unterstützung der automatischen Extraktion von medikamentenbedingten Nebenwirkungen aus medizinischen Fallberichten |
| Dbpediarelations-pt-0.2.txt.bz2 | 10 | Portugiesisch | 2013 | Erkundung von Dbpedia und Wikipedia für die portugiesische semantische Beziehungsextraktion |
| kbp37-master.zip | 37 Direktional | Englisch | 2015 | Beziehungklassifizierung über wiederkehrendes neuronales Netzwerk |
| Datensatz | Nr. Klassen | Sprache | Jahr | Zitieren |
|---|---|---|---|---|
| Dataset-ijcnlp2011.tar.gz | Offen | Englisch | 2011 | Extrahieren von Beziehungsdeskriptoren mit bedingten Zufallsfeldern |
| reverb_emnlp2011_data.tar.gz | Offen | Englisch | 2011 | Identifizierung von Beziehungen zur offenen Informationsextraktion |
| Clausie-Datasets.tar.gz | Offen | Englisch | 2013 | Clausie: Klauselbasierte offene Informationsextraktion |
| emnlp13_ualberta_experiments_v2.zip | Offen | Englisch | 2013 | Wirksamkeit und Effizienz der Offenen Beziehungsextraktion |
| Datensatz | Nr. Klassen | Sprache | Jahr | Zitieren |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | Entfernt | Englisch | 2010 | Modellierungsbeziehungen und ihre Erwähnungen ohne beschrifteten Text |
| https://github.com/google-research-datasets/relation-extraction-corpus | Entfernt | Englisch | 2013 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| Pgr.zip | Entfernt | Englisch | 2019 | Ein Silberstandard-Korpus menschlicher Phänotyp-Gen-Beziehungen |
| Pgr-crowd.zip | Distant + Crowdsourced | Englisch | 2020 | Ein hybrider Ansatz zur biomedizinischen Beziehungsextraktionstrainingskorpora: Kombination der entfernten Überwachung mit Crowdsourcing |
Datensatz : dbpediarelations-pt-0.2.txt.bz2
Zitieren : Erkundung von Dbpedia und Wikipedia für die portugiesische semantische Beziehungsextraktion
Beschreibung : Eine Sammlungen von Sätzen in Portugiesisch, die semantische Beziehungen zwischen Paaren von Entitäten ausdrücken, die aus dbpedia extrahiert wurden. Die Sätze wurden durch entfernte Überwachung gesammelt und wurden als Manuall überarbeitet.
DATTERSET : zielig.tar.gz
Zitieren : Untersequenzkerne für die Beziehungsextraktion
Beschreibung : Es besteht aus 225 Medline -Abstracts, von denen bekannt ist, dass sie Wechselwirkungen zwischen menschlichen Proteinen beschreiben, während die anderen 25 keine Wechselwirkung beziehen. Es gibt 4084 Proteinreferenzen und rund 1000 markierte Interaktionen in diesem Datensatz.
Datensatz : Semeval2007-task4.tar.gz
Zitat : Semeval-2007 Aufgabe 04: Klassifizierung der semantischen Beziehungen zwischen Nominalen
Beschreibung : Kleiner Datensatz, der 7 Beziehungstypen und insgesamt 1.529 kommentierte Beispiele enthält.
Datensatz : SEMEVAL2010_TASK8_ALL_DATA.TAR.GZ
Zitat : Semeval-2010 Aufgabe 8: Mehrwegklassifizierung semantischer Beziehungen zwischen Nominalspaaren
Beschreibung : Semeval-2010 Aufgabe 8 als Multi-Wege-Klassifizierungsaufgabe, bei der das Etikett für jedes Beispiel aus dem vollständigen Satz von zehn Beziehungen ausgewählt werden muss, und die Zuordnung von Substantiven zu Argument-Slots wird nicht im Voraus bereitgestellt. Wir liefern auch mehr Daten: 10.717 kommentierte Beispiele, verglichen mit 1.529 in Semeval-1-Aufgabe 4.
Datensatz : rerelem.tar.gz
Zitieren : Beziehungserkennung zwischen benannten Entitäten: Bericht über eine gemeinsame Aufgabe
Beschreibung : Erster Bewertungswettbewerb (Track) für Portugiesisch, dessen Ziel es war, Beziehungen zwischen benannten Unternehmen im Lauftext zu erkennen und zu klassifizieren. Angesichts einer Sammlung, die mit den genannten Entitäten zu zehn verschiedenen semantischen Kategorien kommuniziert wurde, markierten wir alle Beziehungen zwischen ihnen in jedem Dokument. Wir verwendeten die folgende vierfache Beziehungsklassifizierung: Identität, integriert, angeordnet, und andere (die später explizit in zwanzig verschiedene Beziehungen detailliert wurden).
Datensatz : Wikipedia_datav1.0.tar.gz
Zitieren : Integrieren Sie probabilistische Extraktionsmodelle und Data Mining, um Beziehungen und Muster im Text zu entdecken
Beschreibung : Wir haben 1127 Absätze aus 271 Artikeln aus der Online -Enzyklopädie -Wikipedia abgetastet und insgesamt 4701 Beziehungsinstanzen bezeichnet. Zusätzlich zu einer großen Reihe von Beziehungen zwischen Person zu Person haben wir auch Verbindungen zwischen Menschen und Organisationen sowie biografischen Fakten wie Geburtstag und Jobtitle aufgenommen. Insgesamt gibt es 53 Beschriftungen in den Trainingsdaten.
Datensatz : HLT-naacl08-data.txt
Zitieren : Lernen, Beziehungen aus dem Web mit minimaler Überwachung zu extrahieren
Beschreibung : Corporate Acquisition Pairs und personenbekannte Paare aus dem Web. Der Corporate Acquisition Test Set hat insgesamt 995 Instanzen, von denen 156 positiv sind. Der personenbekannte Testsatz hat insgesamt 601 Instanzen, und nur 45 von ihnen sind positiv.
Datensatz : bionlp.tar.gz
Zitieren : Übersicht über die gemeinsame Aufgabe von BionLP 2011
Beschreibung : Die Aufgabe beinhaltet die Erkennung von zwei binären Teil der Beziehungen zwischen Entitäten: Proteinkomponenten und Untereinheit komplex. Die Aufgabe ist durch spezifische Herausforderungen motiviert: Die Identifizierung der Komponenten von Proteinen im Text ist relevant, z. B. für die Erkennung von Standortargumenten (vgl. GE-, EPI- und ID -Aufgaben) und die Beziehungen zwischen Proteinen und ihren Komplexen, die für sie beteiligt sind. Die Rel -Setup wird durch jüngste semantische Beziehungsaufgaben informiert (Hendrickx et al., 2010). Die Aufgabendaten, die aus neuen Annotationen für GE -Daten bestehen, erweitert eine zuvor eingeführte Ressource (Pyysalo et al., 2009; Ohta et al., 2010a).
Datensatz : ddicorpus2013.zip
CITE : Der DDI -Korpus: ein kommentiertes Korpus mit pharmakologischen Substanzen und Arzneimittel -Drucken -Wechselwirkungen
Beschreibung : Der DDI-Korpus enthält Medline-Abstracts zu Wechselwirkungen mit Arzneimittelmedikamenten sowie Dokumente, die Wechselwirkungen mit Arzneimitteln aus der Arzneimittelbankdatenbank beschreiben. Diese Aufgabe wurde entwickelt, um die Extraktion von Arzneimittel-Drogen-Wechselwirkungen als Ganzes anzugehen, aber in zwei Unteraufgaben unterteilt, um eine separate Bewertung der Leistung für verschiedene Aspekte des Problems zu ermöglichen. Die Aufgabe enthält zwei Unteraufgaben:
Es werden vier Arten von DDIs vorgeschlagen:
Datensatz : Ade-Corpus-v2.zip
Zitieren : Entwicklung eines Benchmark-Korpus zur Unterstützung der automatischen Extraktion von medikamentenbedingten Nebenwirkungen aus medizinischen Fallberichten
Beschreibung : Die hier vorgestellte Arbeit zielt darauf ab, einen systematisch kommentierten Korpus zu generieren, der die Entwicklung und Validierung von Methoden zur automatischen Extraktion von medikamentenbedingten nachteiligen Auswirkungen aus medizinischen Fallberichten unterstützen kann. Die Dokumente werden in verschiedenen Runden systematisch doppelt annotiert, um konsistente Anmerkungen zu gewährleisten. Die kommentierten Dokumente sind schließlich harmonisiert, um repräsentative Konsenskanenten zu generieren. Um ein Beispiel-Anwendungs-Case-Szenario zu demonstrieren, wurde das Korpus verwendet, um Modelle für die Klassifizierung von informativem Informativ gegen die nicht-informativen Sätze zu schulen und zu validieren. Ein maximaler Entropieklassifikator, der mit einfachen Merkmalen trainiert und mit einer 10-fachen Kreuzvalidierung bewertet wurde, führte zu einem F1-Score von 0,70, was auf eine potenzielle nützliche Anwendung des Korpus hinweist.
Datensatz : kbp37-master.zip.zip
Zitieren : Beziehungklassifizierung über wiederkehrendes neuronales Netzwerk
Beschreibung : Dieser Datensatz ist eine Überarbeitung des MIML-Re-Annotations-Datensatzes, der von Gabor Angeli et al. (2014). Sie verwenden sowohl die KBP Offiziellen Dokumentsammlungen 2010 als auch die KBP -Dokumentsammlungen sowie eine Müllkippe von Wikipedia im Juli 2013 als Textkorpus für Annotation. Um den Datensatz für unsere Aufgabe besser geeignet zu machen, haben wir mehrere Verfeinerungen vorgenommen:
Zunächst fügen wir den Beziehungsnamen Anweisungen hinzu, so dass "per: Mitarbeiter von" in zwei Beziehungen aufgeteilt wird "per: Mitarbeiter von (e1, e2)" und "per: Mitarbeiter von (e2, e1)" mit Ausnahme von "No Relation". Nach Beschreibung der KBP -Aufgabe ersetzen wir "org: Eltern" durch "Org: Tochtergesellschaften" und ersetzen "org: Mitglied von" org: member "(nach ihrer umgekehrten Anweisungen). Dies führt zu 76 Beziehungen im Datensatz.
Dann statistischen wir die Häufigkeit jeder Beziehung mit zwei Richtungen getrennt. Und Beziehungen mit niedriger Frequenz werden so verworfen, dass beide Richtungen jeder Beziehung mehr als 100 -mal im Datensatz auftreten. Um den Datensatz besser auszugleichen, werden 80% 'Keine Beziehung' Sätze auch zufällig verworfen.
Danach sind der Datensatz zufällig gemischt und dann werden Sätze in jeder Beziehung in drei Gruppen aufgeteilt, 70% für das Training, 10% für die Entwicklung, 20% für den Test. Schließlich entfernen wir diese Sätze im Entwicklungs- und Testsatz, deren Entitätspaare und Beziehung gleichzeitig in einem Trainingssatz erscheinen.
DATESSET : Reverb_emnlp2011_Data.tar.gz
Zitieren : Identifizieren von Beziehungen zur offenen Informationsextraktion
Beschreibung : 500 Sätze aus dem Web unter Verwendung des zufälligen Linkdienstes von Yahoo.
Datensatz : Clausie-Datasets.tar.gz
Zitieren : clausie: klauselbasierte offene Informationsextraktion
Beschreibung :
Drei verschiedene Datensätze. Erstens besteht der Reverb -Datensatz aus 500 Sätzen mit manuell beschrifteten Extraktionen. Die Sätze wurden über den zufälligen Link-Service von Yahoo erhalten und sind im Allgemeinen sehr laut. Zweitens 200 zufällige Sätze von Wikipedia -Seiten. Diese Sätze sind kürzer, einfacher und weniger laut als die des Reverb -Datensatzes. Da einige Wikipedia-Artikel jedoch von nicht einheimischen Sprechern verfasst wurden, enthalten die Wikipedia-Sätze einige falsche grammatikalische Konstruktionen. Drittens 200 zufällige Sätze aus der New York Times Collection Diese Sätze sind im Allgemeinen sehr sauber, sind aber in der Regel lang und komplex.
Datensatz : emnlp13_ualberta_experiments_v2.zip
Zitieren : Wirksamkeit und Effizienz der offenen Beziehungsextraktion
Beschreibung : Web-500 ist ein häufig verwendeter Datensatz, der für die Textrunner-Experimente entwickelt wurde (Banko und Etzioni, 2008). Diese Sätze sind oft unvollständig und grammatikalisch unangemessen, was die Herausforderungen des Umgangs mit Webtext darstellt. NYT-500 repräsentiert das andere Ende des Spektrums mit formellen, gut geschriebenen neuen Geschichten aus dem New York Times Corpus (Sandhaus, 2008). Penn-100 enthält Sätze aus der Penn Treebank, die kürzlich zur Bewertung der Baumkernel-Methode verwendet wird (Xu et al., 2013). Wir haben die Beziehungen für Web-500 und NYT-500 manuell annotiert und die von TreeKernels Autoren bereitgestellten Penn-100-Anmerkungen verwendet (Xu et al., 2013).
Datensatz : Dataset-ijcnlp2011.tar.gz
Zitieren : Extrahieren von Beziehungsdeskriptoren mit bedingten Zufallsfeldern
Beschreibung : Der Datensatz von New York Times enthält 150 Geschäftsartikel der New York Times. Die Artikel wurden zwischen November 2009 und Januar 2010 von der NYT -Website geknackt. Nach der Aufteilung und Tokenisierung des Satzes verwendeten wir den Stanford Ner Tagger (URL: http://nlp.stanford.edu/inner/index.shtml), um Per und Org identifizieren zu identifizieren und von jedem Satz genannt. Für benannte Entitäten, die mehrere Token enthalten, haben wir sie zu einem einzigen Token verkettet. Wir haben dann jedes Paar (per, org) Einheiten genommen, die im selben Satz wie eine einzelne Kandidatenbeziehungsinstanz auftreten, wobei die Per-Entität als arg-1 behandelt wird und die Org-Entität als arg-2 behandelt wird.
Wikipedia-Daten wurden zuvor von Aron Culotta et al. Erstellt, da der ursprüngliche Datensatz nicht die Annotationsinformationen enthielt, die wir benötigen, haben wir sie erneut angeschlossen. In ähnlicher Weise führten wir eine Satzspaltung, Tokenisierung und NER -Markierung durch und nahmen Paare von (per, per) Einheiten auf, die im selben Satz wie eine Kandidatenbeziehungsinstanz auftraten. Wir behandeln die erste pro Entität immer als arg-1 und die zweite pro Entität als arg-2.
DATTERSET : http://iesl.cs.umass.edu/riedel/ecml/
Zitieren : Modellierung von Beziehungen und ihre Erwähnungen ohne beschrifteten Text
Beschreibung : Der NYT -Datensatz ist ein weit verbreiteter Datensatz zur Aufgabe der weitläufigen Relationsextraktion. Dieser Datensatz wurde erzeugt, indem die Freenbase-Beziehungen mit dem New York Times (NYT) Corpus ausgerichtet wurden, wobei Sätze aus den Jahren 2005-2006 als Trainingskorpus und Sätze aus dem Jahr 2007 als Testkorpus verwendet wurden.
Datensatz : https://github.com/google-research-datasets/relation-extraction-corpus
Zitieren : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Beschreibung : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Datensatz : pgr.zip
Zitieren : ein Silberstandardkorpus menschlicher Phänotyp-Gen-Beziehungen
Beschreibung : Die Beziehungen zwischen menschlichen Phänotyp-Gen sind von grundlegender Bedeutung, um den Ursprung einiger phänotypischer Anomalien und ihrer damit verbundenen Krankheiten vollständig zu verstehen. Die biomedizinische Literatur ist die umfassendste Quelle dieser Beziehungen. Wir benötigen jedoch Relationsextraktionstools, um sie automatisch zu erkennen. Die meisten dieser Tools erfordern ein kommentiertes Korpus und nach unserem besten Wissen gibt es keinen Korpus zur Verfügung, der mit menschlichen Phänotyp-Gen-Beziehungen kommentiert ist. In diesem Artikel wird der PGR-Corpus (PGR) Phänotyp-Gens (PGR), einen Silberstandard-Korpus menschlicher Phänotyp- und Genanmerkungen und deren Beziehungen, vorgestellt. Das Korpus besteht aus 1712 Abstracts, 5676 Annotationen des menschlichen Phänotyps, 13835 Genanmerkungen und 4283 Beziehungen. Wir haben diesen Korpus unter Verwendung der Erkennung von Namentity-Erkennung generiert, deren Ergebnisse teilweise von acht Kuratoren bewertet wurden, wodurch eine Genauigkeit von 87,01%erzielt wurde. Durch die Verwendung des Korpus konnten wir vielversprechende Ergebnisse mit zwei hochmodernen Deep-Lern-Tools erzielen, nämlich 78,05% der Präzision. Das PGR Corpus wurde der Forschungsgemeinschaft öffentlich zur Verfügung gestellt.
Datensatz : pgr-crowd.zip
CITE : Ein hybrider Ansatz für die biomedizinische Relation Extraction Training Corpora: Kombinieren Sie entfernte Überwachung mit Crowdsourcing
Beschreibung : Datensätze (Biomedical Relation Extraction (RE)) sind für die Konstruktion von Wissensbasis von entscheidender Bedeutung und um die Entdeckung neuer Interaktionen zu potenzieren. Es gibt verschiedene Möglichkeiten, biomedizinische RE -Datensätze zu erstellen, einige zuverlässiger als andere, z. B. auf Domain -Experten -Anmerkungen. Die aufstrebende Verwendung von Crowdsourcing -Plattformen wie Amazon Mechanical Turk (MTURK) kann jedoch möglicherweise die Kosten für die BE -Datensatzkonstruktion senken, auch wenn das gleiche Qualitätsniveau nicht garantiert werden kann. Der Forscher mangelt es an der Macht, zu kontrollieren, wer, wie und in welchen Kontextarbeitern Crowdsourcing -Plattformen beteiligt sind. Daher kann die verbündete entfernte Überwachung mit Crowdsourcing eine zuverlässigere Alternative sein. Die Crowdsourcing -Arbeiter würden nur gebeten, bereits vorhandene Anmerkungen zu korrigieren oder zu verwerfen, was den Prozess weniger von ihrer Fähigkeit abhängig macht, komplexe biomedizinische Sätze zu interpretieren. In dieser Arbeit verwenden wir einen zuvor erstellten, entfernten Datensatz des menschlichen Phänotyps - Gene Relations (PGR), um eine Validierung von Crowdsourcing durchzuführen. Wir haben den ursprünglichen Datensatz in zwei Annotationsaufgaben unterteilt: Aufgabe 1, 70% der von einem Arbeiter kommentierten Datensatz und Aufgabe 2, 30% des von sieben Arbeitnehmern kommentierten Datensatzes. Für Aufgabe 2 haben wir auch einen zusätzlichen Bewerter vor Ort und einen Domain-Experten hinzugefügt, um die Crowdsourcing-Validierungsqualität weiter zu bewerten. Hier beschreiben wir eine detaillierte Pipeline für die Validierung von Crowdsourcing -Validierung, erstellen eine neue Veröffentlichung des PGR -Datensatzes mit partieller Domänenexpertenrevision und bewerten die Qualität der MTurk -Plattform. Wir haben den neuen Datensatz auf zwei hochmoderne Deep-Lern-Systeme (Biont und Biobert) angewendet und seine Leistung mit dem ursprünglichen PGR-Datensatz sowie Kombinationen zwischen beiden verglichen, wobei eine Erhöhung der durchschnittlichen F-Messung um 0,3494 um 0,3494 erreicht wurde. Der Code, der unsere Arbeit und die neue Version des PGR-Datensatzes unterstützt, finden Sie unter https://github.com/lasigebiotm/pgr-crowd.