Dies ist das Repository für die Ressourcen in Conll 2020 Papier "Was versuchen Sie mit Todo? Dieses Repository enthält den Quellcode und Links zu einigen in unserem Artikel verwendeten Datensätze.
In diesem Artikel wird eine neue (kognitiv motivierte) semantische Typisierung, Multi-Achs-Ereignisprozess-Typisierung untersucht, die bei einem Ereignisprozess versucht, Bezeichnungen für freie Formtypen zu schließen, in der (i) die Art der vom Prozess getätigten Aktion beschrieben wird, und (ii) die Art des Objekts, den der Prozess auswirkt. Diese Aufgabe ist von rechnerischen und kognitiven Studien zum Ereignisverständnis inspiriert, die darauf hindeuten, dass das Verständnis von Ereignisprozessen häufig durch Erkennen der Ziele, Pläne oder Absichten der Protagonisten (en) angewiesen wird. Wir entwickeln einen großen Datensatz mit über 60 kK-Ereignisprozessen mit ultra-feinkörnigem Tippen sowohl auf die Action- als auch für Objekttypachsen mit sehr großen (10^3 bis 10^4) Etikettenvokabular. Anschließend schlagen wir einen hybriden Lernrahmen, P2GT, vor, das sich mit dem herausfordernden Typisierungsproblem mit indirekter Aufsicht von Glosses 1 und einem gemeinsamen Lern-zu-Rang-Framework befasst. Wie unsere Experimente zeigen, unterstützt P2GT die Identifizierung der Absicht von Prozessen sowie den feinen semantischen Typ des betroffenen Objekts. Es zeigt auch die Fähigkeit, nur wenige Fälle zu bewältigen, und die starke Generalisierbarkeit bei Prozessen außerhalb der Domänen

python 3.6
Transformers (Huggingface) version 2.11.0 (Important)
PyTorch with CUDA support
nltk 3.4.5
AllenNLP 1.0
./data enthält den WikiHow -Ereignisprozess -Tipps -Datensatz, der in dieser Arbeit beigetragen hat. Der gleiche Ordner enthält auch Verb- und Substantivglühungen aus WordNet und dem für WSD verwendeten Semcor -Datensatz.
Die RAW -Datei des WikiHow -Ereignisprozesses Typisierungsdatensatz ist als data_seq.tsv angegeben, wobei jede Zeile den Inhalt und die Geben von Beschriftungen eines Prozesses aufzeichnet. Insbesondere enthält jede Registerkarte getrennte Zeile eine Sequenz von Subeneventinhalten, und die letzten beiden Zellen sind die Aktions- und Objektbezeichnungen.
Die Binärdatei ist eine gespeicherte Instanz des Daten.py -Objekts in Utils, das bereits die Prozessdaten gelesen und beschriften und die erforderlichen Indexierungsinformationen zum Aufteilungsdauer bereitgestellt haben (Random State = 777 sollte immer denselben Aufteil geben), trainieren und testen.
.
Das Programm ./run_joint/jointssmrl_roberta_biass.py führt das Experiment für das Training und das Testen mit ausgeschlossener 10% Test -Split durch. Es sollte mit dem folgenden Muster ausgeführt werden
python jointSSmrl_roberta_bias.py <skip_training> <alpha> <margin_1> <margin_2>
Zum Beispiel:
CUDA_VISIBLE_DEVICES=4 python jointSSmrl_roberta_bias.py 0 1. 0.1 0.1
./run_joint/console_roberta_biass.py ist eine Konsolenanwendung, bei der der Benutzer Ereignisprozesse eingeben und die multi-Achsen-Typinformationen auf der Fliege erhalten kann. Einfach ausführen dieses Programm, warten Sie, bis es ein vorgebildetes Modell lädt, und geben Sie in einem Ereignisprozess ein, bei dem Substanz durch '@' getrennt werden. Zum Beispiel die folgende Eingabe
read papers@attend conferences@go to seminars@write a thesis
würde Typinformationen empfangen wie z.
[('get', 0.6021211743354797), ('retain', 0.6217673718929291), ('absorb', 0.6397878527641296), ('pass', 0.6577234268188477), ('submit', 0.6673179864883423), ('present', 0.6688072383403778)]
[('doctorate', 0.5141586363315582), ('psychology', 0.5413682460784912), ('genetic', 0.5501004457473755), ('science', 0.5507515966892242), ('determinism', 0.5621879994869232), ('grade', 0.5723227560520172)]
Link zu den vorgeborenen Vollmodellen für die Konsole-Demo: https://drive.google.com/drive/folders/1b8pevvrnanl7r_wnyyt4ppsynroiloft?usp=sharing
Benutzer können das Modell auch im vollständigen WikiHow -Ereignisprozessdatensatz trainieren.
Eine Web -Demo sollte unter https://cogcomp.seas.upenn.edu/page/demo_view/step ausgeführt werden 
Bibtex:
@inproceedings{chen-etal-2020-what,
title = {``{W}hat {A}re {Y}ou {T}rying {T}o {D}o?'' {S}emantic {T}yping of {E}vent {P}rocesses},
author = "Chen, Muhao and Zhang, Hongming and Wang, Haoyu and Roth, Dan",
booktitle = "Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL)",
year = "2020",
publisher = "Association for Computational Linguistics"
}