Это репозиторий для ресурсов в Conll 2020 Paper «Что вы пытаетесь Todo? Semantic Typling процессов событий». Этот репозиторий содержит исходный код и ссылки на некоторые наборы данных, используемые в нашей статье.
В этом документе изучаются новая (когнитивно мотивированная) семантическая задача типирования, типирование многоосного процесса событий , которое, учитывая процесс события, пытается вывести метки свободной формы, описывающие (i) тип действия, предпринимаемого процессом, и (ii) тип объекта, на который стремится процесс, стремится влиять. Эта задача вдохновлена вычислительными и когнитивными исследованиями понимания событий, которые предполагают, что понимание процессов событий часто направлено путем распознавания целей, планов или намерений главного героя. Мы разрабатываем большой набор данных, содержащий более 60 тыс. Процессов событий, в которых есть сверхмопрофильная типирование как на осях действия, так и на осях объекта с очень большими (10^3210^4) словесными словами. Затем мы предлагаем гибридную структуру обучения, P2GT, которая решает сложную проблему печати с косвенным надзором от Glosses1 и совместной структуры обучения к ранке. Как показывают наши эксперименты, P2GT поддерживает выявление намерения процессов, а также тонкий семантический тип пораженного объекта. Это также демонстрирует способность обращаться с несколькими выстрелами и сильную обобщение на выездных процессах.

python 3.6
Transformers (Huggingface) version 2.11.0 (Important)
PyTorch with CUDA support
nltk 3.4.5
AllenNLP 1.0
./data содержит набор данных типирования процесса событий Wikihow, внесенный в эту работу. Та же папка также содержит глагол и существительные глянки из Wordnet, а также набор данных Semcor, используемый для WSD.
Необработанный файл набора данных типирования процесса событий Wikihow приведен как data_seq.tsv, где каждая строка записывает этикетки содержимого и типов процесса. В частности, каждая отдельная строка вкладка содержит последовательность содержимого подв., А последние две ячейки - этикетки действия и этикетки объекта.
Бинарный файл является сохраненным экземпляром объекта Data.py в UTILS, который уже считывал данные процесса и блески метки, и предоставила необходимую информацию об индексации для разделения (случайное состояние = 777 всегда должно дать одинаковое разделение), поезда и тест.
./Process Archives Несколько программ для просмотра набора данных.
Программа ./run_joint/jointssmrl_roberta_bias.py запускает эксперимент для обучения и тестирования с исключенным 10% -ным тестовым разделением. Он должен выполняться со следующим шаблоном
python jointSSmrl_roberta_bias.py <skip_training> <alpha> <margin_1> <margin_2>
Например:
CUDA_VISIBLE_DEVICES=4 python jointSSmrl_roberta_bias.py 0 1. 0.1 0.1
./run_joint/console_roberta_bias.py-это консольное приложение, где пользователь может ввести процессы событий и получить информацию о многоосевых типах на лету. Просто запустите эту программу, подождите, пока она не загрузит предварительно обученную модель, и введите процесс события, где подвздошны разделены «@». Например, следующий вход
read papers@attend conferences@go to seminars@write a thesis
получить информацию типа, такую как
[('get', 0.6021211743354797), ('retain', 0.6217673718929291), ('absorb', 0.6397878527641296), ('pass', 0.6577234268188477), ('submit', 0.6673179864883423), ('present', 0.6688072383403778)]
[('doctorate', 0.5141586363315582), ('psychology', 0.5413682460784912), ('genetic', 0.5501004457473755), ('science', 0.5507515966892242), ('determinism', 0.5621879994869232), ('grade', 0.5723227560520172)]
Ссылка на предварительно обученные полные модели для демонстрации консоли: https://drive.google.com/drive/folders/1b8pevvrnanl7r_wnyyt4ppsynroiloft?usp=Sharing
Пользователи также могут тренировать модель на полном наборе данных процесса событий Wikihow, выполнив ./runjoint/train_full_roberta_bias.py
Должна работать веб -демонстрация по адресу https://cogcomp.seas.upenn.edu/page/demo_view/step 
Bibtex:
@inproceedings{chen-etal-2020-what,
title = {``{W}hat {A}re {Y}ou {T}rying {T}o {D}o?'' {S}emantic {T}yping of {E}vent {P}rocesses},
author = "Chen, Muhao and Zhang, Hongming and Wang, Haoyu and Roth, Dan",
booktitle = "Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL)",
year = "2020",
publisher = "Association for Computational Linguistics"
}