这是Conll 2020论文中资源的存储库“您想什么?事件过程的语义键入”。该存储库包含源代码,并链接到我们论文中使用的某些数据集。
本文研究了一种新的(认知动机的)语义分型任务,多轴事件过程键入,在事件过程中,试图推断自由形式类型标签描述(i)该过程所采取的动作类型以及(ii)该过程试图影响的对象类型。该任务的灵感来自事件理解的计算和认知研究,这表明理解事件的过程通常是通过认识主人公的目标,计划或意图来指导的。我们开发了一个大型数据集,其中包含超过60K事件的过程,其中具有非常大的(10^3〜10^4)标签词汇的动作和对象类型轴上的超细粒键入。然后,我们提出了一个混合学习框架P2GT,该框架通过Glosses1和联合学习到级框架的间接监督解决了具有挑战性的打字问题。正如我们的实验指出的那样,P2GT支持确定过程的意图以及受影响对象的精细语义类型。它还证明了处理少量案例的能力,以及在室外过程中的强大推广性

python 3.6
Transformers (Huggingface) version 2.11.0 (Important)
PyTorch with CUDA support
nltk 3.4.5
AllenNLP 1.0
./data包含在这项工作中贡献数据集的Wikihow事件过程。同一文件夹还包含WordNet中的动词和名词颜色,以及用于WSD的SEMCOR数据集。
Wikihow事件过程的原始文件键入数据集以Data_seq.tsv的形式给出,其中每一行记录了一个过程的内容和类型标签。具体而言,每个选项卡分离的行包含一系列子事件内容,最后两个单元格是动作和对象标签。
二进制文件是util中的data.py对象的一个保存的实例,该实例已经读取了过程数据和标签光,并提供了必要的索引信息以拆分(随机状态= 777应始终给出相同的拆分),火车和测试。
./程序归档几个用于数据集的程序。
程序./run_joint/jointssmrl_roberta_bias.py进行了实验进行训练和测试,并排除了10%的测试拆分。它应该执行以下模式
python jointSSmrl_roberta_bias.py <skip_training> <alpha> <margin_1> <margin_2>
例如:
CUDA_VISIBLE_DEVICES=4 python jointSSmrl_roberta_bias.py 0 1. 0.1 0.1
./run_joint/console_roberta_bias.py是一个控制台应用程序,用户可以在事件过程中键入并在当时获取多轴类型信息。简单运行此程序,等待加载预训练的模型,然后输入事件过程,该事件过程由“@”分开。例如,以下输入
read papers@attend conferences@go to seminars@write a thesis
将收到类型信息,例如
[('get', 0.6021211743354797), ('retain', 0.6217673718929291), ('absorb', 0.6397878527641296), ('pass', 0.6577234268188477), ('submit', 0.6673179864883423), ('present', 0.6688072383403778)]
[('doctorate', 0.5141586363315582), ('psychology', 0.5413682460784912), ('genetic', 0.5501004457473755), ('science', 0.5507515966892242), ('determinism', 0.5621879994869232), ('grade', 0.5723227560520172)]
链接到控制台演示的预训练完整型号:https://drive.google.com/drive/folders/1b8p8pevvrnanl7r_wnyyt4ppsynroiloft?usp = sharing
用户还可以通过运行./runjoint/train_full_roberta_bias.py在完整的Wikihow事件过程数据集上训练该模型
Web演示应在https://cogcomp.seas.upenn.edu/page/demo_view/step上运行
Bibtex:
@inproceedings{chen-etal-2020-what,
title = {``{W}hat {A}re {Y}ou {T}rying {T}o {D}o?'' {S}emantic {T}yping of {E}vent {P}rocesses},
author = "Chen, Muhao and Zhang, Hongming and Wang, Haoyu and Roth, Dan",
booktitle = "Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL)",
year = "2020",
publisher = "Association for Computational Linguistics"
}