這是Conll 2020論文中資源的存儲庫“您想什麼?事件過程的語義鍵入”。該存儲庫包含源代碼,並鏈接到我們論文中使用的某些數據集。
本文研究了一種新的(認知動機的)語義分型任務,多軸事件過程鍵入,在事件過程中,試圖推斷自由形式類型標籤描述(i)該過程所採取的動作類型以及(ii)該過程試圖影響的對像類型。該任務的靈感來自事件理解的計算和認知研究,這表明理解事件的過程通常是通過認識主人公的目標,計劃或意圖來指導的。我們開發了一個大型數據集,其中包含超過60K事件的過程,其中具有非常大的(10^3〜10^4)標籤詞彙的動作和對像類型軸上的超細粒鍵入。然後,我們提出了一個混合學習框架P2GT,該框架通過Glosses1和聯合學習到級框架的間接監督解決了具有挑戰性的打字問題。正如我們的實驗指出的那樣,P2GT支持確定過程的意圖以及受影響對象的精細語義類型。它還證明了處理少量案例的能力,以及在室外過程中的強大推廣性

python 3.6
Transformers (Huggingface) version 2.11.0 (Important)
PyTorch with CUDA support
nltk 3.4.5
AllenNLP 1.0
./data包含在這項工作中貢獻數據集的Wikihow事件過程。同一文件夾還包含WordNet中的動詞和名詞顏色,以及用於WSD的SEMCOR數據集。
Wikihow事件過程的原始文件鍵入數據集以Data_seq.tsv的形式給出,其中每一行記錄了一個過程的內容和類型標籤。具體而言,每個選項卡分離的行包含一系列子事件內容,最後兩個單元格是動作和對象標籤。
二進製文件是util中的data.py對象的一個保存的實例,該實例已經讀取了過程數據和標籤光,並提供了必要的索引信息以拆分(隨機狀態= 777應始終給出相同的拆分),火車和測試。
./程序歸檔幾個用於數據集的程序。
程序./run_joint/jointssmrl_roberta_bias.py進行了實驗進行訓練和測試,並排除了10%的測試拆分。它應該執行以下模式
python jointSSmrl_roberta_bias.py <skip_training> <alpha> <margin_1> <margin_2>
例如:
CUDA_VISIBLE_DEVICES=4 python jointSSmrl_roberta_bias.py 0 1. 0.1 0.1
./run_joint/console_roberta_bias.py是一個控制台應用程序,用戶可以在事件過程中鍵入並在當時獲取多軸類型信息。簡單運行此程序,等待加載預訓練的模型,然後輸入事件過程,該事件過程由“@”分開。例如,以下輸入
read papers@attend conferences@go to seminars@write a thesis
將收到類型信息,例如
[('get', 0.6021211743354797), ('retain', 0.6217673718929291), ('absorb', 0.6397878527641296), ('pass', 0.6577234268188477), ('submit', 0.6673179864883423), ('present', 0.6688072383403778)]
[('doctorate', 0.5141586363315582), ('psychology', 0.5413682460784912), ('genetic', 0.5501004457473755), ('science', 0.5507515966892242), ('determinism', 0.5621879994869232), ('grade', 0.5723227560520172)]
鏈接到控制台演示的預訓練完整型號:https://drive.google.com/drive/folders/1b8p8pevvrnanl7r_wnyyt4ppsynroiloft?usp = sharing
用戶還可以通過運行./runjoint/train_full_roberta_bias.py在完整的Wikihow事件過程數據集上訓練該模型
Web演示應在https://cogcomp.seas.upenn.edu/page/demo_view/step上運行
Bibtex:
@inproceedings{chen-etal-2020-what,
title = {``{W}hat {A}re {Y}ou {T}rying {T}o {D}o?'' {S}emantic {T}yping of {E}vent {P}rocesses},
author = "Chen, Muhao and Zhang, Hongming and Wang, Haoyu and Roth, Dan",
booktitle = "Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL)",
year = "2020",
publisher = "Association for Computational Linguistics"
}