Ini adalah repositori untuk sumber daya dalam kertas Conll 2020 "Apa yang Anda coba TODO? Pengetikan semantik proses acara". Repositori ini berisi kode sumber dan tautan ke beberapa set data yang digunakan dalam makalah kami.
Makalah ini mempelajari tugas pengetikan semantik baru (bermotivasi kognitif), pengetikan proses acara multi-sumbu , yang, mengingat proses peristiwa, upaya untuk menyimpulkan label jenis bentuk bebas yang menggambarkan (i) jenis tindakan yang dibuat oleh proses dan (ii) jenis objek yang dipengaruhi proses untuk mempengaruhi. Tugas ini diilhami oleh studi komputasi dan kognitif dari pemahaman peristiwa, yang menunjukkan bahwa pemahaman proses peristiwa sering diarahkan dengan mengenali tujuan, rencana atau niat protagonis. Kami mengembangkan dataset besar yang berisi lebih dari 60 ribu proses acara, menampilkan pengetikan berbutir ultra halus pada sumbu jenis aksi dan objek dengan kosakata label yang sangat besar (10^3∼10^4). Kami kemudian mengusulkan kerangka pembelajaran hibrida, P2GT, yang membahas masalah pengetikan yang menantang dengan pengawasan tidak langsung dari glosses1 dan kerangka kerja belajar-ke-peringkat bersama. Seperti yang ditunjukkan oleh percobaan kami, P2GT mendukung mengidentifikasi maksud proses, serta jenis semantik yang bagus dari objek yang terpengaruh. Ini juga menunjukkan kemampuan menangani beberapa kasus, dan generalisasi yang kuat pada proses di luar domain

python 3.6
Transformers (Huggingface) version 2.11.0 (Important)
PyTorch with CUDA support
nltk 3.4.5
AllenNLP 1.0
./data berisi dataset pengetikan proses acara Wikihow yang dikontribusikan dalam pekerjaan ini. Folder yang sama juga berisi kata kerja dan kata benda dari WordNet, dan dataset semcor yang digunakan untuk WSD.
File mentah dari dataset pengetikan proses acara wikihow diberikan sebagai data_seq.tsv, di mana setiap baris mencatat konten dan jenis label proses. Secara khusus, setiap tab yang dipisahkan berisi urutan konten subevent, dan dua sel terakhir adalah label aksi dan objek.
File biner adalah instance yang disimpan dari objek data.py di utils, yang telah membaca data proses dan memberi label gloss, dan memberikan informasi pengindeksan yang diperlukan untuk dibagi (status acak = 777 harus selalu memberikan perpecahan yang sama), kereta dan tes.
./process mengarsipkan beberapa program untuk proprocessing dataset.
Program ./run_joint/jointssmrl_roberta_bias.py menjalankan percobaan untuk pelatihan dan pengujian dengan split 10% yang dikecualikan. Itu harus dieksekusi dengan pola berikut
python jointSSmrl_roberta_bias.py <skip_training> <alpha> <margin_1> <margin_2>
Misalnya:
CUDA_VISIBLE_DEVICES=4 python jointSSmrl_roberta_bias.py 0 1. 0.1 0.1
./run_joint/console_roberta_bias.py adalah aplikasi konsol di mana pengguna dapat mengetikkan proses acara dan mendapatkan informasi jenis multi-sumbu secara langsung. Sederhana Jalankan program ini, tunggu sampai memuat model pra-terlatih, dan ketik dalam proses acara di mana subeven dipisahkan oleh '@'. Misalnya, input berikut
read papers@attend conferences@go to seminars@write a thesis
akan menerima informasi jenis seperti
[('get', 0.6021211743354797), ('retain', 0.6217673718929291), ('absorb', 0.6397878527641296), ('pass', 0.6577234268188477), ('submit', 0.6673179864883423), ('present', 0.6688072383403778)]
[('doctorate', 0.5141586363315582), ('psychology', 0.5413682460784912), ('genetic', 0.5501004457473755), ('science', 0.5507515966892242), ('determinism', 0.5621879994869232), ('grade', 0.5723227560520172)]
Tautan ke model lengkap pra-terlatih untuk demo konsol: https://drive.google.com/drive/folders/1b8pevvrnanl7r_wnyyt4ppsynroiloft?usp=sharing
Pengguna juga dapat melatih model pada dataset proses acara Wikihow lengkap dengan menjalankan ./runjoint/train_full_roberta_bias.py
Demo web harus berjalan di https://cogcomp.seas.upenn.edu/page/demo_view/step 
Bibtex:
@inproceedings{chen-etal-2020-what,
title = {``{W}hat {A}re {Y}ou {T}rying {T}o {D}o?'' {S}emantic {T}yping of {E}vent {P}rocesses},
author = "Chen, Muhao and Zhang, Hongming and Wang, Haoyu and Roth, Dan",
booktitle = "Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL)",
year = "2020",
publisher = "Association for Computational Linguistics"
}