これは、CONLL 2020ペーパー「TODOを何を試しているのか?イベントプロセスのセマンティックタイピング」のリソースのリポジトリです。このリポジトリには、ソースコードと、ペーパーで使用されているデータセットへのリンクが含まれています。
このペーパーでは、新しい(認知的に動機付けられた)セマンティックタイピングタスク、マルチ軸イベントプロセスタイピング、イベントプロセスを与えられた場合、(i)プロセスによって作成されたアクションのタイプ、および(ii)プロセスが影響を求めているオブジェクトのタイプを推測しようとする新しい(ii)影響を求めています。このタスクは、イベント理解の計算および認知的研究に触発されており、イベントの理解を理解することは、主人公の目標、計画、または意図を認識することによって指示されることが多いことを示唆しています。 60Kを超えるイベントプロセスを含む大きなデータセットを開発し、非常に大きな(10^3〜10^4)ラベルの語彙を持つアクションとオブジェクトタイプの両方の軸の両方に超微粒タイピングを備えています。次に、Glosses1からの間接的な監督と、共同学習ランクツーフレームワークの挑戦的なタイピングの問題に対処するハイブリッド学習フレームワークP2GTを提案します。私たちの実験が示すように、P2GTは、影響を受けるオブジェクトの細かいセマンティックタイプと同様に、プロセスの意図を特定することをサポートしています。また、少数のショットケースを処理する能力と、領域外プロセスでの強力な一般化可能性も示しています

python 3.6
Transformers (Huggingface) version 2.11.0 (Important)
PyTorch with CUDA support
nltk 3.4.5
AllenNLP 1.0
./Dataには、この作業で貢献したWikiHowイベントプロセスタイピングデータセットが含まれています。同じフォルダーには、WordNetからの動詞と名詞の光沢、およびWSDに使用されるSemcorデータセットも含まれています。
wikihowイベントプロセスタイピングデータセットの生ファイルはdata_seq.tsvとして指定されます。各行は、プロセスのコンテンツとタイプのラベルを記録します。具体的には、各タブ分離された行にはサブイベントコンテンツのシーケンスが含まれており、最後の2つのセルはアクションとオブジェクトのラベルです。
バイナリファイルは、utilsのdata.pyオブジェクトの保存されたインスタンスであり、プロセスデータとラベルの光沢をすでに読み取り、分割するために必要なインデックス情報を提供しています(ランダム状態= 777は常に同じ分割を与える必要があります)。
./Processアーカイブデータセットプロポッシングのためのいくつかのプログラム。
プログラム./run_joint/jointssmrl_roberta_bias.pyは、10%のテストスプリットを除外したトレーニングとテストの実験を実行します。次のパターンで実行する必要があります
python jointSSmrl_roberta_bias.py <skip_training> <alpha> <margin_1> <margin_2>
例えば:
CUDA_VISIBLE_DEVICES=4 python jointSSmrl_roberta_bias.py 0 1. 0.1 0.1
./RUN_JOINT/CONSOLE_ROBERTA_BIAS.PYは、ユーザーがイベントプロセスを入力してマルチ軸タイプの情報をFlyで取得できるコンソールアプリケーションです。このプログラムを簡単に実行し、事前に訓練されたモデルをロードするまで待ち、サブイベントが「@」で区切られているイベントプロセスを入力します。たとえば、次の入力
read papers@attend conferences@go to seminars@write a thesis
などのタイプ情報を受け取ります
[('get', 0.6021211743354797), ('retain', 0.6217673718929291), ('absorb', 0.6397878527641296), ('pass', 0.6577234268188477), ('submit', 0.6673179864883423), ('present', 0.6688072383403778)]
[('doctorate', 0.5141586363315582), ('psychology', 0.5413682460784912), ('genetic', 0.5501004457473755), ('science', 0.5507515966892242), ('determinism', 0.5621879994869232), ('grade', 0.5723227560520172)]
コンソールデモの事前に訓練されたフルモデルへのリンク:https://drive.google.com/drive/folders/1b8pevvrnanl7r_wnyyt4ppsynroiloft?usp = sharing
ユーザーは、./runjoint/train_full_roberta_bias.pyを実行して、完全なwikihowイベントプロセスデータセットでモデルをトレーニングすることもできます。
https://cogcomp.seas.upenn.edu/page/demo_view/stepでWebデモを実行する必要があります
bibtex:
@inproceedings{chen-etal-2020-what,
title = {``{W}hat {A}re {Y}ou {T}rying {T}o {D}o?'' {S}emantic {T}yping of {E}vent {P}rocesses},
author = "Chen, Muhao and Zhang, Hongming and Wang, Haoyu and Roth, Dan",
booktitle = "Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL)",
year = "2020",
publisher = "Association for Computational Linguistics"
}