該回購包含用於修剪依賴樹的紙張圖卷積的Pytorch代碼改善關係提取。
本文/代碼通過修剪依賴樹引入圖形卷積神經網絡(GCN),以提取關係提取。還引入了一種特殊的樹修剪技術,稱為中心修剪,以消除樹木中的無關信息,同時最大程度地維護相關信息。與諸如基於LSTM的各種模型之類的序列模型相比,該GCN模型利用依賴性結構來橋接遠程單詞,因此改善了長期關係的性能。與以前的遞歸模型(例如Treelstm)相比,該GCN模型的性能更好,同時是平行的電動器,因此更有效。
有關模型體系結構的概述,請參見下文:

該代碼要求您可以訪問Tacred數據集(需要LDC許可證)。 Tacred數據集目前定於2018年12月通過LDC公開發布。有關早期訪問此數據的可能性,請通過yuhao.zhang ~at~ stanford.edu我們聯繫。擁有Tacred數據後,請將JSON文件放在目錄dataset/tacred下。為了完整性,我們僅在此存儲庫中包括來自Tacred數據集的示例數據文件。
首先,從斯坦福NLP Group網站下載和開啟拉鍊手套向量,with:
chmod +x download.sh; ./download.sh
然後用以下方式準備詞彙和初始單詞向量
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
這將在DIR dataset/vocab中將詞彙和單詞向量寫為numpy矩陣。
要訓練圖形卷積神經網絡(GCN)模型,請運行:
bash train_gcn.sh 0
模型檢查點和日誌將保存到./saved_models/00 。
要訓練上下文化的GCN(C-GCN)模型,請運行:
bash train_cgcn.sh 1
模型檢查點和日誌將保存到./saved_models/01 。
有關使用其他參數的詳細信息,例如修剪距離K,請參閱train.py 。
要在測試集上進行評估,請運行:
python eval.py saved_models/00 --dataset test
默認情況下,這將使用best_model.pt文件。使用--model checkpoint_epoch_10.pt指定模型檢查點文件。
重新加載預據審計的模型並進行芬太尼,運行:
python train.py --load --model_file saved_models/01/best_model.pt --optim sgd --lr 0.001
本文還包括與位置感知注意力LSTM(PA-LSTM)模型的比較。要復制相應的結果,請參閱此回購。
@inproceedings{zhang2018graph,
author = {Zhang, Yuhao and Qi, Peng and Manning, Christopher D.},
booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
title = {Graph Convolution over Pruned Dependency Trees Improves Relation Extraction},
url = {https://nlp.stanford.edu/pubs/zhang2018graph.pdf},
year = {2018}
}
此軟件包中包含的所有工作均根據Apache許可證版本2.0授予許可。請參閱隨附的許可證文件。