gcn over pruned trees下載gcn over pruned trees來源代碼下載

gcn over pruned trees

其他源碼

1.0.0

下載

修剪依賴樹的圖形卷積以提取關係

該回購包含用於修剪依賴樹的紙張圖卷積的Pytorch代碼改善關係提取。

本文/代碼通過修剪依賴樹引入圖形卷積神經網絡（GCN），以提取關係提取。還引入了一種特殊的樹修剪技術，稱為中心修剪，以消除樹木中的無關信息，同時最大程度地維護相關信息。與諸如基於LSTM的各種模型之類的序列模型相比，該GCN模型利用依賴性結構來橋接遠程單詞，因此改善了長期關係的性能。與以前的遞歸模型（例如Treelstm）相比，該GCN模型的性能更好，同時是平行的電動器，因此更有效。

有關模型體系結構的概述，請參見下文：

GCN Architecture

要求

Python 3（在3.6.5上測試）
Pytorch（在0.4.0上測試）
TQDM
解壓縮，wget（僅用於下載）

準備

該代碼要求您可以訪問Tacred數據集（需要LDC許可證）。 Tacred數據集目前定於2018年12月通過LDC公開發布。有關早期訪問此數據的可能性，請通過yuhao.zhang ~at~ stanford.edu我們聯繫。擁有Tacred數據後，請將JSON文件放在目錄dataset/tacred下。為了完整性，我們僅在此存儲庫中包括來自Tacred數據集的示例數據文件。

首先，從斯坦福NLP Group網站下載和開啟拉鍊手套向量，with：

 chmod +x download.sh; ./download.sh

然後用以下方式準備詞彙和初始單詞向量

 python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove

這將在DIR dataset/vocab中將詞彙和單詞向量寫為numpy矩陣。

訓練

要訓練圖形卷積神經網絡（GCN）模型，請運行：

 bash train_gcn.sh 0

模型檢查點和日誌將保存到./saved_models/00 。

要訓練上下文化的GCN（C-GCN）模型，請運行：

 bash train_cgcn.sh 1

模型檢查點和日誌將保存到./saved_models/01 。

有關使用其他參數的詳細信息，例如修剪距離K，請參閱train.py 。

評估

要在測試集上進行評估，請運行：

 python eval.py saved_models/00 --dataset test

默認情況下，這將使用best_model.pt文件。使用--model checkpoint_epoch_10.pt指定模型檢查點文件。

再培訓

重新加載預據審計的模型並進行芬太尼，運行：

 python train.py --load --model_file saved_models/01/best_model.pt --optim sgd --lr 0.001

引用

 @inproceedings{zhang2018graph,
 author = {Zhang, Yuhao and Qi, Peng and Manning, Christopher D.},
 booktitle = {Empirical Methods in Natural Language Processing (EMNLP)},
 title = {Graph Convolution over Pruned Dependency Trees Improves Relation Extraction},
 url = {https://nlp.stanford.edu/pubs/zhang2018graph.pdf},
 year = {2018}
}