tacred relation
1.0.0
該倉庫包含用於紙張位置引人注目的Pytorch代碼,並且有監督的數據改善了插槽填充。
Tacred數據集:有關TAC關係提取數據集的詳細信息,請參見此數據集網站。
首先,從斯坦福網站下載並解開拉鍊手套向量,with:
chmod +x download.sh; ./download.sh
然後用以下方式準備詞彙和初始單詞向量
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
這將在DIR dataset/vocab中將詞彙和單詞向量寫為numpy矩陣。
使用以下方式培訓一個感知的關注RNN模型
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
使用--topn N只能對頂n個單詞矢量進行驗證。該腳本將自動進行預處理(單詞輟學,實體掩蔽等)。
使用以下方式培訓LSTM模型:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
模型檢查點和日誌將保存到./saved_models/00 。
在測試集上進行評估:
python eval.py saved_models/00 --dataset test
默認情況下,這將使用best_model.pt 。使用--model checkpoint_epoch_10.pt指定模型檢查點文件。添加--out saved_models/out/test1.pkl將模型概率輸出寫入文件(用於集合等)。
請參閱示例腳本ensemble.sh 。
此軟件包中包含的所有工作均根據Apache許可證版本2.0授予許可。請參閱隨附的許可證文件。