tacred relation
1.0.0
该仓库包含用于纸张位置引人注目的Pytorch代码,并且有监督的数据改善了插槽填充。
Tacred数据集:有关TAC关系提取数据集的详细信息,请参见此数据集网站。
首先,从斯坦福网站下载并解开拉链手套向量,with:
chmod +x download.sh; ./download.sh
然后用以下方式准备词汇和初始单词向量
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
这将在DIR dataset/vocab中将词汇和单词向量写为numpy矩阵。
使用以下方式培训一个感知的关注RNN模型
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
使用--topn N只能对顶n个单词矢量进行验证。该脚本将自动进行预处理(单词辍学,实体掩蔽等)。
使用以下方式培训LSTM模型:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
模型检查点和日志将保存到./saved_models/00 。
在测试集上进行评估:
python eval.py saved_models/00 --dataset test
默认情况下,这将使用best_model.pt 。使用--model checkpoint_epoch_10.pt指定模型检查点文件。添加--out saved_models/out/test1.pkl将模型概率输出写入文件(用于集合等)。
请参阅示例脚本ensemble.sh 。
此软件包中包含的所有工作均根据Apache许可证版本2.0授予许可。请参阅随附的许可证文件。