tacred relation
1.0.0
このリポジトリには、紙のポジションを意識した注意のためのPytorchコードが含まれており、監視されたデータがスロットの充填を改善します。
TACREDデータセット:TAC関係抽出データセットの詳細については、このデータセットWebサイトをご覧ください。
まず、スタンフォードのウェブサイトからグローブベクターをダウンロードして解凍します。
chmod +x download.sh; ./download.sh
次に、次のような語彙と初期の単語ベクトルを準備します。
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
これにより、語彙と単語ベクトルがdir dataset/vocabにnumpyマトリックスとして記述されます。
ポジションアウェア注意RNNモデルをトレーニングしてください。
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
--topn Nを使用して、トップnワードベクトルのみを微調整します。スクリプトは、前処理を自動的に実行します(単語ドロップアウト、エンティティマスキングなど)。
でLSTMモデルをトレーニングします:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
モデルチェックポイントとログは./saved_models/00に保存されます。
テストセットで評価を実行します。
python eval.py saved_models/00 --dataset test
これにより、デフォルトではbest_model.ptが使用されます。 --model checkpoint_epoch_10.ptを使用して、モデルチェックポイントファイルを指定します。 add --out saved_models/out/test1.pkl 、ファイルにモデル確率出力(アンサンブルなど)を書き込みます。
Script ensemble.shの例をご覧ください。
このパッケージに含まれるすべての作業は、バージョン2.0のApacheライセンスに基づいてライセンスされています。付属のライセンスファイルを参照してください。