Repo ini berisi kode Pytorch untuk perhatian-perhatian-perhatian kertas dan data yang diawasi meningkatkan pengisian slot.
Dataset Tacred : Detail tentang Dataset Ekstraksi TAC Relationship dapat ditemukan di situs web Dataset ini.
Pertama, unduh dan unzip sarung tangan vektor dari situs web Stanford, dengan:
chmod +x download.sh; ./download.sh
Kemudian siapkan kosakata dan kata -kata awal dengan:
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
Ini akan menulis kosakata dan vektor kata sebagai matriks numpy ke dalam dataset/vocab Dir.
Latih Model RNN Perhatian-Sadar Posisi dengan:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
Gunakan --topn N untuk finetune hanya vektor kata N atas. Script akan melakukan preprocessing secara otomatis (dropout kata, masking entitas, dll.).
Latih model LSTM dengan:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
Pos Pemeriksaan dan Log Model akan disimpan ke ./saved_models/00 .
Jalankan evaluasi pada set tes dengan:
python eval.py saved_models/00 --dataset test
Ini akan menggunakan best_model.pt secara default. Gunakan --model checkpoint_epoch_10.pt untuk menentukan file pos pemeriksaan model. Tambahkan --out saved_models/out/test1.pkl untuk menulis output probabilitas model ke file (untuk ansambel, dll.).
Silakan lihat contoh skrip ensemble.sh .
Semua pekerjaan yang terkandung dalam paket ini dilisensikan di bawah lisensi Apache, versi 2.0. Lihat file lisensi yang disertakan.