يحتوي هذا الريبو على رمز Pytorch للانتباه الذي يدركه الموضع والبيانات الخاضعة للإشراف على تحسين ملء الفتحات.
مجموعة البيانات TACRED : يمكن العثور على تفاصيل حول مجموعة بيانات استخراج علاقة TAC على موقع مجموعة البيانات هذا.
أولاً ، قم بتنزيل و unsip glove outpectors من موقع ستانفورد ، مع:
chmod +x download.sh; ./download.sh
ثم قم بإعداد المفردات والناقلات الأولية مع:
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
سيؤدي ذلك إلى كتابة ناقلات المفردات والكلمة كمصفوفة numpy في DIR dataset/vocab .
قم بتدريب نموذج RNN على دراية بالموقف مع:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
استخدم --topn N لتحقيق Finetune the Top n Word Vectors فقط. سيؤدي البرنامج النصي إلى القيام بالمعالجة المسبقة تلقائيًا (Word Rropout ، Kissing Scking ، وما إلى ذلك).
تدريب نموذج LSTM مع:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
سيتم حفظ نقاط التفتيش وسجلات النموذج إلى ./saved_models/00 .
تشغيل التقييم على مجموعة الاختبار مع:
python eval.py saved_models/00 --dataset test
سيستخدم هذا best_model.pt افتراضيًا. استخدم --model checkpoint_epoch_10.pt لتحديد ملف نقطة تفتيش النموذج. إضافة --out saved_models/out/test1.pkl لكتابة إخراج احتمال النموذج إلى الملفات (للمجموعة ، إلخ).
يرجى الاطلاع على مثال Script ensemble.sh .
يتم ترخيص جميع الأعمال الواردة في هذه الحزمة بموجب ترخيص Apache ، الإصدار 2.0. انظر ملف الترخيص المضمن.