NER المتقاطع NER باستخدام نمذجة لغة النطاق عبر المجال ، رمز لورقة ACL 2019.
NER مهمة أساسية في NLP. نظرًا لقيود الموارد المسمى ، كانت NER عبر المجال مهمة صعبة. تركز معظم الأعمال السابقة على السيناريو الخاضع للإشراف ، واستخدام البيانات المسمى لكل من المجالات المصدر والهدف. من العيوب في هذا الإعداد أنه لا يمكنهم التدريب على المجالات التي لا تحتوي على بيانات مسموعة.
نتصدى لهذه المشكلة ، باستخدام مجالات LM المتقاطعة كجسد عبر جسر لتكييف مجال NER. أداء المهام المتقاطعة ونقل المجال من خلال تصميم شبكة توليد المعلمات الجديدة.
تُظهر التجارب على مجموعة بيانات أخبار CBS Scitech أن نموذجنا يمكن أن يسمح بفعالية بالتكيف مع المجال غير الخاضع للإشراف ، في حين يمكن أيضًا استخلاص تكيف المجال الخاضع للإشراف بين المجالات مع أنواع الكيانات المختلفة تمامًا (أي الأخبار مقابل الطب الحيوي).
يتبع خط الأساس الساذج لنموذج المهمة الفردي ( STM في الورق) في الغالب NCRF ++.
لمزيد من التفاصيل ، يرجى الرجوع إلى ورقتنا:
NER عبر المجال باستخدام نمذجة اللغة عبر المجال
تشن جيا ، شياووبو ليانغ ويوي تشانغ*
(* المؤلف المقابل)
ACL 2019
Python 2 or 3
PyTorch 0.3
يجب أن لا تقل ذكرى وحدة معالجة الرسومات الواحدة من 8 جيجابايت لتناسب النموذج.
قفازات 100-dimension الكلمة ناقلات (استشهد من هنا ).
CONLL-2003 بيانات NER الإنجليزية.
يتم إصدار بيانات DOMAIN RAW مع مجموعة بيانات CONLL-2003.
Scitech News Domain Down Data Download Download.
رويترز الأخبار مجال تنزيل البيانات الخام.
supervised_domain_adaptation ، unsupervised_domain_adaptation و combined_SDA_and_UDA يمكنه استخدام الأمر التالي لجعله يعمل.
python main.py --config train.NER.config
يحتوي File train.NER.config على مسار مجموعة البيانات والمقاطع الزائدة النموذجية بعد NCRF ++.
إذا كنت تستخدم بياناتنا أو رمزنا ، فيرجى الاستشهاد بالورقة على النحو التالي:
@inproceedings{jia2019cross,
title={Cross-domain ner using cross-domain language modeling},
author={Jia, Chen and Liang, Xiaobo and Zhang, Yue},
booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
pages={2464--2474},
year={2019}
organization={Association for Computational Linguistics}
}
combined_SDA_and_UDA .supervised_domain_adaptation ؛unsupervised_domain_adaptation ؛