Cross Domain_NER
1.0.0
使用跨域語言建模,ACL 2019論文代碼的跨域NER。
NER是NLP的基本任務。由於標記的資源的限制,跨域NER一直是一項具有挑戰性的任務。以前的大多數工作都集中在監督場景上,利用用於源和目標域的標記數據。這種設置的缺點是他們無法訓練沒有標記數據的域。
我們使用跨域LM作為NER域適應性的橋樑交叉域解決了這個問題。通過設計新型參數生成網絡來執行交叉任務和跨域轉移。
CBS Scitech新聞數據集的實驗表明,我們的模型可以有效地允許無監督的域適應,同時也可以在具有完全不同實體類型的域之間引導監督域的適應性(即新聞與生物醫學)。
單個任務模型的天真基線(紙上的STM )主要遵循NCRF ++。
有關更多詳細信息,請參閱我們的論文:
使用跨域語言建模的跨域NER
Chen Jia,Xiaobo Liang和Yue Zhang*
(*通訊作者)
ACL 2019
Python 2 or 3
PyTorch 0.3
一個GPU的內存應不少於8GB,以適合該模型。
手套100維單詞向量(從這裡引用)。
CONLL-2003英語NER數據。
retures域原始數據與CONLL-2003數據集一起釋放。
Scitech新聞域原始數據下載。
路透社新聞領域原始數據下載。
supervised_domain_adaptation , unsupervised_domain_adaptation和combined_SDA_and_UDA可以使用以下命令使其運行。
python main.py --config train.NER.config
文件train.NER.config在NCRF ++之後包含數據集路徑和模型超參數。
如果您使用我們的數據或代碼,請引用我們的論文如下:
@inproceedings{jia2019cross,
title={Cross-domain ner using cross-domain language modeling},
author={Jia, Chen and Liang, Xiaobo and Zhang, Yue},
booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
pages={2464--2474},
year={2019}
organization={Association for Computational Linguistics}
}
combined_SDA_and_UDA中結合監督場景和無監督的方案。supervised_domain_adaptation中的先前監督場景;unsupervised_domain_adaptation中的以前的無監督場景;