BERT Sequence Labeling
1.0.0
يدمج هذه النماذج التي تعاني من عوامل HuggingFaces في خط أنابيب من طرف إلى طرف لوضع تسلسل. فيما يلي قائمة كاملة بالنماذج المتاحة.
إذا وجدت هذا المستودع مفيدًا ، فالرجاء إعطائه نجمًا.
git clone https://github.com/avramandrei/BERT-Sequence-Labeling.git
cd BERT-Sequence-Labeling
pip3 install -r requirements.txt
يجب أن تكون الملفات المستخدمة للتدريب والتحقق من الصحة والاختبار بتنسيق مشابه لـ Conll:
# sent_id = email-enronsent20_01-0048
# text = Please let us know if you have additional questions.
1 Please please INTJ UH _ 2 discourse 2:discourse _
2 let let VERB VB Mood=Imp|VerbForm=Fin 0 root 0:root _
3 us we PRON PRP Case=Acc|Number=Plur|Person=1|PronType=Prs 2 obj 2:obj|4:nsubj:xsubj _
4 know know VERB VB VerbForm=Inf 2 xcomp 2:xcomp _
5 if if SCONJ IN _ 7 mark 7:mark _
6 you you PRON PRP Case=Nom|Person=2|PronType=Prs 7 nsubj 7:nsubj _
7 have have VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 4 advcl 4:advcl:if _
8 additional additional ADJ JJ Degree=Pos 9 amod 9:amod _
9 questions question NOUN NNS Number=Plur 7 obj 7:obj SpaceAfter=No
10 . . PUNCT . _ 2 punct 2:punct _
لتدريب نموذج ، استخدم البرنامج النصي train.py . سيبدأ هذا تدريب نموذج يتنبأ بملصقات العمود المحدد بواسطة وسيطة [predict_column] .
python3 train.py [path_train_file] [path_dev_file] [tokens_column] [predict_column] [lang_model_name]
للتنبؤ بقيم جديدة ، استخدم نص predict.py . سيؤدي ذلك إلى إنشاء ملف جديد عن طريق استبدال العمود المتوقع لملف الاختبار بالقيم المتوقعة.
python3 predict.py [path_test_file] [model_path] [tokens_column] [predict_column] [lang_model_name]
| نموذج | UPOS | xpos |
|---|---|---|
| bert-base cazed | 95.92 | 95.27 |
| روبرتا قاعدة | 95.77 | 95.18 |
يرجى التفكير في الاستشهاد بالورقة التالية كشكر للمؤلفين:
@article{avram2020upb,
title={UPB at SemEval-2020 Task 6: Pretrained Language Models for Definition Extraction},
author={Avram, Andrei-Marius and Cercel, Dumitru-Clementin and Chiru, Costin-Gabriel},
journal={arXiv e-prints},
pages={arXiv--2009},
year={2020}
}