Cette reposition intègre les modèles de HuggingFaces dans un pipeline de bout en bout pour l'étiquetage des séquences. Voici une liste complète des modèles disponibles.
Si vous avez trouvé ce référentiel utile, veuillez lui donner une étoile .: BLUSH:
git clone https://github.com/avramandrei/BERT-Sequence-Labeling.git
cd BERT-Sequence-Labeling
pip3 install -r requirements.txt
Les fichiers utilisés pour la formation, la validation et les tests doivent être dans un format similaire à la conll:
# sent_id = email-enronsent20_01-0048
# text = Please let us know if you have additional questions.
1 Please please INTJ UH _ 2 discourse 2:discourse _
2 let let VERB VB Mood=Imp|VerbForm=Fin 0 root 0:root _
3 us we PRON PRP Case=Acc|Number=Plur|Person=1|PronType=Prs 2 obj 2:obj|4:nsubj:xsubj _
4 know know VERB VB VerbForm=Inf 2 xcomp 2:xcomp _
5 if if SCONJ IN _ 7 mark 7:mark _
6 you you PRON PRP Case=Nom|Person=2|PronType=Prs 7 nsubj 7:nsubj _
7 have have VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 4 advcl 4:advcl:if _
8 additional additional ADJ JJ Degree=Pos 9 amod 9:amod _
9 questions question NOUN NNS Number=Plur 7 obj 7:obj SpaceAfter=No
10 . . PUNCT . _ 2 punct 2:punct _
Pour former un modèle, utilisez le script train.py . Cela commencera à former un modèle qui prédire les étiquettes de la colonne spécifiée par l'argument [predict_column] .
python3 train.py [path_train_file] [path_dev_file] [tokens_column] [predict_column] [lang_model_name]
Pour prédire de nouvelles valeurs, utilisez le script predict.py . Cela créera un nouveau fichier en remplaçant la colonne prévue du fichier de test avec les valeurs prévues.
python3 predict.py [path_test_file] [model_path] [tokens_column] [predict_column] [lang_model_name]
| modèle | upos | XPOS |
|---|---|---|
| bert-base basé | 95.92 | 95.27 |
| base de Roberta | 95,77 | 95.18 |
Veuillez envisager de citer l'article suivant comme un merci aux auteurs:
@article{avram2020upb,
title={UPB at SemEval-2020 Task 6: Pretrained Language Models for Definition Extraction},
author={Avram, Andrei-Marius and Cercel, Dumitru-Clementin and Chiru, Costin-Gabriel},
journal={arXiv e-prints},
pages={arXiv--2009},
year={2020}
}