PoliBERTweet
1.0.0
نماذج اللغة القائمة على المحولات تدربت مسبقًا على كمية كبيرة من بيانات Twitter المتعلقة بالسياسة (تويت 83 متر). هذا الريبو هو المورد الرسمي للورقة التالية.
تتوفر مجموعات البيانات لمهام التقييم المقدمة في ورقتنا أدناه.
يتم تحميل جميع النماذج على واجهة Huggingface الخاصة بي؟ حتى تتمكن من تحميل النموذج بثلاثة أسطر فقط من الكود !!!
اختبرنا في pytorch v1.10.2 و transformers v4.18.0 .
from transformers import AutoModel , AutoTokenizer , pipeline
import torch
# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )
# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"
# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path ) # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )
outputs = fill_mask ( example )
print ( outputs ) # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )
# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)انظر التفاصيل في Docgingface Doc.
إذا شعرت أن ورقتنا ومواردنا مفيدة ، فيرجى التفكير في الاستشهاد بعملنا!
@inproceedings { kawintiranon2022polibertweet ,
title = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
author = { Kawintiranon, Kornraphop and Singh, Lisa } ,
booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
year = { 2022 } ,
pages = { 7360--7367 } ,
publisher = { European Language Resources Association } ,
url = { https://aclanthology.org/2022.lrec-1.801 }
}قم بإنشاء مشكلة هنا إذا كان لديك أي مشكلات في تحميل نماذج أو مجموعات بيانات.