PoliBERTweet
1.0.0
Model bahasa berbasis transformator yang sudah dilatih sebelumnya pada sejumlah besar data Twitter terkait politik (tweet 83M). Repo ini adalah sumber resmi dari makalah berikut.
Kumpulan data untuk tugas evaluasi yang disajikan dalam makalah kami tersedia di bawah ini.
Semua model diunggah ke permukaan pelukan saya? Jadi Anda dapat memuat model hanya dengan tiga baris kode !!!
Kami diuji di pytorch v1.10.2 dan transformers v4.18.0 .
from transformers import AutoModel , AutoTokenizer , pipeline
import torch
# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )
# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"
# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path ) # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )
outputs = fill_mask ( example )
print ( outputs ) # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )
# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)Lihat detail di Doc Huggingface.
Jika Anda merasa makalah dan sumber daya kami bermanfaat, harap pertimbangkan mengutip pekerjaan kami!
@inproceedings { kawintiranon2022polibertweet ,
title = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
author = { Kawintiranon, Kornraphop and Singh, Lisa } ,
booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
year = { 2022 } ,
pages = { 7360--7367 } ,
publisher = { European Language Resources Association } ,
url = { https://aclanthology.org/2022.lrec-1.801 }
}Buat masalah di sini jika Anda memiliki masalah memuat model atau set data.