Unduh PoliBERTweet - Unduh Kode Sumber PoliBERTweet

PoliBERTweet

Kode Sumber AI

1.0.0

Unduh

? Polibertweet: Model Bahasa untuk Tweet Politik

Model bahasa berbasis transformator yang sudah dilatih sebelumnya pada sejumlah besar data Twitter terkait politik (tweet 83M). Repo ini adalah sumber resmi dari makalah berikut.

Polibertweet: Model bahasa pra-terlatih untuk menganalisis konten politik di Twitter, LREC 2022.

Set data

Kumpulan data untuk tugas evaluasi yang disajikan dalam makalah kami tersedia di bawah ini.

Poli-Test & Nonpoli-Test-[Unduh]
Set Data STANCE - [Unduh] [Paper] [GitHub]

Model pra-terlatih

Semua model diunggah ke permukaan pelukan saya? Jadi Anda dapat memuat model hanya dengan tiga baris kode !!!

Polibertweet (Tweet 83M) - Jangan ragu untuk menyempurnakan ini ke tugas hilir
Polibertweet-Small (Tweet 5m)

Penggunaan

Kami diuji di pytorch v1.10.2 dan transformers v4.18.0 .

Untuk menyempurnakan model kami untuk tugas tertentu (misalnya deteksi sikap), lihat Doc Huggingface
Silakan lihat halaman model tertentu di atas untuk detail penggunaan lebih lanjut. Di bawah ini adalah kasus penggunaan sampel.

1. Muat model dan tokenizer

 from transformers import AutoModel , AutoTokenizer , pipeline
import torch

# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"

# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path )

2. Memprediksi kata bertopeng

 # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )

outputs = fill_mask ( example )
print ( outputs )

3. Lihat Embeddings

 # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )

# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)

4. Fine-Tune ke tugas hilir seperti deteksi sikap

Lihat detail di Doc Huggingface.

✏️ Kutipan

Jika Anda merasa makalah dan sumber daya kami bermanfaat, harap pertimbangkan mengutip pekerjaan kami!

 @inproceedings { kawintiranon2022polibertweet ,
  title     = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
  author    = { Kawintiranon, Kornraphop and Singh, Lisa } ,
  booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
  year      = { 2022 } ,
  pages     = { 7360--7367 } ,
  publisher = { European Language Resources Association } ,
  url       = { https://aclanthology.org/2022.lrec-1.801 }
}