PoliBERTweet
1.0.0
Языковые модели, основанные на трансформаторах, предварительно обучались на большом количестве данных, связанных с политикой в Твиттере (83 млн твитов). Это репо является официальным ресурсом следующей статьи.
Наборы данных для задач оценки, представленных в нашей статье, доступны ниже.
Все модели загружаются на мое объятие? Таким образом, вы можете загрузить модель только с тремя строками кода !!!
Мы проверили в pytorch v1.10.2 и transformers v4.18.0 .
from transformers import AutoModel , AutoTokenizer , pipeline
import torch
# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )
# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"
# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path ) # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )
outputs = fill_mask ( example )
print ( outputs ) # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )
# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)Смотрите подробности в документе.
Если вы чувствуете, что наша статья и ресурсы полезны, пожалуйста, рассмотрите возможность ссылаться на нашу работу!
@inproceedings { kawintiranon2022polibertweet ,
title = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
author = { Kawintiranon, Kornraphop and Singh, Lisa } ,
booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
year = { 2022 } ,
pages = { 7360--7367 } ,
publisher = { European Language Resources Association } ,
url = { https://aclanthology.org/2022.lrec-1.801 }
}Создайте проблему здесь, если у вас есть проблемы с загрузкой моделей или наборов данных.