Modelos de lenguaje basados en transformadores previamente entrenados en una gran cantidad de datos de Twitter relacionados con la política (tweets de 83 millones). Este repositorio es el recurso oficial del siguiente documento.
Los conjuntos de datos para las tareas de evaluación presentadas en nuestro documento están disponibles a continuación.
¿Todos los modelos están cargados a mi Facing de Hugging? ¡Entonces puede cargar modelo con solo tres líneas de código !
Probamos en pytorch v1.10.2 y transformers v4.18.0 .
from transformers import AutoModel , AutoTokenizer , pipeline
import torch
# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )
# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"
# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path ) # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )
outputs = fill_mask ( example )
print ( outputs ) # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )
# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)Vea los detalles en el documento de Huggingface.
Si siente que nuestro documento y los recursos son útiles, ¡considere citar nuestro trabajo!
@inproceedings { kawintiranon2022polibertweet ,
title = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
author = { Kawintiranon, Kornraphop and Singh, Lisa } ,
booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
year = { 2022 } ,
pages = { 7360--7367 } ,
publisher = { European Language Resources Association } ,
url = { https://aclanthology.org/2022.lrec-1.801 }
}Cree un problema aquí si tiene algún problema de carga de modelos o conjuntos de datos.