Descargar PoliBERTweet - Descargar el código fuente de PoliBERTweet

PoliBERTweet

Código Fuente de IA

1.0.0

Descargar

? Polibertweet: modelos de idiomas para tweets políticos

Modelos de lenguaje basados en transformadores previamente entrenados en una gran cantidad de datos de Twitter relacionados con la política (tweets de 83 millones). Este repositorio es el recurso oficial del siguiente documento.

Polibertweet: un modelo de lenguaje previamente capacitado para analizar contenido político en Twitter, LREC 2022.

Conjuntos de datos

Los conjuntos de datos para las tareas de evaluación presentadas en nuestro documento están disponibles a continuación.

Poli-test & nonpoli-test-[descargar]
Conjuntos de datos de postura - [Descargar] [Paper] [GitHub]

Modelos previamente capacitados

¿Todos los modelos están cargados a mi Facing de Hugging? ¡Entonces puede cargar modelo con solo tres líneas de código !

Polibertweet (tweets de 83m) - Siéntase libre de ajustar esto a cualquier tarea aguas abajo
Polibertweet-Small (tweets de 5 m)

Uso

Probamos en pytorch v1.10.2 y transformers v4.18.0 .

Para ajustar nuestros modelos para una tarea específica (por ejemplo, detección de postura), consulte el documento de Huggingface
Consulte las páginas de modelo específicas anteriores para obtener más detalles de uso. A continuación se muestra un caso de uso de muestra.

1. Cargue el modelo y el tokenizador

 from transformers import AutoModel , AutoTokenizer , pipeline
import torch

# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"

# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path )

2. Predecir la palabra enmascarada

 # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )

outputs = fill_mask ( example )
print ( outputs )

3. Ver incrustaciones

 # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )

# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)

4. Tune a una tarea aguas abajo como la detección de posiciones

Vea los detalles en el documento de Huggingface.

✏️ Cita

Si siente que nuestro documento y los recursos son útiles, ¡considere citar nuestro trabajo!

 @inproceedings { kawintiranon2022polibertweet ,
  title     = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
  author    = { Kawintiranon, Kornraphop and Singh, Lisa } ,
  booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
  year      = { 2022 } ,
  pages     = { 7360--7367 } ,
  publisher = { European Language Resources Association } ,
  url       = { https://aclanthology.org/2022.lrec-1.801 }
}