PoliBERTweet Download - PoliBERTweet Código Fonte Download

PoliBERTweet

Código-Fonte de IA

1.0.0

Baixar

? Polibertweet: modelos de idiomas para tweets políticos

Modelos de idiomas baseados em transformadores pré-treinados em uma grande quantidade de dados do Twitter relacionados à política (83 milhões de tweets). Este repositório é o recurso oficial do artigo a seguir.

Polibertweet: Um modelo de idioma pré-treinado para analisar conteúdo político no Twitter, LREC 2022.

Conjuntos de dados

Os conjuntos de dados para as tarefas de avaliação apresentados em nosso artigo estão disponíveis abaixo.

Poli-Test & Nole-Poli-Test-[Download]
Conjuntos de dados de postura - [Download] [Paper] [Github]

Modelos pré-treinados

Todos os modelos são enviados para o meu Huggingface? Então você pode carregar o modelo com apenas três linhas de código !!!

Polibertweet (83m Tweets) - Sinta -se à vontade para ajustar isso a qualquer tarefa a jusante
Polibertweet-small (5m Tweets)

Uso

Testamos em pytorch v1.10.2 e transformers v4.18.0 .

Para ajustar nossos modelos para uma tarefa específica (por exemplo, detecção de postura), consulte o documento Huggingface
Consulte as páginas modelo específicas acima para obter mais detalhes de uso. Abaixo está um caso de uso de amostra.

1. Carregue o modelo e o tokenizador

 from transformers import AutoModel , AutoTokenizer , pipeline
import torch

# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"

# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path )

2. Preveja a palavra mascarada

 # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )

outputs = fill_mask ( example )
print ( outputs )

3. Ver incorporação

 # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )

# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)

4. Tune fino a uma tarefa a jusante, como detecção de postura

Veja detalhes no Doc do Huggingface.

✏️ Citação

Se você acha que nosso artigo e recursos são úteis, considere citar nosso trabalho!

 @inproceedings { kawintiranon2022polibertweet ,
  title     = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
  author    = { Kawintiranon, Kornraphop and Singh, Lisa } ,
  booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
  year      = { 2022 } ,
  pages     = { 7360--7367 } ,
  publisher = { European Language Resources Association } ,
  url       = { https://aclanthology.org/2022.lrec-1.801 }
}