Téléchargement de PoliBERTweet - Téléchargement du code source PoliBERTweet

PoliBERTweet

Code Source AI

1.0.0

Télécharger

? Polibertweet: modèles linguistiques pour les tweets politiques

Modèles linguistiques basés sur les transformateurs pré-formés sur une grande quantité de données Twitter liées à la politique (tweets de 83 millions). Ce repo est la ressource officielle du document suivant.

Polibertweet: un modèle de langue pré-formée pour analyser le contenu politique sur Twitter, LREC 2022.

Ensembles de données

Les ensembles de données pour les tâches d'évaluation présentés dans notre article sont disponibles ci-dessous.

Poli-test & non-poli-test - [Téléchargement]
Ensembles de données de position - [Télécharger] [Paper] [GitHub]

Modèles pré-formés

Tous les modèles sont téléchargés sur mon étreinte? Vous pouvez donc charger le modèle avec seulement trois lignes de code !!!

POLIBERTWEET (Tweets de 83m) - N'hésitez pas à affiner cela à n'importe quelle tâche en aval
Polibertweet-Small (5m Tweets)

Usage

Nous avons testé dans pytorch v1.10.2 et transformers v4.18.0 .

Pour affiner nos modèles pour une tâche spécifique (par exemple, détection de position), consultez le Doc Huggingface
Veuillez consulter des pages de modèle spécifiques ci-dessus pour plus de détails d'utilisation. Vous trouverez ci-dessous un échantillon de cas d'utilisation.

1. Chargez le modèle et le jetons

 from transformers import AutoModel , AutoTokenizer , pipeline
import torch

# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"

# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path )

2. Prédire le mot masqué

 # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )

outputs = fill_mask ( example )
print ( outputs )

3. Voir les intégres

 # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )

# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)

4. affiner une tâche en aval comme la détection de position

Voir les détails dans le doc en câlins.

✏️ Citation

Si vous sentez que notre papier et nos ressources sont utiles, envisagez de citer notre travail!

 @inproceedings { kawintiranon2022polibertweet ,
  title     = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
  author    = { Kawintiranon, Kornraphop and Singh, Lisa } ,
  booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
  year      = { 2022 } ,
  pages     = { 7360--7367 } ,
  publisher = { European Language Resources Association } ,
  url       = { https://aclanthology.org/2022.lrec-1.801 }
}