PoliBERTweet скачать - загрузка исходного кода PoliBERTweet

PoliBERTweet

AI Исходный код

1.0.0

Скачать

? Polibertweet: языковые модели для политических твитов

Языковые модели, основанные на трансформаторах, предварительно обучались на большом количестве данных, связанных с политикой в Твиттере (83 млн твитов). Это репо является официальным ресурсом следующей статьи.

Polibertweet: предварительно обученная языковая модель для анализа политического контента в Twitter, Lrec 2022.

Наборы данных

Наборы данных для задач оценки, представленных в нашей статье, доступны ниже.

Poli-test & onpoli-test-[Скачать]
Наборы данных позиции - [Скачать] [Paper] [GitHub]

Предварительно обученные модели

Все модели загружаются на мое объятие? Таким образом, вы можете загрузить модель только с тремя строками кода !!!

Polibertweet (83 -метровые твиты) - не стесняйтесь настраивать это на любую задачу.
Polibertweet-Small (5M твитов)

Использование

Мы проверили в pytorch v1.10.2 и transformers v4.18.0 .

Чтобы точно настроить наши модели для определенной задачи (например, обнаружение позиции), см. Док
Пожалуйста, смотрите конкретные страницы модели выше для получения дополнительной информации об использовании. Ниже приведен пример использования.

1. Загрузите модель и токенизатор

 from transformers import AutoModel , AutoTokenizer , pipeline
import torch

# Choose GPU if available
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Select mode path here
pretrained_LM_path = "kornosk/polibertweet-mlm"

# Load model
tokenizer = AutoTokenizer . from_pretrained ( pretrained_LM_path )
model = AutoModel . from_pretrained ( pretrained_LM_path )

2. Прогнозируйте слово в маске

 # Fill mask
example = "Trump is the <mask> of USA"
fill_mask = pipeline ( 'fill-mask' , model = pretrained_LM_path , tokenizer = tokenizer )

outputs = fill_mask ( example )
print ( outputs )

3. См. Вторжения

 # See embeddings
inputs = tokenizer ( example , return_tensors = "pt" )
outputs = model ( ** inputs )
print ( outputs )

# OR you can use this model to train on your downstream task!
# please consider citing our paper if you feel this is useful :)

4. Точная настройка к нижней задаче, например, обнаружение позиции

Смотрите подробности в документе.

✏ Цитата

Если вы чувствуете, что наша статья и ресурсы полезны, пожалуйста, рассмотрите возможность ссылаться на нашу работу!

 @inproceedings { kawintiranon2022polibertweet ,
  title     = { {P}oli{BERT}weet: A Pre-trained Language Model for Analyzing Political Content on {T}witter } ,
  author    = { Kawintiranon, Kornraphop and Singh, Lisa } ,
  booktitle = { Proceedings of the Language Resources and Evaluation Conference (LREC) } ,
  year      = { 2022 } ,
  pages     = { 7360--7367 } ,
  publisher = { European Language Resources Association } ,
  url       = { https://aclanthology.org/2022.lrec-1.801 }
}