Скачать FinTwitBERT - Скачать исходный код FinTwitBERT

FinTwitBERT

AI Исходный код

1.0.0

Скачать

Специализированная языковая модель для финансовых твитов

Финтвитберт логотип

Fintwitbert - это языковая модель, специально обученная для понимания и анализа финансовых разговоров в Twitter. Он предназначен для того, чтобы понять уникальные способы, которыми люди говорят о финансах в Интернете, что делает его ценным инструментом для тех, кто интересуется финансовыми тенденциями и чувствами, выраженными через твиты.

Введение

Понимание финансовых рынков может быть сложным, особенно при анализе огромного количества мнений и дискуссий в социальных сетях. Финтвайтберт здесь, чтобы понять финансовые разговоры в Твиттере. Это специализированный инструмент, который интерпретирует уникальный язык и сокращения, используемые в финансовых твитах, помогая пользователям получить представление о тенденциях и настроениях рынка.

Эта модель была разработана для того, чтобы заполнить пробел в традиционных инструментах обработки языка, которые часто борются с сокращением и жаргоном, найденными в финансовых твитах. Независимо от того, являетесь ли вы финансовым специалистом, энтузиастом рынка или кем-то, кто интересуется финансовыми тенденциями в социальных сетях, Fintwitbert предлагает простое в использовании решение для навигации и понимания этих дискуссий.

Наборы данных

Наборы данных перед тренировками

Fintwitbert использует разнообразные финансовые твиты для предварительного обучения, включая данные фондового рынка Taborda et al. С более чем 940 тысячи твитов, а также наш набор данных, финансовые твиты, с подробной статистикой, приведенной ниже.

Наборы данных по созданию

Для создания мы используем несколько наборов данных, каждое предложение разнообразных настроений в финансовых контекстах. Набор реальных, помеченных наборов данных можно найти на Huggingface. Кроме того, мы также создали синтетический набор данных, содержащий 1,43 млн твитов и соответствующие метки настроения. Вы можете найти этот набор данных здесь.

Модель детали

Fintwitbert основан на Финберте с добавленными масками для упоминаний пользователей ( @USER ) и URL ( [URL] ). Модель предварительно обучает 10 эпох с акцентом на минимизацию потерь и применение ранней остановки для предотвращения переживания.

Доступ к предварительно обученной модели и токенизатору в Финтвайтберте на Huggingface. Чтобы получить тонкую настройку, посетите Fintwitbert-Sentiment на Huggingface.

Установка

 # Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txt

Использование

Мы предлагаем две модели: Финтвайтберт и Финтвайтберт-Сендент. Первый-это предварительно обученная модель и токенизатор для маскированного языкового моделирования (MLM), которая может быть создана для других задач, таких как анализ настроений. Это то, о чем стоит вторая модель, она точно настроена на анализ настроений, а этикетки-в три категории: медвежьи, нейтральные и бычьи.

Предварительно обученная модель

 from transformers import pipeline

pipe = pipeline (
    "fill-mask" ,
    model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." ))

Тонкая настраиваемая модель

 from transformers import pipeline

pipe = pipeline (
    "sentiment-analysis" ,
    model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)

print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" ))

Веса и предубеждения (WANDB) Использование

Если вы хотите обучить эту модель самостоятельно и сообщить о показателях весам и предубеждениям (Wandb.ai). Вы можете сделать это, добавив файл wandb.env с следующим контентом: WANDB_API_KEY=your_wandb_api_key .

Цитирование

Если вы используете в своем исследовании Fintwitbert или Fintwitbert-Sentiment, пожалуйста, укажите нас следующим образом, отметив, что оба автора внесли одинаковый вклад в эту работу:

 @misc { FinTwitBERT ,
  author = { Stephan Akkerman, Tim Koornstra } ,
  title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
}

 @misc { FinTwitBERT-sentiment ,
  author = { Stephan Akkerman, Tim Koornstra } ,
  title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
  year = { 2024 } ,
  publisher = { Hugging Face } ,
  howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}

Внося

Взносы приветствуются! Если у вас есть запрос на функции, отчет об ошибках или предложение для рефакторинга кода, пожалуйста, не стесняйтесь открыть проблему на GitHub. Мы ценим вашу помощь в улучшении этого проекта.