
Fintwitbert - это языковая модель, специально обученная для понимания и анализа финансовых разговоров в Twitter. Он предназначен для того, чтобы понять уникальные способы, которыми люди говорят о финансах в Интернете, что делает его ценным инструментом для тех, кто интересуется финансовыми тенденциями и чувствами, выраженными через твиты.
Понимание финансовых рынков может быть сложным, особенно при анализе огромного количества мнений и дискуссий в социальных сетях. Финтвайтберт здесь, чтобы понять финансовые разговоры в Твиттере. Это специализированный инструмент, который интерпретирует уникальный язык и сокращения, используемые в финансовых твитах, помогая пользователям получить представление о тенденциях и настроениях рынка.
Эта модель была разработана для того, чтобы заполнить пробел в традиционных инструментах обработки языка, которые часто борются с сокращением и жаргоном, найденными в финансовых твитах. Независимо от того, являетесь ли вы финансовым специалистом, энтузиастом рынка или кем-то, кто интересуется финансовыми тенденциями в социальных сетях, Fintwitbert предлагает простое в использовании решение для навигации и понимания этих дискуссий.
Fintwitbert использует разнообразные финансовые твиты для предварительного обучения, включая данные фондового рынка Taborda et al. С более чем 940 тысячи твитов, а также наш набор данных, финансовые твиты, с подробной статистикой, приведенной ниже.
Для создания мы используем несколько наборов данных, каждое предложение разнообразных настроений в финансовых контекстах. Набор реальных, помеченных наборов данных можно найти на Huggingface. Кроме того, мы также создали синтетический набор данных, содержащий 1,43 млн твитов и соответствующие метки настроения. Вы можете найти этот набор данных здесь.
Fintwitbert основан на Финберте с добавленными масками для упоминаний пользователей ( @USER ) и URL ( [URL] ). Модель предварительно обучает 10 эпох с акцентом на минимизацию потерь и применение ранней остановки для предотвращения переживания.
Доступ к предварительно обученной модели и токенизатору в Финтвайтберте на Huggingface. Чтобы получить тонкую настройку, посетите Fintwitbert-Sentiment на Huggingface.
# Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txtМы предлагаем две модели: Финтвайтберт и Финтвайтберт-Сендент. Первый-это предварительно обученная модель и токенизатор для маскированного языкового моделирования (MLM), которая может быть создана для других задач, таких как анализ настроений. Это то, о чем стоит вторая модель, она точно настроена на анализ настроений, а этикетки-в три категории: медвежьи, нейтральные и бычьи.
from transformers import pipeline
pipe = pipeline (
"fill-mask" ,
model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." )) from transformers import pipeline
pipe = pipeline (
"sentiment-analysis" ,
model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)
print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" )) Если вы хотите обучить эту модель самостоятельно и сообщить о показателях весам и предубеждениям (Wandb.ai). Вы можете сделать это, добавив файл wandb.env с следующим контентом: WANDB_API_KEY=your_wandb_api_key .
Если вы используете в своем исследовании Fintwitbert или Fintwitbert-Sentiment, пожалуйста, укажите нас следующим образом, отметив, что оба автора внесли одинаковый вклад в эту работу:
@misc { FinTwitBERT ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
} @misc { FinTwitBERT-sentiment ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
year = { 2024 } ,
publisher = { Hugging Face } ,
howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}Взносы приветствуются! Если у вас есть запрос на функции, отчет об ошибках или предложение для рефакторинга кода, пожалуйста, не стесняйтесь открыть проблему на GitHub. Мы ценим вашу помощь в улучшении этого проекта.
Этот проект лицензирован по лицензии GPL-3.0. Смотрите файл лицензии для получения подробной информации.