
Fintwitbert é um modelo de idioma treinado especificamente para entender e analisar conversas financeiras no Twitter. Ele foi projetado para entender as maneiras pelas quais as pessoas falam sobre finanças on -line, tornando -a uma ferramenta valiosa para qualquer pessoa interessada em tendências financeiras e sentimentos expressos através de tweets.
Compreender os mercados financeiros pode ser desafiador, especialmente ao analisar a grande quantidade de opiniões e discussões nas mídias sociais. Fintwitbert está aqui para entender as conversas financeiras no Twitter. É uma ferramenta especializada que interpreta o idioma e as abreviações exclusivas usadas em tweets financeiros, ajudando os usuários a obter informações sobre as tendências e sentimentos do mercado.
Esse modelo foi desenvolvido para preencher uma lacuna nas ferramentas tradicionais de processamento de idiomas, que geralmente lutam com a abreviação e o jargão encontrados em tweets financeiros. Seja você um profissional financeiro, um entusiasta do mercado ou alguém curioso sobre as tendências financeiras nas mídias sociais, o Fintwitbert oferece uma solução fácil de usar para navegar e entender essas discussões.
A Fintwitbert utiliza um conjunto diversificado de tweets financeiros para pré-treinamento, incluindo os dados do mercado de ações de Taborda et al.
Para o Finetuning, usamos vários conjuntos de dados, cada um oferecendo sentimentos variados em contextos financeiros. Uma coleção de conjuntos de dados rotulados no mundo real pode ser encontrada no HuggingFace. Além disso, também criamos um conjunto de dados sintético contendo 1,43 milhões de tweets e rótulos de sentimentos correspondentes. Você pode encontrar esse conjunto de dados aqui.
Fintwitbert é baseado em Finbert com máscaras adicionais para menções do usuário ( @USER ) e URLs ( [URL] ). O modelo é pré-treinado para 10 épocas, com foco em minimizar a perda e aplicar a parada precoce para evitar o excesso de ajuste.
Acesse o modelo e o tokenizador pré-treinado em Fintwitbert no HuggingFace. Para a versão ajustada, visite Fintwitbert-Sentiment no Huggingface.
# Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txtOferecemos dois modelos: Fintwitbert e Fintwitbert-Sentiment. O primeiro é um modelo pré-treinado e tokenizer para modelagem de idiomas mascarada (MLM), que pode ser finetUned para outras tarefas, como análise de sentimentos. É disso que se trata o segundo modelo, ele é ajustado na análise de sentimentos e os rótulos tweetam em três categorias: baixa, neutra e otimista.
from transformers import pipeline
pipe = pipeline (
"fill-mask" ,
model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." )) from transformers import pipeline
pipe = pipeline (
"sentiment-analysis" ,
model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)
print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" )) Se você deseja treinar esse modelo e relatar as métricas a pesos e vieses (wandb.ai). Você pode fazer isso adicionando um arquivo wandb.env com o seguinte conteúdo: WANDB_API_KEY=your_wandb_api_key .
Se você usar o Fintwitbert ou o Fintwitbert-Sentiment em sua pesquisa, cite-nos da seguinte maneira, observando que ambos os autores contribuíram igualmente para este trabalho:
@misc { FinTwitBERT ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
} @misc { FinTwitBERT-sentiment ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
year = { 2024 } ,
publisher = { Hugging Face } ,
howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}As contribuições são bem -vindas! Se você tiver uma solicitação de recurso, relatório de bug ou proposta de refatoração de código, sinta -se à vontade para abrir um problema no Github. Agradecemos sua ajuda para melhorar este projeto.
Este projeto está licenciado sob a licença GPL-3.0. Consulte o arquivo de licença para obter detalhes.