
Fintwitbert es un modelo de idioma específicamente capacitado para comprender y analizar las conversaciones financieras en Twitter. Está diseñado para captar las formas únicas en que las personas hablan sobre las finanzas en línea, por lo que es una herramienta valiosa para cualquier persona interesada en las tendencias financieras y los sentimientos expresados a través de los tweets.
Comprender los mercados financieros puede ser un desafío, especialmente al analizar la gran cantidad de opiniones y discusiones en las redes sociales. Fintwitbert está aquí para dar sentido a las conversaciones financieras en Twitter. Es una herramienta especializada que interpreta el lenguaje y las abreviaturas únicas utilizadas en los tweets financieros, lo que ayuda a los usuarios a obtener información sobre las tendencias y sentimientos del mercado.
Este modelo se desarrolló para llenar un vacío en las herramientas tradicionales de procesamiento del lenguaje, que a menudo luchan con la taquigrafía y la jerga que se encuentra en los tweets financieros. Ya sea que sea un profesional financiero, un entusiasta del mercado o alguien curioso sobre las tendencias financieras en las redes sociales, Fintwitbert ofrece una solución fácil de usar para navegar y comprender estas discusiones.
Fintwitbert utiliza un conjunto diverso de tweets financieros para la capacitación previa, incluidos los tweets del mercado de valores de Taborda et al.
Para Finetuning, utilizamos varios conjuntos de datos, cada uno que ofrece sentimientos variados en contextos financieros. Se puede encontrar una colección de conjuntos de datos etiquetados en el mundo real en Huggingface. Además de eso, también creamos un conjunto de datos sintético que contiene 1,43 m tweets y las etiquetas de sentimiento correspondientes. Puede encontrar ese conjunto de datos aquí.
Fintwitbert se basa en Finbert con máscaras adicionales para menciones de usuario ( @USER ) y URL ( [URL] ). El modelo está previamente capacitado para 10 épocas con un enfoque en minimizar la pérdida y aplicar la parada temprana para evitar el sobreajuste.
Acceda al modelo y al tokenizador previamente capacitados en Fintwitbert en Huggingface. Para la versión ajustada, visite Fintwitbert-Sentiment en Huggingface.
# Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txtOfrecemos dos modelos: Fintwitbert y Fintwitbert-Sentiment. El primero es un modelo y tokenizador previamente capacitados para el modelado de lenguaje enmascarado (MLM) que puede ser mejorado para otras tareas, como el análisis de sentimientos. De esto se trata el segundo modelo, está ajustado en el análisis de sentimientos y los tweets en tres categorías: bajista, neutral y alcista.
from transformers import pipeline
pipe = pipeline (
"fill-mask" ,
model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." )) from transformers import pipeline
pipe = pipeline (
"sentiment-analysis" ,
model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)
print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" )) Si desea entrenar este modelo usted mismo e informar las métricas sobre pesas y sesgos (wandb.ai). Puede hacerlo agregando un archivo wandb.env con el siguiente contenido: WANDB_API_KEY=your_wandb_api_key .
Si usa Fintwitbert o Fintwitbert-Sentiment en su investigación, cíquanos de la siguiente manera, señalando que ambos autores contribuyeron por igual a este trabajo:
@misc { FinTwitBERT ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
} @misc { FinTwitBERT-sentiment ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
year = { 2024 } ,
publisher = { Hugging Face } ,
howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}¡Las contribuciones son bienvenidas! Si tiene una solicitud de función, informe de errores o propuesta para la refactorización de código, no dude en abrir un problema en GitHub. Agradecemos su ayuda para mejorar este proyecto.
Este proyecto tiene licencia bajo la licencia GPL-3.0. Consulte el archivo de licencia para obtener más detalles.