
Fintwitbert adalah model bahasa yang secara khusus dilatih untuk memahami dan menganalisis percakapan keuangan di Twitter. Ini dirancang untuk memahami cara -cara unik orang berbicara tentang keuangan online, menjadikannya alat yang berharga bagi siapa pun yang tertarik dengan tren keuangan dan sentimen yang diungkapkan melalui tweet.
Memahami pasar keuangan dapat menjadi tantangan, terutama ketika menganalisis sejumlah besar pendapat dan diskusi di media sosial. Fintwitbert ada di sini untuk memahami percakapan finansial di Twitter. Ini adalah alat khusus yang menafsirkan bahasa unik dan singkatan yang digunakan dalam tweet keuangan, membantu pengguna mendapatkan wawasan tentang tren dan sentimen pasar.
Model ini dikembangkan untuk mengisi celah dalam alat pemrosesan bahasa tradisional, yang sering berjuang dengan steno dan jargon yang ditemukan dalam tweet keuangan. Apakah Anda seorang profesional keuangan, penggemar pasar, atau seseorang yang ingin tahu tentang tren keuangan di media sosial, Fintwitbert menawarkan solusi yang mudah digunakan untuk menavigasi dan memahami diskusi ini.
Fintwitbert menggunakan beragam tweet keuangan untuk pra-pelatihan, termasuk data tweet pasar saham Taborda et al. Dengan lebih dari 940 ribu tweet, dan dataset kami, tweet keuangan, dengan statistik terperinci yang disediakan di bawah ini.
Untuk finetuning, kami menggunakan beberapa set data, masing -masing menawarkan berbagai sentimen dalam konteks keuangan. Koleksi dataset dunia nyata, berlabel dapat ditemukan di Huggingface. Selain itu, kami juga membuat dataset sintetis yang berisi tweet 1,43M dan label sentimen yang sesuai. Anda dapat menemukan dataset itu di sini.
Fintwitbert didasarkan pada Finbert dengan topeng tambahan untuk Pengguna menyebutkan ( @USER ) dan URL ( [URL] ). Model ini dilatih sebelumnya untuk 10 zaman dengan fokus pada meminimalkan kehilangan dan menerapkan penghentian lebih awal untuk mencegah overfitting.
Akses model dan tokenizer pra-terlatih di Fintwitbert di Huggingface. Untuk versi yang disesuaikan, kunjungi fintwitbert-sentimen di Huggingface.
# Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txtKami menawarkan dua model: fintwitbert dan fintwitbert-sentimen. Yang pertama adalah model pra-terlatih dan tokenizer untuk pemodelan bahasa bertopeng (MLM) yang dapat disebabkan oleh tugas-tugas lain seperti analisis sentimen. Inilah model kedua, ini disesuaikan dengan analisis sentimen dan label tweet menjadi tiga kategori: bearish, netral, dan bullish.
from transformers import pipeline
pipe = pipeline (
"fill-mask" ,
model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." )) from transformers import pipeline
pipe = pipeline (
"sentiment-analysis" ,
model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)
print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" )) Jika Anda ingin melatih model ini sendiri dan melaporkan metrik ke bobot dan bias (wandb.ai). Anda dapat melakukannya dengan menambahkan file wandb.env dengan konten berikut: WANDB_API_KEY=your_wandb_api_key .
Jika Anda menggunakan fintwitbert atau fintwitbert-sentimen dalam penelitian Anda, silakan mengutip kami sebagai berikut, mencatat bahwa kedua penulis berkontribusi sama terhadap pekerjaan ini:
@misc { FinTwitBERT ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
} @misc { FinTwitBERT-sentiment ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
year = { 2024 } ,
publisher = { Hugging Face } ,
howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}Kontribusi dipersilakan! Jika Anda memiliki permintaan fitur, laporan bug, atau proposal untuk refactoring kode, jangan ragu untuk membuka masalah di GitHub. Kami menghargai bantuan Anda dalam meningkatkan proyek ini.
Proyek ini dilisensikan di bawah lisensi GPL-3.0. Lihat file lisensi untuk detailnya.